You are on page 1of 13

Mục đích môn học

Xử lý ngôn ngữ tự nhiên z Hiểu các nguyên tắc cơ bản và các cách tiếp cận trong XLNNTN
(Natural Language Processing) z Học
ọc các kỹ
ỹ thuật
uậ và
à cô
công
g cụ có thể
ể dù
dùng
g để p
hiểu văn bản hoặc nói chuyện với con người
phát
á triển
ể các hệ
ệ thống
ố g

z Thu được một số ý tưởng về các vấn đề mở trong XLNN

Lê Thanh Hương Tài liệu tham khảo


Bộ môn Hệ thống Thông tin z Christopher Manning and Hinrich Schütze. 1999. Foundations of
Viện CNTT &TT – Trường ĐHBKHN Statistical Natural Language Processing. The MIT Press.
Email: huonglt
huonglt-fit@mail
fit@mail.hut.edu.vn
hut edu vn z Dan Jurafsky and James Martin
Martin. 2000
2000. Speech and Language
Processing. PrenticeHall.
z James Allen. 1994. Natural Language Understanding. The
Benjamins/Cummings Publishing Company Inc.

1 2

Thông tin chung


Xử lý NNTN là gì?
z Đánh giá
z Giữa kỳ: 30%
z Điểm danh:10%
z Đóng góp trong giờ học:10%
z BTL: 10%
z Cuối kỳ: thi viết 70%
Âm thanh Ý nghĩa
z Điều kiện được thi cuối kỳ:
z Vắng mặt ít hơn 30% số lần điểm danh
z Có tất cả các loại điểm giữa kỳ
z Bài tập lớn:
z Viết tiểu luận hoặc cài đặt chương trình theo nhóm (<= 4sv)
z Bảo vệ kết quả trong 2 tuần cuối của học kỳ
z Website: http://is.hut.vn/~huonglt/UNLP
3 4
z http://is.hut.edu.vn/~huonglt/UNLP

1
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Xử lý NNTN = chuyển đổi âm Xử lý NNTN là gì?
thanh thành ngữ nghĩa

z Mục đích: hiểu được nhiều ngôn ngữ


z Không chỉ đơn giản là xử lý xâu hoặc so khớp từ khoá

NNTN là trung tâm của trí tuệ con người


5 6

ELIZA Nói chuyện với Eliza


z E: how are you today?
z http://en.wikipedia.org/wiki/ELIZA z H: not so good
z E: why do you say not so good?
z H: i suffer from allergies?
z http://www.cs.bham.ac.uk/research/projects/c z E: that’s interesting
ogaff/eliza/ z H: i come out in spots
z E: i’m not sure i know what you’re talking about
z H: spots on my face
z E: your face
z H: that’s right
z E: is it really that right?

7 8

2
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Nói chuyện với Eliza
z H: you’re a program, aren’t you?
Nói chuyện với Eliza
z E: does it please you to believe i am a program, am not i?
z E: what makes you think i am blonde?
z H: it sure does
z E: i see
z H id
H: don’t
’t kknow
z H: yup z E: don’t you really know?
z E: a while back you talk about your face z H: no
z H: what about your face? z E: are you saying no just to be negative?
z E: what is it you really want to know?
z H: no
z H: are you my kind of girl?
z E: perhaps in your fantasies i am your kind of girl z E: you are being a bit negative
z H: in my fantasies you are blonde z H: no i’m not
z E: how long have you been not?
9 10

Tại sao nghiên cứu XLNNTN Các chủ đề trong XLNNTN


z Nghiên cứu cách con người xác định từ z Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực
chứng, …
z Nghiên cứu cách con người phân tích câu
z Nghiên cứu cách con người học một ngôn z Các bài toán con: gán nhãn từ loại, PTCP, phân giải
nhập nhằng từ, phânt ích cấu trúc diễn ngôn, …
ngữ
z Thuật toán và phương pháp: dựa trên tập ngữ liệu,
z Nghiên cứu cách ngôn ngữ tiến hóa dựa trên tri thức, …
z Các ứng dụng: trích rút thông tin, phản hồi thông tin,
dịch máy, hỏi đáp, hiểu ngôn ngữ tự nhiên, …

11 12

3
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Các mức phân tích Hình thái học
z Morphology (hình thái học): cách từ được xây dựng, Tiếng Anh: ngôn ngữ biến hình, đa âm tiết
các tiền tố và hậu tố của từ z kick,
kick kicks
kicks, kicked
kicked, kicking
z sit, sits, sat, sitting
z Syntax (cú pháp): mối liên hệ về cấu trúc ngữ pháp
z murder, murders
giữa các từ và ngữ v: nhồi nhét; n: những cái đã ăn, hẻm núi
z Semantics (ngữ nghĩa): nghĩa của từ, cụm từ, và Nhưng không phải luônrực
thêm
rỡ và xóa đuôi.
cách diễn đạt z gorge, gorgeous
z Discourse (diễn ngôn): quan hệ giữa các ý hoặc các z arm, army
câu Quân đội
Cánh tay
z Pragmatic (thực chứng): mục đích phát ngôn, cách Tiếng Việt: ngôn ngữ không biến hình, đơn âm tiết Æ cần tách từ
sử dụng ngôn ngữ trong giao tiếp
z World Knowledge (tri thức thế giới): các tri thức về
thế giới, các tri thức ngầm
13 14

Tách từ Gán nhãn từ loại


z Một câu có thể có n khả năng tách từ, nhưng chỉ 1 The boy threw a ball to the brown dog.
t
trong chúng
hú là đúngđú
z The/DT boy/NN threw/VBD a/DT ball/NN to/IN
z Giải pháp đơn giản: lấy chuỗi âm tiết dài nhất bắt
the/DT brown/JJ dog/NN./.
đầu từ vị trí hiện tại và có trong từ điển từ
z Vấn đề: chồng chéo từ DT – determiner từ chỉ định
z Học sinh | học sinh | học.
NN – noun, danh từ, số ít hoặc số nhiều
z Học sinh | học | sinh học
học.
VBD – verb, past tense động từ, quá khứ
) Liệt kê tất cả các khả năng có thể và thiết kế một
IN – preposition giới từ
giải pháp để lựa chọn cái tốt nhất
JJ – adjective tính từ
. – dấu chấm câu
15 16

4
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ngữ pháp: nhập nhằng cấu
Gán nhãn từ loại trúc (từ loại)
Con ngựa đá con ngựa đá. Time flies like an arrow.
z Con ngựa/DT đá/ĐgT con ngựa/DT đá/TT.
Time // flies like an arrow.
z Ông/ĐaT già/TT đi/Phó_từ nhanh/TT VBZ giới từ so sánh (IN)
quá/trạng_từ.
z Ông già/DT đi/ĐgT nhanh/TT quá/trạng_từ. Time flies // like an arrow.
NNS VBP

17 18

Ngữ pháp: nhập nhằng cấu Ngữ pháp: nhập nhằng cấu
trúc (từ loại) trúc (liên kết)
Ông già // đi nhanh quá.
S

Ông // già đi nhanh quá. VP

NP

NP V NP PP PP
I saw the man on the hill with a telescope.
19 20

5
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Ngữ pháp: nhập nhằng cấu trúc Ngữ pháp: nhập nhằng cấu trúc
(liên kết) (liên kết)
S S

VP VP

NP

NP V NP PP PP NP V NP PP PP
I saw the man on the hill with a telescope. I saw the man on the hill with a telescope.

21 22

Nhưng ngữ pháp không nói Ngữ nghĩa: nhập nhằng mức
lên nhiều điều… từ vựng
z I walked to the bank ...
z Colorless green ideas sleep furiously. off the
th river.
i
[Chomsky] to get money.
z The bug in the room ...
z fire match arson hotel
was planted by spies.
z plastic cat food can cover flew out the window.
z I work for John Hancock ...
and he is a good boss.
which is a good company.

23 24

6
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Diễn ngôn: đồng tham chiếu Thực chứng
President John F. Kennedy was assassinated. Bạn rút ra điều gì từ những điều tôi nói? Bạn
The president was shot yesterday. phản
hả ứ ứng thế nào?
à ?
Relatives said that John was a good father.
Luật hội thoại
JFK was the youngest president in history.
z Bạn ơi mấy giờ rồi?
His family will bury him tomorrow. z Anh đưa cho em lọ muối được không?
g
Friends of the Massachusetts native will hold a
candlelight service in Mr. Kennedy’s home Nói kèm theo diễn tả
town. z Tôi cá với bạn 500.000 là đội Việt Nam sẽ
thắng.
25 26

Tri thức về ngôn ngữ: Chúng ta biết


Tri thức thế giới gì về câu này?
z Các từ phải xuất hiện theo một trình tự nhất định:
Mai đi ăn tối
tối. Cô ấy gọi món bít tết
tết. Cô ấy để lại a Chó kem ăn
a. ăn. b Chó ăn kem
b.
tiền boa và về nhà. z Các bộ phận cấu thành câu:
chó = chủ ngữ (subject); ăn kem = vị ngữ (predicate)
z Ai làm gì cho ai:
z Mai ăn gì vào bữa tối? chủ thể(chó), hành động(ăn), đối tượng(kem)
z Ai mang bữa tối đến cho Mai?
z Ai làm bít tết?
z Mai có trả tiền không?

27 28

7
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Các vấn đề khác? Tri thức ẩn
1. I want to solve the problem
z Hai câu “Mai
Mai nói chó ăn kem”
kem và “Mai
Mai phủ nhận chó ăn
kem” không logic với nhau z I wanna solve the problem

z Câu và thế giới: biết 1 câu là đúng hay sai – có thể trong
một vài trường hợp cụ thể nó đúng. 2. I understand these students
z These students I understand
z “Tôi
ô uố
uống
g cà p
phê
ê esp
espresso
esso sá
sáng
g nay,
ay, nhưng
ư g Mai
a tthông
ô g
minh” không hợp lý z I want these students to solve the problem

z These students I want [x] to solve the


problem
29 z [x]=these students 30

Đặc trưng của ngôn ngữ Ngoài bộ nhớ, ta cần gì?


z Một số có thể nhớ được: Số nhiều trong tiếng Anh:
z Singing → Sing+ing; Bringing → bring+ing z Toy+s -> toyz ; add z

z Book+s -> books ; add s


z Duckling → ?? Duckl +ing z Church+s -> churchiz ; add iz
z Cần phải biết duckl không phải là từ z Box+s-> boxiz ; add iz

z Nhưng không thể nhớ tất cả vì quá nhiều ¾ Cần có hệ thống luật để sinh/xử lý các
trường hợp này
31 32

8
CuuDuongThanCong.com https://fb.com/tailieudientucntt
“Phân tích” = gắn bề ngoài với Phân tích câu hỏi
cách biểu diễn trong của nó LSAT / (former) GRE
z Sáu tượng điêu khắc – C, D, E, F, G, H – được triển lãm trong các
phòng 1, 2, 3 của một triển lãm.
T
Tượng C vàà E có
ó thể không
khô ttrong cùng
ù phòng.

z Vì sao XLNNTN khó: What makes NLP hard: z

z Tượng D và G phỉa trong một phòng.


không có tương ứng 1-1 với bất kỳ cách biểu z Nếu tượng E và F trong cùng phòng thì không có tượng nào khác
diễn nào. trong phòng đó
z Có íta nhất 1 tượng triển lãm trong một phòng, không có nhiều
z Ta cần biết cấu trúc dữ liệu và thuật toán để hơn 3 tượng trong bất cứ phòng nào
thực
ự hiện,
ệ , mặc
ặ dù có thể xảyy ra bùngg nổ tổ z Nếu tượng D được triển lãm trong phòng 3 và các tượng E, F trong
phòng 1, trong các phát biểu dưới đây, phát biểu nào đúng:
hợp ở bất cứ công đoạn xử lý nào
A. Tượng C trong phòng 1
B. Tượng H trong phòng 1
C. Tượng G trong phòng 2
D. Tượng C và H trong cùng phòng
33 34
E. Tượng G và F trong cùng phòng

Giải quyết đồng tham chiếu Tại sao XLNNTN lại khó?
U: A Bug’s Life được chiếu tại chỗ nào của Mountain
View? NNTN:
NNTN
S: A Bug’s Life được chiếu ở rạp Summit.
U: Khi nào nó được chiếu ở đó?
z Nhập nhằng tại mọi mức
S: Nó được chiếu lúc 2pm, 5pm, và 8pm. z Phức tạp và mờ
U: Tôi muốn 1 người lớn, 2 trẻ con cho buổi chiếu đầu z Liên quan lập luận về thế giới
tiên. Nó giá bao nhiêu?
z Các nguồn
ồ tri thức:
z Tri thức miền (Domain knowledge)

z Tri thức về diễn ngôn (Discourse knowledge)

z Tri thức thế giới (World knowledge)


35 36

9
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Nhắc lại các bài toán trong
Giải pháp XLNNTN
z Ta cần các công cụ nào? z Vào: chuỗi ký tự
z Tri thức về ngôn ngữ z Ra: các cặp (gốc từ, thẻ hình thái từ )
z Tri thức về thế giới
z Các vấn đề:
z Cách kết hợp các tri thức
z Kết hợp các thành phần cấu tạo nên từ
z Giải pháp tiềm năng: z Loại hình thái từ (từ biến tố, từ phái sinh, từ ghép)
z Các mô hình xác suất xây dựng từ dữ liệu z Ví dụ: quotations ~ quote/V + -ation(der.V->N)
-ation(der V->N) +
z P(“maison” → “house”) cao NNS.
z P(“L’avocat general” → “the general avocado”) thấp

37 38

Phân tích cú pháp Ngữ nghĩa


z Vào: chuỗi các cặp (từ/từ loại) z Vào: cấu trúc ngữ pháp của câu
z Ra: cấu trúc ngữ pháp của câu với các nút z Ra: cấu trúc ngữ nghĩa của câu
được gán nhãn (từ, từ loại, vai trò ngữ pháp) z Vấn đề:
z Vấn đề: z Quan hệ giữa các đối tượng như chủ thể
z Quan hệ giữa từ, từ loại, và cấu trúc câu (Subject), đối tượng (Object), tác nhân (Agent),
z Sử dụng nhãn cú pháp (Chủ ngữ ngữ, vị ngữ
ngữ, bổ ngữ
ngữ, hậu q
quả ((Effect)) và các loại khác
….)
z Ví dụ: Tôi/ĐaT nhìn thấy/ĐgT Mai/DT ((Học sinh/DT)CN ((học/ĐgT sinh học/DT)ĐgN)VN)C
Æ ((Tôi/ĐaT)CN ((nhìn thấy/ĐgT) (Mai/DT)OBJ)VN)C (Học sinh/DT)Sbj (học/ĐgT)action (sinh học/DT)Obj

39 40

10
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Các ứng dụng của XLNNTN
z Khó: xử lý tiếng nói (speech processing),
dịch máy (machine translation)
translation), trích rút
thông tin (information extraction), giao diện
hội thoại = NNTN (dialog interface), hỏi
đáp (question answering)
z Ứng dụng hiện nay: sửa lỗi chính tả, phân
loại văn bản, …

41

11
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Trích rút thông tin

Martin Baker, a person

Genomics job

Employers job posting form

46 46

Newsinessence [Radev & al. 01]


Trích rút thông tin

October 14,
14 2002,
2002 4:00 a.m.
a m PT

For years, Microsoft Corporation CEO Bill Gates


railed against the economic philosophy of open-
source software with Orwellian fervor, denouncing
its communal licensing as a "cancer" that stifled
technological innovation.

Today, Microsoft claims to "love" the open-source


concept, by which software code is made public to NAME TITLE ORGANIZATION
encourage improvement and development by IE Bill Gates CEO Microsoft
Bill Veghte VP Microsoft
outside programmers. Gates himself says
Microsoft will gladly disclose its crown jewels--the Richard Stallman founder Free Soft..
coveted code behind the Windows operating
system--to select customers.

"We can be open source. We love the concept of


shared source," said Bill Veghte, a Microsoft VP.
"That's a super-important shift for us in terms of
code access.“

Richard Stallman, founder of the Free Software


Foundation, countered saying…
47

12
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Google News [02]

49

13
CuuDuongThanCong.com https://fb.com/tailieudientucntt

You might also like