You are on page 1of 9

Vấn đề xác định vai nghĩa (semantic role) của các thành phần cú pháp là một phần thiết

yếu của xử lí
ngữ nghĩa văn bản. Khái niệm vai nghĩa được các nhà ngôn ngữ dùng với nhiều thuật ngữ khác như:
cách (cases), quan hệ ngữ nghĩa (semantic relations), vai nghĩa (roles, cases-roles) hoặc vai tham tố
(thematic roles). Có rất nhiều định nghĩa khác nhau về khái niệm vai nghĩa. Có thể hiểu một cách
đơn giản bài toán gán nhãn vai nghĩa là đối với mỗi câu, chúng ta phân tách từ, gán nhãn từ loại và
cụm từ, sau đó sẽ gán nhãn vai nghĩa cho các cụm từ, các từ trong câu với vai nghĩa phù.
(là mấy cái args1 argsM ấy)
A. FrameNet FrameNet là kho ngữ liệu ngữ nghĩa được phát triển vào năm 1997 bởi Charles
Fillmore và cộng sự [6]. FrameNet hiện có khoảng 170000 câu có chú giải ngữ nghĩa thủ công
và 10000 đơn vị từ vựng. Đây là một kho ngữ liệu lớn, cung cấp tập dữ liệu huấn luyện cho bài
toán gán nhãn vai nghĩa. Trong dữ liệu FrameNet, các câu được sắp xếp theo một thứ tự phân
cấp. Người ta lập ra một mô hình khung (frame) ngữ nghĩa chung mô tả về một hành động hoặc
một trạng thái. Mỗi khung tham chiếu đến một khái niệm
B. PropBank
PropBank là nguồn tài nguyên từ vựng có gán nhãn vai nghĩa quan trọng, được tạo ra bằng
cách bổ sung vai nghĩa vào Penn Treebank. PropBank được nhóm Martha Palmer, Paul
Kingsbury và phát triển vào năm 2001 [7]. PropBank chú giải vai nghĩa cho vị từ và những
tham thể phụ thuộc vào vị từ. Nhiệm vụ chính của PropBank là: chú giải cho các vị từ, gán
nhãn tham thể liên quan đến vị từ, chú giải các bổ ngữ, lựa chọn ngữ cảnh cho các vị từ, tạo
liên kết cho các nhãn trống trong Penn TreeBank, các mệnh đề quan hệ và các giả mệnh đề.
Danh sách vai nghĩa thì như cái bảng trong poster
C. VerbNet
VerbNet là kho ngữ liệu về động từ trong tiếng Anh, được phát triển bởi Karin Kipper-Schuler
và cộng sự [8]. VerbNet bao gồm hơn 5800 động từ tiếng Anh, được chia thành 270 nhóm,
theo cách phân loại động từ của Beth Levin [9]. Theo Beth Levin, các hành vi của động từ
phần lớn quy định bởi ý nghĩa của nó. Có thể cú pháp của động từ theo các nhóm dựa trên
cách mà chúng tương tác với các đối tượng khác, các giới từ và một vài sự tương đồng về ý
nghĩa. Sau khi chia nhóm các động từ, VerbNet được tạo ra bằng cách thêm vai nghĩa vào các
nhóm động từ đó. Một số nhãn vai nghĩa của VerbNet được sử dụng như: • Agent: Tác nhân
gây ra hành động, trạng thái • Attribute: Thuộc tính của thực thể • Destination: Đích đến là
một địa điểm cụ thể

Bọn em cùng tìm hiểu về treebank và cùng lọc ra được các bộ nhãn nhưng hiện tại thì không
tiện trình bày trên poster
Từ loại

Cụm từ

Mệnh đề
Cú pháp
1 TMP Trạng ngữ chỉ thời gian
2 LOC Trạng ngữ chỉ nơi chốn
3 DIR Trạng ngữ chỉ hướng
4 MNR Trạng ngữ chỉ cách thức
5 PRP Trạng ngữ chỉ mục đích
6 ADV Trạng ngử nói chung
Trạng ngữ
Tập xây dựng
( S-TTL ( NP-SUB ( N-H Đất ) ( A nghèo ) ) ( VP ( V-H trở_mình ) ) )
- Predicate: trở_mình - Arg0: Đất nghèo -

( S ( NP-SUB ( N-H Chỗ ) ( P này ) ) ( NP-TMP ( N-H xưa ) ) ( VP ( V-H là ) ( NP


( N-H đồn_bót ) ) ) ( T nè ) )
- Predicate: là - Arg0: Chỗ này - ArgM-TMP: xưa - Arg1: đồn_bót - ArgM-Partice: nè
-

( S ( NP-SUB ( P-H Kia ) ) ( VP ( V-H là ) ( NP ( L những ) ( Nc-H ngôi ) ( N nhà )


( NP ( N-H vách ) ( N đất ) ) ) ) )
- Predicate: là - Arg0: Kia - Arg1: những ngôi nhà vách đất -

( S ( S ( AP-SUB ( A-H Xa_xa ) ( R nữa ) ) ( VP ( V-H là ) ( NP ( NP ( N-H hố ) ( N


bom ) ) ( NP-LOC ( N-H nơi ) ( SBAR ( S ( NP-SUB ( P-H tui ) ) ( VP ( R đã ) ( V-H
gửi ) ( R lại ) ( NP-DOB ( NP ( M một ) ( Nc-H con ) ( N mắt ) ) ( CC và ) ( NP ( M
hai ) ( N-H cánh_tay ) ) ) ) ) ) ) ) ) ) ( S ( NP-SUB ( Nc-H anh ) ( Np Phan_Văn_Đu ) )
( VP ( V-H giới_thiệu ) ( PP ( PP ( E-H với ) ( NP ( N-H khách ) ) ) ( PP-MNR ( E-H
bằng ) ( NP ( M hai ) ( N-H cùi_tay ) ( A cụt_lủn ) ) ) ) ) ) )
- Predicate: là - Arg0: Xa_xa nữa - Arg1: hố bom - ArgM-LOC: nơi tui đã gửi lại một
con mắt và hai cánh_tay -
- Predicate: giới_thiệu - Arg0: anh Phan_Văn_Đu - ArgM-COM: với khách - ArgM-
MNR: bằng hai cùi_tay cụt_lủn -
- Predicate: gửi - Arg0: tui - ArgM-TMP: đã - ArgM-TMP: lại - Arg1: một con mắt và
hai cánh_tay -
- Predicate: Xa_xa - ArgM-TMP: nữa -

( S ( PP-MNR ( R Cũng ) ( E-H bằng ) ( NP ( M hai ) ( N-H cùi_tay ) ( AP ( A-H


lạ_đời ) ) ) ) ( NP-SUB ( N-H anh ) ) ( VP ( V-H lái ) ( NP-DOB ( N-H xe_máy ) ( AP
( A-H băng_băng ) ) ( PP-LOC ( E-H trên ) ( NP ( Nc-H con ) ( N đường ) ( AP ( A-H
phẳng_lì ) ) ) ) ) ) )
- Predicate: lái - ArgM-MNR: Cũng bằng hai cùi_tay lạ_đời - Arg0: anh - Arg1:
xe_máy băng_băng trên con đường phẳng_lì -
- Predicate: lạ_đời - ArgM-TMP: Cũng - Arg0: anh - Arg1: lái xe_máy băng_băng
trên con đường phẳng_lì -
- Predicate: băng_băng - ArgM-MNR: Cũng bằng hai cùi_tay lạ_đời - Arg0: anh -
ArgM-LOC: trên con đường phẳng_lì -
- Predicate: phẳng_lì - ArgM-TMP: Cũng bằng hai cùi_tay lạ_đời - Arg0: anh -
ArgM-MOD: lái - ArgM-MNR: băng_băng -

( S ( S ( NP-SUB ( P Tất_cả ) ( N-H đường ) ( N bêtông ) ( NP ( N-H nội_đồng ) ) )


( VP ( V-H là ) ( NP ( N-H thành_quả ) ( SBAR ( S ( NP-SUB ( N-H Nhà_nước ) ( CC
và ) ( N-H nhân_dân ) ) ( VP ( A cùng ) ( V-H làm ) ) ) ) ) ) ) ( S ( NP-SUB ( N-H
anh ) ) ( AP-PRD ( A-H tự_hào ) ) ) )
- Predicate: là - Arg0: Tất_cả đường bêtông nội_đồng - Arg1: thành_quả Nhà_nước và
nhân_dân cùng làm -
- Predicate: làm - Arg0: Nhà_nước và nhân_dân - ArgM-MNR: cùng -
- Predicate: tự_hào - Arg0: anh -

( S ( NP-SUB ( N-H Dân ) ) ( VP ( V-H tình_nguyện ) ( VP ( VP ( V-H thu_hẹp )


( NP-DOB ( Nc-H mảnh ) ( N vườn ) ( NP ( N-H nhà ) ( P mình ) ) ) ) ( VP ( V-H hiến
) ( NP-DOB ( N-H đất ) ) ( PP-IOB ( E-H cho ) ( NP ( Nc-H con ) ( N đường ) ( A
chung ) ) ) ) ) ) )
- Predicate: tình_nguyện - Arg0: Dân -
- Predicate: thu_hẹp - Arg0: Dân - Arg1: mảnh vườn nhà mình -
- Predicate: hiến - Arg0: Dân - ArgM-TMP: tình_nguyện - Arg1: đất - Arg2: cho con
đường chung -

( S ( NP-SUB ( N-H Chuyện ) ( SBAR ( S ( NP-SUB ( N-H người_người ) ) ( VP ( VP


( V-H cầm ) ( NP-DOB ( N-H xẻng ) ) ) ( VP ( V-H ào ) ( V ra ) ( VP ( A cùng ) ( V-H
đắp ) ( NP-DOB ( N-H đường ) ) ) ) ) ) ) ) ( VP ( R chỉ ) ( V-H là ) ( NP ( N-H
chuyện ) ( A nhỏ ) ) ) )
- Predicate: là - Arg0: Chuyện người_người cầm xẻng ào ra cùng đắp đường - ArgM-
EXT: chỉ - Arg1: chuyện nhỏ -
- Predicate: cầm - Arg0: người_người - Arg1: xẻng -
- Predicate: ào - Arg0: người_người - ArgM-DIR: ra -
- Predicate: đắp - Arg0: người_người - ArgM-MOD: ra - ArgM-MNR: cùng - Arg1:
đường -

( S ( NP-SUB ( P-H Ai_nấy ) ) ( VP ( R đều ) ( V-H muốn ) ( SBAR ( S ( NP-SUB


( N-H đời ) ( P mình ) ) ( VP ( R cũng ) ( V-H phải ) ( VP ( V-H sang ) ( N
trang ) ) ) ) ) ) )
- Predicate: muốn - Arg0: Ai_nấy - ArgM-TMP: đều -
- Predicate: phải - Arg0: đời mình - ArgM-TMP: cũng -
- Predicate: sang - Arg0: đời mình - ArgM-TMP: cũng - ArgM-MOD: phải -

( S ( NP-SUB ( N-H giọng ) ( NP ( Nc-H người ) ( N cựu_chiến_binh ) ) ) ( AP-PRD (


A-H nhẹ_tênh ) ) )
- Predicate: nhẹ_tênh - Arg0: giọng người cựu_chiến_binh -

( S ( NP-SUB ( N-H Trang ) ( AP ( A-H mới ) ( R nhất ) ( PP ( E-H của ) ( NP ( N-H


cuộc_sống ) ( Np Thái_Mỹ ) ) ) ) ) ( VP ( V-H bày ) ( R ra ) ( PP-LOC ( E-H trước )
( NP ( N-H mắt ) ) ) ( SBAR ( S ( NP-SUB ( L các ) ( N-H em ) ( N học_sinh ) ) ( VP (
R đang ) ( V-H đến ) ( NP-DOB ( N-H trường ) ) ( PP-LOC ( E-H dưới ) ( NP ( Nc-H
con ) ( N đường ) ( AP ( A-H xanh_ngắt ) ( NP ( N-H bóng ) ( N tre ) ) ) ) ) ) ) ) ) )
- Predicate: bày - Arg0: Trang mới nhất của cuộc_sống Thái_Mỹ - ArgM-LOC: trước
mắt -
- Predicate: đến - Arg0: các em học_sinh - ArgM-TMP: đang - Arg1: trường - ArgM-
LOC: dưới con đường xanh_ngắt bóng tre -
- Predicate: mới - ArgM-EXT: nhất - ArgM-ADV: của cuộc_sống Thái_Mỹ -
- Predicate: xanh_ngắt - Arg0: các em học_sinh - ArgM-TMP: đang - ArgM-MOD:
đến - Arg1: trường - ArgM-COM: bóng tre -

( S ( VP-SUB ( V-H Thấp_thoáng ) ( NP-LOC ( N-H phía ) ( N sau ) ) ) ( VP ( V-H


*E* ) ( NP-DOB ( L những ) ( Nc-H ngôi ) ( N nhà ) ( NP ( N-H ngói ) ( AP ( A-H
đỏ ) ( A-H mới ) ) ) ) ) )
- Predicate: Thấp_thoáng - ArgM-LOC: phía sau -
- Predicate: *E* - Arg0: Thấp_thoáng phía sau - Arg1: những ngôi nhà ngói đỏ mới -
- Predicate: đỏ - Arg0: Thấp_thoáng phía sau - ArgM-MOD: *E* - Arg1: nhà - ArgM-
MNR: mới -
- Predicate: mới - Arg0: Thấp_thoáng phía sau - ArgM-MOD: *E* - ArgM-MNR: đỏ -

( S ( NP-SUB ( N-H Sau ) ( R nữa ) ) ( VP ( V-H là ) ( NP ( N-H đường ) ( N dây_điện


) ( VP ( V-H chạy ) ( R vào ) ( NP-DOB ( P từng ) ( N-H gia_đình ) ) ) ) ) )
- Predicate: là - Arg0: Sau nữa - Arg1: đường dây_điện chạy vào từng gia_đình -
- Predicate: chạy - Arg0: Sau nữa - ArgM-MOD: là - ArgM-TMP: vào - Arg1: từng
gia_đình -

( S ( C Không_những ) ( VP-ADV ( V-H thắp ) ( A sáng ) ( PP-LOC ( E-H trong )


( NP ( N-H nhà ) ) ) ) ( NP-TMP ( N-H ban_đêm ) ) ( NP-SUB ( N-H điện ) ) ( VP ( R
còn ) ( V-H giăng ) ( A sáng_choang ) ( NP-LOC ( A khắp ) ( N-H ngả ) ( N đường )
( NP ( Z liên ) ( N-H thôn ) ) ) ) )
- Predicate: thắp - ArgM-MNR: sáng - ArgM-LOC: trong nhà - ArgM-ADV: ban_đêm
- Arg0: điện -
- Predicate: giăng - ArgM-ADV: thắp sáng trong nhà - ArgM-TMP: ban_đêm - Arg0:
điện - ArgM-TMP: còn - ArgM-MNR: sáng_choang - ArgM-LOC: khắp ngả đường
liên thôn -

( S ( S-SUB ( NP-SUB ( N-H Dự_án ) ( N thủy_lợi ) ) ( VP ( V-H trị_giá ) ( NP-DOB


( M 2,2 ) ( M tỉ ) ( Nu-H đồng ) ) ) ( VP ( V-H ra_đời ) ) ) ( VP ( R chỉ ) ( V-H là )
( NP ( M một ) ( E trong ) ( L vô_vàn ) ( N-H chuyện ) ( A nhỏ ) ) ) )
- Predicate: là - Arg0: Dự_án thủy_lợi trị_giá 2 2 tỉ đồng ra_đời - ArgM-EXT: chỉ -
Arg1: một trong vô_vàn chuyện nhỏ -
- Predicate: trị_giá - Arg0: Dự_án thủy_lợi - Arg1: 2 2 tỉ đồng -
- Predicate: ra_đời - Arg0: Dự_án thủy_lợi -

( S ( PP-TMP ( E-H Từ ) ( NP ( P-H đây ) ) ) ( NP-SUB ( N-H ruộng ) ( AP ( A-H


nhọc_nhằn ) ) ( NP ( M một ) ( N-H vụ ) ) ) ( VP ( V-H thi_đua ) ( VP-PRP ( V-H
trồng ) ( NP-DOB ( M ba ) ( N-H vụ ) ) ) ) )
- Predicate: thi_đua - ArgM-TMP: Từ đây - Arg0: ruộng nhọc_nhằn một vụ -
- Predicate: trồng - ArgM-TMP: Từ đây - Arg0: ruộng nhọc_nhằn một vụ - ArgM-
NEG: thi_đua - Arg1: ba vụ -
- Predicate: nhọc_nhằn - ArgM-TMP: Từ đây - Arg1: một vụ -

( S ( VP-ADV ( V-H Nhìn ) ( NP ( N-H cánh ) ( N đồng ) ( AP ( A-H xanh ) ( A


mướt ) ) ) ) ( S-SUB ( NP-SUB ( Nc-H người ) ( N thương_binh ) ) ( VP ( R từng )
( V-H trải ) ( V qua ) ( NP-TMP ( M hai ) ( N-H thời_kỳ ) ) ( P ấy ) ) ) ( VP ( V-H ôn )
( R lại ) ( SBAR ( S ( NP-TMP ( N-H Hồi ) ( P đó ) ) ( PP-LOC ( E-H dưới ) ( NP ( N-
H đất ) ) ) ( NP-SUB ( N-H bom ) ( N-H mìn ) ) ( AP-PRD ( R còn ) ( A-H lủ_khủ ) ) )
)))
- Predicate: Nhìn - Arg0: người thương_binh từng trải qua hai thời_kỳ ấy -
- Predicate: ôn - ArgM-ADV: Nhìn cánh đồng xanh mướt - Arg0: người thương_binh
từng trải qua hai thời_kỳ ấy - ArgM-TMP: lại -
- Predicate: trải - Arg0: người thương_binh - ArgM-TMP: từng - ArgM-DIR: qua -
ArgM-TMP: hai thời_kỳ -
- Predicate: xanh - ArgM-MOD: Nhìn - ArgM-MNR: mướt - Arg0: người
thương_binh từng trải qua hai thời_kỳ ấy -
- Predicate: lủ_khủ - ArgM-TMP: Hồi đó - ArgM-LOC: dưới đất - Arg0: bom mìn -
ArgM-TMP: còn -

( S ( PP-LOC ( E-H Trên ) ( NP ( N-H mặt_đất ) ) ) ( NP-SUB ( N-H đồn_bót ) ) ( VP


( V-H phơi ) ( AP-MNR ( A-H trơ_trơ ) ) ) )
- Predicate: phơi - ArgM-LOC: Trên mặt_đất - Arg0: đồn_bót - ArgM-MNR: trơ_trơ -
- Predicate: trơ_trơ - ArgM-LOC: Trên mặt_đất - Arg0: đồn_bót - ArgM-MOD: phơi -

1.4 Ứng dụng của gán nhãn vai trị ngữ nghĩa trong xử lý ngơn ngữ tự
nhiên
1.4.1 Trích rút thơng tin
Mục tiêu chính của bài tốn trích rút thơng tin (IE) là cung cấp những
mẩu thơng tin nổi bật quan trọng đối với nhu cầu của người dùng. Các loại
thơng tin được trích rút, rất đa dạng về chi tiết và độ tin cậy. Ví dụ: nhận dạng
thực thể (NER), các thực thể có liên quan tới việc xác định các thuộc tính và sự
kiện, và việc xác định chỉ mục mức sự kiện là toàn bộ những bài tốn con của
bài tốn trích rút thơng tin. Một hệ thống trích rút thơng tin kinh điển được đề
xuất bởi Surdeanu (2003) và cộng sự [31] đã khai thác được những ưu điểm của
cấu trúc tham tố- vị từ. Nghiên cứu này đã xây dựng một hệ thống gán nhãn vai
trò ngữ nghĩa và sử dụng các thơng tin ngữ nghĩa trích rút được, để mở rộng các
template sử dụng lại cho mục đích trích rút thơng tin. Gần đây, việc trích rút các
mối quan hệ có ý nghĩa giữa các thực thể từ một văn bản ngôn ngữ tự nhiên phi
cấu trúc đã thu hút được nhiều sự quan tâm của các nhà khoa học.
Các cấu trúc tham tố- vị từ (Predicate- Argument structures, PAS) cũng
được áp dụng cho bài tốn trích rút thơng tin trong lĩnh vực y sinh học.

Yakushiji (2005) [34] và cộng sự đã trích rút mối quan hệ tương tác giữa các
protein bằng cách tận dụng các lợi điểm của cấu trúc PAS. Đặc biệt, các câu ban
đầu được đưa qua một bộ phân tích ngữ pháp đầy đủ và một cấu trúc PAS được
trích rút từ các phân tích cú pháp mà có thể hấp thụ những dạng đảo ngược của
câu bề mặt. Mức trừu tượng này sau đó hỗ trợ việc trích rút tự động các quy tắc,
sử dụng cho biểu diễn tương tác của các protein. Kết quả này cũng thu được
hiệu suất đáng kể và có thể mang so sánh với các quy tắc trích rút được tạo ra
thủ cơng.
1.4.2 Hệ thống hỏi đáp
Hệ thống hỏi đáp hiện tại (QA) trích rút các câu trả lời từ một tập các văn
bản lớn theo các bước sau:
(1) Phân loại dạng câu trả lời mong muốn.
(2) Sử dụng các từ khóa hoặc các mẫu hỏi kết hợp với các câu hỏi để xác
định các đoạn có chứa câu trả lời.

(3) Xếp hạng các câu trả lời có thể để quyết định đoạn nào chứa câu trả
lời chính xác.
Trong kết quả của Narayanan và Harabagiu (2004) [26], thơng tin vai trị
ngữ nghĩa được kết hợp cả trong các câu hỏi và văn bản. Ban đầu, thơng tin này
giúp xác định mơ hình chủ đề, hỗ trợ cho q trình giải thích câu hỏi, sau đó, sử
dụng để xây dựng một mơ hình mở rộng của các hành vi và sự kiện, mà cho
phép lập luận phức tạp được đề xuất bởi hệ thống QA bên trong một ngữ cảnh
phức tạp.
1.4.3 Tóm tắt văn bản
Nhiệm vụ của hội nghị DUC - 2005 (Document Understanding
Conference 2005) là tạo ra một đoạn tóm tắt 250 từ dựa trên các câu hỏi cho sẵn
và nhiều văn bản liên quan. Melli và cơng sự (2005) [25] đã tích hợp thành phần
gán nhãn vai trò ngữ nghĩa vào trong hệ thống SQUASH. Trong hệ thống này,
thành phần lõi ROUGE-2 là một bước cải tiến lớn trong việc xem xét ảnh hưởng
của các đặc trưng khác. ROUGE - Recall Oriented Understudy for Gisting
Evaluation, gồm các phương pháp tự động quyết định chất lượng của một đoạn
tóm tắt bằng cách so sánh nó với các đoạn văn bản tóm tắt lý tưởng do người
dùng tạo ra. Các phương pháp này tính tốn số lượng đơn vị chồng chéo như là
N- gram, chuỗi từ, và các cặp từ giữa đoạn tóm tắt sinh bởi máy để đánh giá và
các đoạn tóm tắt lý tưởng. Lõi ROUGE-2 là phương pháp để đo những gram
giống nhau trong đoạn tóm tắt.
Trong hệ thống SQUASH, thơng tin vai trị ngữ nghĩa được dùng để lựa
chọn câu và nén câu. Đối với lựa chọn câu, các thơng tin ngữ nghĩa này đóng
góp cho việc ước lượng độ cần thiết được gán cho mỗi câu trong nhóm các vai
trị ngữ nghĩa mà bao gồm các thực thể đóng vai trị trong câu. Thêm vào đó, nó
cũng giúp đo độ tương tự của các câu và loại bỏ các thông tin thừa trong câu để
đoạn tóm tắt vừa đủ 250 từ. Ví dụ: những thành phần sau có thể được nắm bắt
vai trị ngữ nghĩa bằng các nhãn ngữ nghĩa ARG- TMP (temporal markers) và

ARG- DIS (discourse markers) được loại bỏ phục vụ mục đích nén câu.

1.5 Một số phương pháp phân loại nổi tiếng


1.5.1 Cây quyết định
Một cây quyết định là một cấu trúc cây, trong đó mỗi node trong biểu thị
cho một phép phân nhánh tương ứng cho một thuộc tính, mỗi nhánh biểu thị cho
một kết quả của một phép thử, các node lá biểu thị cho lớp hoặc các phân bố
lớp. Node trên cùng trong một cây được gọi là gốc.
Để phân lớp một mẫu chưa biết, những giá trị thuộc tính của mẫu đó được
thử ngược lại trên cây quyết định. Một đường dẫn từ gốc đến một node lá là cơ
sở cho việc dự đoán lớp của một mẫu. Cây quyết định có thể dễ dàng chuyển đổi
sang một tập các luật phân lớp. Cơ sở toán học của cây quyết định là thuật toán

tham lam, thuật toán này đã xây dựng cây quyết định đệ quy từ trên xuống dưới,
theo phương pháp chia để trị.
1.5.2 Mạng Bayes
Bayesian là phương pháp phân lớp dựa vào thống kê. Ta có thể dự đốn
xác suất của các lớp trong tập dữ liệu, dựa vào xác suất này có thể xếp các mẫu
vào các lớp riêng biệt. Thuật toán phân lớp Bayesian giả thiết rằng giá trị các
thuộc tính của một lớp độc lập với giá trị của các thuộc tính khác, giả thiết này
cịn được gọi là lớp độc lập có điều kiện, nó làm đơn giản các tính tốn sau này.
Mạng Bayesian là một đồ thị, trên đồ thị cho phép biểu diễn mối quan hệ giữa
các thuộc tính.
1.5.3 Support Vector Machine
Support Vector Machine (SVM) là một phương pháp mới để phân lớp dữ
liệu. Nó dễ sử dụng hơn mạng neural, tuy nhiên nếu không sử dụng nó chính xác
thì dễ bị bỏ qua một số bước đơn giản nhưng cần thiết, dẫn đến kết quả khơng
được thỏa mãn. Mục đích của phương pháp SVM là phát sinh ra một mơ hình từ
tập mẫu học, mơ hình này có khả năng dự đốn lớp cho các mẫu thử. SVM tìm
ra một hàm quyết định phi tưyến trong tập mẫu học bằng cách ánh xạ hoàn tồn
các mẫu học vào một khơng gian đặc trưng kích thước lớn có thể phân lớp tuyến
tính và phân lớp dữ liệu trong không gian này bằng cách cực đại khoảng cách lề
(geometric margin) và cực tiểu lỗi học cùng một lúc.

You might also like