Tìm hiểu quan hệ về các quy tắc đối sánh mẫu cho Trích xuất thông tin

Machine Translated by Google
Tìm hiểu quan hệ về các quy tắc đối sánh mẫu cho
Trích xuất thông tin
Mary Elaine Califf và Raymond J. Mooney Khoa Khoa học Máy

tính Đại học Texas tại Austin Austin, TX 78712
{mecaliff, mooney} @cs. Tử cung, edu
trừu tượng Gần đây, một số nhà nghiên cứu đã bắt đầu áp dụng
các phương pháp học tập để xây dựng các tem hệ thống
Hệ thống trích xuất thông tin xử lý các tài IE (McCarthy và Lehnert, 1995, Soderland và ah, 1995,
liệu ngôn ngữ tự nhiên và xác định vị trí Soderland và cộng sự, 1996, Riloff, 1993, Riloff,
một tập hợp các mục cụ thể có liên quan. 1996, Kim và Moldovan, 1995, Huffman, 1996).
Với sự thành công gần đây của các phương Một số phương pháp biểu tượng và thống kê đã được
pháp tiếp cận dựa trên kinh nghiệm hoặc ngữ sử dụng, nhưng học tập thường chỉ được sử dụng để
liệu trong các lĩnh vực khác của xử lý ngôn xây dựng một phần của hệ thống IE lớn hơn. Hệ thống
ngữ tự nhiên, học máy có tiềm năng hỗ trợ của chúng tôi, RAPIER (Quy tắc sản xuất thông tin tự
đáng kể sự phát triển của các hệ thống động mạnh mẽ Ex kéo), tìm hiểu các quy tắc cho nhiệm
chuyên sâu về kiến thức này. Bài báo này vụ IE hoàn chỉnh. Các quy tắc kết quả trích xuất các
trình bày một hệ thống, RAPmrt, lấy các cặp mục mong muốn trực tiếp từ các tài liệu mà không cần
tài liệu và các mẫu đã điền đầy đủ và đưa phân tích cú pháp trước hoặc xử lý tiếp theo. Chỉ sử
ra các quy tắc khớp mẫu trực tiếp trích dụng một kho tài liệu được ghép nối với các mẫu đã
xuất bộ đệm cho các vị trí trong mẫu. Thuật điền, RAPIER học các mẫu giống Eliza không bị ràng
toán học tập kết hợp các kỹ thuật từ hệ buộc (Weizenbaum, 1966) sử dụng thông tin cú pháp hạn
thống lập trình logic quy nạp sev eral và chế, chẳng hạn như đầu ra của trình gắn thẻ một phần
học các mẫu không bị ràng buộc trong các giọng nói. Nhạn biển cảm ứng cũng có thể dễ dàng kết
ràng buộc rõ ràng về các từ và một phần của hợp thông tin lớp ngữ nghĩa, chẳng hạn như được cung
thẻ lời nói xung quanh bộ đệm. Kết quả của cấp bởi WordNet (Miller và cộng sự, 1993). Thuật toán
en couraging được trình bày trên learning học tập được lấy cảm hứng từ một số hệ thống lập
ing để trích xuất thông tin từ các bài đăng trình logic quy nạp (ILP) và chủ yếu bao gồm tìm kiếm
tuyển dụng com puter từ nhóm tin tức khác. cụ thể đến tổng quát (từ dưới lên) cho các mẫu đặc
việc làm. ngỏ ý. trưng cho bộ đệm vị trí và bối cảnh xung quanh của chúng.
Phần còn lại của bài báo được sắp xếp như sau.
Phần 2 trình bày tài liệu cơ bản về IE và học tập
1. Giới thiệu tái tạo. Phần 3 mô tả thuật toán học và biểu diễn quy
tắc của RAPIEK. Phần 4 trình bày và phân tích các kết
Ngày càng có nhiều thông tin dưới dạng tài liệu điện quả thu được khi trích xuất thông tin từ các tin nhắn
tử. Nhu cầu xử lý từ xa các văn bản như vậy làm cho được đăng lên nhóm tin mist.jobs.offered. Phần 5 thảo
thông tin trở nên có lực kéo (IE), nhiệm vụ định vị luận về công việc liên quan trong việc áp dụng học
các phần dữ liệu cụ thể từ một tài liệu ngôn ngữ tự tập vào IE, Phần 6 đề xuất các lĩnh vực cho nghiên
nhiên, một tiểu khu vực đặc biệt hữu ích của xử lý cứu trong tương lai, và Phần 7 trình bày kết luận
ngôn ngữ tự nhiên (NLP). Để công nhận tầm quan trọng của chúng tôi.
của chúng, hệ thống IE đã trở thành trọng tâm của
chương trình MUC của DARPA (Lehnert và Sundheim, 2 Nền
1991). Thật không may, các hệ thống IE rất khó và tốn
2.1 Trích xuất thông tin
thời gian để xây dựng và các hệ thống kết quả thường
chứa các thành phần dành riêng cho miền cụ thể, khiến Trong trích xuất thông tin, dữ liệu được trích xuất từ
chúng khó chuyển sang các miền mới. một văn bản ngôn ngữ tự nhiên được cung cấp bởi một mẫu
chỉ định danh sách các vị trí sẽ được lấp đầy. Chất độn khe
Califf 8J Mooney 9 Học quan hệ
Mary Elaine Califf và Raymond J. Mooney (1997) Học tập quan hệ về các quy tắc đối sánh mẫu để chiết xuất infor
mation . Trong TM Ellison (ed.) CoNLLPT: Computational Natural Language Learning, ACL trang 9-15.
@ 1997 Hiệp hội ngôn ngữ học tính toán
Đăng từ Nhóm tin

Collins, 1991) cho phép quy nạp qua các bài kiểm tra có
Viễn thông. Quản trị viên Hệ thống SOLARIS. 38-44K. cấu trúc có thể bao gồm các vị từ và hàm logic bậc nhất
Nhu cầu ngay lập tức
và các cấu trúc dữ liệu không bị ràng buộc như danh
sách, chuỗi và cây. Các so sánh chi tiết của thí nghiệm
Công ty viễn thông hàng đầu đang cần một cá nhân tràn đầy
năng lượng để đảm nhận vị trí sau trong văn phòng Atlanta: đối với ILP và quy nạp dựa trên đặc điểm đã chứng minh
lợi thế của phản ứng đại diện quan hệ trong hai nhiệm vụ
liên quan đến ngôn ngữ, phân loại mèo văn bản (Cohen,
1995) và tạo thì quá khứ của động từ tiếng Anh (Mooney
NHÀ QUẢN TRỊ HỆ THỐNG SOLARIS
và Califf, 1995).
Lương: 38-44K với đầy đủ quyền lợi
Vị trí: Atlanta Georgia, không cung cấp hỗ Mặc dù RAPIEa không hoàn toàn là một hệ thống ILP, nhưng thuật
trợ di dời toán học tập tương đối của nó được lấy cảm hứng từ những ý
tưởng từ các hệ thống ILP sau đây.
Mẫu đã điền
GOLEM (Muggleton và Feng, 1992) là một thuật toán ILP
computer_science_job title:
SOLARIS Systems Mức lương của quản trị viên: 38-44K từ dưới lên (cụ thể đến chung) dựa trên việc xây dựng
tiểu bang: Georgia city: Atlanta platform: SOLARIS các tổng quát tương đối ít tổng quát nhất, rlggs
khu vực: viễn thông
(Plotkin, 1970). Ý tưởng về sự tổng quát hóa gen ít tổng
quát nhất (LGGs), được đưa ra với hai mục (trong ILP,
hai mệnh đề), tìm ra mục ít tổng quát nhất bao hàm cặp
ban đầu. Đây thường là một cách đặt com khá đơn giản.
Rlggs là các LGG liên quan đến một tập hợp các quan hệ
Hình 1: Thông báo mẫu và Mẫu đã điền
nền. Do những khó khăn trong việc bắt cóc bởi các rlggs
không hữu hạn, các vị từ nền phải được định nghĩa một
có thể là một trong tập hợp các giá trị hoặc chuỗi được cách rộng rãi. Thuật toán op tạo ra bằng cách chọn ngẫu
chỉ định được lấy trực tiếp từ tài liệu. Ví dụ, Hình 1 nhiên một số cặp ví dụ điển hình và tính toán rlggs xác
cho thấy một phần của tin tuyển dụng và các vị trí tương định của mỗi cặp. Tính xác định ràng buộc mệnh đề phải có
ứng của mẫu việc làm khoa học máy tính được điền đầy đủ. đối với mỗi ví dụ không nhiều hơn một thay thế hợp lệ có
thể có cho mỗi biến trong nội dung mệnh đề. Mệnh đề kết
IE có thể hữu ích trong nhiều lĩnh vực khác nhau. Var quả với tuổi bao lớn nhất của các ví dụ tích cực được
ious MUC's đã tập trung vào các miền như tiếng Latinh chọn, và mệnh đề đó được tổng quát hóa thêm bằng cách
Chủ nghĩa khủng bố của Mỹ, liên doanh, ics rnicroelectron tính toán rlggs của mệnh đề đã chọn với các ví dụ dương
và những thay đổi về quản lý công ty. Những người khác tính mới được chọn ngẫu nhiên. Quá trình tổng quát hóa
đã sử dụng IE để theo dõi hồ sơ bệnh nhân y tế (Soderland dừng lại khi phạm vi của mệnh đề tốt nhất không còn tăng
và cộng sự, 1995) hoặc sáp nhập công ty (Huffman, 1996). nữa.
Một nhiệm vụ chung được xem xét trong bài báo này là trích
xuất thông tin từ các bài đăng đến các nhóm tin USENET, chẳng Hệ thống CHILLIN (Zelle và Mooney, 1994) kết hợp các
hạn như thông báo việc làm. Mục tiêu chung của chúng tôi là kỹ thuật ILP từ trên xuống (từ chung đến cụ thể) và từ
trích xuất một cơ sở dữ liệu từ tất cả các tin nhắn trong một dưới lên của ILP. Thuật toán bắt đầu với một định nghĩa
nhóm tin tức và sau đó sử dụng các trình phân tích cú pháp cụ thể nhất (tập hợp các ví dụ tích cực) và giới thiệu
truy vấn đã học (Zelle và Mooney, 1996) để trả lời các câu hỏi các khái quát hóa làm cho định nghĩa trở nên nhỏ gọn hơn.
ngôn ngữ tự nhiên, chẳng hạn như "Những công việc nào hiện có Khái quát hóa được tạo ra bằng cách chọn các cặp mệnh đề
ở Austin cho các lập trình viên C ++ chỉ có một năm Kinh nghiệm?". trong định nghĩa và đặt các LGG. Nếu mệnh đề kết quả bao
Có thể có nhiều ứng dụng Internet khác, chẳng hạn như gồm các ví dụ tiêu cực, thì mệnh đề này được chuyên biệt
trích xuất thông tin từ các trang web sản phẩm cho một hóa bằng cách thêm các bức tranh chiếu sáng trước theo
đại lý mua sắm (Doorenbos, Etzioni và Weld, 1997). kiểu từ trên xuống. Việc tìm kiếm lít als mới được thực
hiện theo kiểu leo đồi, sử dụng số liệu thu thập thông
tin để đánh giá các nghĩa đen. Điều này tương tự như
2.2 Học quan hệ
tìm kiếm do FOIL thực hiện (Quin lan, 1990). Trong trường
Hầu hết các nghiên cứu ngôn ngữ tự nhiên thực nghiệm đã hợp không thể học được mệnh đề đúng với các quan hệ nền
triển khai các kỹ thuật thống kê dựa trên các quyết định hiện có, CHILLIN cố gắng xây dựng các vị từ mới để phân
dựa trên các ngữ cảnh rất hạn chế hoặc các kỹ thuật biệt các ví dụ phủ định được đề cập với các ví dụ phủ
tượng trưng như cây quyết định yêu cầu nhà phát triển định được đề cập. Ở mỗi bước, một số khái quát có thể
chỉ định nếu có một tập hợp hữu hạn, có thể quản lý được được xem xét; người chuyên nghiệp thực hiện sự nén chặt
để sử dụng trong việc đưa ra quyết định. Lập trình logic nhất của lý thuyết là tôi
quy nạp và các phương pháp học quan hệ khác (Birnbaum và

Mẫu trước chất làm đầy: Mẫu chất làm đầy: Mẫu sau chất làm đầy:
plemented, và quá trình lặp lại. CHILLIN sử dụng khái
1) từ: hàng đầu 1) danh sách: len: 1) từ: [công ty, công ty]
niệm phép phụ theo kinh nghiệm, có nghĩa là khi các mệnh
2 thẻ: Inn, nns]
đề mới, tổng quát hơn được thêm vào, tất cả các mệnh đề
không cần thiết để chứng minh các ví dụ tích cực đều bị
Hình 2: Quy tắc trích xuất một bộ nạp vùng từ
xóa khỏi định nghĩa.
Tài liệu mẫu
PROGOL (Muggleton, 1995) cũng kết hợp tìm kiếm từ
dưới lên và từ trên xuống. Sử dụng khẩu phần decla mode
được cung cấp cho cả vị từ nền và vị từ đang được học, danh sách nhạn chỉ định độ dài tối đa N và khớp từ 0
nó xây dựng một mệnh đề cụ thể nhất cho một ví dụ hạt đến N từ hoặc ký hiệu từ tài liệu mà mỗi từ hoặc ký hiệu
giống ngẫu nhiên. Các khai báo mode chỉ định cho mỗi đối phải phù hợp với các ràng buộc của danh sách. Các vấn
số của mỗi vị từ cả kiểu của đối số và liệu nó phải là đề có thể xảy ra là: danh sách các từ, một trong số đó
một hằng số, một biến bị ràng buộc trước vị từ được phải khớp với mục tài liệu; danh sách các thẻ bán phần
gọi hay một biến bị ràng buộc bởi vị từ. Đưa ra mệnh đề của giọng nói (POS), một trong số đó phải khớp với thẻ
cụ thể nhất này, PROGOL sử dụng tìm kiếm giống A * thông POS của mục tài liệu; danh sách các lớp ngữ nghĩa, một
qua tập hợp các mệnh đề chứa tối đa k ký tự từ mệnh đề trong số đó phải là một lớp mà mục tài liệu thuộc về.
đó để tìm tổng quát nhất quán đơn giản nhất để thêm vào Hình 2 cho thấy một quy tắc được tạo ra bằng tay để
định nghĩa. Ưu điểm của PROGOL là các ràng buộc về tìm chiết xuất chất làm đầy khu vực từ tài liệu ví dụ trong
kiếm làm cho nó hoạt động khá hiệu quả, đặc biệt là đối tấm tái tạo hình ảnh urê. Quy tắc này giả định rằng tài
với một số loại nhiệm vụ mà các phương pháp từ trên liệu đã được gắn thẻ bằng thẻ POS của (Brill, 1994).
xuống đặc biệt kém hiệu quả và việc tìm kiếm của nó
được đảm bảo để tìm ra tổng quát nhất quán đơn giản
nhất nếu tồn tại mệnh đề không hơn k nghĩa. Các vấn đề 3.2 Thuật toán học tập Như đã nói
chính của hệ thống là nhu cầu khai báo chế độ của nó và ở trên, RAPIER được lấy cảm hứng từ các meth ods ILP
thực tế là ak quá nhỏ có thể ngăn PROGOL học các mệnh đề và chủ yếu bao gồm một tìm kiếm cụ thể cho gen eral (từ
chính xác trong khi ak quá lớn có thể cho phép tìm kiếm dưới lên). Đầu tiên, đối với mỗi vị trí, hầu hết các
bùng nổ. mẫu cụ thể được tạo cho mỗi ví dụ, từ và thẻ cụ thể
cho bộ đệm và văn bản lừa đảo hoàn chỉnh của nó. Do đó,
mẫu điền trước chứa một mục cho mỗi từ từ đầu tài liệu
đến từ ngay trước bộ điền với các dải liên kết trên mục
bao gồm từ và thẻ POS được chỉ định của nó. Tương tự
Hệ thống 3 RAPIER như vậy, mẫu điền vào có một mục cho mỗi từ trong bộ
điền và mẫu điền sau có một mục cho mỗi từ từ cuối bộ
3.1 Biểu diễn quy tắc
bổ sung đến cuối tài liệu.
I: Biểu diễn quy tắc của LAPIER sử dụng các mẫu sử dụng
thông tin về cú pháp và ngữ nghĩa hạn chế, sử dụng các
nguồn tri thức mạnh mẽ, sẵn có miễn phí như trình gắn Với cơ sở quy tắc tối đa cụ thể này, R ~ APIER. cố
thẻ một phần của giọng nói và từ vựng với các lớp se gắng nén và tổng quát hóa các quy tắc cho mỗi vị trí.
mantic, chẳng hạn như các liên kết ẩn danh trong Word Các quy tắc mới được tạo bằng cách chọn hai quy tắc hiện
Net (Miller và cộng sự, 1993). Việc triển khai ban đầu có và tạo ra một tổng quát hóa. Mục đích là thực hiện
không sử dụng trình phân tích cú pháp, chủ yếu do khó các bước tổng quát hóa nhỏ, bao gồm các ví dụ tích cực
khăn trong việc tạo ra trình phân tích cú pháp mạnh mẽ hơn mà không tạo ra các chất độn riêng, do đó, cách tiếp
cho văn bản không bị giới hạn và vì các mẫu đơn giản cận tiêu chuẩn sẽ là tạo ra sự tổng quát hóa nhỏ nhất
hơn của loại mà chúng tôi đặt ra có thể đại diện cho (LGG) của cặp quy tắc. Tuy nhiên, trong cách trình bày
các quy tắc trích xuất hữu ích cho ít nhất một số miền. cụ thể này cho phép tách rời không bị giới hạn, LGG có
Các quy tắc trích xuất được lập chỉ mục theo tên mẫu và thể quá cụ thể. Do đó, trong trường hợp LGG của hai ràng
tên vị trí và bao gồm ba phần: 1) mẫu điền trước phải buộc là sự tách rời của chúng, chúng tôi muốn tạo ra hai
khớp với văn bản ngay trước bộ đệm, 2) mẫu phải khớp khái quát: một là điểm nối dis và một là loại bỏ ràng
với bộ đệm thực tế và 3) a mẫu điền vào bài đăng phải buộc.
khớp với văn bản ngay sau bộ điền. Mỗi mẫu là một chuỗi
(có độ dài bằng 0 đối với các mẫu trước và sau) của các Do đó, chúng ta thường muốn xem xét nhiều tổng thể
mục mẫu hoặc danh sách mẫu. Một mục mẫu khớp chính xác chung của một cặp mục. Điều này, kết hợp với thực tế là
với một từ hoặc ký hiệu từ tài liệu đáp ứng các ràng các mẫu có độ dài khác nhau, làm cho số lượng tổng quát
buộc của mục đó. Một cái vỗ nhẹ có thể có của hai mẫu dài là cực kỳ lớn, làm cho chi phí
tính toán của
Califf ~ Mooney 11 Học quan hệ

Đối với mỗi vị trí, S trong mẫu đang được học

nhưng tất cả các quy tắc trong RuleList đều được mở rộng ở mỗi
SlotRules = các quy tắc cụ thể nhất từ các tài liệu cho S
lần lặp, thay vì chỉ những quy tắc tốt nhất.
trong khi nén không thành công ít hơn lira lần chọn ngẫu
Như một ví dụ về việc tạo ra một quy tắc mới, con sider
nhiên 2 quy tắc, R1 và R2, từ S tìm tập hợp L tổng quát
khái quát các quy tắc dựa trên các cụm từ "lo cated in
của các bộ đệm của R1
Atlanta, Georgia." và "văn phòng ở Thành phố Kansas,
và R2
Missouri." Các quy tắc được tạo ra từ những cụm từ này cho
tạo các quy tắc từ L, đánh giá và khởi tạo
vị trí thành phố sẽ là
RulesList
đặt n - 0 Mẫu Pre-fdler: Mẫu Filler: Mẫu hậu điền:
trong khi quy tắc tốt nhất trong RuleList tạo ra giả 1) từ: nằm 1) từ: atlanta 1) từ: thẻ: thẻ vbn: ,
bộ đệm và giá trị thông tin có trọng số của thẻ nnp :, 2) từ: trong
trong
2) thẻ:
từ: thẻ
nnp georgia:
3) từ:.
nhãn: .
quy tắc tốt nhất đang cải thiện gia số n chuyên
biệt hóa từng quy tắc trong RuleList với các
izations chung của n mục cuối cùng của các mẫu
tiền điền trước của R1 và R2 và thêm các
chuyên môn hóa vào RuleList chuyên biệt hóa và

từng quy tắc trong RuleList với các ization
chung của n mục đầu tiên của các mẫu hậu điền của Pre-filler Pattern: Mẫu Filler: 1) Mẫu hậu điền:
R1 và R2 và thêm các chuyên môn của RuleList word: office tag: nns1)2)từ:
word:
kansas
in 1) từ: thẻ: ,
nếu quy tắc tốt nhất trong RuleList chỉ tạo ra tag: in thẻ imp :, 2) từ: thành
phố
các bộ đệm hợp lệ 2) từ: thẻ missouri:nnp
thẻ3)
imp:
từ:. nhãn: .
Thêm nó vào SlotRules và xóa các quy tắc được cộng

dồn theo kinh nghiệm
Các chất làm đầy được khái quát để tạo ra hai quy tắc có thể
có với các mẫu trống trước chất làm đầy và sau chất làm đầy.
Bởi vì một bộ điền có hai mục và cái còn lại chỉ có một, chúng
Hình 3: Thuật toán RAPIER để tạo ra các quy tắc IE
tổng quát thành một danh sách không quá hai từ. Các ràng buộc
từ khái quát thành một sự tách rời của tất cả các từ hoặc
không có ràng buộc nào. Các ràng buộc thẻ trên tất cả các mục
đều giống nhau, vì vậy các ràng buộc thẻ của LGG cũng giống
tạo ra tất cả các khái quát thú vị của hai quy tắc com plete
nhau. Vì ba từ không thuộc về một lớp ngữ nghĩa duy nhất trong
bị cấm. Tuy nhiên, mặc dù chúng ta không muốn tùy tiện giới
từ điển nên ngữ nghĩa vẫn không bị giới hạn.
hạn độ dài của mẫu trước hoặc sau chất làm đầy, nhưng rất
có thể các phần quan trọng của mẫu sẽ gần với chất làm đầy. Các chất độn được sản xuất là:
Do đó, chúng tôi bắt đầu bằng cách tính toán các tổng quát của Pre-filler Pattern: Filler Pattern: Mẫu hậu điền:
các mẫu phụ của hai quy tắc và tạo ra các quy tắc từ những 1) list: len:
khái quát đó. Chúng tôi duy trì một danh sách n quy tắc tốt 2 word: [atlanta, kansas, city]
nhất được tạo ra và chuyên biệt hóa các quy tắc đang xem xét tag: nnp
và
bằng cách thêm các phần tổng quát của các mẫu trước và sau
của hai quy tắc hạt giống, hoạt động ra bên ngoài từ các bộ Pre-filler Pattern: Filler Pattern: Mẫu hậu điền:
đệm. Các quy tắc được hoặc phân loại bằng cách sử dụng số 1) list: len:
liệu giá trị thông tin (Quinlan, 1990) được tính theo kích 2 tag: nnp
thước của quy tắc (ưu tiên các quy tắc nhỏ hơn). Khi quy Một trong hai quy tắc này có khả năng che đậy các kỳ thi giả
tắc tốt nhất được xem xét ation không tạo ra các ví dụ tiêu mạo, vì vậy chúng tôi thêm LGG trước và sau điền vào. Các
cực, thì chuyên môn hóa chấm dứt; quy tắc đó được thêm vào mục được tạo ra từ dấu "in" và dấu phẩy giống hệt nhau và do
đó, không thay đổi. Giả sử rằng từ điển của chúng ta chứa một
cơ sở quy tắc và tất cả các quy tắc được cộng gộp theo kinh
lớp ngữ nghĩa cho các trạng thái, việc khái quát hóa các tên
nghiệm sẽ bị xóa. Spe cialization sẽ bị loại bỏ nếu giá trị
trạng thái sẽ tạo ra một nhóm ngữ nghĩa của lớp đó cùng với
của tốt nhất một ràng buộc thẻ nnp và không có ràng buộc từ hoặc sự tách
rời của hai trạng thái. Do đó, một quy tắc tốt nhất cuối cùng
quy tắc không cải thiện trên k vòng lặp chuyên môn hóa. Việc sẽ là:
nén cơ sở quy tắc cho mỗi vị trí bị bỏ qua khi số lần lặp lại Pre-filler Pattern: Filler Pattern: Mẫu hậu điền: 1)
liên tiếp của thuật toán nén không tạo ra quy tắc nén vượt 1) word: in 1) list: len:
tag: 2
nnp
tag: in , thẻ:
từ: thẻ:, 2)
nnp ngữ nghĩa:
quá giới hạn được xác định trước hoặc số lượng quy tắc cho
trạng thái
vị trí đó. Sơ lược về
thuật toán xuất hiện trong Hình 3 trong đó RuleList là một 4 Đánh giá
danh sách ưu tiên không nhiều hơn các quy tắc Beam- Width .
Tìm kiếm hơi giống với tìm kiếm chùm trong Nhiệm vụ chúng tôi đã chọn cho các thử nghiệm ban đầu của RAPIER
rằng một số quy tắc giới hạn được lưu giữ để cân nhắc là trích xuất thông tin từ công việc liên quan đến máy tính
12 Học quan hệ
Califf ~ Mooney
tO0
Các quy tắc RAPIER, được học có nhiều loại khác nhau.
Một số là cách ghi nhớ khá đơn giản các từ hoặc cụm từ
thường xuyên xuất hiện trong các khe par ticular: chúng
bao gồm những thứ như ngôn ngữ lập trình và hệ điều hành.
Những người khác tìm hiểu ngữ cảnh của bộ đệm, thường
cũng hạn chế các phần lời nói của bộ đệm: ví dụ: quy tắc
cho vùng ngôn ngữ trong đó tiền tố bị ràng buộc là "quen
thuộc với", hậu tố là "lập trình" và bộ bổ sung là danh
Preel ~ on -e--
sách tối đa ba mục phải là danh từ riêng hoặc ký hiệu.
// Rel ~ tất cả
5 Công việc liên quan

1o 2o ~ o io
, 'o oo
Ví dụ về đào tạo
Các nhà nghiên cứu trước đây thường chỉ áp dụng học máy
Hình 4: Hiệu suất trên các tin tuyển dụng cho các phần của tác vụ IE và hệ thống của họ thường yêu
cầu nhiều sự tương tác của con người hơn là chỉ cung
cấp văn bản với các mẫu đã điền. RE SOLVE sử dụng cây
các bài đăng có thể được sử dụng để tạo cơ sở dữ liệu quyết định để xử lý các biểu tượng deci lõi tham chiếu
về các công việc có sẵn. Mẫu tin tuyển dụng liên quan đến
cho hệ thống IE và yêu cầu các ví dụ về coref erence có
máy tính chứa 17 vị trí, bao gồm thông tin về nhà tuyển
chú thích (McCarthy và Lehnert, 1995).
dụng, vị trí, mức lương và yêu cầu công việc. Một số vị
CRYSTAL SỬ DỤNG một dạng phân cụm để tạo ra một bộ từ
trí, chẳng hạn như ngôn ngữ và nền tảng được sử dụng,
điển chứa nhiều mẫu trích xuất bằng cách khái quát hóa
có thể nhận nhiều giá trị. Các kết quả hiện tại không sử
các mẫu được xác định trong văn bản bởi một chuyên gia
dụng các danh mục ngữ nghĩa, chỉ sử dụng các từ và kết
(Soderland và cộng sự, 1995, Soderland và cộng sự, 1996).
quả của trình gắn thẻ POS của Brill.
AUTOSLOG tạo từ điển các mẫu trích xuất bằng cách chuyên
biệt hóa một tập các mẫu cú pháp chung (Riloff, 1993,
Kết quả được trình bày ở đây sử dụng bộ dữ liệu gồm
Riloff, 1996). Nó giả định rằng một chuyên gia sau đó sẽ
100 tài liệu được ghép nối với các mẫu đã điền. Chúng
kiểm tra các mẫu mà nó tạo ra. PALKA học các mô hình khai
tôi đã thực hiện xác thực chéo mười lần và cũng chạy các
thác dựa trên hệ thống phân cấp khái niệm để hướng dẫn
bài kiểm tra với các tập hợp con nhỏ hơn của các ví dụ
quá trình tổng hợp hóa và chuyên môn hóa gen (Kim và
đào tạo cho mỗi bộ kiểm tra để tạo ra các đường cong học
Moldova, 1995). AUTOSLOG, CRYSTAL và PALKA đều dựa vào
tập. Chúng tôi sử dụng ba thước đo: độ chính xác, tỷ lệ
phân tích câu trước để xác định các nốt cú pháp và các
chất độn rãnh được tạo ra là chính xác; nhớ lại, tỷ lệ
mối quan hệ của chúng, đồng thời đầu ra của chúng cần xử
phần trăm chất độn vị trí trong các mẫu chính xác được
lý thêm để tạo ra các mẫu cuối cùng đã điền. LIEP cũng
tạo ra bởi hệ thống; và thước đo F, là giá trị trung bình
học các mẫu IE (Huffman, 1996). Hạn chế chính của Line là
của việc thu hồi và độ chính xác.
nó cũng yêu cầu một bộ phân tích câu để xác định các nhóm
Hình 4 cho thấy các đường cong học tập được tạo ra.
danh từ, động từ, chủ ngữ, v.v.; nó không thực sự sử dụng
Ở 90 ví dụ huấn luyện, độ chính xác trung bình là 83,7%
thông tin ngữ nghĩa; nó giả định rằng tất cả thông tin nó
và khả năng thu hồi trung bình là 53,1%. Những loại bia
cần là giữa hai thực thể mà nó xác định là "thú vị"; và
num này trông khá hứa hẹn khi so sánh với hiệu suất đo
nó chỉ được áp dụng cho một miền trong đó các văn bản khá
được của các hệ thống ngoại vi thông tin khác trên các
ngắn (1-3 câu).
lĩnh vực khác nhau. Hiệu suất này có thể so sánh với
CRYSTAL trong nhiệm vụ chính là y tế (Soderland và cộng
sự, 1996), và tốt hơn của AuTOSLOG và AUTOSLOG-TS trong 6 Nghiên cứu trong tương lai
một phần của nhiệm vụ chống khủng bố MUC4 (Riloff, 1996).

Nó cũng được đánh giá cao với hiệu suất hệ thống điển Hiện tại, RAPIER, giả định các giá trị vị trí là các
hình trên các tác vụ MUC (ARPA, 1992, ARPA, 1993). Tất cả chuỗi được lấy trực tiếp từ tài liệu; tuy nhiên, các mẫu
những so sánh này chỉ là chung chung, vì các nhiệm vụ là MUC cũng bao gồm các vị trí có giá trị được lấy từ một
khác nhau, nhưng chúng chỉ ra rằng RAPIER đang hoạt động tập hợp được chỉ định trước. Chúng tôi có kế hoạch mở
tương đối tốt. Độ chính xác tương đối cao là một kết rộng hệ thống tem để tìm hiểu các quy tắc cho các vị trí
quả đặc biệt tích cực, vì rất có thể khả năng thu hồi sẽ như vậy. Ngoài ra, hệ thống hiện tại cố gắng trích xuất
tiếp tục được cải thiện khi số lượng các ví dụ đào tạo cùng một tập hợp các vị trí từ mọi tài liệu. RAPIER phải
tăng lên. được mở rộng để tìm hiểu các mẫu phân loại văn bản trước
tiên để xác định tập hợp các vị trí, nếu có, nên được trích xuất từ

tài liệu đã cho. Cuối cùng, thuật toán học mẫu tương tự Hội nghị quốc gia về trí tuệ nhân tạo, trang
có thể áp dụng được cho các tác vụ xử lý lan guage tự 722-727.
nhiên khác, chẳng hạn như xác định ý nghĩa của một từ
không rõ ràng dựa trên văn bản lừa đảo xung quanh của nó. Cohen, WW 1995. Phân loại văn bản và học tương đối.
Trong Kỷ yếu của Hội nghị Quốc tế lần thứ mười hai
về Học máy, trang 124-132, San Francisco, CA. Mor
7. Kết luận gan Kaufman.
Khả năng trích xuất các mẩu thông tin mong muốn từ các văn
bản ngôn ngữ tự nhiên là một nhiệm vụ quan trọng với ngày Doorenbos, RB, O. Etzioni và DS Weld.
càng nhiều các ứng dụng tiềm năng. 1997. Một đại lý mua sắm so sánh có thể mở rộng cho
Các tác vụ yêu cầu định vị dữ liệu cụ thể trong tin nhắn web trên toàn thế giới. Trong Kỷ yếu của Hội nghị
nhóm tin hoặc trang web là những ứng dụng đặc biệt hứa Quốc tế đầu tiên về các tác nhân dị thường Au.
hẹn. Việc xây dựng các hệ thống khai thác thông tin như
vậy theo cách thủ công là một công việc tốn nhiều công
sức; tuy nhiên, các phương pháp học tập có tiềm năng giúp Huffman, SB 1996. Tìm hiểu các mô hình ngoại trừ thông
tự động hóa quá trình phát triển. Hệ thống RAPIER được mô tin từ các ví dụ. Trong S. Wermter, E. Riloff và G.
tả trong bài báo này sử dụng phương pháp học quan hệ để Scheler, các nhà biên tập, Connec tionist,
xây dựng các quy tắc đối sánh mẫu không bị ràng buộc để Statistical và Symbolic Approach to Learning for
trích xuất thông tin chỉ cung cấp một cơ sở dữ liệu gồm Natural Language Processing.
các văn bản và các mẫu đã điền. Các mẫu đã học sử dụng Springer, Berlin, trang 246-260.
thông tin ngữ nghĩa và cú pháp được giới hạn để xác định
các bộ đệm vị trí tiềm năng và bối cảnh xung quanh của chúng. Kim, Jun-Tae và Dan I. Moldova. 1995. Tiếp thu các mẫu
Kết quả về việc trích xuất thông tin từ các bài đăng tuyển ngôn ngữ để khai thác thông tin dựa trên tri thức.
Giao dịch IEEE về Kiến thức và Kỹ thuật Dữ liệu, 7
dụng trong nhóm tin đã cho thấy rằng đối với một ứng dụng
thực tế, có thể học các quy tắc khá chính xác từ các ví (5): 713-724, Tháng 10.
dụ tương đối nhỏ. Nghiên cứu trong tương lai hy vọng sẽ

chứng minh rằng các kỹ thuật tương tự sẽ tỏ ra hữu ích
Lehnert, Wendy và Beth Sundheim. 1991. Một đánh giá theo
trong nhiều loại ap plication thú vị.
hình thức của gies Technolo phân tích văn bản. Tạp
chí AI, 12 (3): 81-94.
8 Lời cảm ơn
McCarthy, J. và W. Lehnert. 1995. Sử dụng cây quyết định
Nghiên cứu này được hỗ trợ bởi học bổng của AT&T được để phân giải sự tham chiếu. Trong Kỷ yếu của Hội
trao cho tác giả đầu tiên và bởi Quỹ Khoa học Na tional nghị Chung Quốc tế lần thứ mười bốn về Trí tuệ Nhân
dưới sự tài trợ của IRI-9310819. tạo, trang 1050-1055.
Người giới thiệu

Miller, G., R. Beckwith, C. Fellbaum, D. Gross và K.
ARPA, biên tập viên. 1992. Kỷ yếu Hội nghị và Đánh giá Miller. 1993. Giới thiệu về Mạng từ: Một cơ sở dữ
Hiểu biết Thông điệp DARPA lần thứ tư, San Mateo, liệu từ vựng trực tuyến. Có sẵn bởi ftp to
CA. Morgan Kaufman. clear.princeton.edu.
Mooney, RJ và ME Califf. 1995. Giới thiệu danh sách quyết

ARPA, biên tập viên. 1993. Kỷ yếu Hội nghị và Đánh giá định bậc nhất: Kết quả về việc học thì quá khứ của
Hiểu biết Thông điệp DARPA lần thứ năm, San Mateo, động từ tiếng Anh. Tạp chí Nghiên cứu Trí tuệ Nhân
CA. Morgan Kaufman. tạo, 3: 1-24.
Muggleton, S. và C. Feng. 1992. Cảm ứng hiệu quả các

Birnbaum, LA và GC Collins, biên tập viên. Năm 1991. chương trình logic. Trong S. Muggleton, chủ biên,
Kỷ yếu của cửa hàng Công việc Quốc tế lần thứ tám Trong Lập trình Logic quy nạp. Academic Press, New
về Học máy: Phần VI Quan hệ Học tập, Evanston, IL, York, trang 281-297.
Tháng sáu.
Muggleton, Steve. 1995. Nghịch đảo và Progol. Tạp chí Máy
Brill, Eric. 1994. Một số tiến bộ trong phần gắn thẻ giọng tính Thế hệ Mới, 13: 245-286.
nói dựa trên quy tắc. Trong Kỷ yếu của Thứ mười hai

Plotkin, GD 1970. Một lưu ý về quy nạp tổng quát.

Trong B. Meltzer và D. Michie, các nhà biên tập,
Machine Intelligence (Tập 5). Elsevier North
Holland, New York.
Quinlan, JR 1990. Học các định nghĩa logic từ các quan

hệ. Học máy, 5 (3): 239-266.
Riloff, E. 1993. Tự động xây dựng một bộ từ điển cho

các tác vụ trích xuất thông tin. Trong Pro
ceedings của Hội nghị quốc gia lần thứ 11 về trí
tuệ nhân tạo, trang 811-816.
Riloff, Ellen. 1996. Tự động tạo các mẫu ngoại lai từ

văn bản không được gắn thẻ. Trong phần tiếp
theo của Hội nghị quốc gia lần thứ mười ba về
trí tuệ nhân tạo, trang 1044-1049.
Soderland, Stephen, D. Fisher, J. Aseltine và W.

Lehnert. 1995. Crystal: Tạo ra một từ điển thông
minh. Trong Kỷ yếu của Hội nghị Hỗn hợp Quốc tế
lần thứ mười về Trí tuệ Nhân tạo, các trang
1314-1319.
Soderland, Stephen, David Fisher, Jonathan Asel tine

và Wendy Lehnert. 1996. Các vấn đề trong học tập
quy nạp các quy tắc kéo ex kéo của văn bản theo
miền cụ thể. Trong Stefan Wermter, Ellen Riloff
và Gabriele Scheller, các biên tập viên, Phương
pháp tiếp cận kết nối, thống kê và tượng trưng
để học cách xử lý ngôn ngữ tự nhiên, Ghi chú bài
giảng trong trí tuệ nhân tạo. Springer, trang
290-301.
Weizenbaum, J. 1966. ELIZA- Một máy tính chuyên nghiệp

để nghiên cứu thông tin liên lạc bằng ngôn ngữ
tự nhiên giữa con người và máy móc. Thông báo
của Hiệp hội Máy tính, 9: 36-45.
Zelle, JM và RJ Mooney. 1994. Kết hợp các phương pháp

từ trên xuống và từ dưới lên trong lập trình
logic cảm ứng. Trong Kỷ yếu của Hội nghị Quốc tế
lần thứ 11 về Học máy, trang 343-351, New
Brunswick, NJ, tháng Bảy.
Zelle, JM và RJ Mooney. 1996. Học cách phân tích cú

pháp các truy vấn cơ sở dữ liệu bằng cách sử
dụng lập trình logic quy nạp. Trong Kỷ yếu của
Hội nghị Quốc gia lần thứ mười ba về Trí tuệ
Nhân tạo, Portland, OR, tháng Tám.

Tìm hiểu quan hệ về các quy tắc đối sánh mẫu cho Trích xuất thông tin

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tìm hiểu quan hệ về các quy tắc đối sánh mẫu cho Trích xuất thông tin

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Mary Elaine Califf và Raymond J. Mooney Khoa Khoa học Máy

{mecaliff, mooney} @cs. Tử cung, edu

Califf 8J Mooney 9 Học quan hệ

Đăng từ Nhóm tin

Califf 8J Mooney 10 Học quan hệ

Califf ~ Mooney 11 Học quan hệ

Đối với mỗi vị trí, S trong mẫu đang được học

chuyên môn hóa vào RuleList chuyên biệt hóa và

Thêm nó vào SlotRules và xóa các quy tắc được cộng

5 Công việc liên quan

một phần của nhiệm vụ chống khủng bố MUC4 (Riloff, 1996).

Califf 8J Mooney 13 Học quan hệ

dụ tương đối nhỏ. Nghiên cứu trong tương lai hy vọng sẽ

dưới sự tài trợ của IRI-9310819. tạo, trang 1050-1055.

Người giới thiệu

Mooney, RJ và ME Califf. 1995. Giới thiệu danh sách quyết

Muggleton, S. và C. Feng. 1992. Cảm ứng hiệu quả các

Califf 8J Mooney 14 Học quan hệ

Plotkin, GD 1970. Một lưu ý về quy nạp tổng quát.

Quinlan, JR 1990. Học các định nghĩa logic từ các quan

Riloff, E. 1993. Tự động xây dựng một bộ từ điển cho

Riloff, Ellen. 1996. Tự động tạo các mẫu ngoại lai từ

Soderland, Stephen, D. Fisher, J. Aseltine và W.

Soderland, Stephen, David Fisher, Jonathan Asel tine

Weizenbaum, J. 1966. ELIZA- Một máy tính chuyên nghiệp

của Hiệp hội Máy tính, 9: 36-45.

Zelle, JM và RJ Mooney. 1994. Kết hợp các phương pháp

Zelle, JM và RJ Mooney. 1996. Học cách phân tích cú

Califf 8J Mooney 15 Học quan hệ

You might also like