Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more ➡
Download
Standard view
Full view
of .
Add note
Save to My Library
Sync to mobile
Look up keyword or section
Like this
29Activity
×
P. 1
Khai Pha Du Lieu Song Ngu Tu Web

Khai Pha Du Lieu Song Ngu Tu Web

Ratings: (0)|Views: 6,437|Likes:
Published by Nguyễn Văn Vinh

More info:

Published by: Nguyễn Văn Vinh on Jun 19, 2009
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, DOC, TXT or read online from Scribd
See More
See less

04/04/2013

pdf

text

original

 
Tóm tắt
Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câusong ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên,như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xâydựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắnthay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phára các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữliệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau.Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sở dữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang websong ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm rahai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khácnhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin haytri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ,...Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản.Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ màluận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trong cácnghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trongthực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thôngthường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc làdựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôitheo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khácnhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của văn bản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũngtheo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bàitoán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes vàáp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng câyquyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm cácnhiệm vụ: chuẩn bị cơ sở dữ liệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; vàcác mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xácdóng hàng văn bản khoảng 96% đối với mô hình phân loại Bayes.
2
 
Mục lục
Mở đầu
Văn bản song ngữ có vai trò thiết yếu trong một số lĩnh vực của xử lý ngôn ngữtự nhiên, như dịch máy thống kê, tìm kiếm thông tin trong môi trường đa ngữ,Trong dịch máy thống kê, các kho dữ liệu song ngữ bao gồm nhiều cặp văn bảnvới chất lượng dịch cao là nguồn tài nguyên quan trọng nhất quyết định chất lượng của
3

Activity (29)

You've already reviewed this. Edit your review.
1 hundred reads
1 thousand reads
Thai Meo Con liked this
Thần Gió liked this
Nhok Lun liked this
Tu Huu Nguyen liked this
Huyen Dang liked this
Buimy Le liked this

You're Reading a Free Preview

Download
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->