ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Chu Anh Minh

BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Chu Anh Minh

BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ

HÀ NỘI - 2009

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu và CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường học tập của mình. Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học và làm khoá luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, và những người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.

Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh

TÓM TẮT NỘI DUNG
Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng.... Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh và cho kết quả khả quan.

i

MỤC LỤC
Chu Anh Minh..............................................................................................................i HÀ NỘI - 2009...........................................................................................................i Chu Anh Minh.............................................................................................................ii TÓM TẮT NỘI DUNG................................................................................................i MỤC LỤC....................................................................................................................ii Bảng các kí hiệu và chữ viết tắt.................................................................................iv Danh mục hình vẽ........................................................................................................v Danh mục các bảng biểu............................................................................................vi MỞ ĐẦU.......................................................................................................................1 Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web............................3 1.1. Đặt vấn đề...........................................................................................................3 1.2. Khái niệm và các đặc trưng của từ khóa..............................................................4 1.3. Đánh giá các từ khóa...........................................................................................5 1.4. Thách thức của bài toán sinh từ khóa cho trang web...........................................5 1.4.1. Đối với các trang có nội dung tập trung........................................................6 1.4.2. Đối với các trang có nội dung tổng hợp........................................................6 1.4.3. Các vấn đề khác............................................................................................6 1.5. Ứng dụng của từ khóa trong các lĩnh vực............................................................7 1.5.1. Vai trò từ khóa trong máy tìm kiếm..............................................................7 1.5.1.1. Quảng cáo trên máy tìm kiếm................................................................7 1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm........................................9 1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin..............................10 1.6. Tổng kết chương...............................................................................................12 Chương 2. Các công trình liên quan.........................................................................13 2.1. Các phương pháp trích xuất từ khóa cho văn bản..............................................13 2.1.1. Phương pháp tần số từ................................................................................13 2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản.............................14 2.1.3. Phương pháp sử dụng học máy...................................................................15 2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes...............................16 2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp.16 2.2. Các phương pháp trích xuất từ khóa cho trang web..........................................17 2.2.1. Tần số từ.....................................................................................................17 2.2.2. Kĩ thuật khai phá log...................................................................................17 2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ..................................18 2.3. Gán từ khóa trong văn bản, web (keyword assignment)....................................18 2.4 Tổng kết chương................................................................................................19 Chương 3. Hướng giải quyết và đề xuất mô hình bài toán.....................................20 3.1. Hướng giải quyết...............................................................................................20 3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML........................................20 3.1.2. Sử dụng đồ thị web.....................................................................................23 3.1.2.1. Định nghĩa đồ thị Web.........................................................................23 3.1.2.2. Nội dung của phương pháp..................................................................24 3.1.3. Sử dụng query log.......................................................................................26

ii

............. dữ liệu:......4......................4................................................... Đề xuất mô hình bài toán...........1...............2................................ Môi trường...................................2.............4...3..3........ Công cụ phần mềm..............................................2......................40 4......... Thực nghiệm và đánh giá.......... Mô đun Crawler.........................................27 3...........................................1............................44 Kết luận.......1...........33 3...........36 4..............................3.......................................................................................................... Mô tả chương trình.....1...2..37 4................35 Chương 4.................... Mô đun tổng hợp........ Mô đun sử dụng trọng số thẻ HTML......................... Dữ liệu thử nghiệm..................3......................................................................... Kết quả thực nghiệm:...................1...................30 3..................................................................36 4..................................47 Tài liệu tham khảo................................................................36 4...........................................2........................3......1.............38 4.....................................1...............2.......................27 3....................................29 3................ Mô đun sinh từ khóa .......3.......................... Mô hình toàn hệ thống.....................................2.................2.....27 3.........28 3...................36 4...........................................4.......................... Mô đun sử dụng đồ thị web........3.32 3.......3.........................................2...1....36 4......................3................................................................................ Giới thiệu bài toán thực nghiệm................... Đánh giá kết quả thực nghiệm......................................................... Tổng kết chương........................................................................................2.....3................ Các phương pháp hỗ trợ..2..........48 iii ................. Sử dụng từ điển hỗ trợ.............................................46 Hướng phát triển tiếp theo...................................................................35 3........................1..... Môi trường phần cứng..2.

Bảng các kí hiệu và chữ viết tắt Kí hiệu HTML IR SE SEM SEO TF IDF URL W3C WWW Diễn giải HyperText Markup Language Information Retrieval Search Engine Search Engine Marketing Search Engine Optimization Term Frequency Inverse Document Frequency Uniform Resource Locator World Wide Web Consortium World Wide Web iv .

..... Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ.....................25 Hình 8......Danh mục hình vẽ Hình 1...........10 Hình 4...................................................39 v ............34 Hình 14...............33 Hình 13..............................................................................................................................................................................10 Hình 3... Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress.............17 Hình 6..........................27 Hình 10......... Mô tả đồ thị web.................................................................. Mô hình mô đun sinh từ khóa dựa trên log...................................... Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web..... Top từ khóa của baomoi...... Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML......11 Hình 5............................. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis..........................9 Hình 2........................... Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.....................................31 Hình 11...................................................... Top từ khóa của flickr..........................com.................25 Hình 9.........com............. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa...............................................................24 Hình 7......... Mô hình đề xuất cho toàn hệ thống.................................... Mô hình mô đun tổng hợp từ khóa...38 Hình 16. Thư mục Tiếng_Việt của dmoz................Các liên kết cần lấy về trong các thư mục................35 Hình 15...............com.........................32 Hình 12................... Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm.....com.......

..44 vi .................36 Bảng 5..............37 Bảng 10...............26 Bảng 4............................... Bảng các thẻ HTML quan trọng khác................................... tiếng Anh..........40 Bảng 11.... Các gói của chương trình........................................37 Bảng 7..... Danh sách các phần mềm..............................................................37 Bảng 9... Bảng trọng số các thẻ HTML trongTextNet.............. Ví dụ về các trường trong querylog của MSN....................... Cấu hình phần cứng trong thực nghiệm của bài toán.........................................37 Bảng 8.....................................................21 Bảng 2.........................................Danh mục các bảng biểu Bảng 1......................... Các lớp của gói SELink....22 Bảng 3..................... mã nguồn sử dụng.....Kết quả trích xuất từ khóa của một số trang tiếng Việt.......... Các lớp của gói methods.......... Các lớp của gói general............................ So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử..................36 Bảng 6..............................

. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. flickr. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. các trang có nhiều văn bản web. Còn đối các máy tìm kiếm. Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web.com. các từ khoá để các máy tìm kiếm. việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Một vấn đề quan trọng không kém. Trong đó các trang web cần có những phần giới thiệu tổng quan. các blog như: vietbao. những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao.com . đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp.vn. 1 .MỞ ĐẦU Trong những năm gần đây. cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Rất nhiều các trang web báo khác nhau. theo dõi dễ dàng đối với các trang báo. hay các sản phẩm khác có liên quan.còn gọi tắt là Web . ebay. đa dạng. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều. Đó chính là một trong các động lực để phát triển bài toán trích xuất từ khoá cho trang web. các công cụ khác có thể xác nhận dễ dàng. người xem có thể liên hệ. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. các chương trình khác có thể tiếp cận trang web tốt hơn. đã áp dụng việc sinh từ khóa cho các trang này để người đọc. giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm.. đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web.làm thông tin ngày càng tràn ngập.com. doanh nghiệp. Không những thế. Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML. sự bùng nổ của Internet mà đặc biệt là World Wide Web . thì việc sinh tự động là rất quan trọng. Các máy tìm kiếm chủ yếu vẫn sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù hợp. có sự trùng lặp nhiều. baomoi.

Các ứng dụng của bài toán. khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web”. -Chương 4 “Kết quả thực nghiệm và đánh giá”.Chương 1: Giới thiệu về bài toán. Đưa ra những kết quả đã làm. Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang. Nêu các khái niệm cơ bản về bài toán.Nó vừa đảm bảo thời gian. kết cấu của khoá luận bao gồm các chương sau: . . Với thực tế nêu trên.Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Giới thiệu sơ lược về các phương pháp đã được áp dụng với các bài toán sinh cho văn bản. khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web. đề xuất mô hình có thể thực thi.Chương 2: Các công trình liên quan. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển vọng với độ chính xác khá cao. Với từng loại trang web sẽ có từng loại phương pháp khác nhau. và đánh giá kết quả. nếu kết hợp với các từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác. Những thách thức đặt ra cho bài toán. Ngoài ra. Miêu tả hướng giải quyết của tác giả. . cho trang web. Ngoài phần MỞ ĐẦU và KẾT LUẬN. 2 . công sức vừa có thể tìm ra được những từ khoá mà ngay cả chủ trang web có thể thiếu xót.

Đặt vấn đề Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World Wide Web (WWW) . các từ khóa của trang đó sẽ là những sự gợi ý rất tốt cho người dùng để tìm thấy những thông tin khác liên quan mà họ có thể đang quan tâm. luận văn trước chủ yếu làm trên miền văn bản. Sự đột phá về công nghệ đã cho ra những máy tìm kiếm phần nào đã giải quyết được sự ngập lụt thông tin này. Các từ khóa là các từ.. Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web.. nhiều phương pháp phải cần đến tập huấn luyện. Những bài báo. Bên cạnh đó. Giới thiệu bài toán trích xuất từ khoá cho trang web 1. tôi cũng bổ sung hai phương 3 . và trùng lặp nhiều. cũng như những người quản trị web với chiến dịch quảng bá web của mình (SEO: Search Engine Optimization) .làm cho thông tin ngày càng lớn. báo điện tử. thư viện sách.Chương 1.. đồ thị web. Còn đối với miền trang web thì khá phức tạp. chính xác nhất. khó kiểm soát. và các doanh nghiệp kinh doanh. cụm từ nhằm miêu tả nội dung của trang web. Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìm kiếm. Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiều người trên nhiều lĩnh vực khác nhau. nên nó cũng được sự quan tâm của các doanh nghiệp nhằm dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ khóa[36]. tốn nhiều thời gian. chú ý nhiều trong các hội nghị khoa học . Với mỗi trang web.1. Bài toán trích xuất từ khóa cho trang web là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web. Đó cũng là động lực chính để phát triển bài toán sinh từ khóa cho trang web. Trong nhiều năm qua. văn bản một cách ngắn gọn nhất. tìm ảnh. bài toán trích xuất từ khóa đã được quan tâm.còn gọi tắt là web . mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thông tin khác như các blog. hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng . Vì nhu cầu sử dụng máy tìm kiếm hiện nay là rất lớn. Các từ khóa phải không quá chung chung hay không quá xa lạ đối với người sử dụng. Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính là: độ quan trọng của các thẻ HTML. tìm phim.

with. Số lượng: Tập từ khóa của một trang web. nó phù hợp với từng loại văn bản. Một số đặc điểm. Loại từ: Các từ trong danh sách từ khóa thường là các động từ. ngắn gọn nhất nội dung chính của một tài liệu (văn bản.    1 http://w3c. the. hoặc danh từ. hay tags.pháp hỗ trợ việc tìm từ khóa đó là: khai phá query log của máy tìm kiếm... Trong các tài liệu thì cách viết keywords và tags được sử dụng nhiều nhất. Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm. Các danh từ riêng được coi trọng hơn các danh từ thường. query term.. about. hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web đó. Các từ khóa của các trang web đa số được sinh thủ công bởi người quản trị web. term. từ khóa được thể hiện dưới nhiều thuật ngữ khác nhau như: keywords. nhưng ý nghĩa của chúng là giống nhau . có thể các từ có thể được viết tắt cũng cần xem xét. sẽ . Hiện nay. on ... tập các từ. Khái niệm và các đặc trưng của từ khóa Từ khóa là một từ hay một cụm từ dùng để mô tả một cách chính xác. các trang web chuẩn theo W3C1 (World Wide Web Consortium) đều có chứa những từ khóa của trang trong thẻ <meta> với thuộc tính “keywords”.. Trong tiếng Anh. trang web khác nhau. văn bản là một danh sách các từ khóa khác nhau. hay các trang web) . tập từ điển hỗ trợ. Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay các thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho trang web này một cách tự động. trong tiếng Việt. tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa:  Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được sinh ra. nhận dạng. và 15-20 cho các bài báo. Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang web đó. Bài toán trích xuất từ khóa của tài liệu tiếng Việt và tiếng Anh là một trong những bài toán cấp thiết trong nghiên cứu xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày. Tập các từ khóa có thể coi như là một bản tóm tắt đơn giản nhất của văn bản. an . Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề văn bản.com 4 . Thông thường là 5-10 từ khóa cho trang web. 1.2. Tuy nhiên. Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a . cùng. tới. trong tiếng Anh và các từ : là .

Nhưng thường thì họ sai. Ví dụ. Soạn ra một danh sách các từ khoá thì không nên bắt buộc phải là một quá trình nội bộ. đôi khi còn không tưởng tượng được hầu hết các khách không nói cùng một ngôn ngữ với họ. lúc này là lúc đánh giá từng cụm từ để chọn ra trong danh sách đến những từ khoá mà sẽ mang lại cho trang web lượng người vào trang web cao. Đánh giá các từ khóa Thường thì các công ty. c. Nhưng nếu doanh nghiệp chỉ kinh doanh trong lĩnh vực bảo hiểm ô tô ( auto insurance).1. người quản trị trang web đều chắc chắn rằng họ đã biết từ khoá lý tưởng nhất. Chúng cũng có tính đặc trưng riêng. Rõ ràng là con số nào cao hơn thì dự kiến sẽ có người vào cao hơn. Hướng người sử dụng Nhân tố này dựa vào cách nghĩ của số đông người dùng. nhưng cụm từ khoá “insurance companies” sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ. Nguyên nhân là do không dễ dàng tách một cá nhân ra khỏi một công ty và nhìn nhận với tư cách là một khách hàng tiềm năng. vì nó liên hệ mật thiết đến công ty.4. Một khi đã có được một danh sách từ khóa hoàn hảo. Tính đặc trưng Khái niệm này trừu tượng hơn là con số thể hiện tính phổ biến nhưng lại quan trọng không kém. bảo hiểm sức khoẻ và bảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện. Hai từ khoá này có tính phổ biến tương tự nhau. Mặc dù từ khoá “insurance companies” có tính phổ biến cao hơn từ khoá “auto insurance”. Tính phổ biến Cho đến nay cách dễ nhất để đánh giá đó là tính phổ biến. 1. Mọi người thường rất ngạc nhiên về những từ khoá được gợi ý. Thách thức của bài toán sinh từ khóa cho trang web Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa cho các văn bản hay các bài toán kiểu tóm tắt văn bản. nhưng một số khía cạnh cần phải có cho các từ khóa: a. Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn. giả dụ một đại lý bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là "Atlanta real estate listings" và “Atlanta real estate agents”. Ví dụ. Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấy từ thứ hai sẽ tối ưu hơn. Một lợi điểm trong các văn bản là 5 . Vậy thì từ nào thì tốt hơn.3. giả dụ rằng có thể đạt được thứ hạng cao trên SE nhờ cụm từ khoá “insurance companies”. Mặc dù rất nhiều cá nhân đều đánh giá các cụm từ khoá dựa trên số đông. b. Các phần mềm như WordTracker đưa ra các con số phổ biến của cụm từ được tìm kiếm dựa vào hoạt động thực tế của SE .

Với những bài viết quá dài thì thời gian chạy cũng khá lâu. những thách thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên các trang là lớn.4.. ít nhiễu. một bài văn. Đối với các trang có nội dung tổng hợp Hiện nay. Ngôn ngữ HTML là một ngôn ngữ có cấu trúc chặt chẽ theo chuẩn của W3C. web portal cung cấp các thông tin dịch vụ khác như báo tin tức. Một trang web portal là một trang đưa ra những thông tin ở nhiều nguồn khác nhau theo một cách thống nhất. thông tin ngày càng được cập nhật thường xuyên trong mỗi trang web.3. Nhu cầu tổng hợp tin tức là rất cần thiết. Nói khác đi. chưa kể đến những lỗi trong việc mã hóa HTML trên trang web. yahoo.4. lấy được những thông tin trong trang web thì chúng ta cần các trang có mã HTML theo chuẩn..Nói chung. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng như tần số từ. iGoogle. Trong khi đó đối với các trang web nó là tổng hợp của nhiều thông tin trên một trang web. Các vấn đề khác Ngày nay. với các luật như thẻ mở. chứng khoán. Cần có những phương pháp khác để có thể sinh từ khóa cho loại trang này. 1. xác định sai 6 . Vì vậy việc kiểm soát nội dung cũng đã khó. thông tin liên quan. vị trí từ trong các đoạn văn. bài viết hướng dẫn. nhưng những lỗi như vậy làm cho các chương trình xử lý của chúng ta gặp vấn đề về việc phân tích cú pháp.do văn bản chỉ thuần nói về một đề tài hay một chủ đề xác định. việc lọc nhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc trích xuất từ khóa.4. Vì vậy. Các trang web luôn muốn những thông tin cập nhật sẽ được hiển thị trên trang đầu khi mà người dùng tới trang của họ. độ tương đồng từ.. Các trang web portal cũng tương tự [35]. Những trang đầu này còn gọi là các trang chủ. 1. số lượng các trang web trên Internet là rất nhiều. Để có thể phân tích. 1.1.Các trang có nội dung tập trung như bài báo điện tử. MSN. và trong khóa luận này tôi áp dụng phương pháp dùng đồ thị Web và log hỗ trợ. Đối với các trang có nội dung tập trung Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dung cụ thể về một vấn đề. khi loại bỏ các phần thông tin ngoài thì phần còn lại như một văn bản. có nhiều thông tin không liên quan như: quảng cáo. Tuy các trình duyệt có thể bỏ qua các lỗi HTML để thể hiện thị. Nếu áp dụng việc trích xuất từ khóa áp dụng đối với nội dung trong các trang web này sẽ dẫn đến kết quả không chính xác.2. giải trí. đóng. Ngoài thỏa mãn là một công cụ tìm kiếm. nội dung của nhiều trang là không tập trung. Ví dụ về các web portal như: AOL.. thực đơn. hay thẻ đơn..

và nảy sinh ra trường hợp cạnh tranh những từ khoá chung. Các doanh nghiệp này cần đăng kí các từ khoá này với các máy tìm kiếm để có thể quảng cáo trang web của mình. cho nên khi trỏ đến các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang web thực mà lại là mã HTML của các trang cung cấp tên miền. 7 . Vai trò từ khóa trong máy tìm kiếm 1. các người quản trị web muốn quảng bá trang web của mình. Một số trang web có sử dụng các tên miền miễn phí như : www.. và có phần nở rộ hơn trong những năm gần đây.tk . nhưng nó vẫn có tầm quan trọng và nói lên được cái ẩn.... nó vừa có hiệu quả. Quảng cáo trên máy tìm kiếm Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tin trên mạng. Các nhà doanh nghiệp.1. cho nên những từ khoá này thường rất đắt. Trong quá khứ. máy tìm kiếm là một công cụ không thể thiếu cho những người dùng web hiện nay.1. Do việc tìm kiếm trên máy tìm kiếm chủ yếu dựa trên từ khoá cho nên việc tìm ra những từ khoá đại diện cho các trang web để quảng cáo là một trong những nhiệm vụ hàng đầu của các doanh nghiệp.các đoạn văn trong trang web. có rất nhiều doanh nghiệp khác cũng muốn quảng cáo sản phẩm. ít cạnh tranh nhưng vẫn đảm bảo tính chất phổ biến. www. nên một số từ khi xuất hiện một mình sẽ không có ý nghĩa. Ngoài các lỗi về cấu trúc của HTML. viết sai.cc .5.5..1. Có một chiến lược khác bằng cách trả giá cho những từ khoá khác liên quan cho ít kết quả hơn khi máy tìm kiếm trả về. và lượng lớn người dùng sử dụng nó cho nên quảng cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu quả. lại vừa có giá đầu tư cho từ khóa là rẻ. những nhà quảng cáo thích đặt giá cho những từ khoá mà nó có xu hướng sinh ra số lượng lớn kết quả trả về. nhất là đối với tiếng Việt. Chính vì sự phổ biến..co. nội dung mà người quảng cáo muốn hướng tới. Do đó. Ứng dụng của từ khóa trong các lĩnh vực 1. Do đó. 1. cần phải có một bộ tách từ tốt.. ngay trong nội dung văn bản của các trang web cũng có những lỗi như: viết tiếng Việt không dấu. quản trị của các trang web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trên máy tìm kiếm một cách hiệu quả nhất. Tuy nhiên.5. Vì vậy. nhưng nổi trội của doanh nghiệp quảng cáo. Do tiếng Việt và Tiếng Anh có những cụm từ.dot.

8 . Với các trang web hiển thị ở phần này. Đối với mỗi từ khoá. một phần là kết quả trả về chính xác mà máy tìm kiếm tìm thấy trong hệ thống các trang web đã crawl về.). Một trường hợp tự nhiên đó là hiện nay có nhiều doanh nghiệp với nhiều mặt hàng là giống nhau. Các cỗ máy tìm kiếm thường thu thập một lượng thông tin khổng lồ về các sở thích và hành vi của người sử dụng trong quá trình vận hành của chúng.Cách thứ 2 được áp dụng phổ biến hơn. .Tìm kiếm có tài trợ hay Marketing trên máy tìm kiếm(SEM) là một cách thức quảng cáo khá phổ biến trên web hiện nay. máy tìm kiếm sẽ có quá trình đấu giá cho từ khoá. nó cũng chính là thu nhập chính của các máy tìm kiếm. Các từ khoá sẽ làm nhiệm vụ quan trọng là gợi ý ra những tài liệu liên quan và những tài liệu liên quan này cũng có từ khoá đó. Cách làm này thường bị nói là không công bằng khi máy tìm kiểm cố tình cho các kết quả có tài trợ được thứ hạng cao. Do đó. Nguồn thu từ quảng cáo trực tuyến của các máy tìm kiếm rất lớn. và các doanh nghiệp đều muốn sở hữu từ khoá đó vì những từ khoá đó là phổ biến và quan trọng.Cách thứ 1 là khách hàng trả tiền cho những từ khoá để đảm bảo rằng trang web của họ nằm ở thứ hạng cao trong danh sách trả về của máy tìm kiếm (pay for placement. Khi quảng cáo trên máy tìm kiếm. Google thu về 3 tỉ Đô la Mỹ từ quảng cáo . Có nghĩa là các quảng cáo sẽ phải trả tiền cho máy tìm kiếm khi người dùng search trong máy tìm kiếm và click vào quảng cáo. bên cạnh việc hỗ trợ cho việc nâng cấp các máy tìm kiếm để trả về kết quả phù hợp hơn. Cách này cũng ít được áp dụng do các máy tìm kiếm cần đảm bảo được sự công bằng của chính thuật toán của máy tìm kiếm trả về. các máy tìm kiếm áp dụng chiến lược trả tiền khi người dùng click. các từ khoá có thể sẽ trùng nhau. Những công ty mua các thông tin này có thể sử dụng chúng để biết được những sản phẩm người tiêu dùng đang quan tâm hoặc tiên đoán nhu cầu của người tiêu dùng trong tương lai. và đều muốn cạnh tranh với nhau. một phần là phần dành cho các trang web có tài trợ. Ví dụ năm 2004. doanh nghiệp nào trả giá cho từ khoá cao hơn sẽ được đứng ở vị trí đầu. Những thông tin này. Các máy tìm kiểm chia trang tìm kiếm trả về làm 2 phần như hình Hình 1. Có hai cách quảng cáo trực tiếp trên máy tìm kiếm: . còn có thể được bán cho các công ty khác.

9 . Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 1. những từ khóa không được rộng quá hoặc chung quá. Tìm ra được những từ khóa đặc biệt đáp ứng được đòi hỏi trên sẽ giúp cho trang web đạt được thứ hạng cao trong danh sách tìm kiếm và có thêm nhiều người dùng truy cập vào. Những từ khóa nào là những từ khóa đúng cho một trang web? Chìa khóa ở đây là phải chọn ra những từ khóa phổ thông. Một trong những các phương pháp trong quá trình SEO là việc tìm từ khóa cho các trang web. • • • Sử dụng những mệnh đề từ khóa gồm có hai tới bốn từ. Bước đầu tiên trong việc chọn đúng những từ khóa là phải làm cho chúng trở nên đặc biệt [36].2. là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm.Hình 1. Tránh những từ khóa quá cạnh tranh với các trang web nổi tiếng khác. hay SEO (viết tắt của search engine optimization). Đặc biệt (càng đặc biệt càng tốt nhưng không nên quá xa lạ đối với người dùng). cụm từ mà những người truy cập nhập vào trong những cỗ máy tìm kiếm để tìm thấy thông tin từ những trang web. Từ khóa là những từ. Điều quan trọng hàng đầu của các người quản trị web là các trang web của họ có được những cỗ máy tìm kiếm tốt xếp hạng những từ khóa phổ biến liên quan đến đề tài của trang web của họ không. Những từ khóa đúng quan trọng với thành công của những hoạt động SEO của những người quản trị web. Hơn nữa. nhưng không được quá chung chung để tránh nhận phải hàng triệu kết quả tìm kiếm.5. Sẽ không phải là giải pháp tốt khi tối ưu hóa những trang Web cho những từ khóa mà không ai sử dụng trong những cỗ máy tìm kiếm. Hoạt động quảng bá web trong máy tìm kiếm Tối ưu hóa công cụ tìm kiếm. để có thêm những người dùng quan tâm đến trang web.1.

com Hình 3. Top từ khóa của flickr. Ví dụ như trong Hình 2. Thật là không thực tế để tin rằng một trang web mới có thể xếp hạng số một trên một mệnh đề đại chúng.3. Rõ ràng. và giảm thời gian để tìm kiếm cho thông tin giống với nội dung trang đang xem. Những từ đơn không thể được quảng bá có hiệu quả. Tránh những mệnh đề từ khóa đại chúng nhất bởi vì rất dễ phải đua tranh với hàng triệu trang web khác cho một sự chú ý của cỗ máy tìm kiếm. Nó còn giúp việc liên kết mỗi tài liệu liên quan đến nhau (cross-link) một cách linh động. Tuy nhiên. họ có thể khám 10 . Top từ khóa của baomoi. những từ khóa của người dùng nhiều lúc lại không giống như những từ khóa mà người quản trị web nghĩ. Chẳng hạn.5. cần phải chọn được những từ khóa đúng.Để một chiến dịch tiếp thị trực tuyến thành công. ví dụ “Mp3” hay “báo điện tử”. Hình 3 là những từ khoá hàng đầu của 2 trang baomoi. Vai trò từ khóa trong các trang web tổng hợp thông tin Một động lực khác để phát triển bài toán trích xuất từ khoá cho trang web đó là từ khoá giúp phân loại các văn bản theo định nghĩa của người dùng dưới dạng chủ đề cho phép dễ dàng truy câp và tìm thông tin trên đó.com (tiếng Việt) và Flickr(tiếng Anh). 1.com Tại một thời điểm nào đó. xem nhiều những trang mà có chung những từ khoá. phù hợp. nếu người dùng truy cập. Những từ khóa sử dụng cần phải thích hợp với trang web đó và những người truy cập cần phải đang tìm kiếm những từ khóa đó. các công ty được thành lập và tham gia vào internet vài năm sẽ có lợi thế lớn nhờ tính phổ biến. vì vậy top từ khoá sẽ nói lên được xu thế của người dùng. Đa số mọi người sử dụng hai tới bốn từ hoặc mệnh đề trong một sự tìm kiếm. Những từ khóa hay được người dùng sử dụng chính là những chủ đề mà người dùng hiện tại đang quan tâm. Và khi người khác truy cập vào trang web. ít có người tìm kiếm “free download software” mà chỉ nhập vào có mỗi từ “soft”. Hình 2. vì vậy những mệnh đề rất có hiệu quả.

Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi. Trong khi người dùng đọc. theo chủ đề xác định. có từ khóa chính là tên của thư mục đó. người đọc quan tâm đến buổi duyệt binh của nước Nga vào ngày 9/5. những từ khoá liên quan sẽ được gợi ý cho người dùng qua nội dung bài viết hiện tại. Do đó. Và từ khoá là một trong những giải pháp khá hiệu quả và thành công. đọc. Một trang web có nhiều từ khóa. duyệt binh. như người dùng có thể xem các bài viết liên quan đến phát xít. Nga. 11 . “những điều gì họ sẽ quan tâm tiếp theo ?” là một câu hỏi được nhiều nhà quản trị các trang web tổng hợp thông tin hướng tới nhằm thoả mãn nhu cầu tối đa của người dùng. Mỗi một trang web người dùng khi đọc sẽ hiện ra những từ khoá liên quan đến bài viết đó. Hình 4. làm cho việc lưu trữ trở nên có cấu trúc hơn. cho nên một trang web có thể thuộc nhiều thư mục khác nhau. Với những từ khoá này. hồng quân. tổng thống Nga. xem các trang web. hiệu quả hơn. Ví dụ như trong Hình 4.. Những từ khoá này nói lên phần nào được nội dung trang web mà người dùng đang đọc. người dùng có thể tìm những bài liên quan đến trang họ đang đọc qua các từ khoá. một từ khóa như là một thư mục chứa các trang web liên quan. nên nó có tác dụng làm cho việc tìm kiếm nhanh hơn.. Những từ khóa này giúp cho người dùng nắm bắt thông tin mới theo cách khái quát.com Ngoài các ứng dụng hướng đến sự quan tâm người dùng. Chính sự tự nhiên này của các từ khóa. thủ tướng Nga. xem những trang được coi là mới nhất hiện nay.. các từ khoá còn có một ứng dụng khác trong việc phân cụm các trang web theo chính các từ khóa. Mỗi trang web có một tập các từ khóa riêng.phá. các từ khóa này có thể trùng với các từ khóa của các trang web khác.

người dùng có thể tìm những bài viết liên quan đến từ Windows. chúng ta cũng thấy được tầm quan trọng của việc sinh từ khóa trên các lĩnh vực khác nhau. Chương II. lập trình. Và qua đây. 1. và bài toán trích xuất từ khóa cho trang web. Với các tag. Một trong các hình thức của mạng xã hội là blog. hay những bài viết chia sẻ kiến thức. …Người đọc có thể sẽ tìm thấy những thông tin mà họ thích. Các blogger ưa thích việc dùng tag để biểu diễn ngắn gọn cho chủ đề một bài viết của họ. Những người viết blog có rất nhiều bài viết khác nhau nhưng nhiều bài viết vẫn ở chung một chủ đề. Ví dụ: khi đọc một bài trong blog về vấn đề máy tính. Tổng kết chương Chương này tôi đã trình bày những khái niệm của từ khóa. hoặc những bài viết về các vấn đề trong xã hội được quan tâm. Blog là nơi để mọi người viết nhật kí.Mạng xã hội cũng đang phát triển rất nhanh. Các từ khóa cũng là một trong các phương thức để mọi người khám phá trang web đó. 12 .6. Tag ở đây cũng được coi là từ khóa. khóa luận xin trình bày một số công trình khoa học có liên quan đến bài toán này. thách thức của nó trong các tài liệu web. người đọc blog sẽ theo dõi được những thông tin liên quan trong các bài viết trong blog một cách nhanh chóng. thu hút được nhiều sự quan tâm của giới trẻ. Và các tag này đều do người viết đặt.

b] với a là cận dưới. Tuy nhiên. Các từ phổ biến này được chọn lựa theo cách sắp xếp từ cao đến thấp theo tần số xuất hiện. Phương pháp tần số từ Phương pháp tần suất xuất hiện của từ được giới thiệu bởi Luhn vào năm 1958.1. phương pháp được áp dụng khá đa dạng đối với văn bản như : sử dụng tần số (tfxidf). ví trí tương đối của từ có nghĩa trong phạm vi một câu cũng là độ đo hữu ích về mặt ý nghĩa của từ. Chúng ta có thể tạo lập ngưỡng cho các từ khóa. trang web bằng cách áp dụng các phương pháp khác nhau dựa trên các đặc điểm của văn bản. Các từ dừng cũng có thể được loại bỏ hiệu quả nhờ một tập từ điển từ dừng. Các lý thuyết. Phương pháp này xem xét rằng các từ mà xuất hiện nhiều lần thì sẽ mang tính phổ biến của bài viết. độ tương đồng từ khóa. miền áp dụng của bài toán tóm tắt văn bản là trên các văn bản thông thường.Chương 2. Mà đặc biệt với bài toán tóm tắt văn bản là một trong những bài toán gần giống với bài toán này. hoặc quá thấp cũng không quan trọng. việc tính toán tần số của từ sẽ dẫn đến việc các từ có tần số quá cao như các từ dừng.1. b là cận trên..1. nói lên phần nào nội dung của nó.. Do đó. theo phương pháp này. học máy naïve bayes. Tuy nhiên. Một cách tự nhiên thì những từ mà có tần số quá cao. Sau đây là phần giới thiệu một số phương pháp. cơ sở của phương pháp bị hạn chế do khả năng của máy tính không thể biểu hiện được các thông tin về mặt ngữ nghĩa. co-occurrence. 13 . các kĩ thuật khác trong bài toán tóm tắt văn bản. web. Tuy nhiên. 2. Thêm vào đó. Các công trình liên quan 2. có nghĩa là tạo ngưỡng không những cho những từ khóa tần số thấp mà còn cho những từ có tần số quá cao. thì các dạng khác nhau của từ sẽ được coi như là một từ. Đã có các nghiên cứu khác nhau về bài toán trích xuất từ khoá một cách tự động. Các phương pháp trích xuất từ khóa cho văn bản Trích xuất từ khoá cho trang web là một bài toán được cụ thể hóa một phần từ bài toán trích xuất thông tin (IR: Information Retrieval). Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán trích xuất từ khóa cho văn bản. Phương pháp này dựa trên giả thiết: tần số của từ xuất hiện trong các bài báo là một độ đo hữu ích về nghĩa của từ. ngưỡng được chấp nhận sẽ nằm trong khoảng [a. Mục tiêu của bài toán trích xuất từ khóa là tìm ra những từ khoá miêu tả được nội dung của văn bản. cây quyết định.

Vì vậy. dựa vào phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý.Để tính tần số của từ quan trọng. quảng cáo. phương pháp tần số từ tính phân phối của mỗi từ trong tài liệu (tf) và phân phối của từ ở trong corpus (idf . Hoặc những cụm từ khác như “ví dụ” chỉ ra phần không quan trọng của văn bản.. có thể áp dụng phương pháp này bằng cách từ địa chỉ trang web cần lấy từ khóa.1. ví trị của câu trong văn bản. nhưng lại xuất hiện nhiều lần ở các trang. Tuy nhiên. “Tóm lại”. tiêu đề của văn bản. các từ xuất hiện trong các mục này lại có tần số xuất hiện cao. Vì vậy. Tiêu đề của văn bản Người viết khi viết về văn bản của mình thì phải luôn chú trọng đến nội dung. Việc tính toán từ khóa cho mỗi tài liệu web sẽ được tính theo công thức trên dựa vào những đoạn text hiển thị trích ra từ các trang web đó.. Lần theo các liên kết trong trang hạt giống này (seed page) để lấy về các trang web khác và phải thuộc cùng domain. Đối với trang web. từ khóa. cũng như cách thể hiện tiêu đề sao cho người đọc chỉ cần nhìn qua vào tiêu đề có thể hiểu được nội dung của toàn bộ văn bản. Dưới đây là cơ sở của phương pháp: a. thường là phần quan trọng của văn bản. Phương pháp tìm từ khóa cũng sẽ dùng các đặc điểm của văn bản để tìm ra những từ khóa. Ví dụ với các từ “Trong bài báo này”. b.. Cụm từ gợi ý trong văn bản Thông thường các cụm từ gợi ý là liên quan hoặc không liên quan tới các câu quan trọng.2.. Những từ nào có trọng số cao thì được chọn. Phương pháp sử dụng các thông tin khác trong văn bản Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phần trong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson . tiêu đề là có độ quan trọng rất cao NUMDOC ) NUMDOC (keyword ) 14 . 2. Tập các trang web này tạo nên một tập corpus.inverted document) idf(keyword) = log( Trong đó : NUMDOC: số tài liệu trong tập corpus NUMDOC(keyword) : chính là số tài liệu mà có từ keyword xuất hiện. và thường vào các từ khóa. các cụm từ khóa được tìm thấy và được gán trọng số. do trang web có nhiều những từ được hiển thị trong một trang không có ý nghĩa như : thực đơn. Nếu tf(keyword) x idf(keyword) vượt một ngưỡng xác định.

Một mục từ.3.trong văn bản. β . Còn đây chỉ là áp dụng trong nội tại của một văn bản. Vị trí của các từ khóa trong văn bản Thông thường những từ mà được xuất hiện trong những đoạn đầu tiên trong văn bản thường có độ quan trọng cao hơn các từ mà đứng giữa hay cuối. hoặc tập các đoạn văn khác nhau. Phương pháp sử dụng học máy KEA và GenEX là hai trình ứng dụng đưa ra một số giải pháp về bài toán trích xuất từ khóa (keyword extraction). Có thể áp dụng phương pháp này trong văn bản web mà đặc biệt là phần văn bản trong thẻ <title> của nguồn HTML của trang web. các từ có nghĩa tương tự. có thể chọn các từ khóa mà sao cho nó xuất hiện nhiều ở phần mở đầu.Frequent ( K ) Các tham số α . Tần số từ trong văn bản Các từ xuất hiện thường xuyên trong văn bản có xu hướng chỉ ra chủ đề của văn bản đó. Việc bám sát vào các câu của tiêu đề văn bản sẽ cho việc tìm nội dung của văn bản. hay những từ lặp lại nhiều trong văn bản trùng với các từ trong tiêu đề thì đều quan trọng. Trong khi GenEX dùng giải thuật di truyền thì KEA dùng luật quyết định dựa trên phân lớp Naive Bayes (Naïve Bayes decision rule) trên 2 thuộc tính đó là TFxIDF và khoảng cách của từ đến đoạn đầu của văn bản. hay trang web sẽ trở nên chính xác hơn. γ .1. cụm từ xuất hiện trong văn bản nhiều hơn một ngưỡng nào đó thì được coi là từ quan trọng. c. Tuy nhiên. một số bài lại có cấu trúc dạng: phần giới thiệu. Mức độ quan trọng của các từ. cụm từ tính toán trên cơ sở tần số xuất hiện của chúng trong văn bản. áp dụng từ điển WordNet và bài toán phân lớp để giải quyết bài toán sinh từ khóa này. Các từ ở phần giới thiệu và phần tóm lại nếu xuất hiện nhiều trong văn bản đều khá quan trọng d. Từ những cơ sở trên ta có thể tính được trọng số của một từ khóa bằng tổ hợp tuyến tính các trọng số nhận được từ các phương pháp trích rút ở trên: weight(K) = α . phần chính. Các câu tiêu đề có thể được coi như là phần tóm tắt ngắn gọn của văn bản.Title( K ) +β . 15 . Do vậy. Điểm khác của kĩ thuật tần số này so với tần số bên trên là : tần số từ bên trên xét về một tập các bài.Position( K ) + δ . δ sẽ được điều chỉnh phù hợp bằng cách thử nghiệm với các dữ liệu khác nhau. Đã có các bài báo nghiên cứu tóm tắt văn bản dựa vào độ tương đồng câu dùng câu tiêu đề làm câu mẫu để các câu khác so sánh . nhất là đối với những bài viết dài. tóm lại. Một phương pháp khác áp dụng dựa trên chuỗi từ vựng (lexical chain). 2.Cue( K ) + γ .

chuỗi từ vựng sẽ chỉ ra được đâu là động từ. Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy.2..2..Công việc khó khăn nhất đó chính là xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet.. Naïve Bayes dựa trên xác suất của các từ để quyết định xem từ đó có thỏa mãn ngưỡng là một từ khóa không. vị trí xuất hiện cuối cùng. là (is a). tab. Phương pháp này có sử dụng các quan hệ ngữ nghĩa nhằm nâng cao chất lượng các từ khóa liên quan. trái nghĩa. mô hình này cũng sử dụng tập huấn luyện để học cách sao để nhận ra một từ là từ khóa hay không. Với các quan hệ ngữ nghĩa này.. Ilyas Cicekli đã trình bày cách tiếp cận bài toán theo hướng sử dụng từ điển ngữ nghĩa WordNet kết hợp phân lớp cây quyết định để có thể nhận dạng chính xác từ khóa. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes Trong bài báo Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào bài toán này... Để xây dựng được một mô hình phân lớp để nhận biết được đâu là từ khóa.. Nhiều câu phức tạp sẽ sinh ra trường hợp nhầm ngữ nghĩa. tìm ra các từ khóa từ những văn bản mới đưa vào.1. Dựa vào những thông tin đã nhận được từ quá trình học để nhận biết. trái nghĩa. trạng từ và các quan hệ đồng nghĩa.1. Sau khi có được các chuỗi ngữ nghĩa của văn bản cần sinh từ khóa. Tác giả chọn thuật toán cây quyết định C4. văn bản đưa vào. Do sử dụng IDF nên các tập dữ liệu phải trong cùng một chủ đề. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp Trong bài báo năm 2007 Gonenc Ercan. 2. dấu chấm.1. tần số xuất hiện. Tính chỉ số TFxIDF cho các token. Như các mô hình học máy khác. và một thuộc tính lấy từ chuỗi từ vựng đã sinh 16 . các từ đồng nghĩa. phẩy. Trong một câu.5 với các thuộc tính là : vị trí xuất hiện đầu tiên. tác giả xây dựng mô hình để sinh ra chuỗi từ vựng (lexical chain) toàn bộ văn bản tạo thành một chuỗi từ vựng có cấu tạo giống với WordNet. Trước hết. vị trí của từ trong văn bản.. văn bản cần được được tách ra thành các token sử dụng các kí hiệu như: dấu cách. Trích xuất Chuỗi từ vựng là việc đưa ra các quan hệ ngữ nghĩa của câu. Tác giả đã sử dụng các thuộc tính gồm: tần số xuất hiện. Có các từ ở trong văn bản và mục đích là nhận ra một từ có phải thuộc lớp từ khóa( keywords) hay là một từ thông thường(ordinary words).3.3. WordNet được chọn vì từ điển tiếng Anh này có đầy đủ các thông tin về các từ trong tiếng Anh như: danh từ.. xuống dòng. Những chữ không là alpha-beta bị loại bỏ. có (has a). danh từ.

Việc lấy ra nội dung của văn bản trong các trang web là đơn giản. Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison.2. với đầu vào là từ khoá ban đầu.2.com 2. Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồng nghĩa :10.1. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis. Tần số từ Phương pháp tần số từ trong văn bản có thể được áp dụng trên các trang web. LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn và cụm từ khoá bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web.ra từ văn bản. Các phương pháp trích xuất từ khóa cho trang web 2. quan hệ has a: 4. tính tần số của nó trên chính trang đó. cho nên nhiều trang web cho không chính xác. Kĩ thuật khai phá log Các máy tìm kiếm sử dụng kĩ thuật khai phá log để có thể tìm ra những từ khoá khác nhau cho trang web . Đó là một lợi điểm của các máy tìm kiếm.2. Phương pháp tìm từ khóa trang web này chỉ dừng lại ở việc tìm từ khóa đơn và kép.com 17 . cụm từ áp dụng kĩ thuật n-gram. quan hệ is a: 7. Những hoạt động trước của người dùng được ghi lại sẽ cho ta hiểu cách nghĩ của người dùng đối với các trang web. 2. Google’s Adword Tool là một ví dụ về việc dùng log để đưa ra những từ khóa gợi ý. Yahoo’s 2 http://seokeywordanalysis. thống kê tần số xuất hiện của các từ. Và phương pháp phân tích nội dung này. Họ cố gắng tìm ra mối quan hệ giữa các từ khóa đã được người dùng tìm dựa vào một tập các từ khoá ban đầu.2. Hình 5.

Bước 5: Thống kê lại các từ khóa nhờ vào tần số xuất hiện trong từ điển. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ Bài báo sử dụng chính máy tìm kiếm. Kĩ thuật này nhằm tìm từ khóa cho một trang chủ. Proximity Search là cách dựa vào máy tìm kiếm. Lưu trữ dưới dạng một tập từ điển ban đầu (lấy trong các ngưỡng xác định. so sánh độ tương đồng ngữ nghĩa của từ tìm kiếm và các từ khóa này.) Bước 3: Với mỗi từ khóa trong bộ từ điển từ khóa. Quy trình của phương pháp này có thể được miêu tả như sau: Bước 1: Tải về toàn bộ các trang thuộc cùng domain với trang này(có thể phải giới hạn số trang lấy về) Bước 2: Trích xuất các từ khóa cho các trang web này dựa vào độ đo (tf x idf). Gán từ khóa trong văn bản. Nếu thỏa mãn các ngưỡng về độ tương đồng. Phương pháp đã được dùng trong thương mại đó là việc áp dụng dựa vào tìm kiếm lân cận (proximity search) để sinh từ khóa. portal. loại bỏ từ dừng. Việc so sánh ngữ nghĩa của các từ khóa tốt là thành công cho phương pháp này. tìm kiếm những trang web liên quan nhờ các máy tìm kiếm. nhưng chi phí cho nó là rất nhiều. 2. và nó phù hợp cho các trang mà độ nhiễu trong các trang khác nhau là không quá lớn. Tuy nhiên những từ khóa gợi ý sẽ là những từ khóa xuất hiện nhiều trong log. thường có độ phổ biến cao và quan trọng do đó từ khóa này sẽ có giá cao.3.. cùng độ tương đồng từ để áp dụng cho bài toán tìm từ khóa cho trang web.2. với một query đầu vào gọi là từ khoá hạt giống (seed keyword) và tìm ra được những từ khoá từ những trang liên quan trả về từ máy tìm kiếm.Keyword Selection Tool cũng tương tự khi sử dụng tần số xuất hiện của những từ khoá liên quan tới từ khoá của người dùng yêu cầu. web (keyword assignment) Các phương pháp nêu trên là các phương pháp dùng để trích xuất từ khóa (keyword extraction) . Kết quả của phương pháp này khá là hiệu quả và tốt. Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về. Chỉ lấy các trang đầu trả về của máy tìm kiếm.3.. tần số xuất hiện thì thêm vào từ điển những từ khóa này. Trong khi đó có một phương pháp cũng đã được sử dụng nhiều 18 . Một phương pháp mới hơn được Bart đễ xuất dựa trên việc lọc liên hợp (collaborative filtering) sử dụng mối quan hệ của query và các url click vào trong log . 2. sinh từ khóa cho các trang web này dựa vào tần số xuất hiện của từ.

hay lộn xộn về mặt từ vựng. để có thể khớp một cách chính xác nhất. Dùng các kĩ thuật tách từ. ta lấy ra những đoạn text trong trang web đó. xây dựng mô hình. web với các từ thuộc bộ từ điển có sẵn. và có thể áp dụng trong nhiều bài toán khác nữa. 19 . Việc gán từ khóa chỉ là việc khớp các từ trong văn bản. các bản tóm tắt. n-gram để khớp các từ khóa với các từ trong bộ từ điển có sẵn. tôi xin trình bày về hướng giải quyết bài toán sinh từ khóa trên các trang web. Các từ được khớp chính là các từ trong từ điển nên chúng sẽ không bị sai về mặt ngữ pháp. Từ những trang cần sinh từ khóa. 2. và cả văn bản đó là phương pháp gán từ khóa. Giải pháp này được áp dụng nhiều trong các trang báo điện tử.trong trang web. Các phương pháp này hiệu quả đối với một số miền.4 Tổng kết chương Chương này đã giới thiệu những phương pháp cơ bản để giải quyết bài toán trích xuất từ khóa trong văn bản cũng như đối với Web. Trong chương tiếp.

Bên cạnh hai phương pháp trên. Còn các phương pháp áp dụng học máy.1. độ tương đồng từ. thì nó chỉ phù hợp cho việc gán từ khóa cho các văn bản ngắn.Chương 3. ghi lại các giao dịch của người dùng trong nhiều năm. Không những chỉ có văn bản thông thường được hiển thị. Dưới đây là hai hướng tiếp cận chính của tôi trong khóa luận đó là: sử dụng độ quan trọng của các thẻ trong HTML và đồ thị web. Hai hướng này là chủ đạo có thể áp dụng với các loại trang web tiếng Việt và tiếng Anh. 3. Vì vậy. Với ngôn ngữ HTML. nghĩa là các chỉ thị cho 20 . web còn chứa đựng trong nó nhiều các đặc trưng khác mà rất quan trọng cho bài toán sinh từ khóa. Hướng giải quyết và đề xuất mô hình bài toán 3. các web portal. việc tìm kiếm trong log sẽ rất hữu hiệu cho các doanh nghiệp tìm ra các từ khóa hướng người sử dụng. Tuy nhiên.1.1. các phương pháp này chỉ hiệu quả với các trang Web tiếng Anh. Một thách thức khác đặt ra với tiếng Việt chính là việc tách các cụm từ. HTML bây giờ đã trở thành chuẩn của tổ chức World Wide Wed Consortium (W3C) duy trì. Do log chỉ giới hạn một số trang và với ngôn ngữ xác đinh. Tuy nhiên. tùy thích với nhiều màu sắc. Các file HTML có chứa các thẻ đánh dấu. Sau đây tôi xin trình bày các phương pháp đã đề cập ở trên. và từ điển (bài toán gán từ khóa). nhiều phương pháp đã được áp dụng trên thực tế và có kết quả tốt như : sử dụng log. Còn bài toán gán từ khóa là các từ trong từ điển tiếng Việt. các đoạn tóm tắt bằng tiếng Việt. thời gian chạy khá lâu. và được mọi trình duyệt phải thiết kế theo. Các máy tìm kiếm có lợi thế khi họ lưu trữ được những bộ log rất lớn. Hướng giải quyết Như đã đề cập ở chương II. phương pháp đồ thị web do phải xử lý nhiều nên phù hợp hơn với các trang chủ. nên nó chỉ là thành phần hỗ trợ nhằm nâng cao kết quả cho các trang web trong log. tôi còn ứng dụng thêm hai phương pháp đó là : query log. Kết quả tốt thì tập dữ liệu huấn luyện phải tốt. chúng ta có thể biểu diễn trang web một cách sinh động. cấu trúc khác nhau. Sử dụng độ quan trọng của các thẻ trong HTML Theo Wikipedia HTML (tên Tiếng Anh viết tắt của HyperText Markup Language hay “ngôn ngữ đánh dấu siêu văn bản”) là một ngôn ngữ đánh dấu được thiết kế nhằm mục đích hiển thị các thông tin khác nhau lên trên trình duyệt. Các phương pháp sử dụng tần số đơn thuần thể hiện không hiệu quả do chỉ xét tần số mà chưa tính đến độ quan trọng trong văn bản Web. thì giá phải trả là họ phải có tập huấn luyện. điểm nhấn.

Hay các thẻ như <title> trong văn bản web có chứa tiêu đề của trang web đó. Bảng trọng số các thẻ HTML trongTextNet TAG HTML WEIGHT A 1 B 2 BLOCKQUOTE -1 CENTER 3 CODE -1 EM 1 H1 10 H2 9 H3 8 H4 7 KBD -1 21 . Nhiệm vụ đặt ra là làm sao biết trong HTML thẻ nào là quan trọng. Trước hết.<H2>. tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa. Trong dự án tạo phần abstract (tóm tắt) cho văn bản của ứng dụng TextNet . để có thể phân biệt được với các chữ khác. Ngôn ngữ HTML có rất nhiều các thẻ khác nhau. Mỗi trang web hiển thị lên trình duyệt được nhờ vào các thẻ HTML. Như đã nhắc về các công trình liên quan tại chương II . họ sẽ chủ động đặt những từ. và thẻ nào quan trọng hơn thẻ nào. với người soản thảo web. tần số từ (TF) là một trong những phương pháp có thể áp dụng không những trong văn bản .hay văn bản HTML của chính trang cần trích xuất.chương trình về cách hiển thị hay xử lý văn bản ở dạng thuần túy. Phương pháp của tôi đề xuất không tính trực tiếp tần số xuất hiện của các từ khóa trong văn bản web. nhưng cũng gián tiếp tính tần số của chúng nhưng theo độ quan trọng khác nhau của mỗi loại thẻ HTML quan tâm. Cho nên. Một chú ý. thẻ nào không quan trọng. câu quan trọng trong các thẻ HTML có độ quan trọng cao. qua nhiều thực nghiệm. mà còn trong cả web.. áp dụng phương pháp này vào bài toán trích xuất từ khóa là việc lấy nội dung nội tại của trang web về để xử lý . Nhờ những đặc điểm sẵn có là HTML trong văn bản web. nhóm các nhà nghiên cứu đã đưa ra được trọng số của các thẻ trong HTML dưới Bảng 1 sau: Bảng 1. Ví dụ: Khi một người muốn nhấn mạnh một điều gì đó trong bài viết của mình họ thường tô đậm chữ với thẻ <b> hoặc dùng các thẻ <H1>.. chi tiết có thể xem tại W3C. ở phương pháp này không dùng IDF do chỉ xét trên chính một trang.

mà còn cần xét những thẻ khác nữa và tôi đưa thêm vào một số thẻ khác trong Bảng 2 : Bảng 2. các trọng số của các thẻ này được điều chỉnh cho phù hợp sao cho kết quả đầu ra là tốt nhất.PRE SAMP STRONG SUB SUP TITLE U -1 -1 2 -1 -1 15 1 Và tôi cũng áp dụng trọng số của các thẻ này trong quá trình thực nghiệm. đối với bài toán sinh từ khóa không những chỉ xét những thẻ đó. Những thông tin nằm trong các thẻ khác nhau thì có độ quan trọng khác nhau. Như thấy trong bảng. thẻ <title> có trọng số cao nhất. hay từ có thể nằm đan xen trong nhiều thẻ khác nhau. Bảng các thẻ HTML quan trọng khác TAG HTML WEIGHT P 1 DIV 1 META(name = ‘Keywords’) 17 META(name = ‘descriptions’) 10 Qua quá trình thực nghiệm. Vì vậy. từ này sẽ là tổng số các trọng số mà nó thuộc vào các thẻ. Các từ hay câu thuộc vào những thẻ nào thì nó sẽ nhận tổng của các trọng số của các thẻ đó. một số thẻ dạng <sub> hay <sup> không quan trọng mà còn làm giảm đi ý nghĩa của từ thể hiện trong nó. Vì vậy. Tuy nhiên. việc tính tần số vẫn tồn tại ngầm trong trọng số toàn cục. cụm từ. Ví dụ như một văn bản HTML dạng 22 . trọng số toàn cục của câu. Một câu.

2. kết nối đến nhau.T= {tập các thẻ của HTML mà ta quan tâm} .W(i) = trọng số của thẻ thứ i thuộc T. Chính vì các trang web trên Internet hiện nay là rất lớn. Chính những liên kết này tạo nên đồ thị web.1. Gọi : . Thuộc tính href= “B” của thẻ <a> có giá trị B chính là địa chỉ của trang B. Tương tự. nên việc tạo được một đồ thị web cho liên quan đến các trang lớn đòi hỏi nhiều thời gian và phức tạp. Đồ thị Web là một đồ thị có hướng gồm các đỉnh là các trang web (các trang tĩnh). Sử dụng đồ thị web 3. Trọng số từ “A”= ∑ W (i) (với từ “A” xuất hiện trong “thông tin quan tâm” của thẻ i ) i∈T “Thông tin quan tâm” của thẻ i là những phần văn bản nằm trong phần mở thẻ và đóng thẻ hay những thuộc tính của thẻ. Liên kết trong trang web được thể hiện qua thẻ <a href= “B” > của HTML(Hình 6). <p> do chúng đều nằm trong các thẻ này. 3. trọng số của “T” được tính = trọng số <p> + trọng số<h1> + trọng số<a>. Và trọng số của “TIT” = trọng số <title> + trọng số <p> + trọng số <b>. và có rất nhiều liên kết.1. 23 .2.1. Định nghĩa đồ thị Web Các trang web ngoài các đặc trưng về sự hiển thị trên trình duyệt qua ngôn ngữ HTML mà chúng còn có sự liên kết. và có cung nối từ trang A đến trang B nếu từ trang A có liên kết đến trang B.<html> <head> <title>TIT</title> </head> <body> <p> P <h1><a href=’’>T</a></h1> <b>B TIT</b> </p> </body> </html> Trong văn bản trên các từ “TIT” sẽ nhận các trọng số của thẻ <title> và thẻ <b>.W = {trọng số các thẻ HTML} .

và có nhiều trang khác có link liên kết đến các trang này. Vì vậy. Trong các trang web. chính những phần hiển thị (của phần liên kết trỏ tới các trang) trên trình duyệt nói lên phần nào suy nghĩ của người khác về trang đang được hướng tới. ta thấy được cách đặt phần hiển thị cho 3 http://thpt-nguyentrungtruc-tphcm.A <a href= ‘A’> <a href= ‘B’> <a href= ‘D’> B D C <a href= ‘B’> Hình 6. Đồ thị web có rất nhiều ứng dụng trong việc khai phá web..1.. nhưng nhiều trường hợp tập các trang lại không liên quan nhiều đến trang A đó. nó còn giúp đánh giá được các đường đi tồn tại trong đồ thị web này nhằm phục vụ việc gợi ý cho người dùng. trang tổng hợp thì có rất nhiều liên kết tới không liên quan.edu. một phần nội dung của những trang trỏ đến trang A lại liên quan đến trang A. Trong khi đó. 3. họ luôn dùng một vài từ đặc trưng đến trang web họ muốn trỏ tới. hỗ trợ bài toán crawling. là cơ sở để các máy tìm kiếm đánh hạng trang (thuật toán HITS). Nội dung của phương pháp Trong các trang web có các liên kết đến các trang web khác.2. Những người soạn thảo web khi tạo liên kết đến một trang nào. liên kết được thể hiện qua thẻ <a>.2. Hơn thế nữa các liên kết này còn là một nguồn thông tin cung cấp dồi dào phục vụ cho các ngành khoa học xã hội. phân tích hành vi người dùng. Trong liên kết web của trang THPT-NTT3 (Hình 7). rồi đặt thẻ <a> liên kết đến trang đó. Và bên cạnh đó. cải thiện việc tìm kiếm trên mạng và làm cho việc phân lớp chính xác hơn và đánh giá được các trang mới nhất trên cộng đồng mạng . Mô tả đồ thị web Mạng của các liên kết trong đồ thị web đã làm cho nâng cao.vn/ 24 . Đặc biệt đối với các trang chủ. Trang A có các liên kết đến tập các trang khác và trong một số trường hợp tập các trang này liên quan đến trang A.

yahoo.net/. nếu ta muốn sinh từ khóa cho trang dân trí 4 . tôi áp dụng các liên kết trỏ đến các trang cần sinh từ khóa. Giả dụ ở đây.. Hình 8. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa Trong khóa luận này. dân trí. Với câu truy vấn này các máy tìm kiếm sẽ trả về tập các trang web có liên kết trỏ đến trang “A” này. dựa vào phần hiển thị là “Đọc báo trực tuyến Dân Trí” ta có thể trích xuất ra các từ khóa như : đọc báo.com. tôi sử dụng công cụ máy tìm kiếm như google.. trực tuyến. Hình 8. Nếu phân tích nhiều trang khác trỏ đến trang dân trí này thì kết quả sẽ cho cao hơn. Để tìm được các link liên kết đến trang cần sinh từ khóa. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 4 http://dantri.một số trang báo nổi tiếng. Câu truy vấn trong các máy tìm kiếm để tìm ra tập các trang trỏ đến một trang có dạng “link:A”.. Vậy làm sao để có thể tìm được một trang có liên kết đến trang ta muốn sinh từ khóa? Những trang có liên kết đi thì dễ dàng tìm thấy khi chỉ phải phân tích nội dung của chính văn bản HTML và nhận dạng các thẻ <a>. là tập các trang web trả về từ máy tìm kiếm google có liên kết đến trang http://vnexpress.vn 25 . altavista để tìm ra các link trỏ đến trang web mà ta đang muốn có từ khóa. Hình 7.

sheppardsoftwa re. Sử dụng query log Các máy tìm kiếm hàng ngày phải trả lời yêu cầu của người dùng rất nhiều. Chính vì vậy. Ví dụ về các trường trong querylog của MSN Time 1 2006-05-01 00:00:03 2 2006-05-01 00:00:04 3 2006-05-01 00:00:05 Query us geography msn groups internal drive QueryID f6f710aa27 014dac ba6d190cc 4cd4fd3 a0f7737bb 44c46d5 SessionID 1cb8398abb3 54112 136fd5e571d 24886 0ff87b8bdbac 406d URL http://www. tra cứu của người dùng khi dùng. hay cách nghĩ của họ về các trang web.1. Tuy nhiên phương pháp này sẽ có tác dụng đối với các trang có liên kết đến. xử lý chúng để tìm ra từ khóa. hay không có link đến thì sẽ không tìm được các trang liên quan. query truy vấn.Dưới đây là ví dụ một phần của log của máy tìm kiếm MSN ( dung lượng ~ 1.com/ Result count 20 10 12 26 . url được click. thiếu tin cậy nhờ vào thứ hạng của máy tìm kiếm. nên có thể dùng số lượng các từ khóa để giới hạn việc tải các trang web về. các máy tìm kiếm có một lợi thế khi họ ghi lại quá trình sử dụng của người dùng để có thể hướng đến chủ đề người dùng quan tâm. Đối với các người quản trị web thì họ có thể tự tìm được những từ khóa cho trang web của mình.internaldrive.3. phiên giao dịch.com/ http://groups. tải các trang liên quan này về rồi phân tích cấu trúc của các trang web này. browser.. Đối với các trang không nổi tiếng. những nhận xét của số đông người dùng sẽ là một phương pháp hữu hiệu để sinh từ khóa một cách đại trà nhất theo cách hiểu của người dùng. mà còn giảm đi lượng lớn các trang không đúng.com/ http://www.msn. Và những thông tin của người dùng cũng rất hữu hiệu cho việc tìm từ khóa cho các trang web. File này được lưu lại có các trường như: ngày tháng. Việc sử dụng máy tìm kiếm làm công cụ trung gian không những giúp tìm các trang có liên kết đến trang ta cần sinh từ khóa. Từ đó lọc ra các phần hiển thị của thẻ <a> đó. Dựa vào thẻ <a>(anchor text) tìm những liên kết có địa chỉ giống như trang ta muốn sinh từ khóa. và không có kết quả.3Gb) mà tôi cũng dùng làm thực nghiệm( Bảng 3): Bảng 3. 3. chúng ta kết nối.Qua việc xử lý kết quả trả về qua các máy tìm kiếm. Nhưng đôi khi chính họ cũng không thể biết được những suy nghĩ mà người dùng nghĩ tới trang web của mình như thế nào. Như đã đề cập ở chương I. Trong các máy tìm kiếm có các bộ log ghi lại toàn bộ thông tin truy cập. Do kết quả của các máy tìm kiếm trả về có những trang với tập kết quả rất lớn..

Sự phong phú.com 27 .Hàng ngày số người tìm kiếm trên các máy tìm kiếm là rất nhiều.1. Trang báo điện tử báo mới5 là một trong những trang web đã có phần sinh từ khóa này trong các tóm tắt văn bản . nhiệm vụ đặt ra cần tìm các query mà đã dùng máy tìm kiếm rồi truy nhập vào trang này. Mô hình toàn hệ thống Mô đun crawler2 (sử dụng google. cho nên các file lưu trữ này thường rất lớn. rành mạch. Tuy nhiên. chính xác của từ điển cũng dẫn đến sự chính xác. Đề xuất mô hình bài toán 3.4. Mô hình đề xuất cho toàn hệ thống 5 http://baomoi. Nó đặc biệt hữu ích với các trang có các phần tóm tắt. và nhiệm vụ chỉ là sinh từ khóa cho một đoạn văn tóm tắt. Các từ khóa này sinh ra do đã qua từ điển nên chúng có ý nghĩa rõ ràng. Vì đã qua bước xử lý của máy tìm kiếm. hay báo chí là những bài viết về một chủ đề. Sử dụng từ điển hỗ trợ Đối với những trang tin tức. Chúng ta có thể áp dụng phương pháp gán từ khóa cho văn bản này bằng cách so khớp các từ trong văn bản với những từ hiện có trong từ điển. yahoo. đa dạng trong cách sinh từ khóa. và văn bản áp dụng dài. 3. Các từ khóa sinh ra sẽ dựa vào tần số xuất hiện của các từ trong query. Khi đưa trang web cần sinh từ khóa vào.2. Chúng ta quan tâm đến 2 trường query và url được click vào để giải quyết bài toán trích xuất từ khóa.2. 3. nên kết quả thường có kết quả khá chính xác.altavista ) Tập các trang web có link trỏ tới Internet Mô đun Crawler1 tập các trang web Tập các từ khóa (với mỗi trang web) Kết quả Mô đun sinh từ khóa Hình 9.1. phương pháp này sẽ tốn nhiều thời gian nếu từ điển là lớn. Tuy nhiên. những kết quả trả về của số đông cho nên giá của các từ khóa trên máy tìm kiếm thường đắt.

Bước 3: Tải các trang cần sinh từ khóa có địa chỉ vừa lấy được. Tập các trang web này chính là tập các trang để hệ thống sinh từ khóa Mô đun Crawler2: Dựa vào máy tìm kiếm google.Quy trình thực thi:     Bước 1: Tải trang web của thư mục cần lấy về. Lặp cho đến khi không còn trang web. Mô đun này được chia ra làm các mô đun nhỏ hơn ứng với các phương pháp.  3.  Mô đun sinh từ khóa : mô đun có nhiệm vụ sinh từ khóa dựa vào các nguồn dữ liệu khác nhau (nội tại trang web. còn mô đun Crawler2 dựa vào máy tìm kiếm để tải các trang về. tôi cũng đề xuất thêm các môđun sinh từ khóa qua phân tích log (đối với các trang web tiếng Anh) và mô đun sinh từ khóa gán qua từ điển(đối với các trang ngắn bằng tiếng Việt).2.2. mô đun lấy về toàn bộ các trang web mà trong nó có liên kết trỏ đến những trang ta cần sinh từ khoá (tôi chỉ quan tâm thẻ a có địa chỉ chính xác như domain của trang web cần phân tích). kể cả các thư mục con của nó. Bước 2: Phân tích nội dung trang này. Mô đun Crawler1 tải các trang từ một thư mục trên Internet.2. a.Yêu cầu:  input: địa chỉ của một trang web có chứa địa chỉ của tập các trang web cần sinh từ khóa( ví dụ như 1 thư mục trong các máy tìm kiếm). lấy về các địa chỉ cần sinh từ khóa. Ngoài ra. Crawler2 có chung nhiệm vụ là tải các trang web về dựa theo việc phân tích liên kết trong nội dung của các trang.3. Các phương pháp hỗ trợ”.  Bước 4: Đưa địa chỉ các thư mục khác liên quan rồi quay lại bước 2. Mô đun Crawler Gồm hai mô đun: Crawler1.3. 28 . hoặc đạt đến số trang cần lấy. Mô hình cho các phương pháp bổ sung được trình bày ở phần “3. yahoo. đồ thị web). Mô đun Crawler1 . .  Internet: ở đây ta sẽ dùng một miền xác định(như 1 thư mục của máy tìm kiếm) Mô đun Crawler1: Có nhiệm vụ lấy về nội dung toàn bộ các trang web và sao lưu thành tập các trang web. output: Tải về nội dung của các trang có địa chỉ trong trang thư mục đó.

Yêu cầu:  input: địa chỉ trang web cần sinh từ khóa  output: Tải về nội dung của các trang có liên kết đến trang web này. Phân tích nội dung các trang này. Phương pháp sử dụng từ điển hỗ trợ chỉ sử dụng đối với một số tóm tắt văn bản. Phương pháp khai phá log hỗ trợ.Quy trình thực thi:  Gửi yêu cầu đến các công cụ tìm kiếm là google. sử dụng các phương pháp khác nhau.3. hay những văn bản ngắn.  3. .b. Để tiết kiệm bộ nhớ không phải lưu nội dung các trang khi tải về. Mô hình mô đun sinh từ khóa 29 . altavista. Yêu cầu dạng : “link:A” (với A là địa chỉ trang web cần sinh từ khóa). Mô đun sinh từ khóa Đây là mô đun chính.  Tải các trang nội dung trả về từ các máy tìm kiếm.2. nâng cao chất lượng của từ khóa. Tập các trang web Tập các trang có liên kết trỏ đến Mô đun sử dụng trọng số thẻ HTML Tập từ khóa từ log Tập từ khóa (từ điển) Mô đun tìm từ khóa sử dụng đồ thị web Tập từ khóa 1 Tổng hợp từ khóa Tập từ khóa 2 Tập các từ khóa Hình 10. tìm các địa chỉ và tải các trang về. có thể kết hợp việc tải các trang và xử lý sinh từ khóa cùng lúc. yahoo. Phương pháp chủ đạo dành cho các trang web là sử dụng độ quan trọng của các thẻ HTML và đồ thị web. Mô đun Crawler2 . Lặp lại để tìm được số lượng trang phù hợp.

Đối với các trang Web tiếng Việt thì sử dụng mô đun tách từ. Nếu một từ xuất hiện trong các thẻ khác nhau. Mô đun sử dụng trọng số thẻ HTML . còn các trang tiếng Anh có thể bỏ qua các trang tách từ. Kĩ thuật sử dụng là dùng những thông tin nội tại trong trang web.3.Nhiệm vụ : + input: tập các trang web cần sinh từ khoá.3. 30 . Trong giai đoạn tách từ.2.1. các từ dừng sẽ được loại bỏ để tránh nhiễu. trọng số của từ đó sẽ là tổng trọng số các thẻ nó thuộc vào. Các từ xuất hiện trong thẻ nào thì nó sẽ có giá trị là trọng số của thẻ đó. + output: tập các từ khoá. xét độ quan trọng của các thẻ khác nhau trong tập văn bản HTML để sinh từ khóa.

Mô hình chi tiết: Tập trang web HTML parser Nội dung của thẻ(<a>) Nội dung của thẻ (<b> ) Nội dung của thẻ (<u>) Nội dung toàn bộ trang Sử dụng tách câu. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 31 . tách từ(Tiếng Việt) Tập các từ(a) Tập các từ (b) Trọng số thẻ b Tập các từ(u) Tập các từ (toàn bộ trang) Thống kê từ có trọng số cao Tập từ khóa (thẻ HTML) Hình 10..

Quy trình thực thi: + Đầu vào là một tập các trang web có liên kết đến trang cần tìm khoá.. tách từ (đối với tiếng Việt). + Chỉ quan tâm domain. Gán trọng số cho mỗi thẻ.Nhiệm vụ: Bởi vì những trang trỏ đến những trang khác thì nó có khả năng nói lên được một cách ngắn gọn về trang đó. Ở mỗi thời điểm ta chọn 1 trang để sinh từ khoá. không quan tâm những link sub domain.. + Trang dưới dạng HTML được đưa qua bộ phân tích cú pháp HTML(HTML parser).2. Nhiệm vụ của mô đun nhằm tìm ra những từ là nội dung của các thẻ a liên kết đến trang ta cần sinh tag. div.Mô hình chi tiết: Tập các trang có liên kết tới HTML Parser Địa chỉ trang Nội dung của thẻ <a> có href=địa chỉ trang Tập từ khóa (đồ thị web) Hình 11. + Qua thống kê loại bỏ những trọng số quá yếu đi => tâp các từ khóa (thẻ HTML) 3. + Đối với từng thẻ xác định (chỉ đề cập đến một số thẻ quan trọng) lấy ra nội dung của nó. nếu từ nằm trong nhiều thẻ thì cộng các giá trị lại với nhau.Quá trình thực thi: + Với đầu vào là tập các trang web cần sinh từ khoá. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web .3.2. . Cùng với đó ta cũng lấy toàn bộ text của trang web (vì trong các tag quan trọng không có p. nếu từ nào trong thẻ nào thì nhận trọng số của thẻ đó. 32 . Mô đun sử dụng đồ thị web .. + Với mỗi thẻ trong HTML có trọng số khác nhau.) + Nội dung sau khi được trích ra đi qua bộ phân tích để tách câu.

Phương pháp sử dụng log .2.3. chèn chúng vào cơ sở dữ liệu thì truy vấn kết quả sẽ nhanh hơn. + output: tập các từ khóa. lấy các query tương ứng.3. Hai phương pháp này giới hạn về ngôn ngữ.Nhiệm vụ: + input: địa chị trang web cần sinh từ khóa. 33 . và loại trang web sử dụng. + tổng hợp các query kết quả trả về. + Sắp xếp theo tần số xuất hiện để có tập từ khóa.3.2.Mô hình chi tiết: Địa chỉ trang web truy vấn CSDL log kết quả Mô đun sinh từ khóa dựa vào log tập từ khóa (log) Hình 12. + Loại bỏ trùng lặp=> tập các từ khóa (đồ thị web) sử dụng tần số. .1. . 3. => tập từ khóa (log).+ Với mỗi trang dùng HTML parser + lấy ra nội dung của các thẻ a mà có href trỏ trực tiếp đến trang ta quan tâm. Mô hình mô đun sinh từ khóa dựa trên log .Yêu cầu: có log của các máy tìm kiếm. sử dụng từ điển hỗ trợ.3. Các phương pháp hỗ trợ Có hai phương pháp nhằm hỗ trợ nâng cao chất lượng từ khóa sinh ra là: sử dụng log của máy tìm kiếm.Quy trình thực thi: + Truy vấn trong CSDL Log với url = địa chị trang web cần sinh. 3. rồi tính toán dựa vào tần số xuất hiện. Các trang web phù hợp với ngôn ngữ được dùng trong log.

Phương pháp sử dụng từ điển . 34 . Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ .2. + Khớp các từ trong nội dung với các từ trong từ điển đã có để tìm ra các từ.3.3. nâng cao chất lượng của từ.Yêu cầu: cần có bộ từ điển . .Quy trình thực thi: + Với mỗi trang web đầu vào đi qua bộ HTML parser. + Sắp xếp có một tập các từ => tập các từ khóa (từ điển). Có xét đến tần số xuất hiện của từ. + Lấy ra nội dung văn bản của toàn bộ trang (hoặc có thể chỉ lấy phần quan trọng như phần tóm tắt đối với báo).Mô hình chi tiết Tập trang web HTML parser Lấy toàn bộ phần văn bản Tập từ điển Tìm những từ xuất hiện trong từ điển Tập từ khóa (từ điển) Hình 13.2.Nhiệm vụ: Dùng từ điển chuyên dụng để tìm ra những từ có trong từ điển và hay gặp.3.

a2.Mô hình chi tiết: Tập từ khóa (thẻ HTML) a1 Tập từ khóa (đồ thị web) a2 a3 Tập từ khóa (từ điển) Tập từ khóa (log) a4 Trộn các từ khóa. tôi xin trình bày quá trình. .2. 3.  Việc tổng hợp các từ khóa có thể áp dụng hàm tuyến tính. loại bỏ trùng lặp. sắp xếp Tập từ khóa Hình 14. tôi cũng bổ sung hai phương pháp khác là phân tích log.3.  Ước lượng các tham số a1. Chương tiếp theo.Nhiệm vụ:  Tổng hợp toàn bộ từ khóa sinh ra bởi các phương pháp trên.  Lọc chọn ra top các từ khoá. Mô hình mô đun tổng hợp từ khóa . a3.Quy trình thực hiện :   Với mỗi tập từ khóa tương ứng có những hệ số xác định Kết hợp các từ khóa. môi trường thực nghiệm và kết quả của các phương pháp trên. từ điển hỗ trợ nhằm nâng cao kết quả ở một số trang đặc biệt. thay đổi các tham số để có kết quả chính xác hơn. đồ thị web. Các phương pháp hỗ trợ cho nhau nhằm tìm ra được những ứng cử viên tốt nhất. a4. 35 .3. Tổng kết chương Trong chương này tôi đã trình bày cách tiếp cận của mình đối với bài toán này. Bài toán sử dụng hai phương pháp chính là: độ quan trọng các thẻ HTML. Ngoài ra. những từ trọng số quá thấp.4. Mô đun tổng hợp .3.

general Vtagging.1. Giới thiệu bài toán thực nghiệm Bài toán trích xuất từ khoá cho trang web hiện nay đang được sự quan tâm của nhiều các trang web.2. tôi muốn đưa ra thực nghiệm trích xuất từ khoá tự động trên một tập các trang web. Mô tả chương trình Chương trình của tôi được mã hóa bằng Java. Các trang web áp dụng sẽ được dùng trên các miền khác nhau là tiếng Việt và tiếng Anh.methods Vtagging.1. Các gói của chương trình Packages Vtagging.1. Trong luận văn này. Việc lựa chọn ra được các từ khoá tốt không phải là dễ dàng. và gói HTML parser. xử lý các chữ Tiếng Việt Vtagging. phân tích link a. chương trình gồm có 4 gói nữa được miêu tả dưới đây: Bảng 5. Môi trường phần cứng Bài toán được thực nghiệm trên máy có cấu hình như sau: Bảng 4.60 GHz 1GB WindowsXP Service Pack 2 Bộ nhớ ngoài 80GB 4. Môi trường.2.CharsetDectector Gói này nhằm xử lý các kí tự khác nhau trong văn bản web. 4. Gói Vtagging.Chương 4. và các máy tìm kiếm.general gồm các lớp 36 . Cấu hình phần cứng trong thực nghiệm của bài toán Thành phần CPU RAM OS Chỉ số 1 Pentium IV 2. Ngoài các gói Jvntextpro. dữ liệu: 4.SELinks Miêu tả các cấu trúc dữ liệu liên quan đến các phương pháp Cài đặt cụ thể các phương pháp khác nhau Liên quan đến bài toán Crawl trang web. Những cách sinh từ khoá cho trang web từ trước đến giờ đa số đều là sinh bằng tay và mang tính chất cá nhân.1. Thực nghiệm và đánh giá 4.

Công cụ phần mềm Khoá luận sử dụng một số công cụ phần mềm hỗ trợ trong quá trình thực hiện thực nghiệm: Bảng 9.3.com http://eclipse. Danh sách các phần mềm. Gói Vtagging.net/ http://sourceforge.org 37 . Các lớp của gói methods Class Summary Cài đặt thuật toán sinh từ khóa dựa vào nội dung và độ quan trọng thẻ HTML Content_method Dictionary_method Cài đặt thuật toán sinh từ khóa dựa vào tập từ điển cho trước Cài đặt thuật toán sinh từ khóa dựa vào liên kết trỏ đến Link_method c. lưu trữ các từ Miêu tả các thẻ trong HTML Miêu tả cấu trúc dữ liệu. Các lớp của gói general Class Summary Dictionary HTML Tag KeyWords ListKeywor d StartJvn WebPage Tải từ điển có sẵn qua file cấu hình. Gói Vtagging.sourceforge. phép toán trên các từ khóa Miêu tả cấu trúc dữ liệu. phép toán trên các trang web b.methods gồm các lớp Bảng 7. phép toán trên tập các từ khóa Miêu tả Jvn. mã nguồn sử dụng STT 1 2 3 4 Tên phần mềm JvnTextPro HTML Parser MySqL Eclipse Tác giả Nguyễn Cẩm Tú Jericho Mysql Group Nguồn http://jtextpro.Bảng 6.net/projects/jerichohtml/ http://mysql. 4.SELinks gồm các lớp Bảng 8.1. Các lớp của gói SELink Class Summary MyCrawl NCR2Unicode WebPageDownload SELinks Thực hiện tải các trang về theo một miền xác định. Chuyển đổi mã trong HTML sang unicode Tạo kết nối tải trang về Tải các trang liên quan qua máy tìm kiếm. khởi động bộ tách từ Jvn Miêu tả cấu trúc dữ liệu.

Hình 15. bằng thuật toán duyệt theo chiều sâu. Các trang web được crawl để chỉ lấy về url của nó từ địa chỉ http://www.5 Emeditor Emur asoft Inc. 38 .dmoz.. Các trang chủ Dữ liệu dùng để làm đầu vào cho việc sinh tự động từ khoá chính là tập các trang web.org/Worl/Tiếng_Việt/ gồm có 1016 trang.4. Doanh nghiệp(246). Các liên kết được lấy ra có dạng như Hình 16. Qua mô đun Crawler1(phần mô hình chương III).(Hình 15) Số ở trong ngoặc là số trang web có trong thư mục.emeditor. Dữ liệu thử nghiệm a.org/World/Tiếng_Việt/ gồm các mục con như : Địa phương(99). hoặc trống. Thư mục Tiếng_Việt của dmoz Nhiệm vụ đặt ra là cần lấy được toàn bộ 1016 link trong Director Tiếng_Việt này.com/ 4. Các thư mục có thể bao gồm các thư mục khác nữa. tôi đã thống kê được toàn bộ số liên kết trên và lưu trong một file văn bản... hoặc có các link đến các trang web tiếng Việt. Tổng số trang web trên http://dmoz.1. http://www. toàn bộ nội dung thông tin liên quan của dmoz và đường dẫn đến thư mục cũng được ghi nhớ với từng trang web.

và thử nghiệm và so sánh với các kết quả từ khóa của Việt Báo bằng phương pháp gán từ khóa dựa vào từ điển. d. Query log Query log được lấy từ máy tìm kiếm của MSN với khoảng 12 triệu query tương ứng với các url được vào. Sau đó. Tuy nhiên do nhiều kết nối bị lỗi nên chỉ tiến hành thực nghiệm trên 920 trang. 39 . b. Từ điển để phục vụ cho việc gán từ khóa do chúng tôi tự tổng hợp (dựa vào trang báo mới ). Mô tả dữ liệu .Hình 16. Từ điển này được chia theo các loại từ khác nhau như : cụm từ(16512 từ)..Các liên kết cần lấy về trong các thư mục Một loại dữ liệu thực nghiệm nữa là các trang Tiếng Anh. Chất lượng của việc sinh từ khóa sẽ do từ điển quyết định. hoặc nhập vào địa chỉ trang web cần sinh từ khoá. Các bài báo Đối với các bài báo (những trang có nội dung tập trung) tôi chỉ lấy một số bài của trang Việt Báo . giữ lại hai trường quan trọng là query và url. Query log này được qua quá trình tiền xử lý như : loại bỏ các từ dừng. các query và url này sẽ được chèn vào hệ cơ sở dữ liệu MySQL bằng câu lệnh sau: “load data infile 'C:/log.Input: Tập các địa chỉ tới trang web..txt' fields terminated by '\t'” into table logquery c. Tiến hành thực nghiệm với toàn bộ 1016 địa chỉ tìm được ở thư mục Tiếng_Việt của dmoz.. động từ (8599 từ). các trường có chữ Trung Quốc. Lấy khoảng tầm 200 trang về để sinh từ khoá. Thời gian chạy trung bình mỗi trang là 30s ... danh từ(11744 từ). Ả Rập.. crawl về cũng trên dmoz.

cnc. cộng_đồng. healthcare. sức_khỏe. sat_thep.. y_học. nên tôi đã chọn các trang tiếng Anh nổi tiếng để sinh.com . Đề xuất mô hình bài toán”.javavietna java. - 40 .com . việt. vietnam. medical . Bảng 10. cokhi. diễn_đàn. y_tế.ubuntuvn.com. 10 trang Web Tiếng Việt được trích từ các miền khác nhau trong thư mục dmoz/Tiếng_Việt/. việt nam. Thử nghiệm trên các trang chủ Áp dụng quy trình được code theo mô hình ở “3. trang_chủ.com.2. diendancokhi - 4 http://www. forum. cae. diễn_đàn. y_khoa. j2se. 4. người_dùng. a. Bảng dưới đây là trích 20 trang web tiếng Việt và tiếng Anh kết quả trích xuất từ khóa.ubuntuvn. vn.Ubuntu Việt Nam ubuntu. javavietnam. dịch_vụ. tôi áp dụng trên hai loại trang web đó là : các trang chủ và các trang viết về bài báo cụ thể (nội dung tập trung). linux. việt_nam.diendancok hi. Kết quả thực nghiệm: Khóa luận này. do log chỉ có giới hạn một số trang. Tập từ khóa sinh ra được lưu trong các file text. han .com cộng_đồng Suckhoecongdong suckhoe - Các trang web Tiến 2 g Việt http://forum. cơ_khí.3. Các từ khóa được sắp xếp theo trọng số từ cao đến thấp. gia_công. phòng_khám sức_khỏe suckhoecongdong. http:// forum. ubuntu . máy. diễn_đàn. Các trang này đều là trang chủ với độ nhập nhằng cao. bệnh. cơ_khí.Kết quả trích xuất từ khóa của một số trang tiếng Việt. Còn 10 trang tiếng Anh.Miêu tả trang web http://suckhoecongdon g. vat_tu.Output: Là tập các file chứa từ khoá được sinh ra tương ứng với tập trang web đầu vào.com . diendancokhi. wiki. cam. j2ee.Diễn Đàn Cơ Khí thiet_bi. tiếng Anh Loại trang web ST T 1 Địa chỉ trang web . cad.lap_trinh. tao_may. - 3 http://www. diễn_đàn.sức khỏecộng đồng Thầy thuốc mọi nhà Kết quả theo các phương pháp khác nhau Dựa vào nội dung thẻ Dựa vào đồ thị Dựa vào HTML web Log health.

computer. môi_trường. hội_phật. - 10 http://www. nguyễn_anh. cá_biển. giao_luu. dom. schools.php .ca -Chúa A Di Da giáo_hội. friend. game. tutorial. javavietnam. w3schools.c om ieee. javavietnam. tutorials. tutorial html.org -The IEEE Computer Society may..vn . ket_ban. asp. sinh_viên diễn_đàn. đầu_tư. 4so9. 41 . diễn_đàn. việt_nam. vbscript. xsl. nguyễn_anh. w3. chat. chúa. - 6 http://www. volunteer.org. doku. computer http://computer.fotech. trò_chơi. canada công_nghiệp. quốc_gia. IEEE. tâm. chúng_ta. organization. computing. bờm. câu_hỏi. hà_nội. vietnam. lam_quen.gov.com/inde x. clb. sản_xuất. ministry. - 7 http://giaoluu. building. www.or g. công_nghệ. tim_ban. xây_dựng. free. cá_nước_ngọt. deadline. cần_câu. clb. việt_nam.. http://computer. chính_phủ sudoku. xml.org. thằng_bờm.gov.4so9.org.moi. fishing. diễn_đàn.Diễn đàn Java Việt Nam mvnforum. hòa_thượng . giới. javascript. a_di_da - 9 http://www. vn. ban_trai. kinh. april. ĐHQGHN. ni. ado. web. jigsuku. di_da. Society. hồ.Sudoku Việt Nam sudoku.Giao lưu kết bạn Online giaoluu. Các trang 12 web w3chools.javavietnam. learning. forum.com -tutorial web learn. bờm. vietnam W3. ieee. july. visit. công_nghiệp. css. câu_cá. quy_hoạch. nam. giaoluu. society. examples. lập_trình. vietnamese. jsp. diễn_đàn.org . bộ.ca. homepage. java 5 http://www. servlet. fotech. bộ. june. trực_tuyến. giáo_việt.vn. sinh_viên. phật. computer. thế giói. diễn_đàn. diễn_đàn. computer. coltech. công_nghệ.công_thương.com Nhóm câu cá Nguyễn Anh câu_cá. web. việt_nam. chua. html. industry. database. chơi.vn . tỉnh. thanh_niên.Bộ Công nghiệp Việt Nam www.moi. thằng_bờm. ban_gai. cs. anlac.. - 11 http://w3schools..anlac. web tutorial. trò_chời. giải_trí. giao_lưu.sudoku. vietnam.org Pioneer Forum đại_học. xhtml.m. quyết_định. ----giaoluu----- - 8 http://www. ca_mưu.

weather. book store.com.. book. codmate..com CNN News cnn. USA. world cup. cass. news. soccer. A.. government. u.. envmgr. hardware.UsA government government. standard. direct mail manager. united state amazon. com. car. broadband. The Beeb. european. mailing. amazon. mail.. mailing solutions. real time. radio. News.uk .home. business. cnn. java. world.. news. C. united states. envelope manager. cnn. sports. portal.A. travel.uk -BBC News BBC. livescore.co m/ . manager. state.com -Soccer live scores livscore. cnn..gov. books 14 http://amazon. cnn tv. breaking news. 13 http://usa. envmgr. California Association.gov . calcio. services.co. america. http://www.com..org . amazon.Envelope Manager envmgr. results. headlines. world news. livesocre. fastforward.co.org 20 http://sun. livescore. jewelry. us. realtime. mailing 16 http://www.Tiến g Anh press.envmgr. furniture. dazzle. radio live. soccers 18 http://livescore. tools.uk. weather. cnn news..com..R .cnn. homepage. bbc. C. ncoa. videos.. scores.. java. USA. CAR sun. 15 http://www. car. 42 .com. com.. computers.. united states. support. news online.. price..com .co..book. apparel. state. football. information. politics. score. beauty. diala-zip. news.. online shopping-. first-class. legal. search. realtime. national change of address. federal.com .R. music. envelope. dazzle express. result. amazon. bbc.com Amazon books. gov. pave. car.com. more. top.com .uk.Car C. live results.s.co. scores. livescore. live score... sun... storage.org. soccer livescore.Sun sun. championship. weather. dvds. sport. amazon.bbc. usa gov. homepage. electronics...com. local. britain. security. conference. Scores 19 http://car. news. R. stories. british broadcasting corporation.com. live. java. dazzle. live. government. bbc. tv.A. health. united.co m. amazon. cnn. car. usa. bbc. buy. entertainment. usa. euro. news. news. us government . cnn. mailing software. Realtors.com. usa 17 http://bbc.

có thời gian cầu thủ này bị gọi là "kẻ phản bội" khi nhanh nhẩu chạy tới Real Madrid khi Juventus bị đánh tụt hạng sau vụ bê bối cách đây vài năm trước. sun..vn/The-thao/Fabio-Cannavaro-chinh-thuctro-lai-Juventus/65166443/134/ có nội dung sau: . solaris. đa dạng hơn. Bên cạnh đó. đối với các trang có dữ liệu tập trung. Thử nghiệm trên các trang báo cụ thể Phần a là các thực nghiệm đối với các trang web dạng trang chủ. khi tìm thấy các từ khóa vừa mang tính phổ biến vừa mang tính đặc trưng của các trang web. microsystems. Các trang này cũng chính là mục tiêu hướng tới của khóa luận. thông tin về việc trung vệ Fabio Cannavaro đã quay trở lại sân Del Alphi đã nhanh chóng được các fan hâm mộ của "Bà đầm già" chào đón. Tuy nhiên. b. Fabio Cannavaro thường xuyên bị chấn thương đeo đuổi và gần như không ra sân thi đấu trong mùa giải vừa qua.com.. inc. Tại Real Madrid. network. sun. Việc dùng từ điển sẽ làm cho việc phân loại các trang báo vào các từ khoá chính xác hơn theo từ điển. Phương pháp sử dụng độ quan trọng của thẻ HTML đã cho thấy ưu điểm. jini.com. Qua hai trang này ta có thể so sánh được tập từ khóa của các trang này sinh ra..com để sinh ra được nhờ từ điển.sun. Trung vệ từng giúp Italy đăng quang tại World Cup 2006 luôn phải ngồi trên băng ghế dự bị và thất vọng vì không được thi đấu. high availability. service. microsystems. Trên website Juventus. solaris Qua bảng thực nghiệm. ras. microsystem . computer systems. chúng tôi cũng áp dụng phương pháp gán từ kết hợp tần số xuất hiện. www.com. hay vietbao. Juventus là nơi Cannavaro đã thành danh và được nhiều cổ động viên hâm mộ. Tuy nhiên dùng từ điển hỗ trợ thì sẽ bất lợi là phải trích xuất đúng được phần văn bản của trang web và thời gian để chạy đối với các trang web có nội dung dài là không nhanh.. Ví dụ : Trang web tại địa chỉ http://vietbao. server.. Tôi thấy rằng các trang chủ của các trang tiếng Anh được bố trí các phần tốt hơn các trang tiếng Việt vì lượng từ khóa sinh ra đối với tiếng Anh tốt hơn.Theo thông tính chính thức từ CLB Juventus.Microsystem training. trung vệ người Italy Fabio Cannavaro đã đồng ý ký vào bản hợp đồng có thời hạn 1đội bóng năm với đội bóng thành Turin. và đôi chỗ có những từ không dấu. Cannavaro 43 . Thực nghiệm những trang có chủ đề như các bài báo của baomoi.com.. từ khóa sinh ra đối với trang web tiếng Việt ít hơn. sun. java computing.. portal. unix. mission critical.

hâm mộ -2. Phương pháp áp dụng độ quan trọng của thẻ HTML có ưu điểm hơn các phương pháp khác với các từ khóa sinh ra thỏa mãn các tính chất phổ biến 44 . năm. juventus-8. Với lượng trang web được sinh từ khóa khá nhiều cả bằng tiếng Việt và tiếng Anh. cầu thủ người Italy này sẽ có thời gian chơi bóng tại sân Del Alphi từ tháng 7/2009 đến ngày 30/6/2010. nói lên được nội dung của trang web. CLB Juventus.4. Còn với thực nghiệm của tôi. fabio canavaro . dựa trên bộ từ điển làm cho các kết quả khá chính xác. Như vậy. Các từ khoá phải là những từ khoá phải nói lên được những cái riêng của trang web. Mọi việc tuỳ thuộc vào Cannavaro sẽ thi đấu thế nào ở mùa giải năm tới". tôi có một số nhận xét như sau. Juventus đã chính thức sa thải HLV Claudio Ranieri sau khi không thể giúp "Bà đầm già" đoạt Scudetto ở mùa giải năm nay. trở lại. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử Từ khóa của Việt báo Fabio Cannavaro. với ít lỗi HTML. năm. Nếu bộ từ điển càng lớn thì các từ khóa sinh ra càng chính xác. có thời hạn. madrid-2. "Tôi rất tự hào khi một lần nữa lại được khoác áo Juventus trong thời gian tới. Qua Bảng 11 các từ khóa của VietBao sinh một tự động nhưng do không dùng từ điển nên có một số kết quả không đúng lắm như : thành. Bảng 11. một quan chức của Juventus nói. 4. cầu thủ -3. thời gian. bản hợp đồng. Hợp đồng của trung vệ Fabio Cannavaro với CLB Juventus có thời hạn 1 năm. Ban lãnh đạo đã tha thứ cho những cầu thủ từng ra đi nhưng vẫn luôn nghĩ về đội bóng". nêu lên được nội dung bài viết. mùa giải -3. trung vệ. real madrid -2. thành Từ khóa của chương trình canavaro-9. trung vệ -4. "Nếu cậu ấy vẫn giữ được phong độ ổn định. Các trang tiếng Anh thường được tổ chức tốt hơn. Vừa qua. chính thức.tìm cách quay trở về quê hương. hay người quản trị website. thi đấu -3. Italy Fabio Cannavaro. bóng. Đánh giá kết quả thực nghiệm Đánh giá kết quả của một danh sách các từ khoá là một việc làm rất khó khăn trong thời điểm hiện tại. Những từ khoá phải mang ý nghĩa cao. Cannavaro tâm sự.4. hợp đồng -3. chúng tôi sẽ tiếp tục gia hạn hợp đồng mới với Cannavaro. Chủ yếu việc đánh giá vẫn dựa vào ý kiến đánh giá của các chuyên gia ngôn ngữ.

Nó tốt đối với cả trang web dạng portal và các trang web dạng dữ liệu tập trung. xảy ra tình trạng tải các trang về lớn nhưng sinh ra từ khóa lại ít.cũng như đặc trưng của trang web. Phương pháp này là một đánh giá tốt của người dùng. Thời gian để chạy cho một trang với phương pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm: google. các kết quả trả về thường lớn. altavista ). nâng cao sự chính xác và nhiều sự lựa chọn từ khóa. số lượng trang web trong nó chỉ chiếm lượng nhỏ của Internet. Trong thực nghiệm này. thì việc phân tích sẽ cho nhiều kết quả thêm. đối với phương pháp dùng đồ thị web. Nếu có những log lớn. cho nên đối với một số trang tiếng Anh không xuất hiện trong log. do thời gian có hạn nên tôi chỉ giới hạn số từ khóa trả về. hoặc xuất hiện ít làm cho kết quả sinh từ khóa chưa được đa dạng. Nếu có thời gian để xét trên toàn bộ các trang có liên kết trỏ tới. người viết trên các trang web khác khi nghĩ về trang web cần sinh từ khóa. Đối với log chúng tôi sử dụng. Hơn thế nữa các kết quả này lại trùng nhau về từ khóa nhiều. yahoo. kết quả của phương pháp sẽ tốt hơn. Phương pháp này đã được áp dụng trong các phần mềm sinh từ khóa nổi tiếng như GoogleAdwords . 45 .

Nhiều thực nghiệm đã được thực hiện nhiều lần để có thể tìm ra được mô hình tốt nhất. trong tìm kiếm thông tin. log. Đồng thời. chứ không cần phải mất thời gian học. cách tiếp cận bài toán kèm theo các đánh giá nhận xét. Tôi cũng đã so sánh. phân loại web. từ đó có thể dễ dàng mã hóa. khóa luận cũng đã đề xuất ra một mô hình thực thi bằng việc sử dụng việc phân tích trực tiếp trên các trang dựa vào nguồn thông tin sẵn có. đồ thị web. khóa luận đã nêu ra một số phương pháp mới áp dụng trên dữ liệu web: độ quan trọng của các thẻ trong HTML. Các nội dung chính của khóa luận được đề cập tóm lược dưới đây. Và tôi cũng đã trình bày những khó khăn. Khảo sát các ứng dụng của từ khóa trong các dịch vụ quảng cáo trên máy tìm kiếm. có thể áp dụng trong thực tế. và tiếng Việt cho kết quả khá khả quan. và kết quả của khóa luận cũng đạt được khả quan. trong hoạt động quảng bá web. đồng thời cũng phân tích những lợi điểm mà web đem lại.Kết luận Khóa luận đã hệ thống hóa được các vấn đề của bài toán trích xuất từ khóa cho trang web bao gồm khảo sát về các từ khóa trong các ứng dụng. quá trình thực nghiệm được trình bày chi tiết. thách thức của bài toán đối với miền dữ liệu Web. sử dụng log đã áp dụng trên dữ liệu web. Kết quả thực nghiệm. Khóa luận cũng trình bày được mô hình thực thi cụ thể cho các phương pháp. Khóa luận đưa ra được hướng giải quyết bài toán theo cách tiếp cận không chỉ dựa trên nội dung của trang. một số phương pháp học máy. Trình bày cơ bản về các phương pháp trích xuất từ khóa trong các văn bản. Thực nghiệm trên dữ liệu tiếng Anh. 46 . mà còn xét đến các thông tin khác liên quan đến trang web như : đồ thị web. kết hợp nhiều phương pháp khác nhau để có thể phân tích và đưa ra phương pháp riêng. Đặc biệt.

Cũng trên cơ sở đã đạt được của khóa luận. nâng cao chất lượng tìm kiếm trang web với từ khóa..Hướng phát triển tiếp theo Mặc dù kết quả thu được của khóa luận là đáng khích lệ và khá tốt nhưng do thời gian có hạn việc ước lượng các trọng số cho các phương pháp có thể chưa được tối ưu. tôi sẽ tiến hành thu thập thêm các dữ liệu và hoàn thiện những gì còn thiếu sót của các mô đun đã đề xuất. tôi dự định xây dựng một hệ thống hoàn thiện để tích hợp vào các máy tìm kiếm. 47 . Trong thời gian tới. Tôi sẽ cố gắng tìm hiểu thêm các lĩnh vực liên quan như tóm tắt văn bản tự động. xử lý ngôn ngữ tự nhiên... tiện dụng và thời gian chạy nhanh hơn. Bài toán trích xuất từ khóa cho trang web là bài toán mới và nhiều phần còn liên quan đến ngữ nghĩa. và các trang báo với độ chính xác cao hơn.

6. Kazman.uwo. Yi LIAO . [10] E. [9] E. Carri ere and R. (1998b). Informing Science. Công trình Sinh viên Nghiên cứu khoa học 03/2008 [2] Website: http://vietseo. Using Lexical Chains for Keyword Extraction. 1997. In Texnet32. Journal of Computational Information Systems4:3(2008) 11691180. Spertus. Also appears as IBM Research Report RJ 10076 91892 May 1997.Tài liệu tham khảo. Gutwin. to appear.wikipedia. pp. Process. 1999. WebQuery: Searching and visualizing the Web through connectivity. In IJCAI. I. 1999. [14] J. [12] H. 1969. W. Retreived from http://instruct. (November 2007). Nevill-Manning. 12p [8] David B.Single Document Keyword Extraction For Internet News Articles. C. 6. HTML Tags as Extraction Cues for Web Page Description Construction. T.org/wiki/SEO/ Tiếng Anh [5] Chengzhi ZHANG . Bo WANG. 48 . Hoàng Minh Hiền (2008). International Journal of Innovative Computing.Edmundson(1969). [13] HPLuhn(1958). J. Vol. and C. Bracewell. Timothy C.WWW filters. Domain-specific keyphrase extraction. G.ca/gplis/677/texnet32/wwwnet32. of the ACM . Manage. Proc. New methods in automatic abstracting. Inf. IBM journal of research development.Number 4. Paynter.. China. [6] Craven. Kleinberg. pages 668--673. p1-12. 2003. Information and Control Volume 4. 1705-1714. TexNet32 .htm [7] Craven. 1997. Ilyas Cicekli. Authoritative sources in a hyperlinked environment.. H. [11] Gonenc Ercan. 43. Automatic Keyword Extraction from Documents Using Conditional Random Fields. Journal of ACM.wikipedia. No. ParaSite: Mining structural informationon the Web. The automatic creation of literature abstracts. G. Tiếng Việt [1] Phạm Thị Thu Uyên.April 2008. Proc. 6th WWW Conf. Witten.org/wiki/HTML [4] SEO http://vi. Frank. Huilin WANG . Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản Tiếng Việt.net [3] Website: http://vi. 6th WWW Conf.. Yao LIU . JiajunYan and Fuji Ren. Dan WU . [15] J. Vol.

[24] Soumen Chakrabarti. Department of Computer Science. Proc. [25] Vibhanshu Abhishek . Logistic regression and collaborative filtering for sponsoreed search term recommendation. HongKong Univ of Science and Technology. USA.Cai Qingsheng. Department of Computer Science. [29] Yi-fang Brook Wu .Cai Zhi . 8th WWW Conf. Keyword extraction from the Web for Personal Metadata Annotation.Automatic Keywords Extraction Of Chinese Document Using Small World Structure. [30] Zhu Mengxiao . 49 . MATSUO. [26] Wen-Tau Yih. 51-60. [22] S. Razvan Stefan Bot . June 2006. Proceedings of the 14th ACM international conference on Information and knowledge management.[16] K. D. ACM. and A.International Journal on Artificial Intelligence Tools.2003. [20] Qiang Yang. Finding Advertising Keywords on Web Pages WWW-06 (The 15th International World Wide Web Conference). Proc.Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information. Kartik Hosanagar. Page. Murthi. pp. Proceedings of the ninth international conference on Electronic commerce. Learning Algorithms for Keyphrase Extraction. MN. Domain-specific keyphrase extraction. University of Science and Technology of China. A web-based kernel function for matching short text snippets. Bilkent University. In Second Workshop on Sponsored Search Auctions. Heilman. [17] M. Xin Chen. 1998. Matsuo Yutaka. 2005. Sebastian. [23] S. V. In International Conference on Machine Learning. 2005.M. Kumar. Keyword generation for search engine advertising using semantic similarity between terms. Minneapolis. Enhanced hypertext classication using hyperlinks. Bartz.Tomkins. Germany. 1999. Advertising keyword suggestion based on concept hierarchy presented by Qiang Yang.Proceedings of the4th International Workshop on Knowledge Markup and Semantic Annotation. Indyk. Ishizuka Mitsuru. Ishizuka. Sahami and T. Data mining for hypertext : A tutorial survey.1998. August 19-22. Chakrabarti and B.. Turkey. Keyword Extraction Using Naive Bayes. Information Retrieval. and S. Quanzhi Li . 7th WWW Conf. [27] Y. Dom. (ISWC2004) (2004).Proc. [28] Yasin Uzun. R. 1999. Joshua Goodman and Vitor Carvalho. The anatomy of a large-scale hypertextual Web search engine. Turney. Trawling emerging cyber-communities automatically. S. Rajagopalan. Bremen. 2007. ACM SIGMOD. [18] Mori Junichiro.. and P.2000. Raghavan. P. [21] S. October 31-November 05. Volume 1. Brin and L. [19] P. 2006. Faltings Boi.

org/wiki/Search_engine_marketing [34] Tf.org/wiki/Web_portal/ [36] Website: http://searchengineguide.yahoo.google.vn [44] Website: http://baomoi.com [47] Website: http://altavista.yahoo.com [32] Overture http://searchmaketing.edu Công cụ và dữ liệu sử dụng [39] MSN search engine logs.com [46] Website: http://search.com [45] Website: http://google. “JvnTextPro: A Java-based VietNamese Text Processing Toolkit”.princenton.com [37] Website: http://webmasterworld. University of Illinois at Urbarna Champaign).wikipedia.wikipedia.com 50 .com [33] SEM http://en.com/downloads/ [43] Website: http://vietbao.org/wiki/Tf-idf [35] Web_portal http://en. (supported by DAIS Lab.IDF http://en. [42] Website : http://developers.org/Tiếng_Việt/ [41] Nguyen Cam Tu. [40] Trang web Tiếng Việt: http://dmoz.wikipedia.[31] Google Adwords http://adword.com [38] WordNet http://wordnet.sun.com [48] Từ điển tiếng Việt được lọc từ các trang của http://baomoi.

Sign up to vote on this title
UsefulNot useful