5.

Khai phá dữ liệu Web Web (World Wide Web) được xem là một “nhà cung cấp” một lượng lớn các thông tin về tin tức, quảng cáo, thông tin khách hàng, quản lý tài chính, giáo dục, thương mại điện tử, và một số dịch vụ thông tin khác. Bên cạnh đó Web cung cấp một tập nhiều và “động” các thông tin về hyper-link, thông tin truy cập web, thói quen dùng web của người dùng. Nên Web chính là nguồn tài nguyên dồi dào cho việc khai khác dữ liệu. Khó khăn • • • • • Web dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ Dataming Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản truyền thống khác Web là một nguồn tài nguyên thông tin có độ thay đổi cao Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích

-

Thuận lợi • Web bao gồm không chỉ có các trang mà còn có cả các hyperlink trỏ từ trang này tới trang khác. Khi một tác giả tạo một hyperlink từ trang của ông ta tới một trang A có nghĩa là A là trang có hữu ích với vấn đề đang bàn luận. Nếu trang A càng nhiều Hyperlink từ trang khác trỏ đến chứng tỏ trang A quan trọng. Vì vậy số lượng lớn các thông tin liên kết trang sẽ cung cấp một lượng thông tin giàu có về mối liên quan, chất lượng, và cấu trúc của nội dung trang Web, và vì thế là một nguồn tài nguyên lớn cho khai phá Web. Một máy chủ Web thường đăng ký một bản ghi đầu vào (Weblog entry) cho mọi lần truy cập trang Web. Nó bao gồm địa chỉ URL, địa chỉ IP, timestamp. Dữ liệu Weblog cung cấp lượng thông tin giàu có về những trang Web động. Với những thông tin về địa chỉ URL, địa chỉ IP,… một cách hiển thị đa chiều có thể được cấu trúc nên dựa trên CSDL Weblog. Thực hiện phân tích OLAP đa chiều có thể đưa ra N người dùng cao nhất, N trang Web truy cập nhiều nhất, và khoảng thời gian nhiều người truy cập nhất, xu hướng truy cập Web.

-

Các nội dung trong Webmining • Khai phá nội dung trang Web (Web Content mining) a. Web Page Content

Customize Usage Tracking: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau . Đây chính là khai phá dữ liệu Text (Textmining) b. Đây cũng chính là khai phá nội dung trang Web. • Web Structure Mining Khai phá dựa trên các siêu liên kết giữa các văn bản có liên quan. Trong các máy tìm kiếm. • Web Usage Mining a.Search Result Tìm kiếm theo kết quả. b.Nghĩa là sẽ sử dụng chỉ các từ trong văn bản mà không tính đến các liên kết giữa các văn bản. sau khi đã tìm ra những trang Web thoả mãn yêu cầu người dùng. General Access Partern Tracking: Phân tích các Web log để khám phá ra các mẫu truy cập của người dùng trong trang Web. đó là phải sắp xếp kết quả theo thứ tự dộ gần nhau với nội dung cần tìm kiếm. còn một công việc không kém phần quan trọng.

Độ phức tạp của giải thuật ảnh hưởng đến độ phức tạp của toàn hệ thống. Hướng tiếp cận này có tính dự báo cao. được tạo ra bởi Service Provider.Khai thác mẫu tuần tự (sequential/temporal patterns): Một luật mô tả mẫu tuần tự có dạng tiêu biểu X → Y. Tương tự như “yellow pages” với mỗi thành phần là các dịch vụ đã được đăng ký. phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y. VD: .6. Giải thuật so khớp (Matching Algorithm): là phương thức được sử dụng để thực hiện các thao tác trong Hệ thống so khớp (Matching Engine). Yêu cầu dịch vụ: chứa các thông tin cần có của dịch vụ được yêu cầu Khai báo dịch vụ: mô cả các thông tin của dịch vụ. Không hỗ trợ cho indirect matching. UDDI không hỗ trợ ngay cả các thành phần đơn giản Khai phá hành vi người sử dụng web dựa trên mẫu tuần tự • o . Các điểm yếu của Khai phá dịch vụ web: Mô tả không hợp thức của các chức năng/khả năng của service còn thiết cấu trúc rõ ràng. Khai phá dịch vụ web Kiến trúc (Architecture) • - Các thành phần cấu trúc: Service Registry: là nơi chứa các dịch vụ và thông tin của chúng. có xu hướng giống với ngôn ngữ tự nhiên Về mô tả không đầy đủ về các chức năng/khả năng. UNSPSC. do nhà cung cấp không có nghĩa vụ cung cấp thông tin dịch vụ hoàn chỉnh Thiếu những thông số kỹ thuật bắt buộc: điều kiện tiên quyết và các ràng buộc khác là hữu ích cho toàn bộ vòng đời của service Hạn chế của các đề án phân loại tên miền: ví dụ như NAICS.

chẳng hạn được MS cung cấp). VD: “98% khách hàng mà mua tạp chí thể thao thì đều mua các tạp chí về ôtô”  sự kết hợp giữa “tạp chí thể thao” với “tạp chí về ôtô”  “60% khách hàng mà mua bia tại siêu thị thì đều mua bỉm trẻ em”  sự kết hợp giữa “bia” với “bỉm trẻ em”  “Có tới 70% người truy nhập Web vào địa chỉ Url1 thì cũng vào địa chỉ Url2 trong một phiên truy nhập web”  sự kết hợp giữa “Url 1” với “Url 2”.Phân cụm (clustering/segmentation) : Sắp xếp các đối tượng theo từng cụm (số lượng và tên của cụm chưa được biết trước). o Khai phá hành vi người sử dụng web dựa trên phân cụm . Phân cụm còn được gọi là học không có giám sát (unsupervised learing). Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất. Các Url có gắn với nhãn “lớp” là các đặc trưng thì có luật kết hợp liên quan giữa các lớp Url này. . Khai phá dữ liệu sử dụng Web (lấy dữ liệu từ file log của các site.

Sign up to vote on this title
UsefulNot useful