You are on page 1of 9

Hệ thống đề xuất

Lọc cộng tác & Đề xuất dựa trên nội dung


Lọc cộng tác
Các hệ thống đề xuất các mục (ví dụ: sách, phim, CD, trang web, tin nhắn nhóm tin)
cho người dùng dựa trên các ví dụ về sở thích của họ.
Nhiều trang web cung cấp đề xuất (ví dụ: Amazon, NetFlix, Pandora).
Các đề xuất đã được chứng minh là làm tăng đáng kể doanh số bán hàng tại
cửa hàng dòng.
Có hai cách tiếp cận cơ bản để giới thiệu:
Lọc cộng tác (còn gọi là lọc xã hội)
dựa trên nội dung

Cá nhân hóa
Đề xuất là các phiên bản của phần mềm cá nhân hóa.
Cá nhân hóa liên quan đến việc thích ứng với nhu cầu, mối quan tâm và sở thích cá
nhân của từng người dùng.
Bao gồm:
giới thiệu
lọc
Dự đoán (ví dụ: hoàn thành biểu mẫu hoặc ứng dụng lịch)
Từ góc độ kinh doanh, nó được xem như một phần của Quản lý quan hệ khách hàng
(CRM).
Học máy và cá nhân hóa
Machine Learning có thể cho phép học mô hình người dùng hoặc hồ sơ của một người
dùng cụ thể dựa trên:
tương tác mẫu
Ví dụ được xếp hạng
Mô hình hoặc hồ sơ này sau đó có thể được sử dụng để:
đề xuất các mặt hàng
Lọc thông tin
Dự đoán hành vi
Lọc cộng tác
Duy trì cơ sở dữ liệu về xếp hạng của nhiều người dùng đối với nhiều mặt hàng.
Đối với một người dùng nhất định, hãy tìm những người dùng tương tự khác có xếp
hạng tương quan chặt chẽ với người dùng hiện tại.
Đề xuất các mục được những người dùng tương tự này đánh giá cao nhưng không
được người dùng hiện tại đánh giá cao.
Hầu như tất cả các nhà giới thiệu thương mại hiện tại đều sử dụng phương pháp này
(ví dụ:Amazon).
Phương pháp lọc cộng tác
Trọng số tất cả người dùng liên quan đến sự tương đồng với người dùng đang hoạt
động.
Chọn một tập hợp con người dùng (hàng xóm) để sử dụng làm công cụ dự đoán.
Bình thường hóa xếp hạng và tính toán dự đoán từ sự kết hợp có trọng số của xếp hạng
của những người hàng xóm đã chọn.
Trình bày các mục có xếp hạng dự đoán cao nhất dưới dạng đề xuất.
Trọng số tương tự
Thông thường sử dụng hệ số tương quan Pearson giữa xếp hạng cho người dùng đang
hoạt động, a và người dùng khác, u.

ra và ru là các vectơ xếp hạng cho m mục được xếp hạng bởicả a và bạn
ri,j là xếp hạng của người dùng i cho mục j
Hiệp phương sai và độ lệch chuẩn
Hiệp phương sai
độ lệch chuẩn

Trọng số quan trọng


Điều quan trọng là không tin tưởng vào các mối tương quan dựa trên rất ít mục được
đồng xếp hạng.
Bao gồm các trọng số quan trọng, sa,u, dựa trên số lượng các hạng mục được đồng xếp
hạng, m.

Lựa chọn hàng xóm


Đối với một người dùng đang hoạt động nhất định, a, hãy chọn những người dùng
tương quan để làm nguồn dự đoán.
Cách tiếp cận tiêu chuẩn là sử dụng n người dùng giống nhau nhất, u, dựa trên trọng số
tương tự, wa,u
Cách tiếp cận khác là bao gồm tất cả người dùng có trọng số tương tự trên một ngưỡng
nhất định.
Dự đoán xếp hạng
Dự đoán xếp hạng, pa,i, cho từng mục i, cho người dùng đang hoạt động, a, bằng cách
sử dụng n người dùng lân cận đã chọn, u ∈ {1,2,…n}.
Để giải thích cho người dùng các mức xếp hạng khác nhau, hãy dự đoán dựa trên sự
khác biệt so với xếp hạng trung bình của người dùng.
Trọng số đóng góp xếp hạng của người dùng theo mức độ tương đồng của họ với
người dùng đang hoạt động.
Sự cố với Lọc cộng tác
Bắt đầu nguội: Cần có đủ người dùng khác đã có trong hệ thống để tìm kết quả phù
hợp.
Độ thưa thớt: Nếu có nhiều mục được đề xuất, ngay cả khi có nhiều người dùng, ma
trận người dùng/xếp hạng sẽ thưa thớt và khó tìm được người dùng đã xếp hạng các
mục giống nhau.
Người xếp hạng đầu tiên: Không thể đề xuất một mặt hàng chưa được xếp hạng trước
đó.
Hàng mới
vật phẩm bí truyền
Xu hướng phổ biến: Không thể giới thiệu các mặt hàng cho người có sở thích độc đáo.
Có xu hướng giới thiệu các mặt hàng phổ biến.
Đề xuất dựa trên nội dung
Các đề xuất dựa trên thông tin về nội dung của các mặt hàng hơn là ý kiến của những
người dùng khác.
Sử dụng thuật toán máy học để tạo hồ sơ về sở thích của người dùng từ các ví dụ dựa
trên mô tả nội dung nổi bật.
Một số ứng dụng trước đây:
Newsweeder (Lang, 1995)
Syskill và Webert (Pazzani và cộng sự, 1996)
Ưu điểm của phương pháp tiếp cận dựa trên nội dung
Không cần dữ liệu về người dùng khác.
Không có vấn đề khởi động lạnh hoặc thưa thớt.
Có thể giới thiệu cho người dùng với thị hiếu độc đáo.
Có thể giới thiệu các mặt hàng mới và không phổ biến
Không có vấn đề đầu tiên.
Có thể cung cấp giải thích về các mục được đề xuất bằng cách liệt kê các tính năng nội
dung khiến một mục được đề xuất.
Nhược điểm của phương pháp dựa trên nội dung
Yêu cầu nội dung có thể được mã hóa dưới dạng các tính năng có ý nghĩa.
Thị hiếu của người dùng phải được thể hiện dưới dạng chức năng có thể học được của
các tính năng nội dung này.
Không thể khai thác đánh giá chất lượng của người dùng khác.
Trừ khi những điều này bằng cách nào đó được bao gồm trong các tính năng nội dung.
LIBRA
Đại lý giới thiệu sách thông minh học tập
Đề xuất dựa trên nội dung cho sách sử dụng thông tin về tên sách được trích xuất từ
Amazon.
Sử dụng khai thác thông tin từ web để sắp xếp văn bản thành các trường:
Tác giả
Tiêu đề
Biên tập viên
Nhận xét của khách hàng
Điều khoản chủ đề
tác giả liên quan
Tiêu đề liên quan
Thông tin nội dung Libra
Libra sử dụng thông tin được trích xuất này để tạo thành “túi từ” cho các vị trí sau:
Tác giả
Tiêu đề
Mô tả (đánh giá và bình luận)
Đối tượng
Tiêu đề liên quan
tác giả liên quan
Tổng quan về Libra
Người dùng đánh giá các tiêu đề đã chọn trên thang điểm từ 1 đến 10.
Libra sử dụng thuật toán phân loại văn bản Bayes ngây thơ để tìm hiểu hồ sơ từ các ví
dụ được xếp hạng này.
Xếp hạng 6–10: Tích cực
Xếp hạng 1–5: Tiêu cực
Hồ sơ đã học được sử dụng để xếp hạng tất cả các sách khác dưới dạng đề xuất dựa
trên xác suất sau được tính toán rằng chúng tích cực
.
Người dùng cũng có thể cung cấp các từ khóa tích cực/tiêu cực rõ ràng, được sử dụng
làm ưu tiên để phân biệt vai trò của các tính năng này trong phân loại.
Phân loại Bayes trong LIBRA
Mô hình được khái quát hóa để tạo ra một vectơ gồm các túi từ (một túi cho mỗi vị
trí).
Các trường hợp của cùng một từ trong các vị trí khác nhau được coi là các tính năng
riêng biệt:
“Chrichton” trong tác giả so với “Chrichton” trong phần mô tả
Ví dụ đào tạo được coi là ví dụ tích cực hoặc tiêu cực có trọng số khi ước tính các
tham số xác suất có điều kiện:
Một ví dụ với xếp hạng 1 ≤ r ≤ 10 được đưa ra:
xác suất dương: (r – 1)/9
xác suất âm: (10 – r)/9
Thực hiện
Đã xóa từ dừng khỏi tất cả các túi.
Tiêu đề và tác giả của sách được thêm vào tiêu đề liên quan của chính nó và các vị trí
tác giả liên quan.
Tất cả các xác suất được làm mịn bằng cách sử dụng ước lượng Laplace để giải thích
cho kích thước mẫu nhỏ.
Triển khai Lisp khá hiệu quả:
Đào tạo: 20 exs trong 0,4 giây, 840 exs trong 11,5 giây
Kiểm tra: 200 cuốn sách mỗi giây
Giải thích về Hồ sơ và Khuyến nghị
Cường độ tính năng của từ wk xuất hiện trong vị trí sj :

Số liệu thực nghiệm


Các tìm kiếm trên Amazon đã được sử dụng để tìm sách ở nhiều thể loại khác nhau.
Các tiêu đề có ít nhất một đánh giá hoặc bình luận đã được giữ lại.
Bộ dữ liệu:
Tiểu thuyết văn học: 3.061 đầu sách
Bí ẩn: 7.285 đầu sách
Khoa học: 3.813 đầu sách
Khoa học viễn tưởng: 3.813 đầu sách
Dữ liệu được xếp hạng
4 người dùng đã xếp hạng các ví dụ ngẫu nhiên trong một thể loại bằng cách xem xét
các trang Amazon về tiêu đề:
Tiêu đề LIT1 936
Tiêu đề LIT2 935
MYST 500 đầu sách
Tiêu đề SCI 500
Tiêu đề SF 500
Phương pháp thực nghiệm
Xác thực chéo 10 lần để tạo ra các đường cong học tập.
Đã đo một số chỉ số trên dữ liệu thử nghiệm độc lập:
Độ chính xác ở top 3: % của top 3 là tích cực
Xếp hạng của top 3: Xếp hạng trung bình được chỉ định cho top 3
Tương quan xếp hạng: Spearman's, rs, giữa thứ hạng hoàn chỉnh của hệ thống và
người dùng.
Kiểm tra cắt bỏ các vị trí tác giả liên quan và tiêu đề liên quan (LIBRA-NR).
Kiểm tra ảnh hưởng của thông tin do phương pháp hợp tác của Amazon tạo ra.
Tóm tắt kết quả thí nghiệm
Độ chính xác ở top 3 khá ổn định trong 90% chỉ sau 20 ví dụ.
Rating của top 3 khá ổn định trên 8 chỉ sau 20 ví dụ.
Tất cả các kết quả luôn tốt hơn đáng kể so với cơ hội ngẫu nhiên chỉ sau 5 ví dụ.
Tương quan xếp hạng thường trên 0,3 (vừa phải) chỉ sau 10 ví dụ.
Tương quan xếp hạng thường trên 0,6 (cao) sau 40 ví dụ.
Nghiên cứu người dùng
Đối tượng được yêu cầu sử dụng Libra và nhận khuyến nghị.
Khuyến khích một số vòng phản hồi.
Xếp hạng tất cả các cuốn sách trong danh sách khuyến nghị cuối cùng.
Đã chọn hai cuốn sách để mua.
Đánh giá trở lại sau khi đọc các lựa chọn.
Hoàn thành bảng câu hỏi về hệ thống.
Kết hợp nội dung và cộng tác
Các phương pháp cộng tác và dựa trên nội dung có những điểm mạnh và điểm yếu bổ
sung cho nhau.
Kết hợp các phương pháp để có được tốt nhất của cả hai.
Các phương pháp lai khác nhau:
Áp dụng cả hai phương pháp và kết hợp các khuyến nghị.
Sử dụng dữ liệu cộng tác làm nội dung.
Sử dụng công cụ dự đoán dựa trên nội dung với tư cách là một cộng tác viên khác.
Sử dụng nội dung-
dự đoán dựa trên để hoàn thành dữ liệu hợp tác.
số liệu
Lỗi tuyệt đối trung bình (MAE)
So sánh các dự đoán số với xếp hạng của người dùng

Độ nhạy ROC [Herlocker 99]


Mức độ hiệu quả của các dự đoán giúp người dùng chọn các mặt hàng chất lượng cao
Xếp hạng ≥ 4 được coi là “tốt”; < 4 được coi là “xấu”

Thử nghiệm t được ghép nối cho ý nghĩa thống kê


Học chủ động
(Phần mẫu, Học với câu hỏi)
Được sử dụng để giảm số lượng ví dụ đào tạo cần thiết.
Hệ thống yêu cầu xếp hạng cho các mục cụ thể mà hệ thống sẽ học được nhiều nhất.
Một số phương pháp hiện có:
lấy mẫu không chắc chắn
lấy mẫu dựa trên ủy ban
Học bán giám sát
(Giám sát yếu, Bootstrapping)
Sử dụng vô số ví dụ chưa được gắn nhãn để hỗ trợ việc học từ một lượng nhỏ dữ liệu
được gắn nhãn.
Một số phương pháp gần đây được phát triển:
EM bán giám sát (Tối đa hóa kỳ vọng)
đồng đào tạo
SVM chuyển đổi
kết luận
Đề xuất và cá nhân hóa là những cách tiếp cận quan trọng để chống lại tình trạng quá
tải thông tin.
Machine Learning là một phần quan trọng của hệ thống cho những nhiệm vụ này.
Lọc cộng tác có vấn đề.
Các phương pháp dựa trên nội dung giải quyết những vấn đề này (nhưng có những vấn
đề của riêng chúng).
Tích hợp cả hai là tốt nhất.

You might also like