You are on page 1of 3

- Lấy dữ liệu bằng cách đọc file csv(10000 dòng)

- lấy tên người dùng và số lượng lượt xem


- chuyển dữ liệu về dạng có thể đọc được
- lấy top 20 bài hát phổ biến nhất
- lấy top 20 nghệ sĩ phổ biến nhất
- phân bố bài hát giữa người dùng vs ngdùng

I. Công cụ đề xuất
- Mục đích: mô hình hóa + sắp xếp thông tin -> đưa đề xuất
1. Các công cụ đề xuất
- Công cụ khuyến nghị dựa trên người dùng: người dùng là thực thể trung tâm. Thuật
toán
tìm kiếm điểm tương đồng giữa những người dùng -> đưa khuyến nghị

- Công cụ khuyến nghị dựa trên ndung: nội dung là thực thể trung tâm. TToán tìm các
đặc
điểm nội dung(vs bài hát) và tìm ndung tương tự

- Công cụ khuyến nghị kết hợp: ndùng+ndung


2. Tiện ích của ccụ đề xuất
Tăng doanh thu, doanh số

3. Công cụ đề xuất dựa trên mức độ phổ biến


- logic vận động: nếu một số mục được phần lớn cs ngdùng nghe -> giới thiệu người
dùng
chưa tương tác với mục đó.
-> lọc bài hát nhiều người nghe nhất (có code) - 10 đề xuất hàng đầu

4. Công cụ đề xuất dựa trên sự tương đồng của mặt hàng


Logic: tính toán điểm tương đồng giữa các mục của người dùng và các mục khác trong
tập
dữ liệu
similarityij = intersection(usersi , usersj )/union(usersi , usersj)
-> xác định điểm tương đồng giữa hai bài hát, nếu hai bài hát đc nghe bởi phần lớn
người dùng trên tổng số người nghe -> hai bài hát giống nhau

- Thuật toán gthiệu bài hát cho người dùng thứ k:


+ xác định bài hát mà ngdùng k đã nghe
+ tính mức độ tương tự của từng bài hát trong danh sách ngdùng với tập bài
hát
trong tập dữ liệu
+ xác định các bài hát giống nhất với bài đã nghe
+ chọn tập con các bài hát này làm đề xuất
(có code - chọn ra 5000 bài hát để so sánh)-> đưa ra list bài phù hợp theo rank

5. Công cụ đề xuất dựa trên csdl ma trận(thừa số hóa ma trận) -là ccụ sd nhiều nhất
vd: từ lsử nghe -> thích nghe nhạc cao độ
- ma trận tiện ích: mỗi hàng là 1 ngdùng, mỗi cột là một mục
- chúng ta chia nhỏ ma trận tiện ích U thành 2 ma trận hạng thấp mà thỏa mãn:
R = U * It and |R|=|U| * |I|
- R là ma trận xếp hạng ban đầu, U là ma trận người dùng, I là ma trận hạng mục

5.1 Phân tích thừa số ma trận và phân tích giá trị đơn lẻ
5.2 Xây dựng công cụ đề xuất dựa tren cở sở dữ liệu ma trận

- thay thế số lần chơi bằng số lần chơi theo phân số


-> đo độ mạnh của "độ giống" cho một bài hát trong phạm vi [0;1].
- chuyển đổi khung dữ liệu thành một ma trận numpyở định dạng ma trận tiện ích
(chỉ sử dụng chỉ số thay cho id bài hát và id người dùng). để chuyển thành ma trận
thưa thớt.
- sdụng hàm svds trong scipy để chia nhỏ ma trận tiện ích thành 3 mtrận.

Thuật toán sử dụng: Phân tích nhân tử ma trận (matrix factorization algorithms)

You might also like