Bao Cao KPDL

TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA CÔNG NGHỆ THÔNG TIN
⸎⸎⸎⸎⸎
BÀI TẬP LỚN KẾT THÚC HỌC KHAI PHÁ DỮ LIỆU
Đề bài: Hệ thống khuyến nghị (Recommendation systems)
Đề số: 16
Sinh viên : NGUYỄN NGỌC CÔNG ANH
Lớp : Khai phá dữ liệu-1-2-23(N01)
Mã SV : 22010201
HÀ NỘI, THÁNG 3/2024

Mục Lục
CHƯƠNG 1. TỔNG QUAN VỀ HỆ GỢI Ý (RECOMMENDER SYSTEMS).3
1. Giới Thiệu...................................................................................................3
2. Recommender Systems..............................................................................4
Chương 2: Thuật Toán Recommender Systems trong thực tế..........................12
3. Bộ dữ liệu Movielens:...............................................................................12
4. Phân tích thống kê cơ bản.......................................................................13
KẾT LUẬN............................................................................................................16
TÀI LIỆU THAM KHẢO.....................................................................................18

CHƯƠNG 1. TỔNG QUAN VỀ HỆ GỢI Ý (RECOMMENDER SYSTEMS)
1. Giới Thiệu
Hệ thống gợi ý, hay còn gọi là Hệ thống đề xuất (Recommender System - RS),
là một công nghệ thông minh giúp dự đoán sở thích và đánh giá của người dùng
đối với những sản phẩm hoặc thông tin mà họ chưa từng trải nghiệm. Hệ thống
này hoạt động dựa trên nguyên tắc lọc thông tin, thu thập dữ liệu về hành vi và
sở thích của người dùng trong quá khứ, từ đó đưa ra những gợi ý phù hợp nhất
cho nhu cầu của họ.
Hãy tưởng tượng bạn đang mua sắm trên Shopee. Hệ thống gợi ý sẽ phân tích
lịch sử mua hàng, xếp hạng sản phẩm và thời gian bạn dành cho từng sản phẩm
để dự đoán những món đồ bạn có thể quan tâm. Nhờ vậy, bạn sẽ dễ dàng tìm
thấy những sản phẩm phù hợp mà không cần tốn nhiều thời gian tìm kiếm.
Ngoài lĩnh vực thương mại điện tử, hệ thống gợi ý còn được ứng dụng rộng rãi
trong nhiều lĩnh vực khác như:
• Giải trí: Gợi ý bài hát (Last.fm), phim ảnh (Netflix), video clip (YouTube)
• Giáo dục và đào tạo: Gợi ý sách, bài báo, tài liệu học tập phù hợp với nhu
cầu học tập của từng học viên
Hệ thống gợi ý không chỉ đơn thuần là một công cụ hỗ trợ tìm kiếm thông tin
mà còn là một lĩnh vực nghiên cứu khoa học đầy tiềm năng. Với sự phát triển
của trí tuệ nhân tạo và học máy, hệ thống gợi ý ngày càng trở nên thông minh
và chính xác hơn, giúp mang đến cho người dùng những trải nghiệm cá nhân
hóa và hiệu quả.
Hội thảo chuyên đề về hệ thống gợi ý:
• ACM RecSys: Diễn đàn chuyên đề về hệ thống gợi ý được tổ chức hàng
năm bởi Hiệp hội Máy tính Hoa Kỳ (ACM)
• ACM KDD: Hội nghị Khai phá tri thức trong Dữ liệu - Nơi có các tiểu bang
dành riêng cho hệ thống gợi ý
• ACM CIKM: Hội nghị Quốc tế về Quản lý Thông tin và Kiến thức - Nơi có
các tiểu bang dành riêng cho hệ thống gợi ý
Hệ thống gợi ý là một công nghệ đầy hứa hẹn, đóng vai trò quan trọng trong
việc nâng cao trải nghiệm người dùng trong nhiều lĩnh vực khác nhau. Với sự
phát triển không ngừng của khoa học kỹ thuật, hệ thống gợi ý sẽ ngày càng trở
nên thông minh và hữu ích hơn, giúp kết nối người dùng với những sản phẩm
và thông tin phù hợp nhất với nhu cầu của họ.
2. Recommender Systems
2.1.Các khái niệm
Hệ thống gợi ý hoạt động dựa trên ba yếu tố chính: người dùng (user), mục tin
(item) và phản hồi (feedback) của người dùng đối với mục tin đó. Phản hồi thường
được biểu thị dưới dạng xếp hạng (rating) thể hiện mức độ thích hoặc quan tâm của
người dùng.
Tất cả thông tin này được biểu diễn dưới dạng ma trận, như hình 2. Mỗi dòng trong
ma trận đại diện cho một người dùng, mỗi cột đại diện cho một mục tin và mỗi ô
thể hiện mức độ thích của người dùng đối với mục tin tương ứng. Các ô có giá trị
là những mục tin mà người dùng đã đánh giá trong quá khứ, còn lại là những mục
tin chưa được đánh giá. Do mỗi người dùng chỉ đánh giá một số lượng nhỏ mục
tin, nên ma trận này thường có rất nhiều ô trống, hay còn gọi là ma trận thưa.
Nhiệm vụ chính của hệ thống gợi ý là dựa vào những ô đã có giá trị trong ma trận
(dữ liệu quá khứ) để dự đoán mức độ thích của người dùng đối với những mục tin
chưa được đánh giá. Sau đó, hệ thống sẽ sắp xếp các dự đoán này theo thứ tự từ
cao xuống thấp và chọn ra Top-N mục tin phù hợp nhất để gợi ý cho người dùng.
Ví dụ:
Giả sử bạn là một người dùng trên Netflix. Hệ thống gợi ý sẽ thu thập dữ liệu về
những bộ phim bạn đã xem và đánh giá trong quá khứ. Sau đó, dựa vào dữ liệu
này, hệ thống sẽ dự đoán những bộ phim bạn có thể thích và gợi ý cho bạn những
lựa chọn phù hợp nhất.
Hệ thống gợi ý đóng vai trò quan trọng trong việc giúp người dùng khám phá
những sản phẩm và thông tin phù hợp với sở thích của họ. Nhờ có hệ thống này,
người dùng có thể tiết kiệm thời gian và công sức tìm kiếm, đồng thời có thể trải
nghiệm những sản phẩm và dịch vụ tốt hơn.
Hệ thống gợi ý hoạt động dựa trên các thuật toán học máy tiên tiến, giúp dự đoán
sở thích của người dùng một cách chính xác và hiệu quả.
Lưu ý:
• Ma trận thưa (sparse matrix): là ma trận có nhiều ô trống hơn ô có giá trị.
• Top-N: là danh sách N mục tin có mức độ phù hợp cao nhất với người dùng.
2.2.Thông tin phản hồi từ người dùng và hai dạng bài toán trong RS
Hệ thống đề xuất (RS) sử dụng giá trị phản hồi để dự đoán hành vi của người
dùng
Giá trị phản hồi (feedback) đóng vai trò quan trọng trong hệ thống đề xuất (RS).
Nó thể hiện mức độ tương tác của người dùng với các mục tin (item) và được sử
dụng để dự đoán hành vi của họ trong tương lai.
Có hai loại phản hồi chính:
 Phản hồi tường minh (explicit feedback): được thể hiện rõ ràng qua các
hành động như đánh giá, xếp hạng (ví dụ: từ 1 đến 5 sao), thích (like) hoặc
không thích (dislike).
 Phản hồi không tường minh (implicit feedback): được thể hiện qua hành
vi tương tác như số lần click chuột, thời gian xem, thời gian duyệt, v.v.
Có hai dạng bài toán chính trong RS:
 Dự đoán xếp hạng (rating prediction): áp dụng cho hệ thống có phản hồi
tường minh, dự đoán mức độ đánh giá của người dùng cho các mục tin.
 Dự đoán mục thông tin (item prediction/recommendation): xác định xác

suất người dùng thích một mục tin cụ thể, thường được sử dụng trong hệ
thống có phản hồi không tường minh.
Ví dụ:
 Hệ thống thương mại điện tử: sử dụng xếp hạng sản phẩm để dự đoán
những sản phẩm nào mà người dùng có khả năng mua cao.
 Hệ thống e-learning: sử dụng kết quả bài tập để dự đoán những bài học nào
mà người dùng cần học thêm.
Giá trị phản hồi là yếu tố then chốt giúp RS hoạt động hiệu quả. Việc thu thập và
sử dụng phản hồi một cách chính xác sẽ giúp hệ thống đưa ra những dự đoán chính
xác hơn về hành vi của người dùng, từ đó cung cấp cho họ những mục tin phù hợp
và hữu ích nhất.
2.3.Các kĩ thuật chính trong Recommender Systems
Hiện tại, trong RS có rất nhiều giải thuật được đề xuất, tuy nhiên có thể gom chúng
vào trong các nhóm chính: nhóm giải thuật lọc theo nội dung (content-based
filtering), nhóm giải thuật lọc cộng tác (collaborative filtering), nhóm giải thuật lai
ghép (hybrid filtering) và nhóm giải thuật không cá nhân hóa (non-
personalization).
2.3.1. Lọc cộng tác

Một hướng tiếp cận phổ biến trong thiết kế hệ thống đề xuất (RS) là sử dụng lọc
cộng tác. Các phương pháp lọc cộng tác tập trung vào việc thu thập và phân tích
thông tin lớn về hành vi, hoạt động hoặc sở thích của người dùng để dự đoán sự
thích hợp của họ dựa trên mức độ tương đồng với người dùng khác. Một điểm
mạnh quan trọng của lọc cộng tác là không phụ thuộc vào việc phân tích nội dung
của mục, cho phép nó đề xuất hiệu quả các mục phức tạp như phim mà không cần
"hiểu biết" chi tiết về chúng. Có nhiều thuật toán được áp dụng để đo lường sự
giống nhau giữa người dùng hoặc mức độ tương đồng về mục trong các hệ thống
đề xuất.
Lọc cộng tác dựa trên giả định rằng những người đồng ý về sở thích trong quá khứ
sẽ tiếp tục đồng ý trong tương lai và rằng họ sẽ thích những mục tương tự như
những gì họ thích trước đây. Khi xây dựng mô hình từ hành vi của người dùng, sự
phân biệt thường được thực hiện giữa việc thu thập dữ liệu rõ ràng và dữ liệu tiềm
ẩn.
Dữ liệu rõ ràng có thể bao gồm yêu cầu người dùng xếp hạng, tìm kiếm, xếp hạng
bộ sưu tập, so sánh mục, hoặc yêu cầu người dùng tạo danh sách các mục mà họ
thích. Dữ liệu tiềm ẩn có thể được thu thập bằng cách quan sát mục mà người dùng
xem, phân tích thời gian xem, lưu giữ mục mà người dùng mua trực tuyến, hoặc
theo dõi mục người dùng đã nghe hoặc xem trực tuyến.
Hệ thống đề xuất so sánh dữ liệu đã thu thập với dữ liệu tương tự và khác biệt từ
người dùng khác nhau để tính toán danh sách các mục đề xuất. Tính đến nhược
điểm của lọc cộng tác, bao gồm vấn đề Cold Start, khả năng mở rộng và sự thưa
thớt, là quan trọng để phát triển các phương pháp khắc phục những vấn đề này.
Một ví dụ nổi tiếng về lọc cộng tác là lọc cộng tác theo từng mục, như được sử
dụng rộng rãi trong hệ thống gợi ý của Amazon.com. Các ứng dụng khác của lọc
cộng tác bao gồm các dịch vụ như Last.fm và Readgeek, cũng như sử dụng trong
các mạng xã hội như Facebook, MySpace và LinkedIn để giới thiệu bạn bè và kết
nối xã hội. Các thuật toán lọc cộng tác thường gặp thách thức từ ba vấn đề chính:
Cold Start, khả năng mở rộng và sự thưa thớt (sparsity).
Một trong những kỹ thuật cụ thể trong lọc cộng tác là sử dụng hệ số ma trận hóa
(matrix factorization), một phương pháp xấp xỉ ma trận cấp thấp. Các phương pháp
lọc cộng tác có thể được phân loại thành dựa trên bộ nhớ và dựa trên mô hình, với
ví dụ về phương pháp dựa trên bộ nhớ như thuật toán dựa trên người dùng và
phương pháp dựa trên mô hình như Kernel-Mapping Recommender.
2.3.2. Lọc dựa trên nội dụng
Một phương pháp phổ biến trong thiết kế hệ thống gợi ý là sử dụng lọc nội dung.
Phương pháp này dựa trên việc mô tả các mục hàng và xây dựng hồ sơ người dùng
dựa trên tùy chọn của họ. Từ khóa được sử dụng để mô tả mục hàng, trong khi hồ
sơ người dùng được tạo để chỉ ra loại mục mà người dùng thích. Cụ thể, các thuật
toán so sánh các mục đề cử với các mục mà người dùng đã thích trước đó, và đề
xuất những mục phù hợp nhất.
Để tóm tắt tính năng của các mục, thuật toán thường sử dụng biểu diễn tf-idf (term
frequency-inverse document frequency), còn được gọi là biểu diễn không gian
vectơ. Hồ sơ người dùng chủ yếu tập trung vào mô hình ưu tiên của người dùng và
lịch sử tương tác của họ với hệ thống gợi ý.
Hệ thống tạo hồ sơ dựa trên nội dung của người dùng, sử dụng vectơ trọng số của
các đối tượng địa lý. Trọng số này biểu thị tầm quan trọng của từng tính năng đối
với người dùng và có thể được tính từ các vectơ nội dung được xếp hạng bằng
nhiều kỹ thuật khác nhau. Phản hồi từ người dùng, như nút thích hoặc không thích,
có thể được sử dụng để đánh giá cao hoặc thấp tầm quan trọng của các thuộc tính
cụ thể.
Tuy nhiên, một thách thức quan trọng là hệ thống có thể hạn chế việc đề xuất nội
dung từ cùng một loại, giảm giá trị so với việc đề xuất nội dung từ các loại khác.
Ví dụ, giới thiệu tin tức có thể hữu ích, nhưng sẽ trở nên mạnh mẽ hơn nếu có thể
đề xuất âm nhạc, video, sản phẩm, cuộc thảo luận, và nhiều loại nội dung khác từ
các nguồn khác nhau.
Pandora Radio là một ví dụ về hệ thống gợi ý dựa trên nội dung, trong đó người
dùng cung cấp hạt giống ban đầu bằng cách chọn một bài hát. Ngoài ra, có nhiều
hệ thống gợi ý khác, như Rotten Tomatoes, Internet Movie Database, Jinni, Rovi
Corporation và Jaman, nhằm đề xuất phim dựa trên nội dung. Các hệ thống gợi ý
cũng được sử dụng trong lĩnh vực nghiên cứu để đề xuất tài liệu liên quan và trong
lĩnh vực y tế để cá nhân hóa giáo dục sức khỏe và chiến lược phòng ngừa.
2.3.3. Hệ thống gợi ý lai( Hybrid recommender systems)
Nghiên cứu gần đây đã khẳng định rằng sự kết hợp giữa lọc cộng tác và lọc dựa
trên nội dung có thể mang lại hiệu suất tốt hơn trong một số trường hợp. Phương
pháp lai có thể được triển khai theo một số cách khác nhau:
Dự đoán dựa trên nội dung và lọc cộng tác riêng lẻ, sau đó kết hợp chúng.
Thêm khả năng dựa trên nội dung vào phương pháp lọc cộng tác (và ngược lại).
Thống nhất các phương pháp tiếp cận thành một mô hình duy nhất.
Nghiên cứu đã thực nghiệm và so sánh hiệu suất của phương pháp lai với các
phương pháp cộng tác thuần túy và chứng minh rằng phương pháp lai có thể cung
cấp đề xuất chính xác hơn so với các phương pháp thuần túy. Đối với các vấn đề
như Cold Start và vấn đề thưa thớt trong hệ thống gợi ý, phương pháp lai cũng có
khả năng giải quyết.
Netflix là một ví dụ điển hình cho việc sử dụng hệ thống gợi ý lai. Trang web này
đưa ra các đề xuất bằng cách so sánh thói quen xem và tìm kiếm của những người
dùng tương tự (lọc cộng tác), cũng như bằng cách cung cấp những bộ phim có
chung đặc điểm với những bộ phim mà người dùng đánh giá cao (lọc dựa trên nội
dung).
Có nhiều kỹ thuật đã được đề xuất làm cơ sở cho các hệ thống gợi ý, bao gồm các
kỹ thuật hợp tác (collaborative), dựa trên nội dung (content-based), dựa trên kiến
thức (knowledge-based) và nhân khẩu học (demographic techniques). Các hệ thống
gợi ý lai kết hợp nhiều kỹ thuật này để tận dụng sức mạnh tổng hợp của chúng.
• Cộng tác – Collaborative: Hệ thống tạo đề xuất chỉ sử dụng thông tin về hồ
sơ xếp hạng cho những người dùng hoặc mục khác nhau. Các hệ thống cộng tác
định vị “người dùng/mục” ngang hàng với lịch sử xếp hạng tương tự như người
dùng hoặc mục hiện tại và tạo đề xuất sử dụng vùng lân cận này. Các thuật toán
dựa trên người dùng và dựa trên hàng gần nhất có thể được kết hợp để giải quyết
vấn đề Cold Start và cải thiện kết quả đề xuất.
• Dựa trên nội dung – Content-based: Hệ thống tạo đề xuất từ hai nguồn: các
tính năng liên quan đến sản phẩm và xếp hạng mà người dùng đã cung cấp cho họ.
Đề xuất dựa trên nội dung coi đề xuất là sự cố phân loại người dùng cụ thể và tìm
hiểu trình phân loại cho lượt thích và không thích của người dùng dựa trên các tính
năng của sản phẩm.
• Nhân khẩu học – demographic techniques: Trình giới thiệu nhân khẩu học
cung cấp các đề xuất dựa trên hồ sơ nhân khẩu học của người dùng. Sản phẩm
được đề xuất có thể được sản xuất cho các mục nhân khẩu học khác nhau, bằng
cách kết hợp xếp hạng của người dùng trong các mục đó.
• Dựa trên tri thức – knowledge-based: Trình giới thiệu dựa trên kiến thức gợi
ý các sản phẩm dựa trên các suy luận về nhu cầu và sở thích của người dùng. Kiến
thức này đôi khi sẽ chứa kiến thức chức năng rõ ràng về cách các tính năng sản
phẩm nhất định đáp ứng nhu cầu của người dùng.
Các phương pháp cộng tác tập trung vào thông tin về hồ sơ xếp hạng của những
người dùng hoặc mục khác nhau. Các phương pháp dựa trên nội dung sử dụng tính
năng liên quan đến sản phẩm và xếp hạng của người dùng. Phương pháp nhân khẩu
học cung cấp đề xuất dựa trên hồ sơ nhân khẩu học của người dùng. Phương pháp
dựa trên kiến thức sử dụng suy luận về nhu cầu và sở thích của người dùng. Hybrid
recommender systems kết hợp nhiều phương pháp để tạo ra dữ liệu đầu ra chính
xác và đa dạng.
Có bảy kĩ thuật lai cơ bản
• Có trọng số (Weighted): Điểm số của các thành phần đề xuất khác nhau
được kết hợp theo số lượng.
• Chuyển đổi (Switching): Hệ thống chọn giữa các thành phần đề xuất và áp
dụng hệ thống được chọn.
• Hỗn hợp (Mixed): Các khuyến nghị từ những người giới thiệu khác nhau
được trình bày cùng nhau để đưa ra đề xuất.
• Kết hợp tính năng (Feature Combination): Các tính năng được lấy từ các
nguồn tri thức khác nhau được kết hợp với nhau và được đưa ra cho một thuật toán
gợi ý duy nhất.
• Tính năng tăng cường (Feature Augmentation): Một kỹ thuật gợi ý được sử
dụng để tính toán một tính năng hoặc tập hợp các tính năng, sau đó là một phần
của đầu vào cho kỹ thuật tiếp theo.
• Cascade: Các khuyến nghị được ưu tiên nghiêm ngặt, với những ưu tiên thấp
hơn phá vỡ các mối quan hệ trong việc tính điểm của những người cao hơn.
• Cấp độ meta (Meta-level): Một kỹ thuật đề xuất được áp dụng và tạo ra một
số loại mô hình, sau đó là đầu vào được sử dụng bởi kỹ thuật tiếp theo.
2.3.4. Các kĩ thuật không cá nhân hóa
Các kỹ thuật trong nhóm này thường được tích hợp dễ dàng vào các website hoặc
hệ thống, đặc biệt là trên các trang thương mại, tin tức, và giải trí. Ví dụ, trong hệ
thống bán hàng trực tuyến, thường xuyên sử dụng các kỹ thuật này để gợi ý các sản
phẩm phổ biến, mới nhất, cùng loại, hoặc thường được mua kèm. Một ứng dụng
điển hình là sử dụng luật kết hợp (như Apriori) trong hệ thống của Amazon, giúp
xác định các sản phẩm thường được mua cùng nhau, như được minh họa trong
Hình 4.
Tuy nhiên, nhược điểm của những phương pháp này là sự thiếu cá nhân hóa đối
với từng người dùng. Điều này có nghĩa là mọi người dùng sẽ nhận được các gợi ý
tương tự khi chọn cùng một sản phẩm, mất đi sự độc đáo trong việc tư vấn sản
phẩm cho từng người dùng cụ thể.
2.3.5. Deep Learning trong hệ thống khuyến nghị
Deep Learning (DL) đang là một trong những chủ đề nóng trong cộng đồng học
máy. Sự áp dụng của học sâu vào hệ thống khuyến nghị đã phát triển chậm chạp và
chỉ trở nên phổ biến từ năm 2016, khi Hội thảo Deep Learning for Recommender
Systems được tổ chức tại ACM RecSys 2016.
Mạng nơ-ron hồi quy (RNN) được đánh giá cao trong việc mô hình hóa chuỗi các
phiên truy cập của người dùng. RNN có những thuộc tính đặc biệt làm cho chúng
trở nên phù hợp, bao gồm khả năng kết hợp thông tin từ các sự kiện xảy ra trong
quá khứ. Điều này cho phép RNN dự đoán ý định của người dùng một cách chính
xác hơn.
Chương 2: Thuật Toán Recommender Systems trong thực tế
3. Bộ dữ liệu Movielens:
MovieLens, một dịch vụ giới thiệu phim, đã cung cấp tập dữ liệu. Nó chứa điểm
xếp hạng cho những bộ phim này cùng với các bộ phim.
Nó chứa 2.000.0263 xếp hạng trên 27.278 phim. Dữ liệu này được tạo bởi 138.493
người dùng trong khoảng thời gian từ ngày 09 tháng 1 năm 1995 đến ngày 31
tháng 3 năm 2015. Tập dữ liệu này được tạo vào ngày 17 tháng 10 năm 2016.
Người dùng được chọn ngẫu nhiên. Được biết, tất cả người dùng được chọn đã
bình chọn cho ít nhất 20 bộ phim.- user.dat: chứa thông tin về người dùng. Người
dùng Movielens được chọn ngẫu nhiên để đưa vào. Id của họ đã được ẩn danh. Họ
cũng được chọn riêng để đưa vào tập dữ liệu xếp hạng và gắn thẻ, ngụ ý rằng id
người dùng có thể xuất hiện trong một tập dữ liệu nhưng không xuất hiện trong tập
còn lại.
- ratings.csv: Tất cả các xếp hạng được chứa trong tập tin xếp hạng.dat. Mỗi dòng
của tệp này đại diện cho một xếp hạng của một phim bởi một người dùng và có
định dạng sau: UserID :: MovieID :: Xếp hạng :: Timestamp. Xếp hạng được thực
hiện theo thang điểm 5 sao, bao gồm cả các giá trị nửa sao (0.5, 1.5, ...).
Timestamp biểu thị số giây kể từ nửa đêm theo Giờ phối hợp quốc tế (UTC) ngày
1 tháng 1 năm 1970.
- movies.csv: Thông tin phim được chứa trong tập tin movies.dat. Mỗi dòng của
tệp này đại diện cho một bộ phim và có định dạng sau: MovieID :: Title :: Thể loại.
MovieID là id MovieLens thực sự. Tiêu đề phim, theo chính sách, phải được nhập
chính xác cho những phim được tìm thấy trong IMDB, bao gồm cả năm phát hành.
Tuy nhiên, chúng được nhập thủ công, do đó lỗi và sự không nhất quán có thể tồn
tại. Thể loại phim được biểu diễn dưới dạng một danh sách, được chọn từ các mục
sau: Action, Adventure, Animation, Children's, Comedy, Crime, Documentary,
Drama, Fantasy, Film-Noir, Horror, Musical, Mystery, Romance, Sci-Fi,
Thriller, War, Western.
- tags.csv: Tất cả các thẻ được chứa trong tập tin tags.dat. Mỗi dòng của tệp này
đại diện cho một thẻ được áp dụng cho một phim bởi một người dùng và có định
dạng sau: UserID :: MovieID :: Tag :: Timestamp. Thẻ là siêu dữ liệu do người
dùng tạo ra, mỗi thẻ thường là một từ đơn hoặc cụm từ ngắn. Ý nghĩa, giá trị và
mục đích của một thẻ cụ thể được xác định bởi mỗi người dùng. Timestamp biểu
thị số giây kể từ nửa đêm Giờ phối hợp quốc tế (UTC) ngày 1 tháng 1 năm 1970.
4. Phân tích thống kê cơ bản
Khởi tạo dữ liệu:

Tạo dataframe Người xem phim:
Chọn người dùng 28488 và xem dữ liệu của người dùng này
Số lượng phim người dùng này đã xem là 151 phim
Số người đã xem hơn 60% phim cùng với người dùng 28488:
Top 20 phim nên giới thiệu cho người dùng 28488:
KẾT LUẬN
Qua quá trình thực hiện đề tài "Ứng dụng hệ thống gợi ý trong lĩnh vực thương mại
điện tử", em đã tích luỹ được nhiều kiến thức thực tế và lý thuyết trong lĩnh vực
Điện tử - Viễn thông và Công nghệ thông tin. Sự hướng dẫn chân thành của thầy
giáo đã khơi nguồn đam mê học tập, giúp em khám phá những kiến thức mới.
Thầy giáo cũng đã hỗ trợ em trong việc phát triển các kỹ năng mềm như kỹ năng
thuyết trình, làm việc nhóm và thích ứng với môi trường chuyên nghiệp. Tôi đã có
cơ hội làm quen với các công cụ như Power Point, các phần mềm lập trình và triển
khai Machine learning như Python, Pandas, Sublime Text, Colab Notebooks, giúp
em mở rộng khả năng sáng tạo và ứng dụng kiến thức vào thực tế.
Mặc dù kiến thức của em còn hạn chế, nhưng em sẵn sàng học hỏi và khắc phục
những hạn chế đó để hoàn thành ý tưởng của mình một cách tốt nhất. Nếu có bất
kỳ sai sót nào, em mong thầy giáo có thể hỗ trợ và tạo điều kiện để em có thể triển
khai ý tưởng của mình một cách hiệu quả nhất. Tôi xin chân thành cảm ơn sự hỗ
trợ và định hình chuyên môn của thầy giáo!
TÀI LIỆU THAM KHẢO
[1] https://github.com/gabrielspmoreira/chameleon_recsys
[2] https://machinelearningcoban.com/
[3] https://vi.wikipedia.org/
[4] https://github.com/khanhnamle1994/movielens/tree/master

Bao Cao KPDL

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bao Cao KPDL

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC PHENIKAA

KHOA CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚN KẾT THÚC HỌC KHAI PHÁ DỮ LIỆU

Đề bài: Hệ thống khuyến nghị (Recommendation systems)

Sinh viên : NGUYỄN NGỌC CÔNG ANH

Lớp : Khai phá dữ liệu-1-2-23(N01)

HÀ NỘI, THÁNG 3/2024

Chương 2: Thuật Toán Recommender Systems trong thực tế..........................12

4. Phân tích thống kê cơ bản.......................................................................13

TÀI LIỆU THAM KHẢO.....................................................................................18

Hội thảo chuyên đề về hệ thống gợi ý:

Có hai loại phản hồi chính:

 Dự đoán mục thông tin (item prediction/recommendation): xác định xác

2.3.Các kĩ thuật chính trong Recommender Systems

2.3.1. Lọc cộng tác

2.3.2. Lọc dựa trên nội dụng

2.3.3. Hệ thống gợi ý lai( Hybrid recommender systems)

Có bảy kĩ thuật lai cơ bản

2.3.4. Các kĩ thuật không cá nhân hóa

2.3.5. Deep Learning trong hệ thống khuyến nghị

Chương 2: Thuật Toán Recommender Systems trong thực tế

4. Phân tích thống kê cơ bản

Khởi tạo dữ liệu:

You might also like