Recranker: Hướng Dẫn Điều Chỉnh Ngôn Ngữ Lớn Làm Người Xếp Hạng Cho Đề Xuất Top-K

Machine Translated by Google
RecRanker: Hướng dẫn điều chỉnh ngôn ngữ lớn

Làm người xếp hạng cho Đề xuất Top-k
Tứ Xuân Lạc1 , Bowei He1 Haohan
, Zhao1 , Yinya Huang1 , Aojun Chu2 ,
Zongpeng Li3 , Yuanzhang Xiao4 ,Mingjie Zhan2 , Linqi Song1
1Đại học Thành phố Hồng Kông 2Đại học Trung Hoa Hồng Kông 3Đại học
Hangdian 4Đại học Hawaii {sichun.luo,boweihe2-
c,haohazhao2-c }@my.cityu.edu.hk, {yinya.el.huang,aojunzhou,zmjdll}@gmail.com,
zongpeng@hdu.edu.cn, yxiao8@hawaii.edu, linqi.song@cityu.edu.hk
Tóm tắt—Các mô hình ngôn ngữ lớn (LLM) đã thể hiện những khả năng bao gồm NCF [6], NGCF [7] và LightGCN [8]. Những kỹ thuật này khai
vượt trội và được triển khai rộng rãi trên nhiều lĩnh vực khác nhau, thác thông tin hợp tác thông qua mạng lưới thần kinh. Mặt khác,
bao gồm cả hệ thống gợi ý. Nhiều nghiên cứu đã sử dụng các gợi ý
đối với các đề xuất tuần tự, các phương pháp đại diện như SASRec
chuyên biệt để khai thác khả năng học tập theo ngữ cảnh vốn có của
[9] và BERT4Rec [10] sử dụng cơ chế chú ý [11] để mô hình hóa trình
LLM. Ví dụ: LLM được nhắc đóng vai trò là người xếp hạng không bắn để
xếp hạng theo danh sách, đánh giá các mục ứng cử viên do mô hình truy tự người dùng.
xuất tạo ra để đưa ra đề xuất. Nghiên cứu gần đây tiếp tục sử dụng kỹ Trong những năm gần đây, các mô hình ngôn ngữ lớn (LLM) [12]–
thuật điều chỉnh hướng dẫn để điều chỉnh LLM phù hợp với sở thích của
[14] đã thể hiện năng lực đáng kể trong khả năng hiểu ngôn ngữ tự
con người nhằm đưa ra các đề xuất hứa hẹn hơn. Bất chấp tiềm năng của
nhiên [15], thế hệ [16] và lý luận phức tạp [17]. Do đó, chúng ngày
nó, nghiên cứu hiện tại bỏ qua việc tích hợp nhiều nhiệm vụ xếp hạng
càng được tích hợp vào nhiều lĩnh vực, bao gồm cả hệ thống gợi ý
để nâng cao hiệu suất của mô hình. Hơn nữa, tín hiệu từ mô hình khuyến
nghị thông thường không được tích hợp vào LLM, hạn chế hiệu suất hệ [18]–[20]. Một ví dụ điển hình về LLM trong bối cảnh này là hoạt
thống hiện tại. động như một công cụ xếp hạng cho một tập hợp các đề xuất được lọc
trước.
Trong bài viết này, chúng tôi giới thiệu RecRanker, được thiết kế
Sự ưu tiên này đối với LLM với tư cách là người xếp hạng phát sinh
riêng cho việc điều chỉnh LLM trong hướng dẫn nhằm đóng vai trò là
chủ yếu từ những hạn chế cố hữu của LLM, bao gồm kích thước bối
Trình xếp hạng cho các Đề xuất hàng đầu. Cụ thể, chúng tôi giới thiệu
cảnh bị hạn chế của chúng và khả năng chi phí tính toán cao khi xử
v3i2
.
n X0
s
á
m r2
c
6
h
2
ă a
[
t
1
n
lấy mẫu nhận thức tầm quan trọng, lấy mẫu dựa trên cụm và hình phạt
2R
1v81061.213] :g
I
đối với lấy mẫu lặp đi lặp lại đối với việc lấy mẫu người dùng chất lý một lượng lớn các mục ứng cử viên. Do đó, mô hình truy xuất
lượng cao, đại diện và đa dạng làm dữ liệu đào tạo. Để nâng cao lời thường được sử dụng để thu hẹp tập ứng viên, theo đó LLM sử dụng
nhắc, chúng tôi giới thiệu chiến lược dịch chuyển vị trí để giảm thiểu
khả năng hiểu biết và lý luận theo ngữ cảnh của mình để tạo ra danh
sai lệch vị trí và tăng cường lời nhắc bằng thông tin phụ trợ từ các
sách đề xuất được xếp hạng. Ví dụ, Hou và cộng sự. [21] vận hành
mô hình đề xuất thông thường, từ đó làm phong phú thêm hiểu biết theo
ngữ cảnh của LLM. Sau đó, chúng tôi sử dụng dữ liệu được lấy mẫu để LLM như một công cụ xếp hạng không bắn cho đề xuất tuần tự bằng
tập hợp tập dữ liệu điều chỉnh hướng dẫn với lời nhắc tăng cường bao cách chính thức hóa đề xuất dưới dạng nhiệm vụ xếp hạng có điều
gồm ba nhiệm vụ xếp hạng riêng biệt: xếp hạng theo điểm, theo cặp và kiện dựa trên lịch sử tương tác tuần tự. Bằng cách sử dụng các mẫu
theo danh sách. Chúng tôi tiếp tục đề xuất một phương pháp xếp hạng
nhắc nhở được thiết kế cẩn thận và tiến hành thử nghiệm trên các
kết hợp để nâng cao hiệu suất của mô hình bằng cách kết hợp các nhiệm
bộ dữ liệu tiêu chuẩn, họ cho thấy LLM thể hiện khả năng xếp hạng
vụ xếp hạng này. Các đánh giá thực nghiệm của chúng tôi chứng minh
tính hiệu quả của RecRanker được đề xuất trong cả kịch bản đề xuất không có điểm dừng đầy hứa hẹn có thể vượt trội hơn các mô hình
trực tiếp và tuần tự. truyền thống. Những nỗ lực tương tự cũng được thực hiện bởi [22],
Thuật ngữ chỉ mục—Hệ thống gợi ý, Mô hình ngôn ngữ lớn, [23], nơi họ cũng tận dụng khả năng học tập trong bối cảnh của LLM.
Điều chỉnh hướng dẫn
Tuy nhiên, những phương pháp này có những hạn chế nhất định.
I. GIỚI THIỆU
LLM tiêu chuẩn, có mục đích chung vốn không phù hợp với các mục
Hệ thống gợi ý đóng vai trò là kỹ thuật lọc thông tin được tiêu đề xuất.
thiết kế để giảm thiểu vấn đề quá tải thông tin [1]–[3]. Trong số Để khắc phục điều này, Zhang et al. [24] đề xuất sử dụng điều
các kịch bản khác nhau trong hệ thống đề xuất, mô hình đề xuất top- chỉnh hướng dẫn để điều chỉnh LLM tốt hơn với các nhiệm vụ đề xuất
k đặc biệt đáng chú ý bằng cách cung cấp cho người dùng danh sách cụ thể. Họ thể hiện sở thích của người dùng dưới dạng hướng dẫn
k mục hàng đầu phù hợp nhất với sở thích của họ [4], [5]. Đề xuất ngôn ngữ tự nhiên, điều chỉnh LLM để đưa ra các đề xuất chính xác
của Top-k bao gồm các nhiệm vụ đa dạng, bao gồm nhưng không giới hơn và lấy người dùng làm trung tâm. Cách tiếp cận này thực hiện
hạn ở các đề xuất trực tiếp dựa trên lọc cộng tác và đề xuất tuần tốt hơn các mô hình truyền thống và thậm chí cả GPT-3.5 trong các đánh giá.
tự. Một mặt, các khuyến nghị trực tiếp được nghiên cứu bằng một số Tuy nhiên, nghiên cứu hiện tại chưa cung cấp nghiên cứu kỹ lưỡng
phương pháp nổi bật về nhiệm vụ xếp hạng, tức là hầu hết các nghiên cứu triển khai LLM
cho một nhiệm vụ xếp hạng đơn lẻ, bỏ qua việc khám phá những lợi
ích tiềm năng của việc kết hợp nhiều nhiệm vụ xếp hạng để cải thiện
Tác giả tương ứng kết quả. Hơn nữa, các phương pháp phổ biến dựa vào
dành riêng cho thông tin văn bản của người dùng và các mục để xử lý và II. CÔNG VIỆC CÓ LIÊN QUAN
lý luận LLM. Việc giám sát việc không tích hợp các tín hiệu từ các mô
A. Khuyến nghị Top-k
hình khuyến nghị thông thường này có thể hạn chế tính hiệu quả của các
phương pháp hiện có. Đề xuất Top-k [4] đã nổi lên như một lĩnh vực nghiên cứu đang phát
triển, nhằm mục đích đề xuất danh sách k mục có nhiều khả năng phù hợp
Để giải quyết sự thiếu hụt này, chúng tôi giới thiệu mô hình ngôn nhất với sở thích của người dùng. Hai loại thuật toán chiếm ưu thế
ngữ lớn điều chỉnh hướng dẫn dưới dạng Trình xếp hạng cho Khuyến nghị dành cho đề xuất top-k là đề xuất trực tiếp dựa trên lọc cộng tác và
top-k , được gọi là RecRanker. Cụ thể, chúng tôi đề xuất phương pháp đề xuất tuần tự. Để đề xuất trực tiếp, các phương pháp tiếp cận dựa
lấy mẫu người dùng thích ứng để thu hút người dùng chất lượng cao, ưu trên bộ nhớ như lọc cộng tác dựa trên người dùng và dựa trên mục được
tiên những người dùng có lịch sử tương tác đáng kể hoặc những người sử dụng [26]. Các thuật toán này tận dụng các tương tác lịch sử giữa
đại diện cho cơ sở người dùng rộng hơn, nhận ra tầm quan trọng cao hơn người dùng và các mặt hàng để tính điểm tương tự, sau đó tạo ra các đề
của họ trong tập dữ liệu. Để nâng cao lời nhắc, chúng tôi đề xuất xuất.
chiến lược dịch chuyển vị trí để giảm thiểu sai lệch vị trí. Theo
khái niệm về tính tự thống nhất trong LLM [25], chúng tôi thừa nhận Các phương pháp nâng cao, bao gồm Lọc cộng tác thần kinh (NCF) [6] và
rằng câu trả lời nhận được sự đồng thuận giữa hầu hết các câu trả lời Lọc cộng tác đồ thị thần kinh (NGCF) [7], đã được phát triển để mô
thì có nhiều khả năng chính xác hơn. Chúng tôi cũng kết hợp các tín hình hóa hành vi cộng tác của người dùng tốt hơn và suy ra sở thích
hiệu từ các mô hình khuyến nghị thông thường vào các gợi ý để tăng của người dùng với các cấu trúc mô hình phức tạp hơn. Ngược lại, đề
cường lý luận LLM vì những tín hiệu này có thể khai thác thông tin từ xuất tuần tự tập trung vào việc nắm bắt hành vi năng động của người
các góc độ rộng hơn. Các tín hiệu được tích hợp liền mạch vào lời nhắc dùng. Các kỹ thuật như Đơn vị lặp lại có cổng cho khuyến nghị (GRU4Rec)
bằng cách sử dụng mô tả ngôn ngữ tự nhiên ở định dạng thống nhất. Sau [27], Khuyến nghị tuần tự dựa trên sự chú ý (SASRec) [9] và BERT4Rec
đó, chúng tôi tuyển chọn một tập dữ liệu điều chỉnh hướng dẫn với các dựa trên máy biến áp gần đây hơn [10] sử dụng tính chất tuần tự của
lời nhắc nâng cao bao gồm ba nhiệm vụ xếp hạng riêng biệt, bao gồm xếp các tương tác của người dùng để dự đoán điều sắp tới mục được người
hạng theo điểm, theo cặp và theo danh sách. Tập dữ liệu điều chỉnh dùng quan tâm.
lệnh được sử dụng để tinh chỉnh LLM nguồn mở, tạo ra một mô hình được
tinh chỉnh phù hợp tốt với các mục tiêu đề xuất. Hơn nữa, chúng tôi Mặc dù các thuật toán thông thường đạt được kết quả đầy hứa hẹn
giới thiệu một phương pháp xếp hạng kết hợp kết hợp cả ba phương pháp trong đề xuất top-k nhưng chúng vẫn thiếu khả năng hiểu nội dung của
xếp hạng để nâng cao hiệu suất của mô hình. Các thử nghiệm được thực các mục. Để giải quyết vấn đề này, bài viết này đề xuất tạo điều kiện
hiện trên ba bộ dữ liệu trong thế giới thực đã xác nhận tính hiệu quả thuận lợi cho các hệ thống tư vấn bằng cách tận dụng khả năng hiểu
của RecRanker được đề xuất. biết và lý luận theo ngữ cảnh của LLM.
B. LLM cho Khuyến nghị
Gần đây, LLM đã chứng tỏ khả năng vượt trội và tìm thấy ứng dụng
Tóm lại, đóng góp của chúng tôi gấp bốn lần. rộng rãi trên nhiều lĩnh vực khác nhau, bao gồm cả hệ thống gợi ý
[19], [20]. Một số công trình gần đây sử dụng LLM để tăng cường dữ
liệu [28] hoặc học biểu diễn [29]–[31] trong các đề xuất. Đáng chú ý,
• Chúng tôi giới thiệu RecRanker, một khung nhỏ gọn áp dụng LLM được một chuỗi nghiên cứu tận dụng LLM làm công cụ xếp hạng cho hệ thống
điều chỉnh theo hướng dẫn cho các nhiệm vụ xếp hạng đa dạng trong gợi ý [23], [24]. Cách tiếp cận này là cần thiết do những hạn chế về
các đề xuất top-k. Ngoài ra, chúng tôi đề xuất một phương pháp xếp kích thước cửa sổ cố định của LLM, điều này ngăn cản việc nhập trực
hạng kết hợp bao gồm nhiều nhiệm vụ xếp hạng khác nhau, nhằm mục tiếp một tập hợp đầy đủ các mục ứng cử viên. Do đó, mô hình truy xuất
đích cải thiện hơn nữa hiệu suất của mô hình. • thường được sử dụng để tinh chỉnh và giảm bớt tập mục đề xuất. Cụ thể,
RecRanker sử dụng phương pháp lấy mẫu người dùng thích ứng để chọn ra Wang và cộng sự. [23] đã điều tra khả năng học tập trong ngữ cảnh của
những người dùng chất lượng cao, từ đó tạo điều kiện thuận lợi cho LLM với các lời nhắc dành riêng cho nhiệm vụ được thiết kế để tạo
việc xây dựng tập dữ liệu điều chỉnh hướng dẫn. Hơn nữa, chúng tôi điều kiện thuận lợi cho việc xếp hạng các nhiệm vụ trong đề xuất tuần
đề xuất chiến lược chuyển đổi vị trí ngay lập tức để giảm thiểu sai tự. Tuy nhiên, sự sai lệch giữa LLM có mục đích chung và nhiệm vụ đề
lệch vị trí trong LLM. xuất chuyên biệt sẽ hạn chế hiệu suất của mô hình. Để giải quyết hạn
• Cách tiếp cận của chúng tôi kết hợp thông tin từ các hệ thống gợi ý chế này, lệnh InstructRec [24] điều chỉnh LLM bằng cách sử dụng tập dữ
thông thường vào các hướng dẫn, cho phép LLM tận dụng các tín hiệu liệu được xây dựng đặc biệt gồm các lệnh ngôn ngữ tự nhiên. Tuy nhiên,
từ cả hệ thống gợi ý thông thường và thông tin văn bản để hiểu rõ nghiên cứu hiện tại vẫn chưa khai thác hết khả năng xếp hạng của LLM;
hơn về ngữ cảnh và lập luận về sở thích của người dùng. nó chủ yếu tập trung vào các nhiệm vụ xếp hạng đơn lẻ, do đó chưa khám
phá được toàn bộ các nhiệm vụ xếp hạng để cải thiện hiệu suất.
• Chúng tôi đã tiến hành thử nghiệm rộng rãi trên ba bộ dữ liệu trong
thế giới thực để xác thực tính hiệu quả của Re-cRanker do chúng tôi
đề xuất. Thật ấn tượng, RecRanker vượt trội hơn các mô hình xương Để thu hẹp khoảng cách này, chúng tôi tiến hành điều tra có hệ thống
sống trong hầu hết các trường hợp với mức chênh lệch lớn, thể hiện về việc áp dụng LLM được điều chỉnh theo hướng dẫn cho nhiều nhiệm vụ
tính ưu việt đáng kể của nó. xếp hạng khác nhau, bao gồm theo điểm, theo cặp, theo danh sách và
Hình 1: (i). Quy trình đào tạo tổng thể của RecRanker. (ii). Mô-đun lấy mẫu người dùng thích ứng, trong đó chúng tôi đề xuất lấy mẫu nhận
thức được tầm quan trọng, dựa trên cụm và hình phạt đối với việc lấy mẫu lặp lại đối với người dùng mẫu. Đối với mỗi người dùng được lấy mẫu,
các mục ứng cử viên tương ứng được chọn ngẫu nhiên từ các mục mà người dùng thích, không thích và không có tương tác. (iii). Xây dựng nhanh
chóng, trong đó chúng tôi kết hợp các chiến lược thay đổi vị trí và nâng cao kịp thời để nâng cao hiệu suất của mô hình.
các phương pháp tiếp cận kết hợp của họ, với mục tiêu làm sáng tỏ đầy IV. PHƯƠNG PHÁP
đủ tiềm năng của LLM trong các kịch bản đề xuất top-k. A. Tổng quan
Quy trình đào tạo và suy luận tổng thể lần lượt được mô tả trong
III. SƠ BỘ
Hình 1 và Hình 2. Giai đoạn đào tạo bao gồm bốn giai đoạn chính: lấy
mẫu người dùng thích ứng, lựa chọn mục ứng viên thông qua lấy mẫu phủ
Chúng ta xét một hệ tư vấn với một tập người dùng, ký hiệu là U = định, xây dựng nhanh chóng và điều chỉnh hướng dẫn. Giai đoạn lấy mẫu
{u1, u2, . . . , un} và một tập các mục, ký hiệu là I = {i1, người dùng thích ứng nhằm mục đích thu hút người dùng chất lượng cao,
i2, . . . , Tôi}. Đề xuất top-k tập trung vào việc xác định một tập đại diện và đa dạng. Nó kết hợp ba chiến lược lấy mẫu: lấy mẫu nhận
hợp con các mục Su I cho mỗi người dùng u U. Tập hợp con được thức tầm quan trọng, lấy mẫu dựa trên cụm và hình phạt cho sự lặp
chọn để tối đa hóa tiện ích dành riêng cho người dùng U(u, S) với lại.
ràng buộc |S| = k, được biểu thị chính thức là Đối với mỗi người dùng được lấy mẫu, các mục ứng cử viên bao gồm
các mục được người dùng thích và không thích, cũng như một số mục
Su = arg maxS I,|S|=kU(u, S). (1) không tương tác được chọn thông qua phương pháp lấy mẫu phủ định
thường được sử dụng [32], [33]. Dựa trên những người dùng được lấy
Trong bối cảnh các phương pháp khuyến nghị dựa trên LLM, hãy để mẫu và các mục đã chọn, chúng tôi xây dựng lời nhắc cho từng nhiệm
L đại diện cho LLM ban đầu. Những loại phương pháp này trước tiên vụ xếp hạng, tăng cường chúng bằng các tín hiệu từ mô hình đề xuất
sử dụng lời nhắc để diễn giải nhiệm vụ đề xuất cho người dùng sang thông thường. Chiến lược này tổng hợp các điểm mạnh của cả hệ thống
ngôn ngữ tự nhiên. Đưa ra lời nhắc Pu, khuyến nghị dựa trên LLM khuyến nghị thông thường và dữ liệu văn bản, từ đó nâng cao hiệu
cho người dùng u với việc học trong ngữ cảnh được biểu thị bằng R suất tổng thể của hệ thống. Cuối cùng, chúng tôi sử dụng dữ liệu
= L(Pu). Để tinh chỉnh LLM của chúng tôi bằng cách sử dụng các được xây dựng để tinh chỉnh LLM thông qua điều chỉnh lệnh.
phương pháp dựa trên hướng dẫn, chúng tôi sử dụng bộ dữ liệu chuyên Trong giai đoạn suy luận, đối với người dùng trong dữ liệu thử
'
dụng, Dins. LLM được điều chỉnh theo lệnh kết quả được biểu diễn
dưới dạng L quá trình đề xuất trong việc tinh chỉnh
nghiệm, trước tiên chúng tôi chọn các mục ứng cử viên thông qua mô
. Vì vậy,
' hình truy xuất. Quá trình lựa chọn mục này khác với giai đoạn huấn
mô hình có thể được biểu diễn ngắn gọn là R = L (Pu) luyện, trong đó sử dụng lấy mẫu âm tính. Sau đó, lời nhắc là
Hình 2: (i). Đường dẫn suy luận tổng thể của RecRanker. (ii). Lựa chọn mục ứng viên thông qua mô hình truy xuất, trong đó chúng tôi áp dụng mô
hình truy xuất để tính điểm cho từng mục và chọn mục cao nhất làm mục ứng cử viên. (iii). So sánh phương pháp xếp hạng kết hợp được đề xuất với
ba nhiệm vụ xếp hạng trong giai đoạn suy luận.
được xây dựng theo cách tiếp cận trong giai đoạn đào tạo. Sau đó, LLM số lượng mặt hàng hoặc người dùng có tương tác tối thiểu và một số ít
được điều chỉnh theo hướng dẫn sẽ thực hiện nhiều nhiệm vụ xếp hạng có số lượng tương tác lớn [37], [38]. Để tối ưu hóa chất lượng dữ liệu
khác nhau. Đáng chú ý, một phương pháp xếp hạng kết hợp, đạt được thông nhằm xây dựng các mô hình đề xuất hiệu quả, chúng tôi đề xuất chiến
qua tập hợp nhiều nhiệm vụ xếp hạng, được sử dụng trong giai đoạn này lược lấy mẫu nhận thức được tầm quan trọng.
để nâng cao hiệu suất của mô hình. Chiến lược này ưu tiên lấy mẫu từ những người dùng có nhiều tương tác
hơn, dựa trên tiền đề rằng những người dùng có số lượng tương tác cao
B. Lấy mẫu người dùng thích ứng
hơn sẽ cung cấp dữ liệu nhất quán và đáng tin cậy hơn, điều này rất
Trước tiên, chúng tôi mô tả cách lấy mẫu tập dữ liệu đề xuất thô để quan trọng để lập mô hình chính xác các tùy chọn của người dùng. Chúng
tạo danh sách người dùng được đưa vào tập dữ liệu tinh chỉnh Dins. tôi xác định tầm quan trọng của người dùng bằng logarit tự nhiên của
Chúng tôi không sử dụng nhóm người dùng ban đầu U vì chúng tôi muốn số lần tương tác của họ. Tầm quan trọng wu của người dùng u được xác
tạo danh sách người dùng có mức phân bổ và tính đa dạng được cải thiện. định là wu = ln(qu), trong đó qu biểu thị số lượng tương tác đối với
Chúng tôi biểu thị danh sách người dùng như vậy bằng Uins nhiều tập người dùng u. Thang đo logarit được chọn có chủ ý để giảm bớt mức độ
hợp. Multiset là một tập hợp được sửa đổi cho phép tạo ra nhiều phiên ảnh hưởng của người dùng có số lượng tương tác cực cao, đảm bảo rằng
bản của cùng một phần tử [34]. Một multiset được xác định chính thức mặc dù được ưu tiên nhưng họ không chiếm ưu thế trên toàn bộ tập dữ
bởi một bộ Uins = (Uins, Mins), trong đó Uins là tập cơ bản của liệu.
multiset, bao gồm các phần tử riêng biệt của nó và Mins : Uins Z + Xác suất chọn người dùng u tỷ lệ thuận với tầm quan trọng của wu.
là hàm bội, cho biết số lần xuất hiện của phần tử u Uins là Mins(u). Điều này đảm bảo rằng người dùng có nhiều tương tác hơn sẽ có cơ hội
Do đó, bội số Mins(u) của người dùng u sẽ là số lời nhắc liên quan đến được lấy mẫu cao hơn, đồng thời vẫn cho phép đại diện trên toàn bộ cơ
người dùng u trong tập dữ liệu điều chỉnh lệnh Dins. sở người dùng. Trong lấy mẫu nhận biết tầm quan trọng, xác suất lấy
mẫu của người dùng u là
wu
Một số tác phẩm lấy mẫu người dùng có xác suất bằng nhau từ tập pu,tầm quan trọng = , (2)
v U wv
người dùng U [35], trong khi các tác phẩm khác lấy mẫu các tương tác
gần nhất [36]. Tuy nhiên, những phương pháp này có thể chưa tối ưu vì trong đó mẫu số là tổng mức độ quan trọng của tất cả người dùng, đóng
tập dữ liệu đề xuất thường tuân theo phân phối đuôi dài. vai trò là hệ số chuẩn hóa sao cho các xác suất có tổng bằng 1.
Để biên soạn tập dữ liệu chất lượng cao, mang tính đại diện và đa
dạng, chúng tôi giới thiệu ba chiến lược: lấy mẫu nhận thức tầm quan Lấy mẫu nhận biết tầm quan trọng, như một giải pháp thay thế ưu
trọng, lấy mẫu dựa trên cụm và hình phạt đối với việc lấy mẫu lặp đi việt cho lấy mẫu thống nhất, mang lại một số lợi thế. Đầu tiên, nó cải
lặp lại. Cụ thể, chúng tôi sử dụng lấy mẫu nhận thức tầm quan trọng và thiện chất lượng dữ liệu bằng cách ưu tiên những người dùng có số
lấy mẫu dựa trên cụm để tạo hai nhóm người dùng ứng cử viên, được ký lượng tương tác cao hơn, từ đó tạo ra tập dữ liệu với các mẫu phong
hiệu là U1 và U2. Sau đó, từ tập hợp nhiều tập hợp U3 = U1 + U2 có hàm phú hơn và nhất quán hơn. Thứ hai, chiến lược này cân bằng một cách
bội số là M3 = M1 + M2, chúng ta áp dụng hình phạt cho việc lấy mẫu công bằng cả người dùng hoạt động nhiều và người dùng ít hoạt động hơn
lặp đi lặp lại để chọn ra Uins nhiều tập hợp cuối cùng. bằng cách kết hợp chia tỷ lệ logarit, do đó đảm bảo rằng người dùng ít
hoạt động hơn không bị đánh giá thấp.
1) Lấy mẫu nhận biết tầm quan trọng: Dữ liệu trong các tình huống 2) Lấy mẫu dựa trên cụm: Để có được người dùng đại diện, chúng tôi
đề xuất thường thể hiện sự phân phối dài hạn, trong đó một lượng lớn cũng sử dụng chiến lược lấy mẫu dựa trên cụm.
BẢNG I: Ví dụ minh họa về hướng dẫn thực hiện ba nhiệm vụ xếp hạng. Để dễ đọc hơn, phiên bản sửa đổi của các hướng dẫn thực tế được sử dụng trong
các thử nghiệm của chúng tôi được hiển thị ở đây.
Kiểu Hướng dẫn
Xếp hạng theo điểm Các tương tác lịch sử của người dùng bao gồm: <tương tác lịch sử>. Người dùng đánh giá <ứng cử viên> như thế nào?
Xếp hạng theo cặp Các tương tác lịch sử của người dùng bao gồm: <tương tác lịch sử>. Người dùng có thích <candidate item 1>hơn <candidate item 2> không?
Xếp hạng theo danh sách Các tương tác lịch sử của người dùng bao gồm: <tương tác lịch sử>. Người dùng sẽ xếp hạng <danh sách mục ứng cử viên> như thế nào?
Chiến lược này dựa trên sự hiểu biết rằng người dùng trong hệ thống Hình phạt này cho sự lặp đi lặp lại phục vụ một mục đích kép. Thứ
khuyến nghị thể hiện những mối quan tâm đa dạng. Bằng cách phân nhóm nhất, nó tăng cường đáng kể tính đa dạng của mẫu bằng cách giảm khả
người dùng trong không gian tiềm ẩn, chúng tôi có thể phân loại họ năng chọn lặp lại cùng một người dùng.
thành các nhóm riêng biệt, mỗi nhóm đại diện cho một nhóm sở thích riêng. Thứ hai, nó đảm bảo sự đại diện công bằng hơn cho những người dùng ít
Việc phân cụm như vậy cho phép chúng tôi nắm bắt được bản chất nhiều thường xuyên hơn, cung cấp cái nhìn toàn diện hơn về sở thích và sở
mặt của sở thích của người dùng, đảm bảo rằng việc lấy mẫu của chúng thích của người dùng. Bằng cách này, bằng cách tích hợp cơ chế phạt
tôi không chỉ mang tính đại diện mà còn bao gồm nhiều hành vi và xu này vào quy trình lấy mẫu của mình, chúng tôi đạt được sự đa dạng và
hướng của người dùng. sự thể hiện cân bằng trong danh sách người dùng cuối cùng Uins.
Khung của chúng tôi cho phép mọi phương pháp phân cụm như K-means
C. Lựa chọn hạng mục ứng viên
[39] và Mean Shift [40]. Trong bài báo này, chúng tôi chọn K-means do
tính hiệu quả và đơn giản của nó trong việc nhóm dữ liệu thành các cụm Việc lựa chọn các mục ứng cử viên khác nhau giữa giai đoạn huấn
gắn kết. Trước tiên, chúng tôi biểu thị mỗi người dùng dưới dạng vectơ luyện và suy luận. Trong quá trình đào tạo, lấy mẫu âm tính được sử
dụng để chọn hỗn hợp các mục mà người dùng chưa tương tác, cũng như
nhúng bắt nguồn từ mô hình truy xuất, sau đó phân cụm người dùng thành
phân loại ngẫu nhiên các mục mà người dùng thích hoặc không thích, tạo
K nhóm dựa trên vectơ nhúng. Chúng tôi biểu thị cụm của người dùng u
thành tập hợp các mục ứng cử viên.
bằng ku {1, . . . , K}. Sau khi người dùng được phân cụm, chúng tôi
sẽ chọn các mẫu từ mỗi cụm. Trong giai đoạn suy luận, một mô hình truy xuất được sử dụng để tạo ra
Sự lựa chọn này không đồng nhất mà tỷ lệ thuận với kích thước của từng toàn bộ tập hợp các mục ứng cử viên.
1) Lựa chọn thông qua Lấy mẫu âm trong Giai đoạn đào tạo: Trong
cụm. Về mặt toán học, xác suất lấy mẫu của người dùng u trong lấy mẫu
giai đoạn đào tạo, bộ mục ứng viên bao gồm các mục được chọn ngẫu
dựa trên phân cụm thỏa mãn pu,phân cụm |{v
nhiên mà người dùng thích và không thích. Ngoài ra, chúng tôi sử dụng
U : kv = ku}| , trong đó |{v U : kv (3)
kỹ thuật lấy mẫu phủ định được sử dụng rộng rãi [32], [33], [41], bao
= ku}| là số lượng người dùng trong cùng một cụm với người dùng u. gồm việc kết hợp ngẫu nhiên các mục mà người dùng chưa tương tác vào
Chiến lược này không chỉ bảo tồn tính đa dạng trong mỗi cụm mà còn đảm bộ mục ứng cử viên.
bảo rằng các cụm lớn hơn, có khả năng đại diện cho những lợi ích phổ Những mục không tương tác này được coi là mẫu âm tính.
biến hơn, có tỷ lệ đại diện lớn hơn tương ứng trong mẫu cuối cùng. Người ta cho rằng các mục không tương tác có nhiều khả năng được ưa
thích hơn các mục mà người dùng rõ ràng không thích.
3) Hình phạt đối với việc lấy mẫu lặp lại: Với hai tập hợp U1 và U2 Dựa trên những lựa chọn này, chúng tôi thiết lập so sánh xếp hạng
do lấy mẫu dựa trên cụm và nhận biết tầm quan trọng, chúng ta cần xây tương đối cho việc xây dựng tập dữ liệu điều chỉnh lệnh.
dựng danh sách người dùng cuối cùng Uins từ tổng U3 = U1 + U2 của 2) Lựa chọn thông qua Mô hình truy xuất trong Giai đoạn suy luận:
chúng, trong đó hàm bội số là M3 = M1 + M2. Trong lĩnh vực hệ thống đề xuất công nghiệp, các nền tảng như YouTube1
thường áp dụng quy trình hai bước, ban đầu sử dụng mô hình truy xuất
Để nâng cao tính đa dạng trong Uins nhiều tập cuối cùng , chúng để chọn một tập hợp sơ bộ các mục ứng cử viên, sau đó được xếp hạng
tôi thực hiện hình phạt đối với các lựa chọn lặp đi lặp lại. Lý do lại để đưa ra khuyến nghị cuối cùng [42]. Cụ thể, trong các hệ thống
đằng sau chiến lược này là để giảm thiểu sự thể hiện quá mức của một đề xuất dựa trên LLM, mô hình truy xuất đóng vai trò quan trọng như
số “nhóm lợi thế” nhất định - những người dùng hoặc mục có thể thống một bộ lọc chính, thu hẹp phạm vi đề xuất tiềm năng một cách hiệu quả.
trị tập dữ liệu do tần suất cao hoặc mức độ phổ biến của họ [37], [38].
Để đạt được điều này, chúng tôi chỉ định trọng số phạt cho mỗi lựa Điều này đặc biệt quan trọng do những hạn chế nội tại về kích thước
chọn lặp lại trong quy trình lấy mẫu của mình. Trọng số phạt đối với cửa sổ của LLM. Kiến trúc của mô hình truy xuất được điều chỉnh để phù
người dùng u U3 được biểu thị định lượng dưới dạng ψu = CM3(u) , hợp với tính chất của nhiệm vụ đề xuất hiện tại. Để khuyến nghị trực
trong đó 0<C<1 là hằng số được xác định trước. Do đó, trọng số phạt tiếp, các mô hình như NCF [6], NGCF [7] và LightGCN [8] thường được sử
giảm dần theo số lần xuất hiện M3(u). dụng. Đối với các nhiệm vụ đề xuất theo trình tự, trong đó thứ tự
Trọng số phạt này ảnh hưởng trực tiếp đến xác suất người dùng được tương tác là quan trọng, các mô hình như SASRec [9] và BERT4Rec [10]
chọn cho tập dữ liệu cuối cùng. Cụ thể, xác suất chọn được người dùng thường được ưa chuộng.
u là
Trong quy trình lựa chọn mục ứng cử viên trong giai đoạn suy luận,
ψu
pu,hình phạt = , (4)
chúng tôi sử dụng mô hình truy xuất để tính điểm tiện ích cho từng
v U3ψv
mục. Sau đó, chúng tôi xếp hạng tất cả các mục dựa trên
điều này đảm bảo rằng những cái có số lần xuất hiện cao hơn sẽ ít có
khả năng được chọn lặp lại. 1https://www.youtube.com/

'
điểm tiện ích của họ và chọn k mục hàng đầu có điểm cao nhất làm mục ứng cử mô hình ngày tháng vào các lời nhắc được sử dụng cho các nhiệm vụ xếp hạng.
viên. Đối với các đề xuất top-k, quy trình này sẽ lấy mẫu k Sự tích hợp này cho phép chúng tôi tận dụng điểm mạnh của cả LLM và mô hình
' các mục có k ′>k. khuyến nghị truyền thống, tạo ra cơ sở giàu thông tin và bối cảnh hơn cho việc
ra quyết định. Cụ thể, để xếp hạng theo điểm, chúng ta có thể sử dụng mô hình
D. Xây dựng nhanh chóng
dự đoán xếp hạng như MF [45] để dự báo điểm riêng lẻ. Sau đó, những dự đoán
Trong phần này, chúng tôi mô tả việc xây dựng các lời nhắc. này được chuyển thành mô tả bằng ngôn ngữ tự nhiên và được tích hợp liền mạch
Chúng tôi bắt đầu bằng việc giới thiệu nhiều nhiệm vụ xếp hạng khác nhau, sau vào lời nhắc, cung cấp cơ sở chi tiết hơn cho việc đánh giá mục. Đối với xếp
đó là thảo luận về phương pháp nâng cao nhanh chóng được đề xuất của chúng tôi. hạng theo cặp và theo danh sách, các mô hình dành riêng cho nhiệm vụ như
Phương pháp này bao gồm việc tăng cường các lời nhắc bằng tín hiệu từ mô hình LightGCN [8] và SASRec [9] được sử dụng để dự đoán thứ hạng. Trong bài báo
đề xuất thông thường.
này, chúng tôi áp dụng mô hình MF [45] và LightGCN [8] để tăng cường nhanh
1) Xếp hạng theo điểm, theo cặp và theo danh sách: Hệ thống đề xuất của chóng. Sau đó, những hiểu biết sâu sắc từ những dự đoán này sẽ được đưa vào
chúng tôi kết hợp cách tiếp cận nhiều mặt để xếp hạng các nhiệm vụ, bao gồm các gợi ý, nâng cao bối cảnh và chiều sâu của quá trình xếp hạng. Bằng cách
xếp hạng theo điểm, theo cặp và theo danh sách. Mỗi phương pháp này đóng một tăng cường các lời nhắc bằng dữ liệu từ các mô hình đề xuất thông thường,
vai trò riêng biệt trong việc đánh giá và sắp xếp các mục ứng cử viên dựa phương pháp của chúng tôi làm phong phú thêm đáng kể các nhiệm vụ xếp hạng
trên mức độ phù hợp của chúng với sở thích của người dùng. Như được trình bày trong hệ thống đề xuất. Cách tiếp cận đổi mới này không chỉ tận dụng các khả
trong Bảng I, đối với cách tiếp cận xếp hạng theo điểm, mỗi mục ứng cử viên năng tiên tiến của LLM mà còn khai thác thông tin hợp tác hoặc tuần tự được
được ấn định một điểm phù hợp riêng lẻ. Toàn bộ danh sách các ứng cử viên sau cung cấp bởi các mô hình khuyến nghị thông thường.
đó được sắp xếp dựa trên những điểm số này, cung cấp một thứ hạng dựa trên
điểm số đơn giản. Phương pháp xếp hạng theo cặp bao gồm việc so sánh trực
tiếp giữa hai mục ứng cử viên, xác định mục nào trong hai mục phù hợp hơn hoặc
thích hợp hơn trong bối cảnh nhất định.
E. Tối ưu hóa thông qua điều chỉnh lệnh

Khác với hai cách trên, xếp hạng theo danh sách đánh giá và sắp xếp toàn bộ
danh sách các mục ứng cử viên. Nó xem xét mức độ liên quan chung của các mục,
Sau khi xây dựng tập dữ liệu, chúng tôi tập trung vào việc tinh chỉnh LLM
đưa ra xếp hạng toàn diện dựa trên mức độ phù hợp tổng thể. theo cách được giám sát, đặc biệt thông qua điều chỉnh lệnh. Quá trình này bao
gồm việc tối ưu hóa LLM bằng cách sử dụng tập dữ liệu được tạo từ dữ liệu
2) Thay đổi vị trí trong lời nhắc: Xu hướng vị trí trong LLM phát sinh khi hướng dẫn, điều chỉnh các phản hồi của mô hình chặt chẽ hơn với ý định và sở
các mô hình này ưu tiên các mục một cách không cân xứng do vị trí của chúng thích của người dùng.
trong danh sách, thay vì mức độ liên quan hoặc chất lượng vốn có của chúng Cách tiếp cận mà chúng tôi áp dụng để tinh chỉnh có giám sát dựa trên sự
[43], [44]. Sự thiên vị này có thể làm suy yếu đáng kể tính nhất quán và độ mất mát entropy chéo tiêu chuẩn, tuân theo các nguyên tắc được nêu trong
tin cậy của đầu ra của mô hình. Alpaca [46]. Cốt lõi của quá trình này nằm trong tập huấn luyện Dins, bao gồm
Để giảm thiểu sai lệch vị trí, chúng tôi áp dụng chiến lược thay đổi vị trí. các cặp đầu vào-đầu ra hướng dẫn ngôn ngữ tự nhiên (x, y). Tập dữ liệu này là
Trong giai đoạn đào tạo, chúng tôi sắp xếp ngẫu nhiên thứ tự của các ứng cử công cụ hướng dẫn quá trình tinh chỉnh, đảm bảo rằng kết quả đầu ra của mô
viên và các mục ưu tiên của người dùng. Chiến lược này được thiết kế để ngăn hình phù hợp với dữ liệu giảng dạy có cấu trúc.
mô hình ưu tiên vị trí vật phẩm hơn tầm quan trọng thực tế của nó. Tương tự,
trong giai đoạn suy luận, chúng ta tiếp tục chiến lược này bằng cách thay đổi
ngẫu nhiên vị trí của các vật phẩm. Mục tiêu chính của chiến lược này là duy Mục tiêu chính trong giai đoạn này là tinh chỉnh LLM L được huấn luyện
trì những phản hồi từ LLM thể hiện tính nhất quán bất kể vị trí của mặt hàng. trước bằng cách giảm thiểu tổn thất entropy chéo. Điều này được chính thức hóa
Do đó, các mục được xác định phản ánh sở thích thực sự của mô hình, ít bị ảnh về mặt toán học như sau:
hưởng bởi sai lệch vị trí. Bằng cách sử dụng phương pháp này, chúng tôi đảm
|y|
bảo rằng các phản hồi của LLM được xây dựng dựa trên mức độ phù hợp thực sự,
phút (5)
Θ log PΘ yt | x, y[1:t 1] ,
từ đó nâng cao độ tin cậy tổng thể của quá trình suy luận.
(x,y) Dins t=1
trong đó Θ đại diện cho các tham số mô hình, PΘ biểu thị xác suất có điều kiện
3) Cải tiến kịp thời: Các phương pháp tiếp cận dựa trên LLM hiện tại thường của việc tạo mã thông báo thứ t yt trong đầu ra đích y, với đầu vào x và các
chỉ dựa vào LLM để xử lý và xếp hạng thông tin văn bản. Tuy nhiên, sự tin cậy mã thông báo trước đó y[1:t 1] và |y| là độ dài của chuỗi mục tiêu y.
này bỏ qua các tín hiệu phong phú và có giá trị mà các mô hình khuyến nghị
thông thường, như lọc cộng tác, có thể cung cấp. Các mô hình như LightGCN [8] Bằng cách giảm thiểu hàm mất mát này, các tham số mô hình Θ được tinh chỉnh
vượt trội trong việc trích xuất các tín hiệu cộng tác bậc cao, đóng vai trò để phù hợp hơn với các sắc thái của tập dữ liệu điều chỉnh hướng dẫn Dins.
then chốt trong việc tìm hiểu sở thích của người dùng thông qua ảnh hưởng của Việc tinh chỉnh này tận dụng các khả năng sẵn có của LLM về khả năng hiểu và
mạng người dùng. Việc thiếu thông tin hợp tác có thể dẫn đến kết quả kém hiệu suy luận ngôn ngữ chung, như đã đạt được trong giai đoạn đào tạo ban đầu. Kết
quả hơn trong các khuyến nghị dựa trên LLM. quả là một mô hình phức tạp và nhiều sắc thái hơn có thể nắm bắt và diễn giải
chính xác sở thích của người dùng được thể hiện bằng ngôn ngữ tự nhiên. Việc
cải tiến như vậy là rất quan trọng cho các nhiệm vụ đề xuất tiếp theo, vì nó
Để thu hẹp khoảng cách này, chúng tôi đề xuất một phương pháp tăng cường cho phép
nhanh chóng tích hợp các tín hiệu từ các khuyến nghị thông thường.
LLM để cung cấp các đề xuất phù hợp hơn với nhu cầu và sở thích • RQ2: Việc lấy mẫu nhận thức tầm quan trọng và lời nhắc nâng cao
của người dùng. Do đó, cách tiếp cận này tăng cường đáng kể tính có tác động gì đến chất lượng của khuyến nghị? • RQ3: Các siêu
hiệu quả và mức độ phù hợp của hệ thống đề xuất, đảm bảo rằng hệ tham số khác
thống này phục vụ người dùng với độ chính xác và tính cá nhân hóa nhau ảnh hưởng như thế nào đến
cao. tất cả hiệu suất của khung?
• RQ4: Mô hình được điều chỉnh theo lệnh như thế nào so với các
F. Xếp hạng kết hợp
LLM khác, chẳng hạn như GPT?
Lấy cảm hứng từ tính tự nhất quán trong LLM [25], kết quả được
hầu hết các phản hồi LLM đồng ý có xác suất đúng cao hơn. Nhận thấy A. Thiết lập thử nghiệm
rằng mỗi nhiệm vụ xếp hạng (tức là xếp hạng theo điểm, theo cặp và 1) Bộ dữ liệu: Theo dõi [36], chúng tôi đánh giá nghiêm ngặt
theo danh sách) nắm bắt các khía cạnh khác nhau của vấn đề đề xuất, hiệu suất của khung đề xuất của chúng tôi bằng cách sử dụng ba bộ
chúng tôi đề xuất một phương pháp xếp hạng kết hợp. Phương pháp dữ liệu trong thế giới thực không đồng nhất. Tập dữ liệu MovieLens2 [47]
này nhằm mục đích hợp nhất các điểm mạnh của từng nhiệm vụ riêng được sử dụng làm tiêu chuẩn chuẩn trong hệ thống đề xuất phim.
lẻ để đạt được quy trình đề xuất toàn diện và hiệu quả hơn. Phương Chúng tôi khám phá hai tập hợp con của tập dữ liệu này:
pháp xếp hạng kết hợp hoạt động bằng cách tập hợp các kết quả đầu MovieLens-100K, chứa 100.000 xếp hạng mục của người dùng và
ra của ba nhiệm vụ xếp hạng riêng biệt. MovieLens-1M, mở rộng lên khoảng 1 triệu xếp hạng. Tập dữ liệu
Về mặt toán học, quá trình này có thể được biểu diễn như sau: BookCrossing3 [48] bao gồm xếp hạng sách do người dùng gửi theo
thang điểm từ 1 đến 10 và bao gồm siêu dữ liệu như 'Tác giả sách'
U = α1Upointwise + α2Upairwise + α3Ulistwise (6)
và 'Tiêu đề sách'. Số liệu thống kê chính của các bộ dữ liệu này
trong đó α1, α2 và α3 là các hệ số trọng số có tổng bằng 1. Tùy được trình bày chi tiết trong Bảng II.
thuộc vào giá trị của các hệ số này, xếp hạng kết hợp có thể bắt 2) Số liệu đánh giá: Phù hợp với các phương pháp được áp dụng
chước một cách hiệu quả bất kỳ phương pháp xếp hạng riêng lẻ nào, trong các công trình trước [8], [10], chúng tôi sử dụng hai số
do đó mang lại sự linh hoạt trong phương pháp đề xuất. Đối với liệu đã được thiết lập tốt để đánh giá nhiệm vụ đề xuất top-k: Tỷ
nhiệm vụ xếp hạng theo điểm, điểm tiện ích, Upointwise, ban đầu lệ lượt truy cập (HR) và Mức tăng tích lũy chiết khấu chuẩn hóa
được xác định bằng điểm phù hợp từ dự đoán LLM. Để tinh chỉnh điểm (NDCG) ), ký hiệu lần lượt là H và N. Thiết lập thử nghiệm của
này và phân biệt giữa các mục có xếp hạng giống hệt nhau, điểm tiện chúng tôi bao gồm việc đặt k thành 3 hoặc 5, tương tự như phương
ích bổ sung từ mô hình truy xuất sẽ được kết hợp, ký hiệu là pháp đánh giá được nêu chi tiết trong [24], cho phép đánh giá toàn
Uretrieval = m · C1. Ở đây, C1 là một hằng số và m, biểu thị vị diện.
trí của mục được xác định bởi mô hình truy xuất, thay đổi từ 1 đến 3) Xử lý trước dữ liệu: Để đảm bảo chất lượng dữ liệu trong
k (tổng số mục ứng viên). nghiên cứu của chúng tôi, chúng tôi triển khai cài đặt 10 lõi, bao
' gồm việc loại trừ người dùng và mục có ít hơn mười tương tác khỏi
Do đó, điểm tiện ích toàn diện cho nhiệm vụ xếp hạng theo điểm là tập dữ liệu BookCrossing. Tập dữ liệu BookCrossing đã xử lý, được
Upointwise = Uretrieval+L(P). Trong kịch bản xếp hạng theo cặp, định cấu hình bằng cài đặt 10 lõi, bao gồm 1.820 người dùng, 2.030
các mục ưa thích của LLM được tính điểm tiện ích Upairwise = C2, mục và 41.456 tương tác, dẫn đến mật độ là 0,011220. Chúng tôi áp
trong đó C2 là hằng số. Để xếp hạng theo danh sách, công thức dụng chiến lược đánh giá loại bỏ một lần, phù hợp với các phương
Ulistwise = m′ ·C3 được sử dụng để tính điểm cho từng mục, với m′ pháp được sử dụng trong nghiên cứu trước đó [24], [49]. Theo chiến
là vị trí được LLM dự đoán và thay đổi từ 1 đến k và C3 là một hằng lược này, tương tác gần đây nhất của mỗi người dùng được chỉ định
'
số. Công thức này ấn định điểm số trên danh sách các mục, tích hợp làm phiên bản thử nghiệm, tương tác áp chót được sử dụng để xác
quan điểm theo danh sách vào phương pháp kết hợp. thực và tất cả các tương tác trước đó tạo thành tập huấn luyện. Về
việc xây dựng tập dữ liệu điều chỉnh lệnh, chúng tôi đã lấy mẫu
10.000 hướng dẫn cho mỗi nhiệm vụ xếp hạng đối với tập dữ liệu
V. THÍ NGHIỆM
ML-1M. Trong trường hợp bộ dữ liệu ML-100K và BookCrossing, chúng
tôi đã xây dựng 5.000 hướng dẫn tương ứng cho từng tác vụ. Chúng
BẢNG II: Mô tả tập dữ liệu.
tôi đã loại bỏ các hướng dẫn lặp lại hoặc có chất lượng thấp (được
Tập dữ liệu Số người dùng # mục # xếp hạng Tỉ trọng xác định bởi người dùng có ít hơn ba lần tương tác trong lịch sử
ML-100K 943 1.682 100.000 0,063046 tương tác của họ), để lại khoảng 56.000 hướng dẫn chất lượng cao.
ML-1M 6.040 3.706 1.000.209 0,044683 Sau đó, các hướng dẫn này được kết hợp để tạo ra một tập dữ liệu
Cuốn SáchVượt Qua 77.805 185.973 433.671 0,000030
điều chỉnh hướng dẫn toàn diện, được sử dụng để tinh chỉnh LLM.
Mục tiêu chính là điều tra mức độ tích hợp mô hình được giới
thiệu có thể cải thiện hiệu suất của các hệ thống khuyến nghị hiện 4) Lựa chọn mô hình: Chúng tôi kết hợp RecRanker của mình với
tại. Do đó, chúng tôi tiến hành các thử nghiệm toàn diện để trả các mô hình đề xuất trực tiếp sau đây làm mô hình xương sống:
lời các câu hỏi nghiên cứu sau: • RQ1: Khung RecRanker được đề xuất
của chúng
2https://grouplens.org/datasets/movielens/
tôi có nâng cao hiệu suất của các mô hình đề xuất hiện tại không? 3
Trong trường hợp không có dữ liệu dấu thời gian trong tập dữ liệu BookCrossing, chúng tôi
đã tái tạo lại các tương tác lịch sử thông qua việc lấy mẫu ngẫu nhiên.
BẢNG III: Hiệu suất đạt được bằng các phương pháp khuyến nghị trực tiếp khác nhau. Các kết quả tốt nhất được đánh dấu bằng chữ in đậm.
ML-100K ML-1M Cuốn SáchVượt Qua

Xương sống Phương pháp
H@3 N@3 H@5 N@5 H@3 N@3 H@5 N@5 H@3 N@3 H@5 N@5
Cơ sở 0,0455 0,0325 0,0690 0,0420 0,0255 0,0187 0,0403 0,0248 0,0503 0,0389 0,0689 0,0465
RecRankertheo điểm 0,0660 0,0486 0,0917 0,0592 0,0294 0,0213 0,0456 0,0279 0,0872 0,0710 0,0966 0,0749
MF RecRankertheo cặp 0,0533 0,0368 0,0783 0,0471 0,0438 0,0268 0,05390,0275
0,04190,0201
0,0716 0,0492
RecRankerlistwise 0,0464 0,0346 0,0712 0,0448 0,0271 0,0196 0,0416 0,0256 0,0430 0,0312 0,0674 0,0411
RecRankerhybrid 0,0690 0,0513 0,0919 0,0607 0,0312 0,0230 0,0469 0,0294 0,0873 0,0720 0,0966 0,0759
Sự cải tiến 51,65% 57,85% 33,19% 44,52% 22,35% 22,99% 16,38% 18,55% 73,56% 85,09% 40,20% 63,23%
Cơ sở 0,0492 0,0343 0,0744 0,0447 0,0273 0,0197 0,0431 0,0645 0,0499 0,0875 0,0595 0,0261
RecRankertheo điểm 0,0723 0,0524 0,0990 0,0634 0,0324 0,0232 0,0480 0,0296 0,1076 0,0876 0,1231 0,0940
RecRankertheo cặp 0,0414 0,0298 0,0645 0,0393 0,0287 0,0205 0,0450 0,0272 0,0622 0,0481 0,0840 0,0572
ánh sángGCN
RecRankerhybrid 0,0731 0,0527 0,0625 0,0320 0,0971
0,0232 0,0497 0,0305 0,1088 0,0888 0,1219 0,0942
Cải thiện 48,58% 53,64% 33,06% 41,83% 18,68% 17,77% 15,31% 16,86% 68,68% 77,96% 40,69% 58,32%
Căn cứ 0,0537 0,0412 0,0736 0,0492 0,0144 0,0108 0,0232 0,0144 0,0746 0,0584 0,0957 0,0671
RecRankerpointwise 0,0701 0,0542 0,0930 0,0637 0,0170 0,0126 0,0263 0,0164 0,1113 0,0916 0,1208 0,0955
RecRankerpairwise 0,0537 0,0413 0,0770 0,0508 0,0169 0,0123 0,0265 0,0163 0,0686 0,0556 0,0885 0,0638
MixGCF
RecRankerhy điều 0,0712 0,0551 0,0932 0,0641 0,0180 0,0133 0,0269 0,0169 0,1113 0,0918 0,1209 0,0958
chỉnh 32,59% 33,74% 26,63% 30,28% 25,00% 23,15% 15,95% 17,36% 49,20% 57,19% 26,33% 42,77%
Cơ sở 0,0505 0,0380 0,0729 0,0472 0,0284 0,0206 0,0434 0,0267 0,0609 0,0476 0,0812 0,0560
SGL RecRankertheo cặp 0,0470 0,0349 0,0710 0,0447 0,0292 0,0211 0,0451 0,0275 0,0590 0,0468 0,0785 0,0549
RecRankerhybrid 0,0690 0,0525 0,0882 0,0604 0,0325 0,0235 0,0497 0,0305 0,0950 0,0791 0,1045 0,0831
Cải thiện 37,23% 38,16% 21,40% 27,97% 14,44% 14,08% 14,52% 14,23% 56,16% 66,60% 28,69% 48,39%
BẢNG IV: Hiệu suất đạt được bằng các phương pháp khuyến nghị tuần tự khác nhau. Các kết quả tốt nhất được nêu bật trong
chữ in đậm.
ML-100K ML-1M Cuốn SáchVượt Qua

Xương sống Phương pháp
H@3 N@3 H@5 N@5 H@3 N@3 H@5 N@5 H@3 N@3 H@5 N@5
Căn cứ 0,0187 0,0125 0,0385 0,0205 0,0277 0,0165 0,0501 0,0257 0,0150 0,0086 0,0279 0,0139
SASRec
RecRankerlistwise 0,0204 0,0197
0,0149 0,0321
0,0407 0,0232 0,0243 0,0526 48,13%
0,0239 0,0162
52,00% 24,42% 33,17% 11,19% 0,0231 0,0218 0,0153 0,0323 0,0196
RecRankerhy điều 28,48% 7,98%0,0160

17,90% 154,00%
0,0436
213,95% 74,55% 126 0,0304
0,62% 0,0212 0,0303 0,0381 0,0270 0,0487 0,0315
chỉnh
Căn cứ 0,0153 0,0104 0,0294 0,0161 0,0185

0,0107 0,0069 0,0211 0,0112 0,0179 0,0119 0,0343
RecRankerpointwise 0,0183 0,0129 0,0334 0,0140

0,0191 0,0348 0,0095 0,0231 0,0133 0,0390 0,0279 0,0557
RecRankerpairwise 0,0194 0,0190

0,0133
0,0240 0,0334 0,0090 0,0061 0,0159 0,0089 0,0254 0,0173 0,0416
BERT4Rec
RecRankerlistwise 0,0162 0,0151 0,0221
0,0119 0,0240 0,0124 0,0085 0,0231 0,0128 0,0242 0,0168 0,0371
RecRankerhy điều 0,0130

0,0191 0,0192 0,0365 0,0343 0,0135 0,0094 0,0230 0,0133 0,0422 0,0305 0,0566
chỉnh 26,80% 27,88% 16,67% 19,25% 30,84% 37,68% 9,48% 18,75% 135,75% 156,30% 65,01% 97,30%
Căn cứ 0,0243 0,0143 0,0436 0,0222 0,0259 0,0153 0,0492 0,0248 0,0151 0,0088 0,0282 0,0141
CL4SRec
RecRankerhy điều 0,0221 0,0152 0,0400 0,0224 0,0280 0,0192 0,0512 0,0286 0,0375 0,0263 0,0514 0,0321
chỉnh N/A 8,39% N/A 3,15% 11,97% 28,10% 5,49% 16,53% 148,34% 198,86% 82,27% 127,66%
• Hệ số hóa ma trận (MF) [45]: Một cách tiếp cận nền tảng mô hình ngày tháng làm xương sống.
phân rã ma trận tương tác giữa người dùng và mục để khám phá • SASRec [9]: Sử dụng cơ chế tự chú ý trong các mô hình tuần tự để nắm
các tính năng tiềm ẩn. Chúng tôi sử dụng Xếp hạng cá nhân hóa Bayesian bắt tốt hơn sở thích của người dùng theo thời gian.
(BPR) mất mát [32] để tối ưu hóa mô hình. • BERT4Rec [10]: Điều chỉnh kiến trúc BERT cho phù hợp với đề xuất tuần
• LightGCN [8]: Đơn giản hóa mạng tích chập đồ thị tự, nắm bắt tương tác giữa các mục phức tạp
để có đề xuất hiệu quả bằng cách tập trung vào biểu đồ mục người dùng các mẫu.
nhúng. • CL4SRec [52]: Tận dụng phương pháp học tập tương phản để đề xuất theo
• MixGCF [50]: Phương pháp lai kết hợp tích chập đồ thị với lọc cộng trình tự, nâng cao độ bền của mô hình và sự hiểu biết về trình tự
tác, nâng cao đề xuất mục của người dùng.
tính đa dạng và chính xác. Các mô hình xương sống đóng vai trò là các mô hình truy xuất trong
• SGL [51]: Sử dụng phương pháp học tự giám sát trong biểu đồ
RecRanker. Đối với mỗi mô hình đường trục, chúng tôi chọn đỉnh
mạng lưới thần kinh để cải thiện chất lượng đề xuất thông qua
mười mục làm mục ứng cử viên, thiết lập k '= 10.
nhiệm vụ phụ trợ.
Chúng tôi bỏ qua việc so sánh với việc điều chỉnh hướng dẫn khác
Chúng tôi cũng sử dụng một số khuyến nghị tuần tự được sử dụng rộng rãi. LLM cho các phương pháp khuyến nghị như TALLRec [36] và
BẢNG V: Nghiên cứu cắt bỏ trên tập dữ liệu ML-100K với mô hình xương
Hướng dẫnRec [35]. Việc loại trừ này là hợp lý vì các phương pháp này
sống MF để xếp hạng theo cặp. Các kết quả tốt nhất được đánh dấu bằng
không được thiết kế chủ yếu cho các nhiệm vụ xếp hạng đa dạng. Cụ
chữ in đậm.
thể, TALLRec được thiết kế riêng cho nhiệm vụ phân loại nhị phân, xác
định xem người dùng có thích một mặt hàng hay không. Mặt khác, Biến thể H@3 N@3 H@5 N@5
InstructRec dựa vào mô hình GPT nguồn đóng mạnh mẽ để tạo ra thông
RecRanker 0,0533 0,0368 0,0783 0,0471 không có Lấy mẫu người dùng thích
tin, khiến nó không thực tế trong bối cảnh của chúng tôi. Tuy nhiên, ứng 0,0472 0,0347 0,0759 0,0465 không có Dịch chuyển vị trí 0,0472
điều quan trọng cần lưu ý là các phương pháp này tuân theo cách tiếp 0,0337 0,0764 0,0456 không có Cải tiến kịp thời 0,0494 0,0358 0,0742
0,0459
cận tiêu chuẩn để điều chỉnh hướng dẫn trong LLM. Như được trình bày
chi tiết trong Phần VC, chúng tôi đưa vào một nghiên cứu cắt bỏ để
đánh giá những cải tiến của phương pháp của chúng tôi so với LLM điều
xếp hạng theo điểm, việc tích hợp chúng vào phương pháp xếp hạng
chỉnh hướng dẫn tiêu chuẩn, từ đó nhấn mạnh tính ưu việt trong phương
kết hợp vẫn có thể mang lại sự cải thiện. Điều này phù hợp với khái
pháp của chúng tôi.
niệm về tính tự thống nhất trong LLM; nghĩa là, khi một mô hình
5) Chi tiết triển khai: Chúng tôi đã chọn LLaMA-2 (7B) [13] làm
nhất quán về một câu trả lời cụ thể thì khả năng chính xác của nó
xương sống của LLM trong thử nghiệm của chúng tôi do khả năng mạnh mẽ
sẽ cao hơn.
của nó trong số các LLM nguồn mở. Trong giai đoạn đào tạo của LLaMA-2
• RecRanker thể hiện sự cải tiến đáng kể trên tập dữ liệu Bookcrossing
(7B), chúng tôi đã áp dụng tốc độ học thống nhất là 2 × 10 5 , cùng
với độ dài ngữ cảnh là 1024. Kích thước lô được cố định ở mức 4, được so với tập dữ liệu Movielens.
Cải tiến này có thể là do xếp hạng chi tiết trong tập dữ liệu
bổ sung bằng các bước tích lũy độ dốc là 2. Ngoài ra, , một bộ lập
Bookcrossing, nằm trong khoảng từ 1 đến 10, do đó cho phép LLM được
lịch cosine đã được triển khai, tích hợp giai đoạn khởi động sơ bộ
điều chỉnh đưa ra dự đoán chính xác hơn.
gồm 50 bước. Quá trình đào tạo bao gồm tổng cộng 6000 bước. Chúng tôi
Quan sát này có thể là do thực tế là
đã sử dụng tính năng tối ưu hóa giai đoạn ZeRO-3 của Deep-Speed [53]
cùng với kỹ thuật chú ý nhanh [54] để đào tạo hiệu quả các mô hình này. các mô hình đề xuất chung có khả năng khai thác thông tin cộng tác
một cách hiệu quả, điều này khiến chúng trở nên xuất sắc hơn trong
Quá trình đào tạo này được thực hiện trên 16 GPU NVIDIA A800 80GB. việc xếp hạng các mục. Kết quả là nhu cầu sắp xếp lại tương đối thấp
Trong quá trình suy luận, khung vLLM [55] đã được sử dụng, đặt tham hơn trong các mô hình này.
số nhiệt độ ở mức 0,1, với các giá trị top-k và top-p lần lượt là 10
C. Nghiên cứu cắt bỏ (RQ2)
và 0,1.
Suy luận được thực hiện bằng cách sử dụng GPU NVIDIA A800 80GB duy Trong phần này, chúng tôi nghiên cứu lợi ích của từng thành phần
nhất. riêng lẻ của ReRanker. Kết quả được thể hiện trong Bảng V. Kết quả
Đối với nhiệm vụ đề xuất top-k, chúng tôi sử dụng thư viện SEL- chứng minh rằng mô hình hoàn chỉnh vượt trội hơn cả ba biến thể mô
FRec4 [51] để triển khai. Đối với cài đặt siêu tham số, chúng tôi đặt hình. Kết quả này nhấn mạnh sự đóng góp đáng kể của từng thành phần
α1 = α2 = α3 = cho tất cả các thử nghiệm. C được đặt thành 0,92 trong chính trong việc nâng cao hiệu suất tổng thể. Phân tích chi tiết về
1 3
bài báo này. C1, C2 và C3 được đặt tương ứng là 0,05, 0,5 và 0,025. tác động cụ thể của từng thành phần mang lại những hiểu biết sau: •
Chúng tôi lặp lại thí nghiệm năm lần và tính giá trị trung bình. không có Lấy mẫu người dùng thích ứng: Biến thể này thay thế phương
pháp lấy
mẫu người dùng thích ứng được đề xuất bằng phương pháp lấy mẫu thống
B. Kết quả chính (RQ1)
nhất. Các kết quả thử nghiệm cho thấy sự suy giảm đáng kể về hiệu
Kết quả thực nghiệm khuyến nghị trực tiếp và khuyến nghị tuần tự suất của mô hình. Sự suy giảm này nhấn mạnh tầm quan trọng của
lần lượt được trình bày ở Bảng III và Bảng IV. Chúng tôi có những nhận việc lấy mẫu người dùng thích ứng trong việc lựa chọn các mẫu người
xét quan trọng sau: • Trong bối cảnh của MF và LightGCN, các dùng quan trọng, đại diện và đa dạng để đào tạo, từ đó nâng cao
phương pháp xếp hạng theo cặp và theo danh sách vượt qua mô hình cơ hiệu suất của mô hình.
sở. Tuy nhiên, các phương pháp này gặp khó khăn trong việc mang lại
kết quả thuận lợi khi áp dụng cho các mô hình tiên tiến hơn như • không có Dịch chuyển vị trí: Việc dịch chuyển vị trí bị loại trừ
MixGCF hoặc SGL. Ngược lại, xếp hạng theo điểm luôn vượt trội hơn trong biến thể này, duy trì các thành phần khác như cũ. Việc giảm
các mô hình cơ sở, đạt được sự cải thiện rõ rệt. Sự cải tiến này có hiệu suất quan sát được trong biến thể này nêu bật tầm quan trọng
thể là do trình độ LLM trong việc đưa ra các đánh giá khách quan của việc dịch chuyển vị trí. Nó giảm thiểu sự thiên vị vị trí, dẫn
hơn thay vì so sánh nhiều mục. Ngoài ra, tính đơn giản tương đối đến kết quả nhất quán và đáng tin cậy hơn. • w/o Cải tiến
của các nhiệm vụ theo từng điểm cho thấy LLM thành thạo hơn trong nhanh chóng: Trong biến thể này, tính năng tăng cường nhanh chóng bị
việc xử lý các nhiệm vụ đơn giản hơn. loại bỏ trong khi vẫn giữ lại các mô-đun khác. Hiệu suất giảm rõ
rệt được quan sát thấy, cho thấy các mô hình đề xuất thông thường
có thể cung cấp thông tin có giá trị cho LLM để tạo ra các dự đoán
• Hơn nữa, các phương pháp xếp hạng kết hợp thường tốt hơn xếp hạng chính xác hơn.
theo điểm. Mặc dù hiệu suất xếp hạng theo cặp và theo danh sách
D. Nghiên cứu siêu tham số (RQ3)
thấp hơn đáng kể so với
1) Phân tích siêu tham số C1, C2 và C3: Chúng tôi phân tích ảnh hưởng
4https://github.com/Coder-Yu/SELFRec của siêu tham số C1, C2 và C3 đến
(a) Tác động của C1 (b) Tác động của C2 (c) Tác động của C3
Hình 3: Phân tích siêu tham số C1, C2 và C3 trên tập dữ liệu ML-1M với mô hình xương sống MF và nhiệm vụ xếp hạng kết hợp.
(a) Xếp hạng theo điểm (b) Xếp hạng theo cặp (c) Xếp hạng theo danh sách (d) Xếp hạng kết hợp
Hình 4: So sánh hiệu suất của mô hình LLaMA-2 (7B) và LLaMA-2 (13B) đối với các nhiệm vụ xếp hạng khác nhau trên
Tập dữ liệu chéo với mô hình xương sống SGL.
BẢNG VI: So sánh hiệu suất với các con số khác nhau
Bộ dữ liệu ML-1M, sử dụng MF làm mô hình cơ bản,
hướng dẫn huấn luyện RecRanker trên ML-100K
như mô tả trong Hình 3. Chúng tôi lưu ý rằng sự gia tăng C1 và
tập dữ liệu sử dụng mô hình đường trục MF để xếp hạng theo cặp
C3 dẫn đến những biến động và suy giảm hiệu suất chung.
Điều này chỉ ra rằng việc lựa chọn đúng đắn C1 và C3 là rất quan trọng.
# Hướng dẫn H@3 N@3 H@5 N@5
để tối ưu hóa hiệu suất mô hình, đặc biệt vì cả hai
56K 0,0533 0,0368 0,0783 0,0471
phương pháp xếp hạng theo cặp và theo danh sách hoạt động kém hơn so với
28K 0,0481 0,0348 0,0757 0,0462
để xếp hạng theo điểm, đưa ra giá trị cao của C1 và C3
5.6K 0,0475 0,0353 0,0723 0,0454
dưới mức tối ưu. Mặt khác, sự cải thiện dần dần về
hiệu suất đã được quan sát thấy với sự gia tăng của C2. Những cái này
các phát hiện nhấn mạnh tầm quan trọng của việc lựa chọn siêu tham số
nêu bật những điểm mạnh của bảng xếp hạng kết hợp được đề xuất
thích hợp trong việc đạt được hiệu suất mô hình tối ưu.
phương pháp.
2) Phân tích tỷ lệ mô hình.: Chúng tôi điều chỉnh thêm hướng dẫn
3) Phân tích tỷ lệ dữ liệu.: Việc đào tạo LLM
mô hình LLaMA-2 (13B).5 Chúng tôi đã tiến hành so sánh
được tiến hành với số lượng hướng dẫn khác nhau trong
phân tích giữa phiên bản 7B và 13B của mô hình được điều chỉnh theo
tập dữ liệu điều chỉnh hướng dẫn để đánh giá tác động của kích thước dữ liệu.
hướng dẫn. Sự khác biệt về hiệu suất giữa LLaMA-2 7B và LLaMA-2 13B
Cụ thể là phiên bản có hướng dẫn 5.6K đã được train
được đánh giá cụ thể trên
hơn 600 bước, trong khi phiên bản có 28K hướng dẫn chưa trải qua 3000
các nhiệm vụ xếp hạng khác nhau trong tập dữ liệu Bookcrossing, như
bước đào tạo, tỷ lệ thuận với phiên bản gốc của chúng tôi
minh họa trong Hình 4. Quan sát của chúng tôi cho thấy rằng
cấu hình. Kết quả thí nghiệm được trình bày chi tiết trong Bảng VI.
Mô hình LLaMA-2 (13B) nhìn chung hoạt động tốt hơn mô hình 7B. Một xu hướng có thể quan sát được là sự gia tăng số lượng
Sự vượt trội này có thể là do khả năng nâng cao của mô hình lớn hơn,
hướng dẫn tương quan với hiệu suất mô hình nâng cao. Cái này
dẫn đến ngôn ngữ tốt hơn
nhấn mạnh tầm quan trọng của việc kết hợp một phạm vi lớn hơn và
khả năng hiểu và suy luận, cuối cùng dẫn đến
tập dữ liệu đa dạng hơn để điều chỉnh lệnh LLM nhằm đạt được
kết quả xếp hạng được cải thiện. Ngoài ra, điều đáng chú ý là
hiệu suất được cải thiện.
những cải tiến trong xếp hạng theo điểm và xếp hạng theo danh sách
rõ rệt hơn so với xếp hạng theo cặp. Cái này E. So sánh với Mô hình GPT (RQ4)
gợi ý rằng LLM vẫn phải đối mặt với những thách thức trong xếp hạng nhất định Chúng tôi so sánh LLM được điều chỉnh theo hướng dẫn của chúng tôi với GPT
nhiệm vụ. Hơn nữa, cách tiếp cận xếp hạng kết hợp đã chứng minh mô hình, cụ thể là mô hình GPT-3.5-turbo6 . Chúng tôi đã làm việc
tiến bộ đáng kể trên tất cả các số liệu đánh giá. Điều này đánh giá một mẫu gồm 100 trường hợp nhiệm vụ xếp hạng theo danh sách từ
thấp tính hiệu quả của việc tích hợp nhiều nhiệm vụ xếp hạng, Tập dữ liệu Bookcrossing, sử dụng mô hình CLSRec làm xương sống để đánh
giá mô hình GPT. Cài đặt thử nghiệm này
5Huấn luyện mô hình LLaMA-2 (70B) với cài đặt thử nghiệm tương tự phù hợp với những phát hiện của [56], trong đó nêu bật phương pháp tối ưu
không thực tế do hạn chế về tài nguyên, liên tục dẫn đến lỗi Hết bộ nhớ (OOM).
6https://platform.openai.com/docs/models/gpt-3-5
NGƯỜI GIỚI THIỆU
`
[1] J. Bobadilla, F. Ortega, A. Hernando và A. Gutierrez, “Khảo sát hệ thống gợi ý,”
Hệ thống dựa trên kiến thức, tập. 46, trang 109–132, 2013.
[2] S. Zhang, L. Yao, A. Sun và Y. Tay, “Hệ thống đề xuất dựa trên học tập sâu: Một
Hình 5: So sánh giữa mô hình được điều chỉnh theo hướng dẫn của chúng
cuộc khảo sát và những quan điểm mới,” Khảo sát máy tính ACM (CSUR), tập. 52,
tôi với mô hình GPT-3.5-turbo. không. 1, trang 1–38, 2019.
[3] C. Gao, Y. Zheng, N. Li, Y. Li, Y. Qin, J. Piao, Y. Quan, J. Chang, D. Jin, X.
He và cộng sự, “Một cuộc khảo sát về mạng lưới thần kinh đồ thị cho các hệ thống
gợi ý: Những thách thức, phương pháp và hướng đi,” Giao dịch ACM trên Hệ thống
trạng thái cân bằng chi phí-hiệu suất đạt được khi GPT-3.5 được áp gợi ý, tập. 1, không. 1, trang 1–51, 2023.
dụng cho nhiệm vụ xếp hạng theo danh sách. Như được minh họa trong [4] X. Yang, H. Steck, Y. Guo và Y. Liu, “Về đề xuất hàng đầu bằng cách sử dụng mạng
xã hội,” trong Kỷ yếu của hội nghị ACM lần thứ sáu về hệ thống Người giới thiệu,
Hình 5, RecRanker được điều chỉnh theo hướng dẫn của chúng tôi với
2012, trang 67–74.
xếp hạng kết hợp vượt trội hơn hẳn so với mô hình GPT-3.5. Kết quả ấn [5] Z. Zhu, J. Wang và J. Caverlee, “Cải thiện đề xuất top-k thông qua bộ mã hóa tự
tượng này nhấn mạnh vai trò quan trọng của việc điều chỉnh hướng dẫn động cộng tác chung,” trong Hội nghị Web Toàn cầu, 2019, trang 3483–3482.
trong việc sắp xếp các LLM có mục đích chung cụ thể cho các nhiệm vụ đề xuất.
[6] X. He, L. Liao, H. Zhang, L. Nie, X. Hu và T.-S. Chua, “Lọc cộng tác thần kinh,”
trong Kỷ yếu của hội nghị quốc tế lần thứ 26 về web trên toàn thế giới, 2017,
F. Thảo luận thêm trang 173–182.
[7] X. Wang, X. He, M. Wang, F. Feng và T.-S. Chua, “Lọc cộng tác biểu đồ thần kinh,”
trong Kỷ yếu của hội nghị ACM SIGIR quốc tế lần thứ 42 về Nghiên cứu và phát
Trong thử nghiệm của chúng tôi, chúng tôi nhận thấy rằng việc đào
triển trong Truy tìm lại thông tin, 2019, trang 165–174.
tạo mô hình LLaMA-2 7B với khoảng 56K hướng dẫn trên 16 GPU A800 mất
khoảng 4,6 giờ. Ngoài ra, việc huấn luyện mẫu LLaMA-2 13B trong cùng [8] X. He, K. Deng, X. Wang, Y. Li, Y. Zhang và M. Wang, “Lightgcn: Đơn giản hóa và
hỗ trợ mạng tích chập đồ thị cho khuyến nghị,” trong Kỷ yếu của ACM Quốc tế lần
điều kiện cần khoảng 5,3 giờ. Thời gian suy luận cho mỗi lệnh trung
thứ 43 Hội nghị SIGIR về nghiên cứu và phát triển trong Truy xuất Thông tin,
bình là khoảng 17 lệnh mỗi giây, tương đương với yêu cầu khoảng 0,059 2020, trang 639–648.
giây cho mỗi mục để tính toán bằng một GPU A800.
[9] W.-C. Kang và J. McAuley, “Khuyến nghị tuần tự tự chú ý” tại hội nghị quốc tế
IEEE về khai thác dữ liệu (ICDM) năm 2018.
IEEE, 2018, trang 197–206.
Thời lượng đào tạo và suy luận này vượt xa đáng kể so với các mô [10] F. Sun, J. Liu, J. Wu, C. Pei, X. Lin, W. Ou và P. Jiang, “Bert4rec: Khuyến nghị
tuần tự với các biểu diễn bộ mã hóa hai chiều từ máy biến áp,” trong Kỷ yếu của
hình khuyến nghị thông thường, nêu bật những hạn chế của hệ thống tư
ngày 28 Hội nghị quốc tế ACM về quản lý thông tin và kiến thức, 2019, trang
vấn dựa trên LLM hiện tại. Nhu cầu đáng kể về tài nguyên tính toán
1441–1450.
cũng là một thách thức đáng kể. Do đó, việc sử dụng LLM hướng dẫn cho [11] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, Ł. Kaiser
các hệ thống tư vấn công nghiệp quy mô lớn, chẳng hạn như các hệ thống và I. Polosukhin, “Tất cả những gì bạn cần là sự chú ý,” Những tiến bộ trong hệ
thống xử lý thông tin thần kinh, tập. 30, 2017.
có hàng triệu người dùng, hiện không thực tế. Tuy nhiên, những tiến bộ
[12] OpenAI, “Báo cáo kỹ thuật Gpt-4,” 2023.
trong tương lai về thuật toán tính toán tăng tốc và song song cho suy [13] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, Y. Babaei, N. Bashlykov,
luận mô hình ngôn ngữ có thể làm giảm thời gian suy luận và tài nguyên S. Batra, P. Bhargava, S. Bhosale và cộng sự, “Llama 2: Nền tảng mở và các mô
hình trò chuyện được tinh chỉnh,” bản in trước arXiv arXiv:2307.09288, 2023.
tính toán. Cải tiến này có thể làm cho việc tích hợp LLM vào các hệ
thống đề xuất quy mô lớn trở nên khả thi, đặc biệt bằng cách tận dụng
[14] R. Anil, AM Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E.
nhiều GPU để tính toán song song. Taropa, P. Bailey, Z. Chen và cộng sự, “Báo cáo kỹ thuật của Palm 2 ,” bản in
trước arXiv arXiv:2305.10403, 2023.
[15] M. Du, F. He, N. Zou, D. Tao và X. Hu, “Học tắt các mô hình ngôn ngữ lớn trong
hiểu ngôn ngữ tự nhiên: Một cuộc khảo sát,” bản in trước arXiv arXiv:2208.11857,
2022.
VI. PHẦN KẾT LUẬN [16] G. Todd, S. Earle, MU Nasir, MC Green và J. Togelius, “Tạo cấp độ thông qua các
mô hình ngôn ngữ lớn,” trong Kỷ yếu của Hội nghị quốc tế lần thứ 18 về nền tảng
của trò chơi kỹ thuật số, 2023, trang 1 -số 8.
Trong bài viết này, chúng tôi giới thiệu RecRanker, một khung mới
để sử dụng LLM điều chỉnh hướng dẫn làm Trình xếp hạng trong Đề xuất [17] T. Kojima, SS Gu, M. Reid, Y. Matsuo và Y. Iwasawa, “Các mô hình ngôn ngữ lớn là
những nhà lý luận không cần bắn,” Những tiến bộ trong hệ thống xử lý thông tin
top-k . Ban đầu, chúng tôi đề xuất lấy mẫu người dùng thích ứng để thu
thần kinh, tập. 35, trang 22 199–22 213, 2022.
được dữ liệu chất lượng cao, mang tính đại diện và đa dạng. Trong bước [18] L. Wu, Z. Zheng, Z. Qiu, H. Wang, H. Gu, T. Shen, C. Qin, C. Zhu, H. Zhu, Q. Liu
tiếp theo, chúng tôi xây dựng một tập dữ liệu điều chỉnh hướng dẫn và cộng sự, “Một cuộc khảo sát về các mô hình ngôn ngữ lớn để khuyến nghị,” bản
in trước arXiv arXiv:2305.19860, 2023.
bao gồm ba nhiệm vụ xếp hạng riêng biệt: xếp hạng theo điểm, theo cặp
[19] W. Fan, Z. Zhao, J. Li, Y. Liu, X. Mei, Y. Wang, J. Tang và Q. Li, “Hệ thống gợi
và theo danh sách. Chúng tôi cải thiện hơn nữa lời nhắc bằng cách áp
ý trong kỷ nguyên của các mô hình ngôn ngữ lớn (llms), ” arXiv bản in trước
dụng chiến lược thay đổi vị trí để giảm thiểu sai lệch vị trí, cũng arXiv:2307.02046, 2023.
như tích hợp thông tin phụ trợ từ các mô hình đề xuất thông thường để [20] J. Lin, X. Dai, Y. Xi, W. Liu, B. Chen, X. Li, C. Zhu, H. Guo, Y. Yu, R. Tang và
cộng sự, “Làm thế nào có thể giới thiệu các hệ thống được hưởng lợi từ các mô
nâng cao kịp thời. Hơn nữa, chúng tôi giới thiệu một phương pháp xếp
hình ngôn ngữ lớn: Một cuộc khảo sát,” bản in trước arXiv arXiv:2306.05817, 2023.
hạng kết hợp kết hợp các nhiệm vụ xếp hạng đa dạng này để cải thiện [21] Y. Hou, J. Zhang, Z. Lin, H. Lu, R. Xie, J. McAuley và WX
hiệu suất tổng thể của mô hình. Các nghiên cứu thực nghiệm sâu rộng Zhao, “Các mô hình ngôn ngữ lớn là công cụ xếp hạng không cần bắn cho hệ thống
đề xuất,” bản in trước arXiv arXiv:2305.08845, 2023.
về ba bộ dữ liệu trong thế giới thực qua các nhiệm vụ xếp hạng khác
[22] J. Liu, C. Liu, R. Lv, K. Zhou và Y. Zhang, “Chatgpt có phải là một người giới
nhau đã xác nhận tính hiệu quả của khuôn khổ đề xuất của chúng tôi. thiệu tốt không? một nghiên cứu sơ bộ,” bản in trước arXiv arXiv:2304.10149,
2023.
[23] L. Wang và E.-P. Lim, “Đề xuất mục tiếp theo bằng cách sử dụng các mô hình ngôn [48] C.-N. Ziegler, SM McNee, JA Konstan và G. Lausen, “Cải thiện danh sách khuyến nghị
ngữ được đào tạo trước lớn,” bản in trước arXiv arXiv:2304.03153, 2023. thông qua đa dạng hóa chủ đề,” trong Kỷ yếu của hội nghị quốc tế lần thứ 14 về
World Wide Web, 2005, trang 22–32.
[24] J. Zhang, R. Xie, Y. Hou, WX Zhao, L. Lin và J.-R. Wen, “Khuyến nghị dưới dạng [49] S. Luo, X. Zhang, Y. Xiao và L. Song, “Hysage: Mạng nhúng biểu đồ tĩnh và thích
hướng dẫn sau: Một mô hình ngôn ngữ lớn hỗ trợ phương pháp đề xuất,” bản in trước ứng lai cho các đề xuất lệch ngữ cảnh,” trong Kỷ yếu của Hội nghị Thông tin Quốc
arXiv arXiv:2305.07001, 2023. tế ACM lần thứ 31 & Quản lý tri thức, 2022, trang 1389–1398.
[25] X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, S. Narang, A. Chowdh-ery và D.
Zhou, “Tính tự nhất quán cải thiện chuỗi suy luận tư duy trong các mô hình ngôn [50] T. Huang, Y. Dong, M. Ding, Z. Yang, W. Feng, X. Wang và J. Tang, “Mixgcf: Một
ngữ ,” bản in trước arXiv arXiv:2203.11171, 2022. phương pháp đào tạo cải tiến cho các hệ thống đề xuất dựa trên mạng thần kinh đồ
[26] JS Breese, D. Heckerman và C. Kadie, “Phân tích thực nghiệm các thuật toán dự đoán thị,” trong Kỷ yếu của Hội nghị ACM SIGKDD lần thứ 27 về Khám phá Tri thức và
để lọc cộng tác,” bản in trước arXiv arXiv:1301.7363, 2013. Khai thác Dữ liệu, 2021, trang 665–674.
[27] B. Hidasi, A. Karatzoglou, L. Baltrunas và D. Tikk, “Đề xuất dựa trên phiên với [51] J. Yu, H. Yin, X. Xia, T. Chen, J. Li và Z. Huang, “Học tập tự giám sát cho các
mạng thần kinh tái phát,” bản in trước arXiv arXiv:1511.06939, 2015. hệ thống đề xuất: Một cuộc khảo sát,” Giao dịch của IEEE về Kỹ thuật Kiến thức
và Dữ liệu, 2023 .
[28] W. Wei, X. Ren, J. Tang, Q. Wang, L. Su, S. Cheng, J. Wang, D. Yin và C. Huang, [52] X. Xie, F. Sun, Z. Liu, S. Wu, J. Gao, J. Zhang, B. Ding và B. Cui, “Học tập tương
“Llmrec: Các mô hình ngôn ngữ lớn với khả năng tăng cường đồ thị cho khuyến phản để khuyến nghị tuần tự,” năm 2022 hội nghị quốc tế IEEE lần thứ 38 về kỹ
nghị,” bản in trước arXiv arXiv:2311.00423, 2023. thuật dữ liệu (ICDE). IEEE, 2022, trang 1259–1273.
[29] Y. Zhang, F. Feng, J. Zhang, K. Bao, Q. Wang và X. He, “Collm: Tích hợp các phần
nhúng cộng tác vào các mô hình ngôn ngữ lớn để đề xuất,” bản in trước arXiv [53] S. Rajbhandari, J. Rasley, O. Ruwase và Y. He, “Zero: Tối ưu hóa bộ nhớ hướng tới
arXiv:2310.19488, 2023. đào tạo các mô hình nghìn tỷ tham số,” trong SC20: Hội nghị quốc tế về máy tính,
[30] X. Ren, W. Wei, L. Xia, L. Su, S. Cheng, J. Wang, D. Yin và C. Huang, “Học biểu mạng, lưu trữ và phân tích hiệu năng cao. IEEE, 2020, trang 1–16.
diễn với các mô hình ngôn ngữ lớn để gợi ý,” arXiv preprint arXiv :2310.15950, `
2023. [54] T. Dao, D. Fu, S. Ermon, A. Rudra và C. Re, “Flashattention: Sự chú ý chính xác
[31] Z. Yang, J. Wu, Y. Luo, J. Zhang, Y. Yuan, A. Zhang, X. Wang và X. He, “Mô hình nhanh chóng và tiết kiệm bộ nhớ với nhận thức io,” Những tiến bộ trong Hệ thống
ngôn ngữ lớn có thể diễn giải không gian tiềm ẩn của người giới thiệu tuần tự,” xử lý thông tin thần kinh, tập. 35, trang 16 344–16 359, 2022.
arXiv bản in trước arXiv:2310.20487, 2023. [55] W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, CH Yu, JE
[32] S. Rendle, C. Freudenthaler, Z. Gantner và L. Schmidt-Thieme, “Bpr: Xếp hạng được Gonzalez, H. Zhang và I. Stoica, “Quản lý bộ nhớ hiệu quả cho mô hình ngôn ngữ
cá nhân hóa theo kiểu Bayes từ phản hồi ngầm,” bản in trước arXiv arXiv:1205.2618, lớn phục vụ với tính năng phân trang,” bản in trước arXiv arXiv:2309.06180, 2023.
2012.
[33] J. Yang, X. Yi, D. Zhiyuan Cheng, L. Hong, Y. Li, S. Xiaoming Wang, T. Xu và EH [56] S. Dai, N. Shao, H. Zhao, W. Yu, Z. Si, C. Xu, Z. Sun, X. Zhang và J. Xu, “Khám
Chi, “Lấy mẫu âm tính hỗn hợp để tìm hiểu mạng lưới thần kinh hai tháp trong các phá khả năng của chatgpt trong hệ thống gợi ý,” arXiv bản in trước
khuyến nghị ,” trong Kỷ yếu đồng hành của Hội nghị Web 2020, 2020, trang 441–447. arXiv:2305.02182, 2023.
[34] JL Hein, Toán rời rạc. Học tập của Jones & Bartlett, 2003.
[35] S. Zhang, L. Dong, X. Li, S. Zhang, X. Sun, S. Wang, J. Li, R. Hu, T. Zhang, F.
Wu và cộng sự, “Điều chỉnh hướng dẫn cho mô hình ngôn ngữ lớn: Một cuộc khảo
sát,” bản in trước arXiv arXiv:2308.10792, 2023.
[36] K. Bao, J. Zhang, Y. Zhang, W. Wang, F. Feng và X. He, “Tallrec: Một khung điều
chỉnh hiệu quả và hiệu quả để điều chỉnh mô hình ngôn ngữ lớn với khuyến nghị,”
arXiv preprint arXiv: 2305.00447, 2023.
[37] S. Luo, C. Ma, Y. Xiao và L. Song, “Cải thiện đề xuất mục đuôi dài bằng cách tăng
cường biểu đồ,” trong Kỷ yếu của Hội nghị quốc tế ACM lần thứ 32 về Quản lý thông
tin và kiến thức, 2023, trang 1707–1716.
[38] Y.-J. Park và A. Tuzhilin, “Cái đuôi dài của hệ thống gợi ý và cách tận dụng nó,”
trong Kỷ yếu của hội nghị ACM 2008 về hệ thống gợi ý, 2008, trang 11–18.
[39] JA Hartigan và MA Wong, “Thuật toán 136: Thuật toán phân cụm k-mean,” Tạp chí của
xã hội thống kê hoàng gia. loạt c (thống kê ứng dụng), tập. 28, không. 1, trang
100–108, 1979.
[40] D. Comaniciu và P. Meer, “Sự thay đổi trung bình: Một cách tiếp cận mạnh mẽ đối
với phân tích không gian đặc trưng,” Giao dịch của IEEE về phân tích mẫu và trí
thông minh của máy, tập. 24, không. 5, trang 603–619, 2002.
[41] C. Chen, W. Ma, M. Zhang, C. Wang, Y. Liu và S. Ma, “Xem lại việc lấy mẫu âm tính
so với không lấy mẫu trong khuyến nghị ngầm định,” Giao dịch ACM trên Hệ thống
thông tin, tập. 41, không. 1, trang 1–25, 2023.
[42] P. Covington, J. Adams và E. Sargin, “Mạng lưới thần kinh sâu cho các đề xuất trên
youtube,” trong Kỷ yếu của hội nghị ACM lần thứ 10 về hệ thống đề xuất, 2016,
trang 191–198.
[43] P. Wang, L. Li, L. Chen, D. Zhu, B. Lin, Y. Cao, Q. Liu, T. Liu và Z. Sui, “Các
mô hình ngôn ngữ lớn không phải là người đánh giá công bằng,” bản in trước arXiv
arXiv:2305.17926, 2023.
[44] L. Zheng, W.-L. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D.
Li, E. Xing và cộng sự, “Đánh giá llm-với tư cách là một thẩm phán với mt-bench
và đấu trường chatbot,” bản in trước arXiv arXiv:2306.05685, 2023.
[45] Y. Koren, R. Bell và C. Volinsky, “Kỹ thuật nhân tố hóa ma trận cho hệ thống gợi
ý,” Máy tính, tập. 42, không. 8, trang 30–37, 2009.
[46] R. Taori, I. Gulrajani, T. Zhang, Y. Dubois, X. Li, C. Guestrin, P. Liang, và TB
Hashimoto, “Stanford alpaca: Mô hình llama làm theo hướng dẫn,” https:/ /
github.com/tatsu-lab/stanford alpaca, 2023.
[47] FM Harper và JA Konstan, “Bộ dữ liệu của ống kính phim: Lịch sử và bối cảnh,” Giao
dịch Acm trên hệ thống thông minh tương tác (tiis), tập. 5, không. 4, trang 1–19,
2015.

Recranker: Hướng Dẫn Điều Chỉnh Ngôn Ngữ Lớn Làm Người Xếp Hạng Cho Đề Xuất Top-K

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Recranker: Hướng Dẫn Điều Chỉnh Ngôn Ngữ Lớn Làm Người Xếp Hạng Cho Đề Xuất Top-K

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

RecRanker: Hướng dẫn điều chỉnh ngôn ngữ lớn

B. LLM cho Khuyến nghị

ba nhiệm vụ xếp hạng trong giai đoạn suy luận.

mẫu của người dùng u là

hoạt động hơn không bị đánh giá thấp.

Kiểu Hướng dẫn

thích hơn các mục mà người dùng rõ ràng không thích.

khả năng được chọn lặp lại. 1https://www.youtube.com/

thích hợp hơn trong bối cảnh nhất định.

E. Tối ưu hóa thông qua điều chỉnh lệnh

ML-100K ML-1M Cuốn SáchVượt Qua

ML-100K ML-1M Cuốn SáchVượt Qua

RecRankerhy điều 28,48% 7,98%0,0160

Căn cứ 0,0153 0,0104 0,0294 0,0161 0,0185

RecRankerpointwise 0,0183 0,0129 0,0334 0,0140

RecRankerpairwise 0,0194 0,0190

RecRankerhy điều 0,0130

Tập dữ liệu chéo với mô hình xương sống SGL.

giá mô hình GPT. Cài đặt thử nghiệm này

NGƯỜI GIỚI THIỆU

F. Thảo luận thêm trang 173–182.

You might also like