A Survey On Fake Review Detection Using Machine

Machine Translated by Google
2018 Hội nghị quốc tế lần thứ 4 về truyền thông máy tính và tự động hóa (ICCCA)
Khảo sát về Phát hiện Đánh giá Giả bằng Máy

Kỹ thuật học tập
Nidhi A. Patel Giáo sư Rakesh
Khoa Kỹ thuật Máy tính Sarvajanik Patel Khoa Kỹ thuật Máy tính
Collage of Engineering and Technology Surat, Ấn Độ Sarvajanik Collage of Engineering and Technology
nidhi.patel00051@gmail.com Surat, India rakeshpatel.ce@gmail.com
Tóm tắt — Hiện nay, việc sử dụng Internet và tiếp thị trực tuyến đã Jindal và Liu [11] [12] đã đề xuất ba kỹ thuật cơ bản để xác định các
trở nên rất phổ biến. Hàng triệu sản phẩm và dịch vụ có sẵn trong tiếp đánh giá giả mạo. Ba cách tiếp cận này như sau.
thị trực tuyến tạo ra lượng thông tin khổng lồ. Do đó, rất khó để tìm
được các dịch vụ hoặc sản phẩm phù hợp nhất, tương thích với yêu cầu.
Phương pháp tiếp cận tập trung vào đánh giá- Cách tiếp cận này
xác định đánh giá là đánh giá giả mạo dựa trên nội dung đánh giá
Khách hàng trực tiếp đưa ra quyết định dựa trên đánh giá hoặc ý kiến
được viết bởi những người khác dựa trên trải nghiệm của họ. Trong thế do người đánh giá viết. Trong phương pháp này, các tính năng khác
giới cạnh tranh này, bất kỳ ai cũng có thể viết bất cứ thứ gì, điều này nhau như sự giống nhau của nội dung đánh giá, sử dụng chữ in hoa,
làm tăng số lượng đánh giá giả mạo. Nhiều công ty đang thuê người viết tất cả các từ viết hoa, sử dụng chữ số, tên thương hiệu, sự giống
đánh giá tích cực giả mạo về dịch vụ hoặc sản phẩm của họ hoặc đánh giá
nhau giữa sản phẩm và đánh giá, sử dụng lặp lại các từ tốt và xấu
tiêu cực không công bằng về dịch vụ hoặc sản phẩm của đối thủ cạnh
trong đánh giá.
tranh. Quá trình này cung cấp thông tin đầu vào sai cho những khách hàng
Phương pháp lấy người đánh giá làm trung tâm- Phương pháp này phụ
mới muốn mua những mặt hàng như vậy và do đó chúng tôi cần một hệ thống
để phát hiện những đánh giá giả mạo như vậy và xóa chúng. Trong bài báo thuộc vào hành vi của người đánh giá. Cách tiếp cận này xem xét
thông tin về người dùng và tất cả các bài đánh giá do họ viết
này, chúng tôi thảo luận về các kỹ thuật khai thác dữ liệu được giám
sát, không giám sát và bán giám sát khác nhau để phát hiện đánh giá giả [1]. Các tính năng được sử dụng trong phương pháp này là tuổi tài
mạo dựa trên các tính năng khác nhau. khoản, ảnh hồ sơ, độ dài URL, địa chỉ IP, số lượng bài đánh giá
bằng văn bản của một người đánh giá, xếp hạng tối đa mỗi ngày,
Từ khóa — Đánh giá giả mạo, Phân tích tình cảm, Ý kiến
v.v. [18] [27] [28].
Thư rác, Kỹ thuật phát hiện đánh giá giả mạo, Máy học.
Phương pháp tiếp cận tập trung vào sản phẩm- Phương pháp này chủ
yếu tập trung vào thông tin liên quan đến sản phẩm. Trong phương
I. GIỚI THIỆU pháp này, thứ hạng bán hàng của sản phẩm, giá của sản phẩm, v.v.
được coi là các tính năng.
Trong những năm gần đây, World Wide Web đã thay đổi mạnh mẽ cách
Ban đầu phát hiện đánh giá giả được giới thiệu bởi Jinal et al.
chia sẻ ý kiến. Đánh giá trực tuyến là nhận xét, tweet, bài đăng, ý kiến
[12]. Có nhiều cách khác nhau để xác định đánh giá giả mạo.
trên các nền tảng trực tuyến khác nhau như trang đánh giá, trang tin
Kỹ thuật học máy là một trong những cách để xác định đánh giá giả mạo
tức, trang thương mại điện tử hoặc bất kỳ trang mạng xã hội nào khác.
[17]. Mô hình học máy học và đưa ra dự đoán [2]. Các bước cơ bản liên
Chia sẻ đánh giá là một trong những cách để viết đánh giá về dịch vụ
quan đến học máy là xử lý dữ liệu, trích xuất tính năng, lựa chọn tính
hoặc sản phẩm [1] [2].
năng, tạo mô hình phân loại. Quá trình này được thể hiện trong Hình 1:
Đánh giá được coi là suy nghĩ hoặc trải nghiệm cá nhân của một cá nhân
về sản phẩm hoặc dịch vụ [7] [13]. Khách hàng phân tích các đánh giá có
sẵn và đưa ra quyết định có mua sản phẩm hay không [3]. Do đó, các đánh
giá trực tuyến là nguồn thông tin có giá trị về ý kiến của khách hàng
[5]. Đánh giá giả mạo hoặc spam đề cập đến mọi thông tin không mong
muốn và không liên quan về sản phẩm hoặc dịch vụ.
Người gửi thư rác viết đánh giá giả mạo về sản phẩm của đối thủ cạnh
tranh và quảng bá sản phẩm của chính họ [8] [10]. Các bài đánh giá do
người gửi thư rác viết được gọi là bài đánh giá giả mạo hoặc bài đánh
giá spam [2]. Do đó, việc phát hiện đánh giá giả đã trở thành vấn đề
quan trọng để khách hàng đưa ra quyết định tốt hơn về sản phẩm đáng tin
cậy cũng như nhà cung cấp để mua hàng [15].
Các đánh giá giả mạo được phân thành hai nhóm [11] [17].
Đánh giá không trung thực- Những đánh giá này quảng bá hoặc hạ
cấp sản phẩm bằng các từ tích cực hoặc tiêu cực tương ứng và gây
hiểu lầm cho khách hàng.

Đánh giá về thương hiệu- Những đánh giá này không liên quan đến
sản phẩm, không liên quan đến các tính năng khác biệt của sản
Hình 1. Phát hiện đánh giá giả dựa trên Machine Learning
phẩm hoặc dịch vụ. Người đánh giá sử dụng tên thương hiệu nhiều
lần để quảng bá một thương hiệu cụ thể.
978-1-5386-6947-1/18/$31,00 ©2018 IEEE 1

Phương pháp học máy để phát hiện đánh giá giả mạo hoạt động như sau:
Thu thập dữ liệu: Trong giai đoạn này, dữ liệu đánh giá sẽ
được thu thập từ nhiều nền tảng khác nhau như Amazon. Những
đánh giá này có thể dành cho sản phẩm hoặc dịch vụ như đánh
giá khách sạn.
Tiền xử lý dữ liệu: Trong bước tiếp theo, tiền xử lý dữ liệu
được áp dụng như loại bỏ dấu chấm câu, bắt đầu từ, loại bỏ từ
dừng, v.v. Trong loại bỏ dấu chấm câu, toàn bộ văn bản được
chia thành các câu, cụm từ hoặc đoạn văn. Trong quá trình tạo
gốc, gốc sẽ được tạo từ mọi từ trong tập dữ liệu. Trong giai
đoạn loại bỏ từ dừng, nhóm từ được sử dụng thường xuyên như từ

hạn định, mạo từ và giới từ sẽ được phát hiện và loại bỏ. Sau
khi loại bỏ những từ này, chỉ những từ quan trọng sẽ được giữ
lại cho bước tiếp theo [6].

Hình 2. Các loại tính năng đánh giá giả mạo
Khi người gửi thư rác viết đánh giá giả, người gửi thư rác phản
ánh suy nghĩ, cảm giác và cảm xúc của họ. Trong tính năng hành vi,
Trích xuất và lựa chọn tính năng: Trong bước này, các tính
những kẻ gửi thư rác đánh giá hành xử khác với người dùng thực.
năng được trích xuất từ dữ liệu được xử lý trước. Các loại
Họ có thể viết không nhiều đánh giá trong thời gian ngắn [2] [25], có
tính năng khác nhau được sử dụng để phát hiện đánh giá giả mạo
thể sử dụng các thuật ngữ đánh giá cực đoan (rất thấp hoặc cao) [20].
được phân loại là tính năng ngôn ngữ, tính năng quan hệ và
Trong trường hợp này, những kẻ gửi thư rác viết nhiều đánh giá giả mạo
tính năng hành vi. Việc phân loại được thể hiện trong Hình 2.
từ các tài khoản khác nhau thay vì khoảng thời gian khác nhau.
Trong tính năng Quan hệ, cấu trúc đồ họa thể hiện mối quan hệ
Xây dựng và thử nghiệm mô hình phân loại: Đối với mục đích đào giữa đánh giá, người đánh giá và sản phẩm. Mô hình đồ họa hai bên thể
tạo, tập hợp nhỏ dữ liệu được dán nhãn được sử dụng. Trong hiện mối quan hệ giữa người đánh giá và sản phẩm [21]. Mô hình đồ họa
giai đoạn này, mô hình phân loại được tạo bằng cách sử dụng ba bên thể hiện mối quan hệ giữa các đánh giá, người đánh giá và địa
tập dữ liệu đánh giá đào tạo. Các bài đánh giá được sử dụng chỉ IP của những kẻ gửi thư rác đánh giá [22]. Trong mạng cụ thể, các
cho mục đích này đã được gắn nhãn là bài đánh giá giả mạo hoặc tính năng khác nhau được xem xét như số lượng sản phẩm được nhắm mục
chính hãng. Sau khi bộ phân loại được đào tạo, nó sẽ được kiểm tiêu bởi nhóm thư rác, tương quan người đánh giá trong nhóm thư rác,
tra bằng bộ dữ liệu thử nghiệm. Các thuật toán học máy khác kích thước của nhóm thư rác và tỷ lệ người đánh giá sản phẩm trong
nhau có thể được sử dụng để xây dựng mô hình là phân loại nhóm thư rác [23].
bayes ngây thơ, thuật toán cây quyết định, máy vectơ hỗ trợ, k-
hàng xóm gần nhất, hồi quy logistic, v.v.

Tính năng ngôn ngữ là một trong những tính năng chính để phát
hiện các đánh giá giả dựa trên phong cách viết và ngôn ngữ.
Các tính năng ngôn ngữ và văn bản bao gồm tính năng N-gram, tính năng
Hiệu suất của phương pháp phát hiện đánh giá giả mạo phụ thuộc vào
POS, tính năng LIWC và tính năng phong cách [2] [9]. Tính năng N-gram
dữ liệu được gắn nhãn được sử dụng cho mục đích đào tạo, lựa chọn
chứa unigram, bigram và trigram. Trong thẻ POS, mỗi từ đánh giá, trình
chính xác các tính năng và kỹ thuật khai thác dữ liệu được sử dụng để
gắn thẻ POS sử dụng các manh mối đánh lừa cú pháp về gửi thư rác đánh
phát hiện.
giá. Hầu hết những người gửi thư rác viết các bài đánh giá giàu trí
Phần còn lại của bài báo được tổ chức như sau: Phần II tóm tắt tưởng tượng bằng cách sử dụng đại từ hoặc trạng từ, động từ, trong khi
công việc phát hiện đánh giá giả mạo có liên quan. Phần III thảo luận người dùng bình thường viết các bài đánh giá mang tính thông tin bằng
về các kỹ thuật phát hiện đánh giá giả dựa trên máy học. Trong phần nhiều tính từ hoặc danh từ hơn. LIWC (Truy vấn ngôn ngữ và Đếm từ)
IV, phát hiện đánh giá giả mạo dựa trên các thuộc tính quan trọng như cũng được sử dụng để xác định các đánh giá giả mạo. Tính năng LIWC
tính năng, phân loại sẽ được thảo luận. Phần V thảo luận về những thích điểm số của cảm xúc tích cực và tiêu cực, điểm số của dấu chấm
thách thức lớn trong việc phát hiện đánh giá giả mạo. Phần VI kết thúc câu [19]. Đặc điểm dựa trên phong cách phụ thuộc vào độ đo độ tương tự
bài báo. từ (ví dụ, độ tương tự cosine) độ tương tự ngữ nghĩa giữa các đối tượng
và đánh giá (như sản phẩm, tin bài, v.v.) [24] [26]. Tính năng dựa
II. CÔNG VIỆC LIÊN QUAN trên phong cách cũng bao gồm tỷ lệ phần trăm từ lặp lại, tỷ lệ phần
trăm đại từ nhân xưng, tỷ lệ từ cảm xúc, tỷ lệ từ viết hoa, tần suất
Để phát hiện đánh giá giả mạo, có một số thuật toán học máy. Sử của giọng nói thụ động, v.v.
dụng các kỹ thuật Máy học, khả năng phát hiện đánh giá giả mạo phụ
thuộc vào các đặc điểm hành vi, đặc điểm ngôn ngữ và văn bản cũng như
các đặc điểm quan hệ. Điều này được thể hiện trong Hình 2.
2
III. PHÁT HIỆN ĐÁNH GIÁ GIẢ MẠO DỰA TRÊN MÁY HỌC lời cảm xúc. Đường cơ sở thứ hai chứa động từ, trạng từ, tính từ, từ
KỸ THUẬT mỗi câu, ký tự mỗi từ, động từ khiếm khuyết, tất cả dấu chấm câu, từ số
nhiều ngôi thứ nhất, từ số ít ngôi thứ nhất, từ không gian, từ chức
Trước đây, nhiều kỹ thuật đã được đề xuất để xác định các đánh năng, từ chỉ thời gian, cảm xúc, từ hình ảnh, từ cảm giác, từ âm thanh,
giá giả mạo dựa trên các loại dữ liệu như dữ liệu được gắn nhãn (ví dụ: từ cảm xúc tiêu cực và từ cảm xúc tích cực.
học có giám sát), dữ liệu không được gắn nhãn (ví dụ: học không giám
sát) và dữ liệu được gắn nhãn một phần (ví dụ: học bán giám sát) điều Đường cơ sở thứ hai cho kết quả chính xác hơn so với đường cơ sở đầu
đó được mô tả dưới đây. tiên.
B. Kỹ thuật học bán giám sát

A. Kỹ thuật học có giám sát
Hernandez và cộng sự. [4] lần đầu tiên giới thiệu kỹ thuật học PU
Wael et al. [6] sử dụng thuật toán học có giám sát để phát hiện để phát hiện đánh giá giả mạo. Kỹ thuật học không gắn nhãn tích cực
đánh giá giả mạo. Trước khi áp dụng phương pháp phân loại, các bước (PU) là sự kết hợp của một số nhãn tích cực và tập dữ liệu không gắn
tiền xử lý khác nhau được thực hiện; các bước này bao gồm bắt đầu từ, nhãn. Kỹ thuật PU-learning là kỹ thuật bán giám sát, chỉ sử dụng hai bộ
xóa dấu chấm câu và dừng xóa từ. Họ sử dụng tính năng ngôn ngữ để xác phân lớp dương là lừa đảo và không gắn nhãn mà không có âm là ví dụ
định đánh giá giả mạo. Tính năng ngôn ngữ chứa POS và túi từ. huấn luyện trung thực. Trong thuật toán này, dữ liệu chưa được gắn nhãn
đầu tiên được coi là lớp phủ định. Trong bước tiếp theo, các trình phân
Các tính năng túi từ bao gồm từ riêng lẻ hoặc nhóm từ được tìm thấy loại được đào tạo dựa trên tập hợp các trường hợp tích cực ban đầu. Sau
trong văn bản nhất định. Sau đó, các thuật toán phân loại khác nhau đó, các trình phân loại chỉ được áp dụng trên các phiên bản không được
được áp dụng như cây quyết định, rừng ngẫu nhiên, máy vectơ hỗ trợ, gắn nhãn và tạo các phiên bản được gắn nhãn. Sau khi phân loại các
vịnh ngây thơ và cây tăng cường độ dốc. Ở đây bayes ngây thơ và máy trường hợp tích cực và tiêu cực, các trường hợp tích cực dưới dạng đánh
vector hỗ trợ cho kết quả tốt hơn. giá lừa đảo sẽ bị loại khỏi các trường hợp không được gắn nhãn và phần
còn lại của chúng được coi là các trường hợp tiêu cực. Một lần nữa, các
bộ phân loại được áp dụng vào các trường hợp phủ định. Quá trình này
Jitendra và cộng sự. [2] đã áp dụng các tính năng khác nhau dựa
được lặp lại cho đến khi tiêu chí dừng, phân loại các bài đánh giá giả
trên sự tương đồng về nội dung và phân cực tình cảm để xác định các bài
và thật. Ở đây, hai bộ phân loại được áp dụng trong học PU, máy vectơ
đánh giá giả và thật. Ở đây, các tác giả sử dụng điểm số tình cảm dựa
hỗ trợ và bayes ngây thơ.
trên sự phân cực tình cảm giữa các đánh giá tích cực và tiêu cực, ngôn
ngữ và unigram làm tính năng. Sau đó, họ áp dụng ba thuật toán 1) máy
vectơ hỗ trợ, 2) bayes ngây thơ và 3) cây quyết định. Rohit et al. [5], sử dụng thuật toán học PU sử dụng các bộ phân
loại khác nhau. Trong phần này, tác giả sử dụng sáu bộ phân loại khác
nhau để phát hiện các đánh giá giả mạo. Đó là cây quyết định, bayes
Snehasish và cộng sự. [3] sử dụng thuật toán học máy có giám sát.
ngây thơ, rừng ngẫu nhiên, máy vectơ hỗ trợ, hồi quy logistic và phân
Trong phương pháp này, các bài đánh giá giả mạo được phân biệt với các
loại k-láng giềng gần nhất. Ở đây, trình phân loại hồi quy logistic cho
bài đánh giá thật bằng cách sử dụng bốn đầu mối ngôn ngữ như mức độ chi
hiệu suất tốt nhất so với tất cả sáu thuật toán khác nhau.
tiết, mức độ dễ hiểu, chỉ số nhận thức và phong cách viết. Mức độ chi
tiết chứa các tính năng vận hành khác nhau như tính thông tin, chi tiết
ngữ cảnh, đa dạng từ vựng, từ chức năng và chi tiết nhận thức. Hernandez và cộng sự. [16] đã so sánh việc học PU truyền thống với
thuật toán học PU sửa đổi. Sử dụng kỹ thuật học PU đã sửa đổi, tác giả
Tính thông tin được tính bằng POS (một phần của bài phát biểu) như danh đã phân tích rằng có thể phát hiện số lượng phiên bản ít hơn từ tập hợp
từ, động từ, tính từ, động từ, trạng từ, đại từ, v.v. không được gắn nhãn. Trong mỗi lần lặp lại, chỉ các phiên bản phủ định
Chi tiết ngữ cảnh chứa các tham chiếu không gian và thời gian trong khi mới được xem xét được tạo bởi đầu ra của lần lặp trước đó và trình phân
chi tiết tri giác chứa các từ cảm giác và hình ảnh, tỷ lệ âm thanh. Các loại chỉ được áp dụng trên các phiên bản phủ định mới đó. Do đó, trong
từ đa dạng về từ vựng chứa các từ không có nội dung vượt qua mức độ chi mỗi lần lặp lại, các trường hợp tiêu cực sẽ giảm đi và các trường hợp
tiết trong các bài đánh giá. Phong cách viết phụ thuộc vào việc sử dụng cuối cùng được xác định chính xác là đánh giá giả mạo hoặc chính hãng.
chữ hoa, chữ thường, dấu chấm hỏi, tất cả các dấu câu, thì và cảm xúc. Trong bài báo này, các tác giả cũng phát hiện các đánh giá giả tích cực
và tiêu cực. Họ đã sử dụng các bayes ngây thơ và hỗ trợ trình phân loại
Các thì được đo dựa trên nhóm các từ ở thì tương lai, quá khứ và hiện máy vector với cả các tính năng unigram và bigram và các bài đánh giá
tại. Chỉ báo nhận thức dựa trên từ dự kiến, từ chuyển động, từ loại trừ được phân loại thành các bài đánh giá giả mạo và không giả mạo.
cũng như từ nhân quả, v.v. Các tác giả sử dụng các thuật toán học có
giám sát khác nhau như hồi quy logistic, C4.5, mạng lan truyền ngược,
C. Kỹ thuật học không giám sát
bayes ngây thơ, máy vectơ hỗ trợ sử dụng nhân đa thức, hỗ trợ máy vectơ
sử dụng hạt nhân tuyến tính, máy vectơ hỗ trợ với hạt nhân phe cơ sở cấp Ưu điểm chính của phương pháp học tập không giám sát là không có
tiến, bỏ phiếu, hàng xóm k gần nhất và khu rừng ngẫu nhiên. bất kỳ tập dữ liệu được gắn nhãn nào, chúng tôi có thể phân loại các
bài đánh giá giả và thật.
Jitendra và cộng sự. [2] sử dụng phương pháp học tập không giám sát.
Các bài đánh giá giả mạo và xác thực được so sánh với hai đường cơ Tác giả sử dụng các tính năng khác nhau dựa trên dữ liệu đánh giá, dữ
sở. Đường cơ sở 1 chứa các tính năng khác nhau như ký tự trên mỗi từ, liệu người đánh giá và thông tin sản phẩm dựa trên sự khác biệt trong
thời lượng đánh giá trong từ, từ số ít ở ngôi thứ nhất, đa dạng từ vựng, mô hình hành vi đánh giá. Ở đây, tác giả sử dụng bộ dữ liệu đánh giá
tham chiếu thương hiệu, từ số nhiều ở ngôi thứ nhất, từ cảm xúc tiêu cực điện thoại di động của Amazon để xác định các bài đánh giá thật và giả.
và tích cực
3
BẢNG 1. SỰ PHÁT TRIỂN THAM SỐ CỦA CÁC KỸ THUẬT PHÁT HIỆN XEM XÉT GIẢ MẠO KHÁC NHAU
Tiêu đề/Tác giả/ Tiếp cận Đặc trưng) phân loại tập dữ liệu Hạn chế/ Tương lai
Sự xuất bản phạm vi
Sử dụng Supervised Learning để giám sát manh mối ngôn ngữ Thuật toán học máy Khách Sạn 15 Châu Á - Chỉ sử dụng cho
• Đánh giá dữ liệu có nhãn.
Phân loại Authentic và Fake trực tuyến Phong cách viết được giám sát như
• Mức độ Random forest, Support - Không phù hợp với tập
Đánh giá [3]
tác giả: chi tiết vector machine, Naive dữ liệu chưa được gắn nhãn.
• Cấu trúc của
S. Banerjee, A. Chua, J. Kim bayes, v.v.
Xuất bản: ACM 2015 Từ
•
Nhận thức
chỉ số
Phát hiện đánh giá lừa đảo bằng cách sử dụng dữ giám sát Điểm tình cảm, Máy véc tơ hỗ 20Chicago - Số lượng tính
liệu được gắn nhãn và không được gắn nhãn [2] Đặc điểm ngôn ngữ và trợ, Đánh giá khách sạn năng có hạn
Các tác đơn vị Bayes ngây thơ,

giả: J. Rout, S. Singh, S. Jena, và S. cây quyết định
bakshi
Xuất bản: Springer 2016 không giám sát Dữ liệu phản biện, Đánh giá Bộ dữ liệu điện
Thông tin dữ liệu và thoại di động

sản phẩm và sản phẩm
điện tử của Amazon
cây quyết định -

Tác động của việc áp dụng các bước xử giám sát manh mối ngôn ngữ Chicago
lý trước khác nhau đối với việc phát N-gam rừng ngẫu nhiên Đánh giá khách sạn
hiện thư rác đánh giá [6] Bayes ngây thơ

Tác giả: Máy véc tơ hỗ
E. Wtaiwi, G. Naymat trợ
Xuất bản: 2017 Elsevier
Sử dụng PU-Learning để phát hiện Bán giám sát - Vectơ hỗ trợ Khách sạn Chicago - Phân loại hạn chế
thư rác ý kiến lừa đảo [4] máy móc Đánh giá - Các trường hợp tích cực
Tác giả: Bayes ngây thơ bắt buộc (dữ liệu được dán
P.Rosso, D.Cabrera, M. Gomez Nhà nhãn)

xuất bản: ACL 2013
Phạm vi tương lai:
Thêm các phiên bản chưa

được gắn nhãn vào các
phiên bản tích cực
Xem lại phát hiện thư rác bằng cách sử dụng Bán giám sát - Cây quyết định, Khách sạn Chicago - Ví dụ tích cực bắt
Kỹ thuật bán giám sát [5] Bayes ngây thơ, Đánh giá buộc (dữ liệu được dán
Tác giả: Rừng ngẫu nhiên, nhãn)
R.Narayan,J. Rout và S. Jena Ấn Máy véc tơ hỗ

phẩm: Springer 2018 trợ, Phạm vi trong
Hồi quy logistic, tương lai: Công việc tương
K-hàng xóm gần nhất tự được mở rộng cho kỹ
thuật học không giám sát.
Phát hiện ý kiến lừa dối tích cực Unigram và Bigram bán giám sát Máy véc tơ hỗ đánh giá khách sạn - Ví dụ tích cực bắt
và tiêu cực bằng cách sử dụng PU- trợ buộc (dữ liệu được dán
learning [16] Bayes ngây thơ nhãn)

Tác giả:
P.Rosso, D.Cabrera, M. Gomez Nhà

xuất bản: 2015 Elsevier
BẢNG 1 trình bày tóm tắt các chiến lược khác nhau được sử dụng
IV. PHÂN TÍCH PHÁT HIỆN REVIEW GIẢ MẠO HIỆN CÓ
để xác định các bài đánh giá giả và thật.
KỸ THUẬT
A. Cách tiếp
Từ công việc nghiên cứu trước đây, các bài đánh giá giả mạo
cận: Để xác định các đánh giá giả mạo dựa trên các loại dữ liệu
có thể được phát hiện bằng các kỹ thuật khác nhau như phân loại,
như dữ liệu không được gắn nhãn (ví dụ: học không giám sát), dữ
phân cụm hoặc kết hợp cả hai. Để xác định chính xác các đánh giá
liệu được gắn nhãn (ví dụ: học có giám sát) và dữ liệu được gắn
giả mạo, các kỹ thuật khác nhau được sử dụng dựa trên các tính
năng và bộ phân loại. Các tính năng và phân loại được minh họa nhãn một phần (ví dụ: học bán giám sát).
dưới đây.
4
B. Tính năng: hệ thống phổ biến mới nổi và mạng lan tỏa, Elsevier, trang 273-279, 2017.
Các tính năng khác nhau được sử dụng để xác định các đánh giá giả và thật
[7] W. Zhang,RYK Lau và Li. Chunping, “Phân tích dữ liệu lớn thích ứng để phát
như tính năng ngôn ngữ, điểm số tình cảm, tính năng quan hệ, v.v.
hiện đánh giá lừa đảo trong phương tiện truyền thông xã hội trực tuyến”,
Hội nghị quốc tế lần thứ 35 về hệ thống thông tin, Auckland 2014,
tr.1-19,2014.
C. Trình phân [8] C. Lai, K. Xu, RY Lau, Y. Li và L. Jing, “Hướng tới phương pháp tiếp cận mô
hình hóa ngôn ngữ để phát hiện thư rác đánh giá của người tiêu dùng,” Hội
loại: Sử dụng các thuật toán phân loại khác nhau như hồi quy logistic, k-
nghị quốc tế lần thứ 7 của IEEE về Kỹ thuật kinh doanh điện tử, trang 1 –8,
hàng xóm gần nhất, khu rừng ngẫu nhiên, bayes ngây thơ và máy vectơ hỗ 2010.
trợ, các bài đánh giá được phân loại thành bài đánh giá giả và bài đánh [9] MI Ahsan, T. Nahian, AA Kafi, MI Hossain và FM Shah, “Đánh giá phát hiện thư
giá chính hãng. rác bằng cách sử dụng phương pháp học chủ động,” 2016 Hội nghị Công nghệ
thông tin, Điện tử và Truyền thông Di động (IEMCON) thường niên lần thứ 7
của IEEE, 2016.
D. Bộ dữ liệu:
[10] M. Ott, Y. Choi, C. Cardie và JT Hancock, “Tìm thư rác ý kiến lừa đảo bằng
Các tác giả sử dụng tập dữ liệu có sẵn công khai hoặc tạo tập dữ liệu bất kỳ khả năng tưởng tượng nào”, ACM, tr.309-319,2011.
của riêng mình.
[11] N. Jindal và B. Liu., “Opinion spam and analysis”, Kỷ yếu hội thảo quốc tế
V. NHỮNG THÁCH THỨC CHÍNH TRONG KỸ THUẬT PHÁT HIỆN RÀNG BUỘC GIẢ về Tìm kiếm web và khai thác dữ liệu web - WSDM 08 (2008), ACM, trang 219 –
230,2008.
[12] N. Jindal và B. Liu, “Đánh giá phát hiện thư rác”, Kỷ yếu hội nghị quốc tế
Những thách thức liên quan đến giả mạo khác nhau lần thứ 16 về World Wide Web - WWW 07 (2007), ACM, trang 1189–1190, 2007
xem xét phát hiện như dưới đây. [13] S. Shojaee, A. Azman, M. Murad, N. Sharef và N. Sulaiman, “A Framework
1. Các tính năng đánh giá như xếp hạng, tham khảo nhãn hiệu đã khó với for Fake Review Annotation”, 2015 Hội nghị quốc tế về mô hình hóa và mô phỏng
UKSIM-AMSS lần thứ 17, IEEE, trang 153-158,2015.
con người, máy móc chưa kể [2].
2. Khi chỉ có một đánh giá cho một mặt hàng cụ thể thì khó xác định hành
vi đánh giá [1]. [14] J. Koven, H. Siadati và CY Lin, “Tìm kiếm các nhận xét có giá trị trên Yelp
3. Khi các đánh giá giả mạo được cố ý bịa đặt giống như đánh giá chính bằng cách phân tích tính cách, nội dung, địa lý và sự bất thường,”
hãng, sẽ rất khó để quyết định đánh giá chính hãng. Hội thảo quốc tế về khai thác dữ liệu của IEEE năm 2014, trang 1215–1218,
2014.
[15] S. Banerjee và AYK Chua. 2014. “Vỗ tay trong đánh giá khách sạn: Chân thực
hay lừa đảo?”, Hội nghị Khoa học và Thông tin 2014 (2014), trang 938–
VI. PHẦN KẾT LUẬN
942,2014.
Do sự phát triển nhanh chóng của internet, kích thước của các đánh [16] P.Rosso, D.Cabrera, M. Gomez, “Phát hiện quan điểm lừa dối tích cực và tiêu
giá về các mặt hàng / sản phẩm tăng lên. Những lượng thông tin khổng lồ cực bằng cách sử dụng PU-learning”, Elsevier, tr.1-11, 2014.
này được tạo ra trên Internet; không có phân tích về chất lượng của các [17] R. Dewang, A.Singh, “Xác định đánh giá giả sử dụng bộ tính năng từ vựng và
cú pháp mới”, Kỷ yếu Hội nghị
Truyền thôngQuốc
2015tế, lần
ACM,thứ sáu 115-119,
trang về Máy tính và Công nghệ
2015.
đánh giá được viết bởi người tiêu dùng.
Bất kỳ ai cũng có thể viết bất cứ điều gì chắc chắn dẫn đến đánh giá giả
mạo hoặc một số công ty đang thuê người đăng đánh giá. Một số đánh giá [18] J. Fontanarava, G. Pasi và M. Viviani, “Phân tích tính năng để phát hiện
giả mạo đã được cố tình tạo ra để có vẻ chân thực, khả năng xác định các đánh giá giả thông qua phân loại được giám sát,” Hội nghị quốc tế IEEE 2017
đánh giá trực tuyến giả mạo là rất quan trọng. Trong bài báo này, chúng về khoa học dữ liệu và phân tích nâng cao (DSAA), trang 658–666, 2017.
tôi đã thảo luận về các kỹ thuật phát hiện đánh giá giả khác nhau dựa trên
[19] X. Wang, X. Zhang, C. Jiang và H. Liu, “Xác định các đánh giá giả mạo bằng
các phương pháp không giám sát, giám sát cũng như bán giám sát. Trong bài
cách sử dụng các đặc điểm ngữ nghĩa và hành vi,” Hội nghị quốc tế về quản
viết này, chúng tôi đã xem xét chi tiết các đặc điểm khác nhau như đặc lý thông tin (ICIM) lần thứ 4 năm 2018, trang 92–97, 2018 .
điểm ngôn ngữ, đặc điểm hành vi và quan hệ. Chúng tôi cũng đã so sánh các
kỹ thuật khác nhau để xác định các đánh giá giả mạo. Chúng tôi cũng đã [20] S. Feng, L. Xing, A Gogar và Y. Choi, “Dấu vết phân phối của các đánh giá
sản phẩm lừa đảo”. Trong Kỷ yếu Hội nghị AAAI Quốc tế lần thứ 6 về Weblog
thảo luận về những thách thức lớn trong việc phát hiện đánh giá giả mạo.
và Truyền thông Xã hội (ICWSM), trang 98-105, 2012.
[21] Akoglu, L, R Chandy và C Faloutsos , “Phát hiện gian lận ý kiến trong các
bài đánh giá trực tuyến bằng hiệu ứng mạng”. Trong Kỷ yếu của Hội nghị Quốc
tế AAAI lần thứ 7 về Weblog và Truyền thông Xã hội (ICWSM'13), trang 2-11,
NGƯỜI GIỚI THIỆU
2013.
[1] A. Rastogi, M. Mehrotra, “Phát hiện thư rác trong các bài đánh giá trực [22] Li, H, Z Chen, B Liu, X Wei và J Shao, “Phát hiện các đánh giá giả thông qua
tuyến”, Tạp chí Quản lý thông tin và tri thức, tập. 16, không. 04, trang học tập tích cực không gắn nhãn tập thể”. Trong Kỷ yếu của Hội nghị Quốc tế
1-38, 2017. IEEE về Khai thác Dữ liệu (ICDM) năm 2014, trang 899–904. New York: IEEE,
[2] J.Rout,S. Singh, S. Jena, và S. Bakshi, “Phát hiện đánh giá lừa đảo bằng cách 2014.
sử dụng dữ liệu được gắn nhãn và không được gắn nhãn”, Công cụ và ứng dụng [23] Wang, Z, T Hou, D Song, Z Li và T Kong, “Phát hiện các nhóm gửi thư rác đánh
đa phương tiện, tập 76, số. 3, trang 3187-3211, 2016. giá thông qua phép chiếu biểu đồ lưỡng cực”, Tạp chí Máy tính , 59(6),
[3] S. Banerjee, A. Chua, J. Kim, “Sử dụng học tập có giám sát để phân loại các trang 861–874, 2015.
bài đánh giá trực tuyến xác thực và giả mạo”, Kỷ yếu Hội nghị quốc tế lần [24] Wang, JZ, Z Yan, LT Yang và BX Huang, “Một cách tiếp cận để xếp hạng các bài đánh
thứ 9 về quản lý và truyền thông thông tin phổ biến”,ACM, 2015. giá bằng cách hợp nhất và khai thác ý kiến dựa trên mức độ phù hợp của bài đánh
giá”, trang 3–15, 2015.
[4] P.Rosso, D.Cabrera, M. Gomez, “Sử dụng PU-Learning để phát hiện Spam ý kiến [25] Y. Li, X. Feng và S. Zhang, “Phát hiện đánh giá giả sử dụng mô hình ngữ
lừa đảo”, trang 38-45, 2013. nghĩa và cảm xúc,” Hội nghị quốc tế lần thứ 3 về Khoa học thông tin và Kỹ
[5] R.Narayan,J. Rout và S. Jena, “Đánh giá phát hiện thư rác bằng kỹ thuật bán thuật điều khiển (ICISCE), trang 317–320, 2016.
giám sát”, Tiến bộ trong
hành kỹ thuật
và ứng dụng, điện
trangtoán thông 2018.
281-286, minh: Lý thuyết, thực
[26] SL Christopher và HA Rahulnath, “Đánh giá xác minh tính xác thực bằng cách
[6] W. Etaiwi, G. Naymat, “Tác động của việc áp dụng các bước tiền xử lý đối với sử dụng học tập có giám sát và đặc điểm tính cách của người đánh giá,”
phát hiện thư rác đánh giá”, Hội thảo quốc tế lần thứ 8 về
5
2016 Hội nghị quốc tế về các xu hướng công nghệ mới nổi (ICETT), [28] M. Singh, L. Kumar và S. Sinha, “Mô hình phát hiện đánh giá giả mạo
2016. hoặc spam,” Những tiến bộ trong hệ thống thông minh và đổi mới dựa
[27] P. Liu, Z. Xu, J. Ai và F. Wang, “Xác định các chỉ số đánh giá giả trên CNTT-TT, trang 213–217, tháng 1 năm 2017.
mạo dựa trên các tính năng hành vi của kẻ gửi thư rác,” Hội nghị
quốc tế IEEE 2017 về chất lượng phần mềm, độ tin cậy và đồng hành
bảo mật (QRS-C) , trang 396–403, 2017.

A Survey On Fake Review Detection Using Machine

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

A Survey On Fake Review Detection Using Machine

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Khảo sát về Phát hiện Đánh giá Giả bằng Máy

muốn và không liên quan về sản phẩm hoặc dịch vụ.

cậy cũng như nhà cung cấp để mua hàng [15].

hiểu lầm cho khách hàng.

lần để quảng bá một thương hiệu cụ thể.

978-1-5386-6947-1/18/$31,00 ©2018 IEEE 1

Tiền xử lý dữ liệu: Trong bước tiếp theo, tiền xử lý dữ liệu

đoạn loại bỏ từ dừng, nhóm từ được sử dụng thường xuyên như từ

lại cho bước tiếp theo [6].

hàng xóm gần nhất, hồi quy logistic, v.v.

B. Kỹ thuật học bán giám sát

bài đánh giá giả và thật.

Sự xuất bản phạm vi

Các tác đơn vị Bayes ngây thơ,

Thông tin dữ liệu và thoại di động

điện tử của Amazon

cây quyết định -

hiện thư rác đánh giá [6] Bayes ngây thơ

P.Rosso, D.Cabrera, M. Gomez Nhà nhãn)

Phạm vi tương lai:

Thêm các phiên bản chưa

phiên bản tích cực

Tác giả: Rừng ngẫu nhiên, nhãn)

R.Narayan,J. Rout và S. Jena Ấn Máy véc tơ hỗ

Hồi quy logistic, tương lai: Công việc tương

K-hàng xóm gần nhất tự được mở rộng cho kỹ

thuật học không giám sát.

learning [16] Bayes ngây thơ nhãn)

P.Rosso, D.Cabrera, M. Gomez Nhà

You might also like