phân tích cảm nghĩ

(IJACSA) Tạp chí Quốc tế về Ứng dụng và Khoa học Máy tính Tiên tiến, Vol.
10, số 2,
2019
ĐẠI HỌC QUY NHƠN

KHOA CÔNG NGHỆ THÔNG TIN
-------------o0o------------
BÁO CÁO BÀI TẬP LỚN

HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN
NGHIÊN CỨU VỀ KỸ THUẬT PHÂN TÍCH TÌNH CẢM CỦA DỮ LIỆU
TWITTER
Sinh viên thực hiện: Lê Thị Minh Tâm

Lớp: Khoa học máy tính K41
Giảng viên hướng dẫn: TS. Lê Quang Hùng
Quy nhơn tháng 10 năm 2021
1
(IJACSA) Tạp chí Quốc tế về Ứng dụng và Khoa học Máy tính Tiên tiến, Vol. 10, số 2,
2019
MỤ C LỤ C
I. GIỚI THIỆU.............................................................................................................. 3
II. ĐỊNH NGHĨA VÀ ĐỘNG LỰC...............................................................................4
III. TẦM QUAN TRỌNG VÀ BỐI CẢNH.................................................................5
IV. KỸ THUẬT PHÂN LOẠI.....................................................................................6
V. DOCUMENT-LEVEL SENTIMENT ANALYSIS APPROACHES.....................7
VI. CÁCH TIẾP CẬN PHÂN TÍCH NHẬN THỨC CẤP ĐỘ CÂU......................10
VII. THẢO LUẬN VÀ KẾT QUẢ..............................................................................22
VIII. KẾT LUẬN...........................................................................................................29
REFERENCES...............................................................................................................30
2
2019
Tóm tắt: Toàn thế giới đang biến đổi nhanh chóng dưới sự đổi mới hiện nay. Internet đã
trở thành một nền tảng cơ bản yêu cầu đối với mọi người về việc sử dụng web trong mọi
lĩnh vực. Với sự gia tăng nhanh chóng của các ứng dụng mạng xã hội, mọi người đang sử
dụng các nền tảng này để nói lên ý kiến của họ liên quan đến các vấn đề hằng ngày. Thu
thập và phân tích các phản ứng về việc mua một sản phẩm, các dịch vụ công cộng của
mọi người là một điều thiết yếu. Phân tích cảm xúc (hoặc khai thác ý kiến) là một công
việc phổ biến nhiệm vụ chuẩn bị đối thoại nhằm mục đích khám phá tình cảm đằng sau
các ý kiến trong các văn bản về những chủ đề khác nhau. Trong những năm gần đây, các
nhà nghiên cứu trong lĩnh vực phân tích tình cảm đã quan tâm đễn việc phân tích ý kiến
về các chủ đề khác nhau, chẳng hạn như phim, sản phẩm thương mại và các vấn đề xã hội
hằng ngày. Twitter là một blog nhỏ cực kỳ phổ biến mà khách hàng có thể nói lên ý kiến
của họ. Điều tra ý kiến về dữ iệu Twitter là một lĩnh vực đã được chú ý trong nhiều thập
kỷ qua và liên quan đến việc mổ xẻ các “tweet” (bình luận) và nội dung của những sự
diễn đạt này. Bài báo này khám phá các phân tích tình cảm khác nhau được áp dụng cho
dữ liệu Twitter và kết quả của chúng.
I. GIỚI THIỆU
Phân tích cảm xúc còn được gọi là “khai thác ý kiến” hoặc trí tuệ nhân tạo cảm
xúc” và ám chỉ đến việc sử dụng xử lý ngôn ngữ tự nhiên (NLP), khai thác văn bản,
ngôn ngữ học tính toán và các phép đo sinh học để nhận biết, ngoại suy, đánh giá,
kiểm tra một cách có phương pháp các trạng thái cảm xúc và thông tin chủ quan. Phân
tích tình cảm thường quan tâm đến tiếng nói trong tài liệu của khách hàng; ví dụ, các
cuộc khảo sát và đánh giá trên web và các mạng xã hội dựa trên web.
Theo quy luật, phân tích tình cảm cố gắng xác định các quan điểm của một diễn
giả, người viết tiểu luận hoặc các đối tượng khác về chủ đề thông qua các phản hồi
cực kỳ xúc động hoặc say mê đối với một kho lưu trữ, tin tức truyền đạt. Bố cục có
thể là một nhận định hoặc đánh giá, đầy cảm xúc (nói cách khác, điều kiện đam mê
của người sáng tạo hoặc diễn giả) hoặc mong đợi phản hồi nhiệt tình (nói cách khác,
tác động do người tạo hoặc người mua dự định). Trên web ngày nay có rất nhiều cuộc
khải sát hoặc đề xuất khách hàng về tất cả các chủ đề và các cuộc đánh giá có thể bao
gồm các cuộc khảo sát về các hạng mục như về khách hàng hoặc phát hiện lỗi của
phim… Cuộc khảo sát đang mở rộng nhanh chóng, trên cơ sở các cá nhân muốn cung
cấp quan điểm của họ trên web. Có thể truy cập số lượng lớn các cuộc khảo sát đối
với các mục riêng lẻ, điều này khiến khách hàng gặp khó khăn vì họ phải xem xét
từng mục để đưa ra lựa chọn. Sau đó, khai thác thông tin này, phân biệt các đánh giá
của khách hàng và tổ chức chúng là một công việc quan trọng. Khai thác cảm xúc là
3
2019
một nhiệm vụ tận dụng các phương pháp tiếp cận NLP và trích xuất thông tin (IE) để
phân tích một số lượng lớn các tài liệu lưu trữ nhằm thu thập các ý kiến nhận xét của
các tác giả khác nhau [1, 2]. Quá trình này kết hợp nhiều chiến lược khác nhau, bao
gồm tính toán và truy xuất thông tin (IR) [2]. Ý tưởng cơ bản của điểu tra tình cảm là
phát hiện tính phân cực của các tài liệu văn bản hoặc các câu ngắn và phân loại chúng.
Phân tích cảm xúc gồm các loại, “tích cực”, “tiêu cực” hoặc “công bằng” (trung lập).
Điều quan trọng là làm nổi bậc thực tế rằng khai thác cảm xúc có thể được thực hiện ở
ba cấp độ như sau.
 Phân loại tình cảm ở cấp độ tài liệu: Ở cấp độ này, tài liệu có thể được
phân loại là "tích cực", Tiêu cực" hoặc "trung lập".
 Phân loại tình cảm ở cấp độ câu: Ở cấp độ này, mỗi câu được phân loại là
“tích cực”, “tiêu cực” hoặc không thiên vị.
 Phân loại tình cảm ở cấp độ khía cạnh và đặc điểm: Ở cấp độ này, các
câu/tài liệu có thể được phân loại là “tích cực”, “tiêu cực” hoặc “không
thiên vị” dựa trên các khía cạnh nhất định của câu/tài liệu lưu trữ và
thường được gọi là “nhóm đánh giá cấp độ quan điểm”.
Mục tiêu chính của bài báo này là nghiên cứu các phương pháp phân tích tình cảm
hiện có của dữ liệu Twitter và cung cấp các so sánh lý thuyết về các phương pháp tiếp
cận hiện đại. Bài viết được tổ chức như sau: hai phần đầu tiên giải thích về các định
nghĩa, động lực và các kỹ thuật phân loại được sử dụng trong phân tích tình cảm. Một
số phương pháp phân tích tình cảm ở cấp độ tài liệu và phương pháp phân tích tình
cảm ở cấp độ câu cũng được thể hiện. Các phương pháp phân tích tình cảm khác nhau
được sử dụng cho Twitter được mô tả bao gồm tiếp cận có giám sát, không giám sát,
từ vựng và kết hợp. Cuối cùng, các cuộc thảo luận và so sánh sau này được nêu bật.
II. ĐỊNH NGHĨA VÀ ĐỘNG LỰC
Phân tích tình cảm là một chiến lược để kiểm tra đánh giá của mọi người hoặc
nhóm; ví dụ: một bộ phận người theo dõi thương hiệu hoặc một khách hàng cá nhân
trong thư từ với đại diện hỗ trợ khách hàng. Liên quan đến cơ chế tính điểm, phân tích
cảm xúc theo dõi các cuộc thảo luận và đánh giá sự ảnh hưởng của các cuộc đối thoại
và giọng nói để đánh giá tâm trạng và cảm xúc, đặc biệt là những cảm xúc liên quan
đến doanh nghiệp, sản phẩm hoặc dịch vụ hoặc chủ đề.
Phân tích cảm xúc là một phương tiện đánh giá ngôn ngữ viết hoặc ngôn ngữ nói
để quyết định xem việc phát âm là tíc cực, tiêu cực hay trung tính. Hiện tại các công
cụ phân tích trên thị trường có thể giải quyết một lượng lớn lời bình phẩm của khách
hàng một cách đáng tin cậy và chính xác. Cùng với việc điều tra các nội dung, phân
4
2019
tích tình cảm khám phá ý kiến của khách hàng về các chủ đề khác nhau, bao gồm việc
mua các mặt hàng, cung cấp dịch vụ hoặc giới thiệu các chương trình khuyến mãi.
Hầu hết các giao tiếp mạng xã hội dựa trên web do khách hàng tạo ra đang được
phân phối liên tục dưới các hình thức khảo sát, tạp chí trực tuyến, bình luận, diễn
thuyết, hình ảnh và ghi âm. Những thư từ này mang lại cơ hội để thu thập và hiểu rõ
quan điểm của khách hàng về các chủ đề như tình tiết và cung cấp dữ liệu được trang
bị để làm rõ và dự đoán tin tức kinh doanh và xã hội, chẳng hạn như chào hàng sản
phẩm [4], lợi nhuận cổ phiếu [5], và kết quả của các quyết định chính trị [6]. Tổng thể
của các cuộc khapr sát này là việc đánh giá các quan điểm được trao đổi giữa các
khách hàng trong các cuộc trao đổi nội dung của họ.
“Khảo sát quan điểm” là một lĩnh vực nghiên cứu năng động được thiết kế để nâng
cao hiểu biết về cảm xúc được truyền đạt trong nội dung bằng máy tính, với sự gia
tăng trong việc triển khai, thúc đẩy việc sử dụng dữ liệu suy luận mạnh mẽ hơn.
Trong số các nền tảng mạng xã hội dựa trên web khác nhau, Twitter đã sở hữu một
lượng khách hàng lớn và phát triển nhanh chóng về khối lượng thư từ.
Twitter là một blog với quy mô nhỏ, nơi khách hàng tạo ra các 'tweet' được thông
báo cho những người hâm mộ của họ hoặc cho một khách hàng khác. Vào năm 2016,
Twitter có hơn 313 triệu khách hàng năng động trong một tháng nhất định, bao gồm
100 triệu khách hàng hàng ngày [7]. Nguồn gốc khách hàng phổ biến rộng rãi, với
77% nằm bên ngoài Hoa Kỳ, tạo ra hơn 500 triệu tweet mỗi ngày [8]. Trang Twitter
đứng thứ mười hai trên toàn cầu về hoạt động vào năm 2017 [9] và đã phản ứng với
hơn 15 tỷ lệnh gọi API mỗi ngày [10]. Tương tự, nội dung Twitter cũng xuất hiện trên
hơn một triệu trang web bên ngoài [8]. Phù hợp với sự phát triển to lớn này, Twitter
đã trở thành chủ đề của nhiều sự quan tâm, vì các Tweet thường xuyên thể hiện cảm
xúc của khách hàng về các vấn đề gây tranh cãi. Trong bối cảnh truyền thông xã hội,
phân tích tình cảm và khai thác ý kiến là những nhiệm vụ có tính thách thức cao, và
điều này là do lượng thông tin khổng lồ được tạo ra bởi con người và máy móc [11].
III. TẦM QUAN TRỌNG VÀ BỐI CẢNH
Quan điểm là nền tảng cho mọi hành động của con người vì họ là những người có
ảnh hưởng chính đến thực tiễn của chúng ta. Tại bất kỳ thời điểm nào chúng ta phải
quyết định lựa chọn, chúng ta cần biết suy nghĩ của người khác. Trên thực tế, các tổ
chức và hiệp hội có nhu cầu khám phá cảm xúc phổ biến của người dùng về các mặt
hàng và dịch vụ của họ. Khách hàng sử dụng các loại nền tảng trực tuyến khác nhau
để tham gia xã hội bao gồm các trang web mạng xã hội dựa trên web; ví dụ, Facebook
và Twitter. Thông qua các mạng xã hội dựa trên web này, sự tham gia của người mua
diễn ra dần dần. Loại kết nối này mở ra một cảnh cửa kiến thức về quảng cáo. Các cá
nhân thuộc mọi quốc tịch, mọi giới tính, chủng tộc và tầng lớp sử dụng web để chia sẻ
5
2019
những cuộc gặp gỡ và ấn tượng về hầu hết mọi đặc điểm trong cuộc sống của họ.
Ngoài việc soạn tin nhắn, viết blog hoặc để lại nhận xét trên các trang web của công
ty, rất nhiều cá nhân sử dụng các điểm đến của tổ chức không chính thức để ghi lại ý
kiến, bày tỏ cảm xúc và khám phá những hiểu biết sâu sắc về cuộc sống hàng ngày
của họ. Các cá nhân soạn thư về hầu hết mọi thứ, bao gồm phim, thương hiệu hoặc
các muộn phiền xã hội. Những nhật ký này lưu hành khắp các nhóm trực tuyến và là
những cuộc tụ họp ảo, nơi người mua sắm tác động đến những người khác. Đối với
nhà quảng cáo, những nhật ký này cung cấp những đoạn thông tin chi tiết sâu sắc về
khuynh hướng hành vi của người mua và mang đến cơ hội liên tục để tìm hiểu về cảm
xúc và nhận xét của khách hàng. Những sự bùng nổ gần đây về nội dung do khách
hàng sản xuất trên các trang web xã hội đang gây ra những khó khăn đặc biệt trong
việc nắm bắt, kiểm tra và dịch nội dung đã in vì thông tin bị phân tán, nhầm lẫn và bị
chia cắt [12].
Điều tra ý kiến là một phương pháp khai thác thông tin có thể khắc phục những
khó khăn này bằng cách tách và mổ xẻ thông tin dựa trên web một cách có phương
pháp mà không gây ra sự chậm trễ. Với việc kiểm tra kết luận, các nhà quảng cáo có
thể liên tục khám phá cảm xúc và trạng thái tâm trí của người mua sắm, bất chấp
những khó khăn về cấu trúc và khối lượng thông tin. Sự nhiệt tình trong nghiên cứu
này nhằm sử dụng phân tích tình cảm như một phương tiện để thúc đẩy công cụ
nghiên cứu là gấp đôi.
Phân tích cảm xúc khuyến khích các tổ chức xác định mức độ thích và không thích
của khách hàng về sản phẩm và hình ảnh công ty. Ngoài ra, nó đóng một vai trò quan
trọng trong việc phân tích dữ liệu của các ngành và tổ chức để hỗ trợ họ đưa ra các
quyết định kinh doanh.
IV. KỸ THUẬT PHÂN LOẠI
Trong lĩnh vực học máy, các phương pháp phân loại đã được phát triển, sử dụng
các chiến lược khác nhau để phân loại dữ liệu không được gắn nhãn. Bộ phân loại có
thể yêu cầu dữ liệu đào tạo. Ví dụ về các bộ phân loại học máy là Naive Bayes,
Maximum Entropy và Support Vector Machine [14] [15, 16]. Đây được phân loại là
các phương pháp học máy có giám sát vì chúng yêu cầu dữ liệu đào tạo. Điều quan
trọng cần đề cập là đào tạo một bộ phân loại hiệu quả sẽ giúp cho các dự đoán trong
tương lai trở nên dễ dàng hơn.
A. Naive Bayes
Đây là một phương pháp phân loại dựa trên Định lý Bayes với các giả định về
tính độc lập giữa các đặc trưng. Bộ phân loại Naive Bayes kỳ vọng rằng mức độ
gần gũi của một đối tượng cụ thể (phần tử) trong một lớp bị ngắt kết nối với mức
độ gần gũi của một số phần tử khác. Ví dụ, một loại trái cây hữu cơ có thể được
6
2019
coi là một quả táo nếu nó có màu đỏ, hình tròn và có chiều rộng khoảng 3 inch.
Bất kể các đặc điểm này phụ thuộc vào nhau hay phụ thuộc vào sự hiện diện của
các đặc điểm khác, bộ phân loại Naïve Bayes sẽ coi các đặc tính này là độc lập
điều đó có khả năng loại trái cây tự nhiên này là táo. Cùng với sự nỗ lực, Naive
Bayes được biết đến là thực hiện tốt hơn các chiến lược cùng loại. Giả thuyết
Bayes là một phương pháp tính toán để phân biệt khả năng xảy ra P (a | b) với P
(a), P (b) và P (b | a) như sau:
a b
Trong đó p( ) là xác suất của a khi đã biết b và p( ¿ là xác suất của b nếu có
b a
a. Xác suất của lớp a biểu thị là p(a) và xác suất của lớp b biểu thị là p(b).
Naive Bayes được sử dụng rộng rãi trong nhiệm vụ phân loại văn bản thành
nhiều lớp và gần đây đã được sử dụng để phân loại phân tích tình cảm.
B. Maximum Entropy
Bộ phân loại Maximum Entropy (MaxEnt) ước tính phân phối có điều kiện của
một lớp được đánh dấu một bản ghi b đã cho bằng cách sử dụng một loại họ hàm
mũ với một trọng số cho mọi ràng buộc. Mô hình maximum entropy là một mô
a
hình trong họ tham số pMaxEnt( ) để tối đa hóa khả năng xảy ra. Các phương pháp
b
như chia tỷ lệ lặp lại và tối ưu hóa gần như Newton thường được sử dụng để giải
quyết vấn đề tối ưu hóa. Mô hình được đại diện bởi những điều sau đây:
Trong đó a là lớp, b là dự đoán. Trọng lượng của vectơ được biểu thị là αi.
C. Support Vector Machine
Máy vectơ hỗ trợ (SVM) được biết là hoạt động tốt trong phân tích tình cảm
[13]. SVM điều tra thông tin, mô tả các giới hạn lựa chọn và sử dụng các thành
phần để tính toán, được thực hiện trong không gian đầu vào [18]. Thông tin quan
trọng được trình bày theo hai cách sắp xếp vectơ, kích thước m. Tại thời điểm này,
mỗi dữ liệu (được biểu thị dưới dạng véc tơ) được sắp xếp thành một lớp. Tiếp
theo, máy xác định ranh giới giữa hai lớp trong các mẫu huấn luyện [19]. Như đã
trình bày trong [20], SVM đã được chứng minh là hoạt động hiệu quả hơn trình
phân loại Naïve Bayes trong các vấn đề phân loại văn bản khác nhau.
V. DOCUMENT-LEVEL SENTIMENT ANALYSIS APPROACHES
Sharma và cộng sự. [2] đề xuất một hệ thống phân tích tình cảm dựa trên tài liệu
không được giám sát có thể xác định hướng tình cảm của các tài liệu văn bản dựa trên
7
2019
tính phân cực của chúng. Hệ thống này [2] phân loại các tài liệu là tích cực và tiêu cực
[2, 3, 19] và trích xuất các từ tình cảm từ các bộ sưu tập tài liệu, phân loại chúng theo
các cực của chúng. Hình 1 cho thấy một trường hợp khai thác ý kiến dựa trên tài liệu.
Chiến lược dựa trên từ điển không được giám sát được sử dụng như một phần của hệ
thống này, nó cũng quan tâm đến việc phủ định. Mạng từ là một từ vựng được sử
dụng để xác định các từ vựng quan điểm, các từ tương đương của chúng và từ trái
nghĩa [2]. Trong nghiên cứu cụ thể này, các bài phê bình phim đã được thu thập để sử
dụng làm đầu vào nhằm phát hiện tình cảm phân cực của tài liệu. Hệ thống đã phân
loại từng tài liệu này thành kết quả tổng hợp tích cực, tiêu cực và được tạo ra khách
quan, trình bày tổng số tài liệu tích cực, tiêu cực và trung lập. Do đó, báo cáo tóm tắt
do hệ thống tạo ra đã giúp ích cho những người ra quyết định. Với hệ thống này, có
thể phân cực tình cảm của bất kỳ tài liệu nào được quyết định dựa trên phần lớn các từ
vựng quan điểm xuất hiện trong tài liệu.
Chunxu Wu [21] đã đề xuất một phương pháp tổng hợp các định hướng ngữ nghĩa
của các ý kiến phụ thuộc vào ngữ cảnh mà không thể xác định được bằng cách sử
dụng Mạng từ. Phương pháp đề xuất được sử dụng để quyết định tình cảm của các
quan điểm bằng cách sử dụng các biện pháp gần gũi về ngữ nghĩa. Cách tiếp cận này
dựa trên các biện pháp để xác định hướng đánh giá khi không có đủ các thông tin liên
quan. Thí nghiệm được thực hiện bởi Chunxu Wu [21] đã chứng minh rằng quy trình
được đề xuất là cực kỳ hiệu quả.
8
2019
Taboada và cộng sự. [22] đã sử dụng một kỹ thuật dựa trên từ vựng để phát hiện
và phân loại tài liệu dựa trên tình cảm của chúng. Để đạt được điều này một cách
thích hợp, các từ điển từ tích cực và tiêu cực đã được sử dụng. Ngoài ra, máy tính
định hướng ngữ nghĩa (SO-CAL) đã được đề xuất, dựa trên các bộ tăng cường và phủ
định. Phương pháp SO-CAL này đạt độ chính xác 76,37% trên bộ dữ liệu đánh giá
phim.
Harb và cộng sự. [18] đề xuất một phương pháp chiết xuất tình cảm ở cấp độ tài
liệu, tập trung vào ba giai đoạn. Trong giai đoạn đầu, tập dữ liệu bao gồm các tài liệu
chứa các ý kiến đã được tự động trích xuất từ Internet. Thứ hai, các bộ tính từ tích cực
và tiêu cực được trích xuất từ bộ dữ liệu học tập này. Trong giai đoạn thứ ba, các bộ
kiểm tra tài liệu mới được phân loại dựa trên danh sách tính từ thu thập được trong
giai đoạn thứ hai. Nhiều thử nghiệm đã được thực hiện trên dữ liệu thực và cách tiếp
cận do Harb et al đề xuất. [18] đã đạt được điểm F1 là 0,717 để xác định các tài liệu
tích cực và điểm F1 là 0,622 cho việc nhận biết các hồ sơ tiêu cực.
Zagibalov và cộng sự. [23] đã đề cập đến vấn đề phân loại tình cảm của các bài
đánh giá về các sản phẩm được viết bằng tiếng Trung Quốc. Cách tiếp cận của họ dựa
trên phân loại không giám sát có thể tự dạy bằng cách tăng hạt giống từ vựng. Ban
đầu nó bao gồm một từ duy nhất (tốt) được gắn thẻ là tích cực. Các hạt giống ban đầu
được đào tạo lại lặp đi lặp lại để phân loại tình cảm. Tiêu chí mật độ ý kiến được sử
dụng để tính toán tỷ lệ tình cảm cho một tài liệu. Các thử nghiệm cho thấy rằng trình
phân loại được đào tạo đã đạt được 87% cho khả năng phát hiện phân cực cảm xúc
sau 20 lần lặp lại.
Tripathy và cộng sự. [24] đã cố gắng phân loại các bài đánh giá theo cực của
chúng bằng cách sử dụng các thuật toán học tập có giám sát như Naïve Bayes, SVM,
andom forest và linear discriminant analysis. Để đạt được điều này, cách tiếp cận
được đề xuất bao gồm bốn bước. Đầu tiên, bước tiền xử lý được thực hiện để loại bỏ
các stop words, số và ký tự đặc biệt. Thứ hai, các đánh giá văn bản được chuyển đổi
thành một ma trận số. Thứ ba, các vectơ tạo ra được sử dụng làm đầu vào cho bốn bộ
phân loại khác nhau. Kết quả thu được bằng cách phân loại hai bộ dữ liệu. Sau đó, các
số liệu khác nhau, chẳng hạn như độ chính xác, độ thu hồi, độ đo f và độ chính xác
phân loại, được tính toán để đánh giá hiệu suất của phương pháp được đề xuất. Đối
với bộ dữ liệu phân cực và IMDb, bộ phân loại random forest hoạt động tốt hơn các
bộ phân loại khác.
Saleh và cộng sự. [25] đã áp dụng SVM cho ba bộ dữ liệu khác nhau để phân loại
các đánh giá tài liệu. Một số chương trình n-gram đã được sử dụng để đánh giá tác
động của SVM trong việc phân loại tài liệu. Các nhà nghiên cứu đã sử dụng ba
phương pháp tiếp cận trọng số để tạo ra các vectơ đặc trưng: cụ thể là, Tần suất tài
9
2019
liệu nghịch đảo tần số thuật ngữ (TFIDF), Lần xuất hiện nhị phân (BO) và Lần xuất
hiện kỳ hạn (TO). Nhiều thí nghiệm sau đó đã được tiến hành để đo lường sự kết hợp
có thể có của các phương pháp tiếp cận trọng lượng và n-gam khác nhau. Đối với tập
dữ liệu Taboada, kết quả có độ chính xác tốt nhất thu được khi sử dụng kết hợp SVM
với TFIDF và trigram. Đối với kho dữ liệu Pang, kết quả tốt nhất thu được khi sử
dụng BO và trigram. Liên quan đến kho tài liệu SINAI, Saleh và cộng sự [25] cho
thấy rằng bộ phân loại SVM đạt được điểm chính xác cao nhất khi kết hợp với TFIDF
và bigram.
VI. CÁCH TIẾP CẬN PHÂN TÍCH NHẬN THỨC CẤP ĐỘ CÂU
Phân tích này tập trung vào việc phân loại các câu thành các loại là tích cực, tiêu
cực hay trung tính. Phân tích tình cảm trên Twitter được coi là một ví dụ về phân tích
tình cảm ở cấp độ câu. Phần tiếp theo khám phá các phương pháp phân tích tình cảm
trên Twitter. Các phương pháp học máy sử dụng các phương pháp phân loại để phân
loại văn bản thành nhiều loại khác nhau. Chủ yếu có hai loại chiến lược học máy:
supervised learning và ensemble.
Có bốn phương pháp phân tích tình cảm cơ bản của Twitter bao gồm phương pháp
dựa trên máy học có giám sát, phương pháp tổng hợp, dựa trên từ vựng và kết hợp.
Bốn cách tiếp cận này được mô tả như sau:
A. Phân tích cảm xúc trên Twitter bằng cách sử dụng phương pháp học máy
có giám sát
Nó phụ thuộc vào các tập dữ liệu được gắn nhãn cung cấp cho các mô hình học
máy trong quá trình đào tạo. Các tập dữ liệu được gắn nhãn này được sử dụng để
huấn luyện các mô hình nhằm thu được kết quả đầu ra mong muốn. Trong hệ
thống học máy, cần có hai bộ dữ liệu: bộ đào tạo và bộ kiểm tra. Các phương pháp
tiếp cận máy học như bộ phân loại có thể được sử dụng để phát hiện cảm xúc của
Twitter. Hiệu suất của bộ phân loại tình cảm Twitter chủ yếu dựa vào số lượng dữ
liệu đào tạo và các bộ đặc trưng trích xuất. Các chiến lược phân tích tình cảm trên
Twitter dựa trên các phương pháp học máy phổ biến hơn, đặc biệt là các bộ phân
loại SVM và NB. Hình 2 minh họa quy trình của các phương pháp tiếp cận học
máy có giám sát để phân tích tình cảm trên Twitter.
Quy trình phân tích tình cảm Twitter bao gồm ba bước. Đầu tiên, bộ phân loại
được đào tạo bằng cách sử dụng tập dữ liệu bao gồm các tweet tích cực, tiêu cực
và trung tính. Ví dụ về các tweet được hiển thị bên dưới:
 Các tweet sau đây là ví dụ về các tweet tích cực:
1) PM@narendramodi và Tổng thống Ghana, Nana Akufo-Addo đã
có một cuộc gặp tuyệt vời. Các cuộc hội đàm của họ bao gồm các
10
2019
cuộc thảo luận về năng lượng, biến đổi khí hậu và quan hệ
thương mại.
2) Billy D. Williams @Msdebramaye For the children, they mark,
and the children, they know The place where the sidewalk ends.
3) @abdullah “Hãy duy trì tất cả những điều tích cực trong đầu
bạn” #PositiveTweets
 Tweet trung tính
1) (@ Nisha38871234): "#WorldBloodDonorDay Hiến máu là sự
cống hiến tốt nhất trên thế giới. Cứu một mạng người !!" Chúc
ngủ ngon #Twitter và #TheLegionoftheFallen. 5:45 sáng sớm vô
cùng!
2) (@imunbiased). Be excellent to each other. Up a WV holler …
or in NoVA
3) Hôm nay, một số biên bản quan trọng đã được ký kết sẽ thúc đẩy
tình hữu nghị giữa Ấn Độ và Pháp.
 Các tweet tiêu cực
1) Bất kỳ cuộc thăm dò tin giả nào cũng đều tiêu cực, giống như
CNN, #DonaldTrump
2) Hillary có thể vui lòng thuê thiên tài / ảo thuật gia đã mặc quần
áo cho Palin vào năm 2008 và ngừng ăn mặc giống như bà dì
mèo kỳ quặc của tôi, người làm việc tại JCPenney không? - kara
vallow (@teenagesleuth)
3) Sasha và Malia Obama, hai cô con gái vui vẻ selfie trong Lễ diễu
hành nhậm chức của cha mình là Tổng thống Obama ... Theo
@JessicaDurando
Từ các ví dụ trên, rõ ràng là các tweet có thể chứa thông tin có giá trị bày tỏ ý
kiến về bất kỳ chủ đề nào. Tuy nhiên, chúng cũng có thể bao gồm các ký tự cụ thể
không hữu ích trong việc phát hiện phân cực tình cảm; do đó, sẽ có ý nghĩa khi xử
lý trước các tweet. Bước thứ hai này bao gồm chuyển đổi tất cả các văn bản tweet
thành chữ thường. Ngoài ra, các tweet nên được làm sạch bằng cách xóa URL, ký
tự hashtag (chẳng hạn như #Trump) hoặc đề cập của người dùng (chẳng hạn như
@Trump) vì các phương pháp phân tích tình cảm của Twitter không liên quan đến
những ký tự này. Bước tiền xử lý bao gồm lọc ra các từ được coi là các đặc trưng
phân biệt [11].
Sau khi tiền xử lý, sẽ tiến hành dự đoán. Trong giai đoạn này, các thuật toán dự
đoán khác nhau, chẳng hạn như SVM, Bayesian Classifier và Entropy Classifier,
có thể được sử dụng để quyết định phân cực cảm xúc của các tweet. Ví dụ, Vishal
11
2019
et al. [17] đã xem xét các quy trình hiện tại để khai thác quan điểm như học máy
và các phương pháp luận dựa trên từ vựng. Sử dụng các thuật toán học máy khác
nhau như NB, Max Entropy và SVM, Vishal et al. [17] đã mô tả thêm những khó
khăn chung về việc sử dụng phân tích quan điểm Twitter.
Go và L.Huang [26] đã đề xuất một câu trả lời cho việc kiểm tra kết luận đối
với thông tin Twitter bằng cách sử dụng sự giám sát xa, trong đó thông tin chuẩn
bị của họ bao gồm các tweet với biểu tượng cảm xúc được điền dưới dạng tên linh
động. Go và cộng sự [26] đã giới thiệu một phương pháp để phân loại tình cảm
của các tweet. Ý tưởng đằng sau nó là tổng hợp phản hồi một cách tự động. Vấn
đề tình cảm được coi như một phân loại nhị phân, trong đó các tweet được phân
loại thành tích cực và tiêu cực. Dữ liệu đào tạo chứa các tweet với biểu tượng cảm
xúc được thu thập dựa trên phương pháp giám sát đã được đề xuất bởi Read [27].
Để đạt được điều này, Go và cộng sự [26] đã sử dụng API Twitter để trích xuất
các tweet bao gồm các biểu tượng cảm xúc. Chúng được sử dụng để xác định các
tweet là tiêu cực hoặc tích cực. Các bài đăng đã được tweet lại và các tweet lặp lại
đã bị xóa. Ngoài ra, những dòng tweet có chứa cảm xúc tích cực và tiêu cực cũng
được lọc ra. Các bộ phân loại khác nhau như NB, MaxEnt và SVM đã được sử
dụng để phân loại các tweet. Các tính năng khác nhau đã được trích xuất như
unigram, bigram, unigram với bigram và unigram với POS. Kết quả tốt nhất thu
được nhờ bộ phân loại MaxEnt kết hợp với các tính năng unigram và bigram, đạt
độ chính xác 83% so với NB với độ chính xác phân loại là 82,7%.
Malhar và Ram [28] đã đề xuất phương pháp được giám sát để phân loại dữ
liệu Twitter. Kết quả của thử nghiệm này đã chứng minh rằng SVM hoạt động tốt
hơn so với các bộ phân loại khác, sử dụng lựa chọn tính năng kết hợp, đạt độ chính
xác là 88%. Thử nghiệm đã cố gắng kết hợp phân tích thành phần chính (PCA)
cùng với trình phân loại SVM để giảm kích thước của đặc trưng. Hơn nữa, các
phương pháp phân tích đặc trưng unigram, bigram, hybrid (unigram và bigram) đã
được sử dụng. Malhar và Ram [28] đã chỉ ra rằng tích hợp PCA với SVM với lựa
chọn đặc trưng lai có thể giúp giảm kích thước tính năng và kết quả thu được độ
chính xác phân loại là 92%.
Anton và Andrey [29] đã phát triển một mô hình để trích xuất phân cực tình
cảm từ dữ liệu Twitter. Các đặc trưng được trích xuất là các từ chứa n-gram và
biểu tượng cảm xúc. Thí nghiệm được thực hiện đã chứng minh rằng SVM hoạt
động tốt hơn Naïve Bayes. Phương pháp thực hiện tổng thể tốt nhất là SVM kết
hợp với trích xuất đặc trưng unigram, đạt được độ chính xác 81% và độ chính xác
thu hồi là 74%.
12
2019
Po-Wei Liang và cộng sự. [30] đã thiết kế một khuôn khổ được gọi là “công cụ
khai thác ý kiến” tự động điều tra và phát hiện cảm xúc của các thông điệp trên
mạng xã hội. Các tweet có chú thích đã được kết hợp để thực hiện phân tích và
trong khuôn khổ này, các thông điệp chứa đựng cảm xúc đã được trích xuất (các
tweet không có quan điểm đã bị loại bỏ) và xác định các cực của chúng (tức là tích
cực hoặc tiêu cực). Để đạt được điều này, những người thử nghiệm [30] đã phân
loại các tweet thành "quan điểm" và "không có quan điểm " bằng cách sử dụng bộ
phân loại NB với một biểu đồ unigram. Tương tự như vậy, họ đã loại bỏ các đặc
trưng không liên quan bằng cách sử dụng Thông tin và chiến lược trích xuất chi-
bình phương. Các kết quả thử nghiệm đã xác nhận tính đầy đủ của khung phân
tích tình cảm trong các ứng dụng blog chính hãng.
Pak và Paroubek [31] đã sử dụng API Twitter và các biểu tượng cảm xúc để
thu thập cảm xúc tiêu cực và tích cực, giống như Go et al. [26]. Phân tích tình cảm
được coi là nhiều nhãn, với các tweet được phân loại là tích cực, tiêu cực hoặc
13
2019
trung tính. Phân tích thống kê-ngôn ngữ được thực hiện trên dữ liệu đào tạo thu
thập được dựa trên việc xác định sự phân bố tần suất của các từ. Tập dữ liệu đào
tạo đã thu thập được sử dụng để xây dựng bộ phân loại và các thử nghiệm được
thực hiện trên SVM, trường ngẫu nhiên có điều kiện (CRF) và bộ phân loại Naïve
Bayes (MNB) đa thức với các phương pháp lựa chọn tính năng khác nhau. MNB
với một phần speech tags và các tính năng n-gram là kỹ thuật tạo ra hiệu suất tốt
nhất trong các thử nghiệm.
Kouloumpis và cộng sự. [32] khám phá tính hữu ích của các đặc trưng ngôn
ngữ khác nhau để khai thác cảm xúc của dữ liệu Twitter. Tập dữ liệu được gắn thẻ
băm (HASH) và biểu tượng cảm xúc (EMOT) đã được sử dụng để đào tạo các bộ
phân loại và tập dữ liệu iSieve đã được sử dụng để đánh giá. Trong nghiên cứu
này, các bộ tính năng khác nhau đã được giới thiệu bằng cách sử dụng unigram,
bigram, lexicons, micro-blog và các yếu tố part-of-speech. Trình phân loại
AdaBoost đã được đào tạo bằng cách sử dụng các tính năng đã chọn trong các sự
kết hợp khác nhau. Kết quả cho thấy rằng các đặc trưng bán phần của giọng nói
kém so với việc phân tích tình cảm của dữ liệu Twitter trong khi các tính năng viết
micro-blogging mô là hữu ích nhất. Kết quả tốt nhất đã đạt được khi các đặc trưng
n-gram được sử dụng cùng với các đặc trưng từ vựng và micro-blogging. Điểm F
là 0,68 đã đạt được với bộ dữ liệu HASH và điểm F là 0,65 với bộ dữ liệu HASH
và EMOT kết hợp.
Saif và cộng sự. [33] giới thiệu ý tưởng hợp nhất ngữ nghĩa với unigram và
một phần của các đặc trưng lời nói. Đặc trưng ngữ nghĩa là khái niệm đóng gói các
thực thể được khai thác từ dữ liệu Twitter. Các tính năng trích xuất được sử dụng
để tính toán mối tương quan của các nhóm thực thể được tăng cường bởi các cực
cảm xúc của chúng. Cần lưu ý rằng việc kết hợp các đặc trưng ngữ nghĩa vào phân
tích có thể giúp phát hiện cảm xúc của các tweet bao gồm các thực thể. Saif và
cộng sự. [33] đã sử dụng ba bộ dữ liệu được thu thập từ Twitter để đánh giá tác
động của việc thêm các tính năng ngữ nghĩa. Trong thử nghiệm đã tiến hành, trình
phân loại Naïve Bayes được sử dụng cùng với các đặc điểm ngữ nghĩa được trích
xuất. Các phát hiện đã chứng minh rằng các đặc trưng ngữ nghĩa đã dẫn đến
những cải tiến trong việc phát hiện cảm xúc so với các đặc trưng unigram và một
phần của giọng nói. Tuy nhiên, đối với bộ dữ liệu HCR và OMD, cách tiếp cận
chủ đề tình cảm có xu hướng hoạt động tốt hơn so với cách tiếp cận ngữ nghĩa.
Đối với HCR, trước đây đạt được điểm F1 là 68,15 so với điểm F1 là 66,10 có
được bằng cách tiếp cận ngữ nghĩa. Đối với tập dữ liệu OMD, điểm F1 là 78,20
đạt được khi sử dụng phương pháp tiếp cận cảm tính so với điểm F1 là 77,85 đạt
được bằng cách tiếp cận ngữ nghĩa.
14
2019
Hamdan và cộng sự. [34] đã trích xuất các loại đặc trưng khác nhau với mục
đích nâng cao độ chính xác của phân loại tình cảm. Các đặc trưng của Unigram
được giới thiệu như một cơ sở trong khi các từ được coi là các đặc trưng độc lập.
Các tính năng dành riêng cho miền cũng được bao gồm, chẳng hạn như số lượt
retweet. DBpedia đã được sử dụng để khai thác các quan niệm có trong các tweet;
chúng sẽ được gọi là các tính năng DBpedia. Mạng từ được sử dụng để xác định
các từ đồng nghĩa của danh từ, động từ, trạng từ và tính từ. SentiWordNet đã được
sử dụng để tính toán tần suất của các từ tích cực và tiêu cực xuất hiện trong các
tweet và các phân cực của các tweet này. Các thử nghiệm cho thấy rằng việc thêm
các tính từ, các tính năng SentiWordNet và DBpedia đã dẫn đến những cải tiến
nhỏ về độ chính xác của cả SVM và NB. Tỷ lệ của những cải thiện nhỏ này là
khoảng 2% với SVM và 4% với NB.
Akba và cộng sự. [35] đã sử dụng lựa chọn đối tượng địa lý dựa trên thu thập
thông tin và số liệu chi-bình phương để chọn ra các đối tượng địa lý có nhiều
thông tin nhất sau quá trình xác định gốc và bổ sung. Các thử nghiệm đã tiến hành
cho thấy rằng việc kết hợp các chỉ số lựa chọn tính năng với trình phân loại SVM
đã dẫn đến những cải tiến so với các nghiên cứu trước đó. Ngoài ra, Saif et al. [36]
đã nghiên cứu tác động của việc thu được thông tin như một tiêu chí lựa chọn đặc
trưng để xếp hạng các đặc trưng đơn và ngữ nghĩa. Họ kết luận rằng hiệu suất của
bộ phân loại có thể chấp nhận được ngay cả khi chọn một số đặc trưng chủ đề tình
cảm đặc biệt bằng cách sử dụng thu thập thông tin.
B. Phân tích tình cảm trên Twitter bằng cách sử dụng các phương pháp tiếp
cận tổng hợp
Nguyên tắc cơ bản của các phương pháp tổng hợp là kết hợp nhiều bộ phân
loại nhằm thu được các dự đoán chính xác hơn. Các phương pháp gộp được sử
dụng rộng rãi cho mục đích phân loại văn bản và trong lĩnh vực phân tích tình cảm
Twitter, các phương pháp như vậy có thể có lợi cho việc cải thiện độ chính xác
phân loại của các bài đăng trên Twitter.
Xia và cộng sự. [1] đã nghiên cứu hiệu quả của việc tạo ra những người học
theo nhóm cho các mục đích phân loại tình cảm. Mục đích là kết hợp hiệu quả các
tập hợp tính năng đa dạng và các thuật toán phân loại khác nhau để tạo ra một bộ
phân loại mạnh mẽ hơn. Họ đã sử dụng một hệ thống thu thập để phân loại tình
cảm có được bằng cách kết hợp các khả năng khác nhau và các thủ tục sắp xếp.
Các phương pháp phân loại văn bản truyền thống không phù hợp với phân loại
theo cảm tính vì túi từ (BOW) bỏ sót một số thông tin từ. Trong tudy này, hai loại
tính năng (quan hệ POS và Word) và ba bộ phân tách (NB, MaxEnt và SVM) đã
được sử dụng. Ba loại bộ phân loại tổng hợp đã được đề xuất và đánh giá: cụ thể là
15
2019
nhóm có trọng số, nhóm cố định và nhóm theo trình phân loại meta. Kết quả cho
thấy rằng các phương pháp tổng hợp đã dẫn đến những cải tiến rõ ràng so với bộ
phân loại riêng lẻ. Hơn nữa, các kết quả đã chứng minh rằng sự kết hợp của cả hai
bộ phân loại khác nhau với các bộ tính năng khác nhau đã tạo ra những cải tiến rất
đáng kể.
Lin và Kolcz [37] đề xuất kết hợp nhiều bộ phân loại quy mô lớn vào dữ liệu
twitter. Họ đã cố gắng đào tạo các bộ phân loại hồi quy logistic (LR) từ 4 gam
được băm dưới dạng các tính năng. Bộ dữ liệu đào tạo thay đổi từ một đến 100
triệu ví dụ với các nhóm từ 3 đến 41 bộ phân loại. Thử nghiệm cho thấy rằng độ
chính xác của phân tích tình cảm của dữ liệu Twitter sử dụng nhiều bộ phân loại
cao hơn so với một bộ phân loại duy nhất. Hạn chế của phương pháp tổng hợp là
thời gian chạy tăng lên khi n bộ phân loại yêu cầu n dự đoán riêng biệt. Hiệu suất
tốt nhất đạt được khi số lượng bộ phân loại là 21 và số lượng phiên bản là 100
triệu, đạt được độ chính xác phân loại là 0,81.
da Silva và cộng sự. [38] đề xuất một mô hình tổng hợp bao gồm bốn bộ phân
loại cơ sở: SVM, MNB, random forest và hồi quy logistic. Hai cách tiếp cận đã
được sử dụng để đại diện cho các tính năng: BOW và băm đặc trưng. Các kết quả
thu thập được minh họa rằng bộ phân loại tổng hợp với sự kết hợp của các tính
năng BOW và từ vựng đã dẫn đến cải thiện độ chính xác của phân loại [38].
Phương pháp tổng hợp được đề xuất trong [38] đã đạt được điểm chính xác là
76,99, 81,06, 84,89 và 76,81 cho các tập dữ liệu HCR, STS, Sanders và OMD,
tương ứng.
Hagen, Matthias và cộng sự. [39] đã tái tạo và kết hợp bốn bộ phân loại tình
cảm của Twitter để tạo ra một mô hình tổng thể được gọi là “Webis”. Động lực
đằng sau việc tạo ra sự kết hợp này là sử dụng sức mạnh của bốn bộ phân loại vì
mỗi bộ phân loại tương ứng với các bộ tính năng khác nhau. Thay vì lấy đa số
phiếu về các dự đoán từ các nhà phân loại đã tham gia, Hagen, Matthias et al. [39]
đã đưa ra một điểm tin cậy cho bốn bộ phân loại để có được các dự đoán cuối
cùng. Trong công việc của mình, họ đã tính toán điểm tin cậy cho từng bộ phân
loại và từng lớp. Các quyết định phân loại được đưa ra dựa trên điểm trung bình
cao nhất. Bộ phân loại Webis được sử dụng như một đường cơ sở mạnh mẽ vì nó
là bộ phận chiến thắng trong Nhiệm vụ 10 của Bán kết-2015. Phương pháp tổng
hợp tạo ra điểm F là 64,84 cho nhiệm vụ con B.
Martınez-Cámara, Eugenio et al. [40] đã sử dụng một bộ phân loại tổng hợp
các phương pháp tiếp cận tình cảm Twitter khác nhau để nâng cao hiệu suất và
hiệu quả của việc phân loại tính phân cực của các tweet. Mô hình của họ là sự kết
hợp giữa thuật toán xếp hạng và skip-gram scorer, Word2Vec, và phương pháp
16
2019
tiếp cận dựa trên tài nguyên ngôn ngữ [40]. Điều quan trọng cần nhấn mạnh là
phương pháp tổng hợp được đề xuất của họ dựa trên các chiến lược biểu quyết. Để
đánh giá cách tiếp cận được đề xuất, dữ liệu đào tạo của cuộc thi TASS đã được
chọn. Kết quả của các thí nghiệm cho thấy rằng một sự cải thiện nhỏ thu được với
phương pháp tổng hợp so với thuật toán xếp hạng và phương pháp skip gam. Điểm
Macro-F1 đạt được bởi tổ hợp thứ nhất là 62,98% so với điểm số F1 macro là
61,60% thu được bởi tổ hợp thứ hai.
Chalothorn và Ellman [41] đã chứng minh rằng mô hình tập hợp có thể tạo ra
độ chính xác vượt trội về phân loại cảm xúc so với mô hình phân loại đơn lẻ. Họ
[41] kết hợp các tính năng BOW và từ vựng trong bối cảnh phân loại theo nhóm
và tiến hành các thí nghiệm cho thấy rằng khi các đặc trưng trích xuất được sử
dụng kết hợp với các đặc trưng này, độ chính xác của phân loại tăng lên. Sự kết
hợp của các phương pháp SVM, SentiStrength và stacking bằng cách sử dụng đa
số phiếu bầu đã tạo ra điểm F là 86,05%; đây được coi là điểm số cao nhất.
Fouad và cộng sự. [42] đề xuất một hệ thống phân loại các tweet dựa trên đa số
phiếu bầu của ba bộ phân loại: SVM, NB và LR. Các tweet thu thập được được
chia thành hai nhóm: đào tạo và thử nghiệm. Những người phân loại cá nhân đã
nhận được cùng một tập hợp đào tạo để ghi lại các quyết định của họ. Phương
pháp tổng hợp đưa ra quyết định cuối cùng dựa trên đa số phiếu thu được từ các
nhà phân loại. Khía cạnh thú vị nhất trong nghiên cứu của họ [42] là việc thu thập
thông tin đã được sử dụng để giảm số chiều của các vectơ đặc trưng. Trong công
trình của họ [42], các thí nghiệm đã được thực hiện để kiểm tra tác động của việc
thu thập thông tin đối với độ chính xác của bộ phân loại và kết quả đã chứng minh
sự cải thiện về độ chính xác của phân loại sau khi giảm kích thước vectơ đặc trưng
bằng cách sử dụng mức tăng thông tin. Thông tin thu được cho thấy sự cải thiện rõ
rệt về độ chính xác của tất cả các bộ dữ liệu. Tỷ lệ cải thiện trung bình khoảng
15%. Kết quả cho thấy thêm rằng bộ phân loại nhóm được đa số phiếu bầu đề xuất
đã đạt được điểm chính xác là 93,94 so với điểm số 92,71 do tập dữ liệu SVM for
Sanders đạt được. Ngoài ra, bộ phân loại tập hợp được đa số phiếu bầu đã đạt
được điểm chính xác là 78,70 so với 78,10 do SVM thu được cho tập dữ liệu
Stanford-1K. Tuy nhiên, đối với bộ dữ liệu HCR, NB đạt được điểm chính xác
85,09 so với các phương pháp tổng hợp đạt được điểm 84,75.
C. Phân tích tình cảm trên Twitter sử dụng Phương pháp tiếp cận dựa trên
Lexicon (Phương pháp không được giám sát)
Thông thường, các phương pháp dựa trên từ vựng để phân tích tình cảm phụ
thuộc vào sự hiểu biết rằng đối cực của một mẫu văn bản có thể được thu thập trên
cơ sở đối cực của các từ bao gồm nó. Tuy nhiên, do tính phức tạp của ngôn ngữ tự
17
2019
nhiên, cách tiếp cận cơ bản như vậy có thể sẽ không phù hợp vì nhiều khía cạnh
của ngôn ngữ (ví dụ: tính gần của phủ định) không được xem xét. Do đó, Musto
[43] đã đề xuất một cách tiếp cận dựa trên từ vựng để xác định cảm xúc của bất kỳ
tweet T nhất định nào, bắt đầu bằng cách chia tweet thành một số cụm từ quy mô
nhỏ, chẳng hạn như m1 … mn như được chỉ ra bởi các dấu hiệu xảy ra trong nội
dung. Dấu câu, trạng từ và liên từ tạo thành tín hiệu bộ phận và, tại bất kỳ thời
điểm nào một tín hiệu bộ phận xuất hiện trong văn bản, một cụm từ vi mô khác
được cấu tạo.
Cảm xúc của một tweet được xác định bằng cách thêm cực của từng cụm từ
nhỏ hơn sau giai đoạn tách. Tại thời điểm này, điểm số đã được chuẩn hóa theo
chiều dài của toàn bộ Tweet. Trong tình huống này, các cụm từ vi mô chỉ đơn giản
được khai thác để đảo ngược cực khi phát hiện ra phủ định trong nội dung.
Tính phân cực của một bài đăng trên blog vi mô phụ thuộc vào sự phân cực
của các cụm từ vi mô kết hợp nó:
Cực của một cụm từ vi mô (m) phụ thuộc vào cực của các thuật ngữ tạo nên
nó:
Điểm của mỗi cụm từ vi mô đã được chuẩn hóa theo độ dài của nó
Các danh mục POS cụ thể đã được cung cấp với các danh mục có trọng số cao
hơn bao gồm trạng từ, động từ, tính từ và bộ chuyển trị (tăng cường và giảm âm).
Một số trọng số được đánh giá như sau:
 Emphasized version:
 Normalized-Emphasized version:
18
2019
Lexicon và các nguồn từ vựng bên ngoài là SentiWordNet, MPQA và

WordNet-Affect, SenticNet được yêu cầu để tính toán. Quy trình tính toán ước
lượng được thể hiện dưới dạng giản đồ trong Hình 3 và có thể được mô tả với
những tiến bộ kèm theo: Các chiến lược dựa trên từ vựng như những chiến lược
mà chúng tôi đang kiểm tra xác định vị trí tổng thể của một bit (phần) nội dung
bằng cách bao gồm các điểm số cảm xúc cá nhân cho từng từ trong văn bản [43].
SentiWordNet và MPQA [11] là những từ điển được sử dụng nhiều nhất được sử
dụng rộng rãi để phát hiện cảm xúc của các tweet đã cho.
Theo Xia et al. [45], việc thu thập một số lượng lớn dữ liệu chưa được gắn
nhãn từ các mạng xã hội là một nhiệm vụ dễ dàng; tuy nhiên, việc phát hiện nhãn
cảm xúc của những dữ liệu này rất tốn kém. Vì vậy, cần phải sử dụng các phương
pháp phân tích tình cảm không giám sát. Hơn nữa, các phương pháp học tập không
có giám sát ngày càng được coi là quan trọng khi lượng thông tin không gắn nhãn
trên các phương tiện truyền thông xã hội ngày càng tăng.
Xia và cộng sự. [45] khai thác các tín hiệu cảm xúc để phát hiện tình cảm xuất
hiện trong dữ liệu mạng xã hội. Những tín hiệu cảm xúc này được định nghĩa là
bất kỳ thông tin nào tương quan hoặc có liên quan đến các cực cảm xúc. Xia và
cộng sự. [45] đề xuất một khuôn khổ: Tín hiệu cảm xúc để phân tích cảm xúc
không giám sát (ESSA). Sau đó, họ đề xuất lập mô hình chỉ báo cảm xúc để phát
hiện phân cực cảm xúc của các bài đăng và đưa điều này đến gần hơn với các chỉ
số cảm xúc trong bài đăng. Hơn nữa, họ đề xuất mô hình hóa các chỉ số cảm xúc
cấp độ từ để phát hiện độ phân cực của bài đăng và đưa độ phân cực của các từ
gần hơn với các chỉ số cảm xúc cấp độ từ. Tình cảm Twitter của Stanford (STS) và
19
2019
OMD được sử dụng làm bộ dữ liệu cho các thí nghiệm đã tiến hành. Khung ESSA
thu được độ chính xác phân loại là 0,726 đối với STS và 0,692 đối với bộ dữ liệu
OMD. Kết quả đã chứng minh tính hữu ích của khung ESSA so với các kỹ thuật
khác.
Azzouza, Noureddine và cộng sự. [46] đã trình bày một kiến trúc thời gian
thực để phát hiện quan điểm trong dữ liệu Twitter. Hệ thống của họ dựa trên một
kỹ thuật học máy không giám sát để khám phá các tweet và phát hiện phân cực
của chúng. Kỹ thuật phân loại này sử dụng cách tiếp cận dựa trên từ điển để xác
định tính phân cực của các quan điểm đã tweet và kiến trúc của chúng [46] bao
gồm nhiều mô-đun. Tweet được thu thập bằng cách sử dụng mô-đun thu nhận
tweet được kết nối với API Twitter để truy xuất tweet bằng cách sử dụng các truy
vấn được đặt ra. Văn bản đã được mã hóa bằng cách sử dụng một mô-đun riêng
biệt. Sau đó, sửa từ vựng, chuẩn hóa mã thông báo và cú pháp chính xác là các
giai đoạn khác nhau trong mô-đun xử lý tweet. Các nhà nghiên cứu đã giới thiệu
một mô-đun phân tích ý kiến để tính toán giá trị ý kiến cho các biểu tượng cảm
xúc, từ ngữ và giá trị trung bình của các giá trị ý kiến. Các thử nghiệm được tiến
hành dựa trên tập dữ liệu SemEval để đo chất lượng của kiến trúc thời gian thực.
Đối với tập dữ liệu SemEval-2013, hệ thống đề xuất đạt điểm chính xác 0,559 so
với 0,50 do hệ thống SSA-UO do Ortega et al đề xuất. [47]. Hơn nữa, kiến trúc
được đề xuất trong [46] đạt độ chính xác 0,533 so với 0,539 do nhóm nghiên cứu
GTI thu được cho tập dữ liệu SemEval-2016.
Paltoglou và Thelwall [48] đã sử dụng một phương pháp dựa trên từ vựng để
ước tính mức độ cường độ cảm xúc để đưa ra dự đoán. Cách tiếp cận này thích
hợp để phát hiện các văn bản bày tỏ quan điểm chủ quan và phân loại các cực cảm
xúc để quyết định xem văn bản đã cho là tích cực hay tiêu cực. Phương pháp dựa
trên từ vựng được đề xuất đã đạt được điểm F1 là 76,2, 80,6 và 86,5 cho bộ dữ liệu
Digg, MySpace và Twitter vượt trội hơn tất cả các bộ phân loại được giám sát.
Masud và cộng sự. [49] đã áp dụng một hệ thống dựa trên từ vựng để phân loại
tình cảm, trong đó mô tả các tweet là tích cực, tiêu cực hoặc trung tính. Hệ thống
này [49] phân biệt và cho điểm tiếng lóng được sử dụng trong các tweet. Các kết
quả thử nghiệm đã chứng minh rằng khung được đề xuất hoạt động tốt hơn các
khung hiện có, đạt độ chính xác 92% khi xác định đặc tính kép và 87% trong phân
nhóm nhiều lớp. Khuôn khổ cần thiết để tăng cường độ chính xác trong các trường
hợp tiêu cực và để xem xét trong các trường hợp trung lập.
Asghar và cộng sự. [50] đã đề xuất một phân loại tình cảm dựa trên từ vựng
được cải tiến kết hợp một trình phân loại dựa trên quy tắc. Nó nhằm mục đích
giảm bớt sự thưa thớt của dữ liệu và cải thiện độ chính xác của việc phân loại tình
20
2019
cảm. Các bộ phân loại, chẳng hạn như các bộ phân loại sử dụng biểu tượng cảm
xúc hoặc phủ định bổ sung, hoặc các bộ phân loại dựa trên SWN hoặc theo miền
cụ thể, được kết hợp tuần tự để phân loại các tweet một cách chính xác dựa trên
các phân cực cảm xúc của chúng. Kỹ thuật được đề xuất đạt được điểm F1 là 0,8,
0,795 và 0,855 cho ba bộ dữ liệu đánh giá thuốc, xe hơi và khách sạn tương ứng.
D. Phân tích tình cảm trên Twitter bằng phương pháp kết hợp
Balage Filho và Pardo [51] đã giới thiệu một hệ thống kết hợp để phát hiện tình
cảm hiện diện trong các tweet. Hơn nữa, hệ thống của họ kết hợp ba phương pháp
phân loại: học máy, dựa trên quy tắc và dựa trên từ vựng. Balage Filho và Pardo
[51] đã sử dụng từ vựng SentiStrength và trình phân loại SVM như một phương
pháp học máy. Kết quả thu được từ các thí nghiệm cho thấy rằng một hệ thống lai
tốt hơn các bộ phân loại riêng lẻ, đạt được Fmeasure là 0,56 so với 0,14, 0,448 và
0,49 thu được lần lượt bởi các bộ phân loại dựa trên quy tắc, dựa trên từ vựng và
SVM.
Một phương pháp lai khác được đề xuất bởi Ghiassi et al. [52] người đã sử
dụng API Twitter để thu thập các tweet. Họ đã cố gắng kết hợp các tính năng n-
gram với một phương pháp phân tích tâm lý mạng nơ-ron nhân tạo động (DAN2).
Các tính năng của Unigram, bigram và trigram đã được xác định. Ghiassi và cộng
sự. [52] đã phát triển một từ vựng Twitter rút gọn được sử dụng cùng với các
phương pháp phân loại tình cảm. Các mô hình phân loại DAN2 và SVM đã được
đào tạo để phát hiện cảm xúc của các tweet. Các kết quả thu thập được cho thấy
rằng phương pháp học tập DAN2 hoạt động tốt hơn một chút so với trình phân loại
SVM ngay cả khi kết hợp cùng một từ vựng dành riêng cho Twitter. Đối với lớp
tiêu cực, DAN2 đạt độ chính xác trung bình là 92,5 so với SVM, đạt độ chính xác
91,45. Đối với lớp tích cực, DAN2 thu được độ chính xác phân loại trung bình là
68,2 so với SVM, đạt độ chính xác là 67,6.
Khan và cộng sự. [53] đề xuất một khuôn khổ khai thác ý kiến Twitter (TOM)
để phân loại tình cảm trên tweet. Sơ đồ kết hợp được đề xuất trong [53] bao gồm
phân tích SentiWordNet, phân tích biểu tượng cảm xúc và một bộ phân loại phân
cực nâng cao. Bộ phân loại được đề xuất đã giảm thiểu các vấn đề thưa thớt bằng
cách sử dụng các phương pháp xử lý trước và nhiều phương pháp khác nhau. Các
thí nghiệm được thực hiện bằng cách sử dụng sáu bộ dữ liệu đã chứng minh rằng
thuật toán được đề xuất đạt được trung bình là 83,3%.
Gần đây, Zainuddin et al. [54] đề xuất một khung phân tích tình cảm dựa trên
khía cạnh (ABSA), bao gồm hai nhiệm vụ chính. Nhiệm vụ đầu tiên sử dụng trích
xuất đặc điểm dựa trên khía cạnh để xác định các khía cạnh của thực thể và nhiệm
vụ thứ hai sử dụng phân loại tình cảm dựa trên khía cạnh. Bộ dữ liệu HCTS, STS
21
2019
và STC được sử dụng để đánh giá hiệu suất của mô hình kết hợp được đề xuất. Mô
hình này đã kết hợp các quy tắc sau khi khai thác chúng bằng các phương pháp
khai thác đặc trưng. Các khía cạnh đơn và đa từ được xác định dựa trên kỹ thuật
khai thác quy tắc với sự kết hợp heuristic trong các mẫu POS. Hơn nữa, trình phân
tích cú pháp Stanford (SDP) đã được sử dụng để phát hiện sự phụ thuộc giữa các
khía cạnh và quan điểm. Các phương pháp phân tích thành phần chính (PCA),
phân tích ngữ nghĩa tiềm ẩn (LSA) và các phương pháp lựa chọn đặc trưng chiếu
ngẫu nhiên (RP) cũng đã được áp dụng trong các thí nghiệm. Mô hình kết hợp mới
kết hợp khung ABSA, từ vựng SentiWordNet, PCA và trình phân loại SVM hoạt
động tốt hơn so với đường cơ sở hiện có để phân loại tình cảm. Độ chính xác phân
loại là 76,55 đã đạt được đối với tập dữ liệu STS; 71,62 cho bộ dữ liệu HCTS;
cũng như độ chính xác 74,24 cho tập dữ liệu STC.
Asghar và cộng sự. [55] đã đề xuất một hệ thống phân loại tình cảm Twitter kết
hợp kết hợp bốn bộ phân loại: bộ phân loại tiếng lóng (SC), bộ phân loại biểu
tượng cảm xúc (EC), bộ phân loại tình cảm cho mục đích chung (GPSC) và bộ
phân loại miền cụ thể được cải tiến (IDSC). Kỹ thuật của họ được lấy cảm hứng từ
các nghiên cứu trước đây của Khan et al. [53] và Asghar et al. [50], đã phân loại
các tweet sử dụng nhiều mô hình phân loại có giám sát và không được giám sát.
Khung đề xuất xác định cảm xúc của các tweet sau khi phát hiện sự hiện diện của
tiếng lóng và biểu tượng cảm xúc. Kết quả cho thấy việc tính toán điểm tình cảm
của các biểu thức tiếng lóng giúp cải thiện độ chính xác trong việc phân loại tình
cảm của các tweet. Về nghiên cứu tác động của SC, khung được đề xuất bởi
Asghar et al. [55] đạt được điểm F là 0,92 so với 0,85 của Masud et al. [49]. Kết
quả cũng cho thấy sự hiện diện của các biểu tượng cảm xúc trong tâm lý Twitter
đã làm tăng độ chính xác phân loại từ 79% lên 85%.
VII. THẢO LUẬN VÀ KẾT QUẢ
Trong phần này của nghiên cứu, một nỗ lực đã được thực hiện để so sánh các kỹ
thuật và kết quả khác nhau của hiệu suất thuật toán. Bảng 1 tóm tắt các phương pháp
tiếp cận máy học có giám sát khác nhau để phân tích tình cảm trên Twitter. Điều quan
trọng cần đề cập là SVM dựa trên unigram thường được coi là tiêu chuẩn để đo lường
và so sánh các chiến lược được đề xuất [11]. Từ Bảng 1, rõ ràng là việc tích hợp nhiều
tính năng đã dẫn đến cải thiện độ chính xác của phân loại, đặc biệt là kết hợp các biểu
tượng đơn sắc và biểu đồ sinh học như được trình bày trong Go et al. [26] và Malhar
và Ram [28]. Ngược lại, Anton và Andrey [29] đã chứng minh rằng bộ phân loại
SVM khi kết hợp với các tính năng unigram hoạt động tốt hơn các tính năng lai. Theo
Saif et al. [33], kết quả cho thấy rằng việc kết hợp ngữ nghĩa với các tính năng
unigram tạo ra hiệu suất tốt hơn so với lựa chọn tính năng cơ sở.
22
2019
Theo cách tương tự, Hamdan et al. [34] cho thấy rằng việc thêm nhiều tính năng
hơn như DBpedia, WordNet và SentiWordNet đã dẫn đến những cải tiến về độ chính
xác của phân loại tình cảm. Theo Vishal và cộng sự. [17], các phương pháp học máy
như NB, Max Entropy và SVM hoạt động tốt hơn một chút với các tính năng bigram
so với các mô hình tính năng khác như unigram hoặc trigrams.
BẢNG I. CÁCH TIẾP CẬN HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN TÍCH TÌNH CẢM
TWITTER
Study Methods Algorithms Features Datasets Outcomes

Go et al Supervised NB, Unigrams, Tweets thu MaxEnt với cả
[26] ML MaxEnt, bigrams, POS thập bằng unigram và bigram đạt
and SVM cách sử dụng độ chính xác 83% so
classifiers API Twitter với NB với độ chính
xác 82,7%.
Malhar and Supervised NB, SVM, Unigrams, Tweet được SVM sử dụng lựa chọn
Ram [28] ML MaxEnt, bigrams, thu thập bằng tính năng lai đạt độ
and ANN hybrids API Twitter chính xác 88%. Ngoài
classifiers.(unigrams+ ra, SVM với PCA đạt
bigrams) độ chính xác 92%.
Anton and Supervised NB and Unigrams, Tweet được SVM với unigram đạt
Andrey [29] ML SVM bigrams, thu thập bằng điểm chính xác 81% và
classifiers hybrids hệ thống trực điểm thu hồi là 74%.
(unigrams+ tuyến
bigrams) Sentiment140
Pak and Supervised Multinomial Unigrams, Tweet được NB đa thức với bigram
Paroubek ML NB and bigrams, thu thập bằng đạt được hiệu suất tốt
[31] SVM trigrams API Twitter hơn so với unigrams và
classifiers trigrams.
Kouloumpi Supervised AdaBoost Unigrams, Thẻ bắt đầu Đo lường F là 0,68 đã
s et al. [32] ML classifier. bigrams, bằng # đạt được đối với
lexicon, POS (HASH) và HASH. Ngoài ra, số đo
features, and biểu tượng F là 0,65 đã được
micro- cảm xúc AdaBoost thu được
blogging (EMOT) cho bộ dữ liệu HASH
features dưới dạng tập và EMOT với sự kết
dữ liệu đào hợp của n-gram, từ
tạo. vựng và các tính năng
tiểu blog
Saif et al. Supervised NB Unigrams, Bộ dữ liệu Các tính năng ngữ
[33] ML POS features, STS, HCR và nghĩa vượt trội hơn so
sentiment- OMD với unigram và POS.
23
2019
topic features Tuy nhiên, cách tiếp

semantic cận chủ đề tình cảm
features hoạt động tốt hơn một
chút so với cách tiếp
cận ngữ nghĩa trong
trường hợp của bộ dữ
liệu HCR và OMD.
Hamdan et Supervised NB, SVM Unigrams, Bộ dữ liệu Các thử nghiệm cho
al. [34] ML DBpedia SemEval- thấy rằng việc thêm
wordNet và 2013 các tính năng như
SentiWordNe DBpedia, WordNet và
t SentiWordNet đã làm
tăng độ chính xác của
F-Measure một chút.
Tỷ lệ của những cải
thiện nhỏ này là
khoảng 2% với SVM
và 4% với NB.
Bảng 2 minh họa các cách tiếp cận tổng hợp khác nhau để phân tích tình cảm trên
Twitter. Đối với bộ dữ liệu HCR, các phương pháp tổng hợp được đề xuất bởi da
Silva và cộng sự. [38] kết hợp LR, RF, SVM và MNB cùng với các tính năng BOW
và từ điển đã đạt được điểm F1 là 76,99. Để so sánh, Fouad và cộng sự. [42] cho thấy
rằng phương pháp tổng hợp biểu quyết đa số với phương pháp lựa chọn tính năng thu
thập thông tin đạt được độ chính xác là 84,75. Điều này chứng tỏ rằng các phương
pháp tổng thể được đề xuất bởi Fouad và cộng sự. [42] vượt trội hơn so với phương
pháp tập hợp được đề xuất bởi da Silva và cộng sự. [38]. Điều này là do kết hợp thu
thập thông tin như một phương pháp lựa chọn tính năng.
Saif và cộng sự. [33] cho thấy rằng bộ phân loại NB đạt được điểm F1 là 68,15
cho tập dữ liệu HCR. So với các phương pháp tổng hợp được đề xuất bởi da Silva và
cộng sự. [38] kết hợp LR, RF, SVM và MNB đạt được điểm F1 là 63,75 cho tập dữ
liệu HCR. Hơn nữa, da Silva và cộng sự. [38] thu được một chút cải tiến khi sử dụng
MNB với các đặc trưng BOW và từ vựng, tạo ra điểm F1 là 68,20 so với 68,15 do bộ
phân loại NB do Saif et al đề xuất. [33]. So với các phương pháp tổng hợp được đề
xuất bởi da Silva và cộng sự. [38] kết hợp LR, RF, SVM và MNB đạt được điểm F1
là 63,75 cho tập dữ liệu HCR. Hơn nữa, da Silva và cộng sự. [38] thu được một chút
cải tiến khi sử dụng MNB với các tính năng BOW và từ vựng, tạo ra điểm F1 là 68,20
so với 68,15 do bộ phân loại NB do Saif và cộng sự đề xuất. [33].
Theo Fouad và cộng sự. [42], hiệu suất của phương pháp tổng hợp của họ tốt hơn
một chút so với bộ phân loại SVM cho tập dữ liệu Sanders, như được thể hiện trong
24
2019
Bảng 2. Điều này được cho là do ý tưởng biểu quyết đa số được sử dụng để xác định ý
kiến cuối cùng của các tweet. Tuy nhiên, đối với tập dữ liệu HCR, NB với lựa chọn
tính năng thu thập thông tin đạt được điểm chính xác cao nhất là 85,09 so với cả
phương pháp tổng hợp do Fouad và cộng sự đề xuất. [42] và phương pháp được đề
xuất bởi da Silva và cộng sự. [38] tạo ra số điểm là 76,99.
BẢNG II. CÁC CÁCH TIẾP CẬN CẦN THIẾT ĐỂ PHÂN TÍCH TÌNH CẢM
Study Methods Algorithms Features Datasets Outcomes

Lin and Kolcz Ensemble Logistic Hashed byte Bộ dữ liệu Đối với 100 triệu
[37] regression 4-grams quy mô lớn trường hợp, các
classifier phương pháp tổng hợp
đạt được điểm chính
xác là 0,81 khi số
lượng bộ phân loại là
21.
da Silva et al. Ensemble Logistic BOW, Tập dữ liệu Một bộ phân loại tổng
[38] regression lexicon, and Stanford hợp đạt được độ chính
classifier feature (STS), xác cao hơn khi cả hai
hashing Sanders, tính năng BOW và từ
OMD và vựng được sử dụng.
HCR Phương pháp được đề
xuất đạt được điểm
chính xác lần lượt là
76,99, 81,06, 84,89 và
76,81 cho các bộ dữ
liệu HCR, STS,
Sanders và OMD
Hagen, Ensemble NRC, GU- n-grams, Đào tạo bán Phương pháp tổng hợp
Matthias, et al. MLT-LT, ALLCAPS, kết năm đã đạt được điểm F là
[39] KLUE, and parts of 2013 64,84 cho nhiệm vụ
TeamX speech, phụ B trong Cuộc thi
polarity bán kết năm 2015
dictionaries, (Nhiệm vụ 10).
punctuation
marks,
emoticons,
word
lengthening,
clustering,
negation,
stems
MartınezCáma Ensemble The ranking The ranking General Phương pháp tổng hợp
25
2019
ra, Eugenio, et algorithm and algorithm Corpus of đã đạt được điểm số F1

al.[40] skip-gram and skip- the TASS là 62,98%. Tuy nhiên,
scorer, gram scorer competition thuật toán xếp hạng và
Word2Vec, and skip-gam đã thu được
linguistic điểm số F1 macro là
resources-based 61,60%
approach
Chalothorn Ensemble The majority Sentiment SemEval- Bộ phân loại tổng hợp
and Ellman vote, SVM, lexicons and 2013 đã nhận được điểm F là
[41] NB, BOW 86,05% cho nhiệm vụ
SentiStrength features 2A.
and Stacking.
Fouad et al. Ensemble SVM, NB, and Various Stanford Đối với bộ dữ liệu
[42] LR combination (STS), Sanders, bộ phân loại
s of BOW, Sanders, tổng hợp (bỏ phiếu
lexicon- and HCR theo đa số) đạt được
based điểm chính xác là
features, 93,94 so với 92,71 mà
emoticon- SVM đạt được. Đối với
based and tập dữ liệu Stanford
POS -1K, bộ phân loại nhóm
features. biểu quyết đa số đã đạt
được điểm chính xác từ
78,70 đến 78,10 do
SVM thu được. Đối với
HCR, NB đạt được
điểm chính xác 85,09
so với các phương pháp
tổng hợp phiếu bầu
theo đa số được đề
xuất, thu được điểm
84,75.
Bảng 3 tóm tắt các thuật toán dựa trên từ vựng khác nhau được khảo sát trong bài
báo này. Xia et. cộng sự [45] đã chỉ ra rằng phương pháp cảm tính dựa trên từ vựng
của họ đạt được độ chính xác phân loại là 0,692 cho tập dữ liệu OMD so với điểm
chính xác phân loại là 76,81 đạt được bằng phương pháp tổng hợp do da Silva và
cộng sự đề xuất. [38]. Điều này có thể quy cho việc sử dụng bộ phân loại nhóm biểu
quyết đa số và kết hợp các từ vựng với các tính năng BOW.
Bảng 4 cho thấy các thuật toán kết hợp được khám phá trong cuộc khảo sát này.
Phương pháp được đề xuất bởi Zainuddin và cộng sự. [54] đạt được điểm chính xác là
26
2019
76,55% đối với tập dữ liệu STS và vượt trội hơn so với các phương pháp dựa trên từ
vựng được đề xuất bởi Xia và cộng sự [45] đạt điểm chính xác 72,6% cho cùng một
tập dữ liệu. Ngoài ra, phương pháp tổng hợp bỏ phiếu theo đa số do Fouad và cộng sự
đề xuất. [42] đạt số điểm 78,70%. Kết quả tốt nhất đã đạt được bởi da Silva et al. [38]
vì các phương pháp tổng hợp của họ đạt độ chính xác 81,06% đối với tập dữ liệu STS.
BẢNG III. CÁC PHƯƠNG PHÁP DỰA TRÊN LEXICON ĐỂ PHÂN TÍCH TÌNH
CẢM TWITTER
Study Methods Algorith Features Datasets Outcomes

ms
Xia et. al Unsupervised Khám phá Unigrams Bộ dữ liệu STS Đã đạt được độ chính
[45] method các từ ngữ và OMD xác phân loại là 0,726
(lexicon- tình cảm cho tập dữ liệu STS và
based) bằng tiếng 0,692 cho tập dữ liệu
lóng trong OMD.
Phân tích
cảm xúc
(ESSA)
Azzouza, Unsupervised POS features SemEval-2013, Đối với tập dữ liệu
Nouredd method SemEval-2014, SemEval-2013, hệ
ine, et al. SemEval-2015, thống được đề xuất đạt
[46] SemEval-2016 được điểm chính xác là
0,559 so với 0,50 do
SSA-UO thu được. Đối
với tập dữ liệu
SemEval-2016, hệ
thống được đề xuất đạt
được điểm chính xác là
0,533 so với 0,539 do
GTI thu được.
Paltoglo u Unsupervised Từ điển Unigrams Tập dữ liệu Phương pháp từ vựng
and method cảm xúc Digg, MySpace được đề xuất đã đạt
Thelwall (lexicon- và Twitter được điểm F1 lần lượt
[48] based) là 76,2, 80,6 và 86,5
cho các tập dữ liệu
Digg, MySpace và
Twitter.
Masud et Unsupervised Lexicon bộ dữ liệu riêng Phương pháp tích hợp
al. [49] method và từ điển lexicon và từ điển được
27
2019
(lexicon- đề xuất đạt độ chính

based) xác 92% đối với phân
loại nhị phân và 87%
đối với phân loại nhiều
lớp.
Asghar et Lexicon- Bộ phân Emoticonhan Ba tập dữ liệu Đối với tập dữ liệu thứ
al. [50] enhancedRule loại dựa dling features đánh giá hai, kỹ thuật được đề
-based trên quy and an xuất đạt được độ đo F1
tắc enhanced là 0,795 trong khi [56]
feature đạt được điểm F là
weighting 0,76. Đối với tập dữ
scheme liệu thứ ba, phương
pháp đề xuất đạt được
điểm F là 0,855 so với
điểm F là 0,77 thu được
trong [56].
BẢNG IV. CÁC PHƯƠNG PHÁP HYBRID ĐỂ PHÂN TÍCH TÌNH CẢM
Study Metho Algorithms Features Datasets Outcomes

ds
Balage Hybrid SVM làm trình BOW Tập dữ Mô hình lai đạt được điểm F là
Filho phân loại học liệu 0,563 so với 0,499 của SVM.
and máy và nhiệm
Pardo SentiStrength là vụ
[51] trình phân loại SemEval
dựa trên từ vựng -2013
và trình phân loại
dựa trên quy tắc
Ghiassi Hybrid Từ vựng dành Trigrams Bộ dữ Đối với lớp tiêu cực, DAN2 đạt
et al.[52] riêng cho Twitter and bigrams liệu độ chính xác trung bình là 92,5
và trình phân loại riêng so với 91,45 do SVM thu được.
DAN2 Đối với lớp tích cực, DAN2 thu
được độ chính xác trung bình là
68,2 so với độ chính xác 67,6
mà SVM đạt được.
Khan et Hybrid Trình phân loại Biểu tượng Bộ dữ Đạt được độ chính xác 85,7%,
al. [53] biểu tượng cảm cảm xúc liệu độ chính xác 85,3% và thu hồi
xúc nâng cao SentiWordN riêng 82,2.
(EEC), Trình et, từ ngữ
28
2019
phân loại phân tình cảm

cực cải tiến (IPC)
và Trình phân
loại
SentiWordNet
(SWNC)
Zainuddi Hybrid Phân tích thành Phương pháp Bộ dữ Mô hình kết hợp được đề xuất
n et al. phần chính khai thác quy liệu hoạt động tốt hơn các bộ phân
[54] (PCA) và bộ tắc kết hợp STS, loại khác cho bộ dữ liệu STS,
phân loại SVM. (ARM), POS HCTS HCTS và STC với độ chính xác
và trình phân và STC lần lượt là 76,55, 71,62 và
tích cú pháp 74,24%
phụ thuộc
Stanford
(SDP).
Asghar Hybrid Bộ phân loại SC, Bộ dữ Bộ phân loại lai được đề xuất
et al. [55] EC, liệu đạt được Điểm F là 0,88 so với
(SentiWordNet) riêng 0,81 đạt được của [49].
và IDSC.
VIII. KẾT LUẬN

Trong bài viết này, các kỹ thuật cho các phương pháp phân tích tình cảm
Twitter đã được thảo luận, bao gồm học máy, phương pháp tiếp cận tổng hợp và
phương pháp tiếp cận dựa trên từ điển (từ vựng). Ngoài ra, các kỹ thuật phân tích
tình cảm Twitter kết hợp và tổng hợp đã được khám phá. Kết quả nghiên cứu đã
chứng minh rằng các kỹ thuật học máy; ví dụ, SVM và MNB tạo ra độ chính xác
cao nhất, đặc biệt khi có nhiều đặc trưng được bao gồm. Các bộ phân loại SVM có
thể được xem như các chiến lược học tập tiêu chuẩn, trong khi các kỹ thuật dựa
trên từ điển (từ vựng) đôi khi cực kỳ khả thi, đòi hỏi ít nỗ lực trong kho lưu trữ do
con người đánh dấu. Các thuật toán học máy, chẳng hạn như The Naive Bayes,
Maximum Entropy và SVM, đạt được độ chính xác khoảng 80% khi sử dụng mô
hình n-gram và bigram. Các thuật toán phân tích tình cảm Twitter dựa trên tập hợp
và kết hợp có xu hướng hoạt động tốt hơn các kỹ thuật học máy được giám sát, vì
chúng có thể đạt được độ chính xác phân loại xấp xỉ 85%.
Nói chung, người ta mong đợi rằng các phương pháp phân tích tình cảm
Twitter tổng hợp sẽ hoạt động tốt hơn các thuật toán học máy có giám sát, vì
chúng kết hợp nhiều bộ phân loại và đôi khi là các đặc trưng mô hình khác nhau.
Tuy nhiên, các phương pháp kết hợp cũng hoạt động tốt và thu được điểm số
29
2019
chính xác phân loại hợp lý, vì chúng có thể tận dụng lợi thế của cả công cụ phân
loại học máy và phương pháp phân tích tình cảm dựa trên từ vựng trên Twitter.
Một trong những khó khăn lớn nhất gặp phải là xác định cách tiếp cận tốt nhất
để phát hiện cảm xúc trong dữ liệu Twitter vì so sánh các cách tiếp cận khác nhau
là một nhiệm vụ rất khó khăn khi thiếu các tiêu chuẩn đã thống nhất. Do đó, khó
khăn do không có các tiêu chuẩn được xác định rõ ràng đã được giải quyết trong
[10] và được giảm thiểu bằng cách dựa vào các tập dữ liệu đã được sử dụng để
đánh giá các thuật toán khác nhau trong các cuộc thi tình cảm tiểu blog như tập dữ
liệu SemEval’13.
Lĩnh vực thú vị cho nghiên cứu trong tương lai bao gồm sự dao động hiệu suất
của các thuật toán phân tích cảm xúc trong các trường hợp có nhiều đặc trưng
được xem xét. Nói cách khác, việc kết hợp các đặc trưng khác nhau có thể dẫn đến
cải thiện hiệu suất trong hầu hết các trường hợp, nhưng hiệu suất không đạt tiêu
chuẩn ở những trường hợp khác. Do đó, việc khám phá nguyên nhân của những
bất ổn về hiệu suất này sẽ là một hướng đi hấp dẫn cho các công trình trong tương
lai. Một phương pháp khác có thể là điều tra vấn đề thưa thớt dữ liệu bằng cách sử
dụng cả hai phương pháp tiếp cận tổng hợp và kết hợp. Mục đích đằng sau điều
này là để đo lường mức độ mạnh mẽ của các phương pháp tiếp cận tình cảm
Twitter khác nhau về sự thưa thớt dữ liệu. Một lĩnh vực nghiên cứu khác có thể là
việc sử dụng các kỹ thuật học tập tích cực để phát hiện cảm xúc trên Twitter và để
tăng sự tin tưởng của những người ra quyết định.
REFERENCES
[1] R. Xia, C. Zong, and S. Li, "Ensemble of feature sets and classification
algorithms for sentiment classification," Information Sciences, vol. 181, no. 6, pp.
1138-1152, 2011/03/15/ 2011.
[2] R. Sharma, S. Nigam, and R. Jain, "Opinion mining of movie reviews at
document level," arXiv preprint arXiv:1408.3829, 2014.
[3] R. Sharma, S. Nigam, and R. Jain, "Polarity detection at sentence level,"
International Journal of Computer Applications, vol. 86, no. 11, 2014.
[4] D. Factiva, "Quick Study: Direct Correction Established Between Social
Meidia Engagement and Strong Financial Performance," PR News, 2009.
[5] S. R. Das and M. Y. Chen, "Yahoo! for Amazon: Sentiment extraction from
small talk on the web," Management science, vol. 53, no. 9, pp. 1375-1388, 2007.
[6] A. Tumasjan, T. O. Sprenger, P. G. Sandner, and I. M. Welpe, "Predicting
elections with twitter: What 140 characters reveal about political sentiment,"
Icwsm, vol. 10, no. 1, pp. 178-185, 2010.
30
2019
[7] I. Twitter, "Second Quarter 2016 Report," ed, 2016.

[8] I. Twitter, "Twitter IPO Prospectus," ed, 2013.
[9] Alexa.com, "Website Traffic Ranking," ed, 2017.
[10] A. DuVander, "Which APIs are handling billions of requests per day?,"
Programmable Web, 2012.
[11] A. Giachanou and F. Crestani, "Like It or Not: A Survey of Twitter Sentiment
Analysis Methods," ACM Comput. Surv., vol. 49, no. 2, pp. 1-41, 2016.
[12] A. M. Kaplan and M. Haenlein, "Users of the world, unite! The challenges
and opportunities of Social Media," Business horizons, vol. 53, no. 1, pp. 59-68,
2010. [13] A. Abirami and V. Gayathri, "A survey on sentiment analysis methods
and approach," in Advanced Computing (ICoAC), 2016 Eighth International
Conference on, 2017: IEEE, pp. 72-76.
[14] K. P. Murphy, "Naive bayes classifiers," University of British Columbia, vol.
18, 2006.
[15] A. L. Berger, V. J. D. Pietra, and S. A. D. Pietra, "A maximum entropy
approach to natural language processing," Comput. Linguist., vol. 22, no. 1, pp.
39-71, 1996.
[16] A. S. Nugroho, A. B. Witarto, and D. Handoko, "Support vector machine,"
Teori dan Aplikasinya dalam Bioinformatika, Ilmu Komputer. com, Indonesia,
2003.
[17] V. Kharde and P. Sonawane, "Sentiment analysis of twitter data: A survey of
techniques," arXiv preprint arXiv:1601.06971, 2016.
[18] A. Harb, M. Plantié, G. Dray, M. Roche, F. Trousset, and P. Poncelet, "Web
Opinion Mining: How to extract opinions from blogs?," in Proceedings of the 5th
international conference on Soft computing as transdisciplinary science and
technology, 2008: ACM, pp. 211-217.
[19] B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up?: sentiment classification
using machine learning techniques," in Proceedings of the ACL-02 conference on
Empirical methods in natural language processing-Volume 10, 2002: Association
for Computational Linguistics, pp. 79-86.
[20] J. Khairnar and M. Kinikar, "Machine learning algorithms for opinion mining
and sentiment classification," International Journal of Scientific and Research
Publications, vol. 3, no. 6, pp. 1-6, 2013.
[21] C. Wu, L. Shen, and X. Wang, "A new method of using contextual
information to infer the semantic orientations of context dependent opinions," in
Artificial Intelligence and Computational Intelligence, 2009. AICI'09.
International Conference on, 2009, vol. 4: IEEE, pp. 274-278.
31
2019
[22] M. Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede, "Lexiconbased

methods for sentiment analysis," Computational linguistics, vol. 37, no. 2, pp. 267-
307, 2011.
[23] T. Zagibalov and J. Carroll, "Unsupervised classification of sentiment and
objectivity in Chinese text," in Proceedings of the Third International Joint
Conference on Natural Language Processing: Volume-I, 2008.
[24] A. Tripathy and S. K. Rath, "Classification of sentiment of reviews using
supervised machine learning techniques," International Journal of Rough Sets and
Data Analysis (IJRSDA), vol. 4, no. 1, pp. 56-74, 2017.
[25] M. R. Saleh, M. T. Martín-Valdivia, A. Montejo-Ráez, and L. UreñaLópez,
"Experiments with SVM to classify opinions in different domains," Expert
Systems with Applications, vol. 38, no. 12, pp. 14799- 14804, 2011.
[26] [26] A. Go, R. Bhayani, and L. Huang, "Twitter sentiment classification using
distant supervision," CS224N Project Report, Stanford, vol. 1, no. 2009, p. 12,
2009.
[27] J. Read, "Using emoticons to reduce dependency in machine learning
techniques for sentiment classification," in Proceedings of the ACL student
research workshop, 2005: Association for Computational Linguistics, pp. 43-48.
[28] M. Anjaria and R. M. R. Guddeti, "Influence factor based opinion mining of
Twitter data using supervised learning," in 2014 Sixth International Conference on
Communication Systems and Networks (COMSNETS), 2014, pp. 1-8.
[29] A. Barhan and A. Shakhomirov, "Methods for Sentiment Analysis of twitter
messages," in 12th Conference of FRUCT Association, 2012.
[30] P.-W. Liang and B.-R. Dai, "Opinion mining on social media data," in Mobile
Data Management (MDM), 2013 IEEE 14th International Conference on, 2013,
vol. 2: IEEE, pp. 91-96.
[31] A. Pak and P. Paroubek, "Twitter as a corpus for sentiment analysis and
opinion mining," in LREc, 2010, vol. 10, no. 2010.
[32] E. Kouloumpis, T. Wilson, and J. D. Moore, "Twitter sentiment analysis: The
good the bad and the omg!," Icwsm, vol. 11, no. 538-541, p. 164, 2011.
[33] H. Saif, Y. He, and H. Alani, "Semantic sentiment analysis of twitter," in
International semantic web conference, 2012: Springer, pp. 508-524.
[34] H. Hamdan, F. Béchet, and P. Bellot, "Experiments with DBpedia, WordNet
and SentiWordNet as resources for sentiment analysis in micro-blogging," in
Second Joint Conference on Lexical and Computational Semantics (* SEM),
Volume 2: Proceedings of the Seventh International Workshop on Semantic
Evaluation (SemEval 2013), 2013, vol. 2, pp. 455-459.
32
2019
[35] F. Akba, A. Uçan, E. A. Sezer, and H. Sever, "Assessment of feature

selection metrics for sentiment analyses: Turkish movie reviews," in 8th European
Conference on Data Mining, 2014, vol. 191, pp. 180-184.
[36] H. Saif, Y. He, and H. Alani, "Alleviating data sparsity for twitter sentiment
analysis," 2012: CEUR Workshop Proceedings (CEUR-WS. org).
[37] J. Lin and A. Kolcz, "Large-scale machine learning at twitter," in Proceedings
of the 2012 ACM SIGMOD International Conference on Management of Data,
2012: ACM, pp. 793-804.
[38] N. F. F. da Silva, E. R. Hruschka, and E. R. Hruschka, "Tweet sentiment
analysis with classifier ensembles," Decision Support Systems, vol. 66, pp. 170-
179, 2014/10/01/ 2014.
[39] M. Hagen, M. Potthast, M. Büchner, and B. Stein, "Webis: An ensemble for
twitter sentiment detection," in Proceedings of the 9th international workshop on
semantic evaluation (SemEval 2015), 2015, pp. 582-589.
[40] E. Martınez-Cámara, Y. Gutiérrez-Vázquez, J. Fernández, A. MontejoRáez,
and R. Munoz-Guillena, "Ensemble classifier for Twitter Sentiment Analysis,"
2015.
[41] T. Chalothom and J. Ellman, "Simple Approaches of Sentiment Analysis via
Ensemble Learning," Berlin, Heidelberg, 2015: Springer Berlin Heidelberg, pp.
631-639.
[42] M. M. Fouad, T. F. Gharib, and A. S. Mashat, "Efficient Twitter Sentiment
Analysis System with Feature Selection and lassifier Ensemble," in International
Conference on Advanced Machine Learning Technologies and Applications,
2018: Springer, pp. 516-527.
[43] C. Musto, G. Semeraro, and M. Polignano, "A comparison of lexiconbased
approaches for sentiment analysis of microblog posts," Information Filtering and
Retrieval, vol. 59, 2014.
[44] J. Silge and D. Robinson, Text Mining with R: A Tidy Approach. O'Reilly
Media, 2017.
[45] X. Hu, J. Tang, H. Gao, and H. Liu, "Unsupervised sentiment analysis with
emotional signals," in Proceedings of the 22nd international conference on World
Wide Web, 2013: ACM, pp. 607-618.
[46] N. Azzouza, K. Akli-Astouati, A. Oussalah, and S. A. Bachir, "A realtime
Twitter sentiment analysis using an unsupervised method," in Proceedings of the
7th International Conference on Web Intelligence, Mining and Semantics, 2017:
ACM, p. 15.
33
2019
[47] R. Ortega, A. Fonseca, and A. Montoyo, "SSA-UO: unsupervised Twitter

sentiment analysis," in Second joint conference on lexical and computational
semantics (* SEM), 2013, vol. 2, pp. 501-507.
[48] G. Paltoglou and M. Thelwall, "Twitter, MySpace, Digg: Unsupervised
sentiment analysis in social media," ACM Transactions on Intelligent Systems and
Technology (TIST), vol. 3, no. 4, p. 66, 2012.
[49] F. M. Kundi, A. Khan, S. Ahmad, and M. Z. Asghar, "Lexicon-based
sentiment analysis in the social web," Journal of Basic and Applied Scientific
Research, vol. 4, no. 6, pp. 238-48, 2014.
[50] M. Z. Asghar, A. Khan, S. Ahmad, M. Qasim, and I. A. Khan,
"Lexiconenhanced sentiment analysis framework using rule-based classification
scheme," PloS one, vol. 12, no. 2, p. e0171649, 2017.
[51] P. Balage Filho and T. Pardo, "NILC_USP: A hybrid system for sentiment
analysis in twitter messages," in Second Joint Conference on Lexical and
Computational Semantics (* SEM), Volume 2: Proceedings of the Seventh
International Workshop on Semantic Evaluation (SemEval 2013), 2013, vol. 2, pp.
568-572.
[52] M. Ghiassi, J. Skinner, and D. Zimbra, "Twitter brand sentiment analysis: A
hybrid system using n-gram analysis and dynamic artificial neural network,"
Expert Systems with applications, vol. 40, no. 16, pp. 6266-6282, 2013.
[53] F. H. Khan, S. Bashir, and U. Qamar, "TOM: Twitter opinion mining
framework using hybrid classification scheme," Decision Support Systems, vol.
57, pp. 245-257, 2014.
[54] N. Zainuddin, A. Selamat, and R. Ibrahim, "Hybrid sentiment classification
on twitter aspect-based sentiment analysis," Applied Intelligence, pp. 1-15, 2017.
[55] M. Z. Asghar, F. M. Kundi, S. Ahmad, A. Khan, and F. Khan, "T ‐SAF:
Twitter sentiment analysis framework using a hybrid classification scheme,"
Expert Systems, vol. 35, no. 1, 2018.
[56] F. M. Kundi, S. Ahmad, A. Khan, and M. Z. Asghar, "Detection and scoring
of internet slangs for sentiment analysis using SentiWordNet," Life Science
Journal, vol. 11, no. 9, pp. 66-72, 2014.
34

phân tích cảm nghĩ

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

phân tích cảm nghĩ

Uploaded by

Copyright:

Available Formats

(IJACSA) Tạp chí Quốc tế về Ứng dụng và Khoa học Máy tính Tiên tiến, Vol.

ĐẠI HỌC QUY NHƠN

BÁO CÁO BÀI TẬP LỚN

Sinh viên thực hiện: Lê Thị Minh Tâm

Quy nhơn tháng 10 năm 2021

II. ĐỊNH NGHĨA VÀ ĐỘNG LỰC...............................................................................4

III. TẦM QUAN TRỌNG VÀ BỐI CẢNH.................................................................5

IV. KỸ THUẬT PHÂN LOẠI.....................................................................................6

V. DOCUMENT-LEVEL SENTIMENT ANALYSIS APPROACHES.....................7

VII. THẢO LUẬN VÀ KẾT QUẢ..............................................................................22

VIII. KẾT LUẬN...........................................................................................................29

Lexicon và các nguồn từ vựng bên ngoài là SentiWordNet, MPQA và

Study Methods Algorithms Features Datasets Outcomes

topic features Tuy nhiên, cách tiếp

Study Methods Algorithms Features Datasets Outcomes

ra, Eugenio, et algorithm and algorithm Corpus of đã đạt được điểm số F1

Study Methods Algorith Features Datasets Outcomes

(lexicon- đề xuất đạt độ chính

Study Metho Algorithms Features Datasets Outcomes

phân loại phân tình cảm

VIII. KẾT LUẬN

[7] I. Twitter, "Second Quarter 2016 Report," ed, 2016.

[22] M. Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede, "Lexiconbased

[35] F. Akba, A. Uçan, E. A. Sezer, and H. Sever, "Assessment of feature

[47] R. Ortega, A. Fonseca, and A. Montoyo, "SSA-UO: unsupervised Twitter

You might also like