You are on page 1of 29

ĐẠI HỌC UEH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ


KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ


Đề tài: ỨNG DỤNG MÔ HÌNH MÁY HỌC
TRÍCH XUẤT KHÍA CẠNH VÀ KHAI PHÁ Ý KIẾN
KHÁCH HÀNG VỀ ỨNG DỤNG VÍ ĐIỆN TỬ MOMO

GVHD: TS. Đỗ Trọng Hợp

Người thực hiện: Ngô Ngọc Vân Thanh


Ngành: Công nghệ Thiết kế Thông tin và Truyền thông
Mã số học viên: 202118015

TP. Hồ Chí Minh, Tháng 11/2022


MỤC LỤC
DANH MỤC HÌNH ẢNH......................................................................................................................3
DANH MỤC BẢNG BIỂU....................................................................................................................4
DANH MỤC TỪ VIẾT TẮT.................................................................................................................5
TÓM TẮT..............................................................................................................................................6
CHƯƠNG 1 Giới thiệu tổng quan về đề tài.........................................................................................7
1.1 Tính cấp thiết của đề tài..........................................................................................................7
1.2 Mục tiêu nghiên cứu...............................................................................................................9
1.3 Đối tượng nghiên cứu.............................................................................................................9
1.4 Phương pháp nghiên cứu........................................................................................................9
1.5 Phạm vi nghiên cứu..............................................................................................................10
1.6 Ý nghĩa thực tiễn..................................................................................................................10
CHƯƠNG 2 Tổng quan các nghiên cứu liên quan.............................................................................11
2.1 Xử lý ngôn ngữ tự nhiên (NLP)............................................................................................11
2.2 Tổng quan về phân tích quan điểm (Sentiment Analysis).....................................................12
2.3 Tổng quan về trích xuất khía cạnh (Aspect Extraction)........................................................13
2.4 Tổng quan về phân tích cảm xúc theo khía cạnh (Aspect-based Sentiment Analysis)..........15
CHƯƠNG 3 Cơ sở lý thuyết..............................................................................................................16
3.1 Xu hướng sử dụng và mức độ hài lòng về ứng dụng thanh toán trực tuyến..........................16
3.2 Các chỉ số đánh giá mô hình.................................................................................................18
3.3 Kỹ thuật trích xuất khía cạnh TF-IDF...................................................................................20
3.4 Kỹ thuật gán nhãn từ loại POS..............................................................................................21
CHƯƠNG 4 Mô hình nghiên cứu đề xuất và phương pháp thực nghiệm..........................................23
4.1 Mô hình nghiên cứu..............................................................................................................23
4.2 Thu thập dữ liệu....................................................................................................................23
4.3 Tiền xử lý dữ liệu và gán nhãn.............................................................................................24
4.4 Tách từ và đưa vào mô hình PhoBERT................................................................................24
4.5 Mô hình đa nhiệm vụ trích xuất khía cạnh và phân tích cảm xúc.........................................24
CHƯƠNG 5 Đánh giá kết quả thực nghiệm và thảo luận..................................................................25
5.1 Đánh giá kết quả thực nghiệm và lựa chọn mô hình.............................................................25
5.2 Trực quan hóa và phân tích kết quả thực nghiệm..................................................................25
5.3 Thảo luận kết quả và khuyến nghị........................................................................................25
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................................................26
TÀI LIỆU THAM KHẢO....................................................................................................................27
DANH MỤC HÌNH ẢNH
DANH MỤC BẢNG BIỂU
DANH MỤC TỪ VIẾT TẮT
TÓM TẮT
Các cửa hàng ứng dụng như Google, Apple là một trong những nguồn hữu ích chứa
đựng những ý kiến của người dùng thông qua điểm xếp hạng và các đánh giá được
trình bày bằng văn bản. Quan điểm của người bình luận về một ứng dụng thể hiện mức
độ hài lòng của họ. Do đó, điều này giúp những người dùng khác có được thông tin chi
tiết trước khi tải xuống hoặc mua ứng dụng. Thông tin tiềm năng từ các bài đánh giá
không thể được trích xuất theo cách thủ công, do tốc độ tăng trưởng theo cấp số nhân
của nó. Ngoài ra, mỗi bình luận thường đề cập nhiều yếu tố, có cả những điểm tốt và
chưa tốt. Trích xuất khía cạnh (ACD) và phân tích cảm xúc (SPC) các bình luận, bằng
thuật toán học máy để xử lý ngôn ngữ tự nhiên (NLP), giúp khám phá và diễn giải một
cách rõ ràng cảm xúc về một khía cạnh cụ thể. Luận văn nhằm nghiên cứu phương
pháp sử dụng PhoBERT phân tích cảm xúc theo khía cạnh trên các bình luận về ứng
dụng cung cấp dịch vụ thanh toán trực tuyến - ví điện tử MoMo, được thu thập từ
Apple Store và Google Play từ 01/2021 đến 07/2022. Thông qua đó, việc khai phá các
bình luận này như một công cụ hữu ích để hiểu về trải nghiệm của khách hàng, giúp
đưa ra đề xuất cải thiện chất lượng ứng dụng, dịch vụ.
CHƯƠNG 1 Giới thiệu tổng quan về đề tài
1.1 Tính cấp thiết của đề tài
 Sự phát triển của các ứng dụng công nghệ, đặc biệt trong thanh toán trực tuyến
Chúng ta đang tương tác với một loạt các ứng dụng cung cấp trải nghiệm kỹ thuật số.
Trên thực tế, những trải nghiệm này thúc đẩy rất nhiều cuộc sống hàng ngày của chúng
ta, thậm chí chúng ta không nhận thức được sự phụ thuộc của chúng ta vào chúng. Các
ứng dụng đã thay đổi cách các công ty kinh doanh tương tác với người tiêu dùng. Kỳ
vọng của người dùng hiện được hình thành bởi các ứng dụng mà họ sử dụng hàng ngày
để mua hàng hóa, đặt hàng dịch vụ, thanh toán hoặc giao tiếp trên phương tiện truyền
thông xã hội. Với sự chuyển đổi này, chúng ta đang sống trong một thế giới mà mức độ
trung thành của ứng dụng đã trở thành thước đo thực sự của lòng trung thành với thương
hiệu và trải nghiệm trực tuyến là sân chơi cạnh tranh mới. Mức độ sẵn sàng, trải nghiệm
kỹ thuật số được dẫn dắt bởi ứng dụng hiện là cách thu hút khách hàng và xây dựng
thương hiệu. Giờ đây, khách hàng có nhiều khả năng quyết định hơn - xóa ứng dụng,
chuyển sang các lựa chọn thay thế và chia sẻ trải nghiệm tiêu cực của họ trên phạm vi
rộng. Các doanh nghiệp cần phải cân nhắc cách tiếp cận của họ đối với trải nghiệm khách
hàng. Ấn tượng đầu tiên được tạo ra một cách trực tuyến, sự thích thú, quan tâm được tạo
dựng thông qua ứng dụng và quyết định mua hàng được thực hiện thông qua trải nghiệm
kỹ thuật số. Trải nghiệm khách hàng hiện đang tập trung trên nền tảng kỹ thuật số.

Chủ tịch Nhóm Ngân hàng Thế giới David Malpass cho biết: “Cuộc cách mạng kỹ thuật
số đã thúc đẩy sự gia tăng tiếp cận và sử dụng các dịch vụ tài chính trên toàn thế giới, làm
thay đổi cách thức mà mọi người thực hiện chuyển, nhận tiền, thanh toán, đi vay và tiết
kiệm”. Đặc biệt, đại dịch COVID-19 đã thúc đẩy các yếu tố về tài chính - thúc đẩy sự gia
tăng lớn trong thanh toán kỹ thuật số trong bối cảnh mở rộng toàn cầu về các dịch vụ tài
chính.

Thanh toán bằng ví điện tử ở Đông Nam Á đạt giá trị hơn 22 tỷ USD vào năm 2019 và
được dự đoán sẽ tăng hơn 5 lần để vượt 114 tỷ USD vào năm 2025. Tại Việt Nam, thị

7
Đề cương chi tiết Luận văn thạc sĩ
trường ví điện tử tiếp tục bùng nổ. Theo một cuộc khảo sát gần đây của Visa, 85% người
được hỏi có ít nhất một ví điện tử hoặc ứng dụng thanh toán, trong khi 71% sử dụng các
ứng dụng này ít nhất một lần một tuần. Với hơn 40 nhà cung cấp ví điện tử, thị trường
Việt Nam trong vài năm qua khá đông đúc. Chiếm 90% thị phần là 3 ví điện tử hàng đầu:
Momo, Moca và ZaloPay, không để lại nhiều chỗ cho các nhà cung cấp khác. Mặc dù
vậy, các tên tuổi lớn hiện đang gặp khó khăn khi họ không thể hiện được lợi thế cạnh
tranh của mình so với các ngân hàng truyền thống có ứng dụng di động bắt kịp các chức
năng của ví điện tử. (Theo Payments 2025 & beyond: Evolution to Revolution, PwC)

Chúng ta đang sống trong một thế giới mà mọi người đều có tốc độ phát triển riêng của
mình nhưng khi nói đến thế giới kỹ thuật số, chúng ta phải tuân theo tốc độ của nó, nếu
không, chúng ta có thể trở nên lỗi thời và ‘siêu ứng dụng’ là phiên bản phát triển hiện tại.
Siêu ứng dụng là giải pháp thiết kế ứng dụng dành cho thiết bị di động tất cả trong một,
nơi bạn có thể tìm thấy tất cả các ứng dụng tập hợp các hoạt động hàng ngày của bạn. Nó
xử lý tất cả các yêu cầu của người dùng tại một chỗ. Siêu ứng dụng loại bỏ nhu cầu tải
xuống các chương trình khác nhau để hoàn thành các nhiệm vụ khác nhau. Các siêu ứng
dụng bao gồm từ mạng xã hội đơn giản đến mua sắm hay ngân hàng. Tuy nhiên, việc có
nhiều tính năng hơn trong một ứng dụng hoặc một chương trình đôi khi khiến người dùng
có thể bối rối và quên mất giá trị cốt lỗi mà ứng dụng muốn mang đến cho người dùng và
cuối cùng là mất hứng thú.

 Cần công cụ tự động trích xuất và khai phá quan điểm từ các bình luận của khách
hàng đối với ứng dụng để thấu hiểu trải nghiệm khách hàng
Trong quá trình cung cấp sản phẩm dịch vụ, các ứng dụng này không có sự tiếp xúc trực
tiếp với khách hàng. Việc khách hàng đến và đi với một ứng dụng cũng rất dễ dàng và
nhanh chóng, khi họ chỉ cần cài đặt và gỡ ứng dụng trong thiết bị di động của mình. Vậy
nên rất khó để hiểu được mức độ hài lòng của khách hàng, những vấn đề mà khách hàng
đang gặp phải và làm sao để giữ chân khách hàng khi có quá nhiều lựa chọn thay thế trên
thị trường. Một trong những cách tốt nhất để làm điều này đó là thông qua việc thu thập
và khai phá các ý kiến của khách hàng trên các nền tảng mạng xã hội, các đánh giá hay

8
Đề cương chi tiết Luận văn thạc sĩ
thứ hạng của ứng dụng trong App Store/ Google Play – nơi mà các ứng dụng được tải
xuống. Bên cạnh đó, hệ thống đánh giá ứng dụng dành cho thiết bị di động đang cung cấp
nền tảng cho người dùng để chia sẻ kinh nghiệm của họ và hỗ trợ trong việc đưa ra quyết
định đối với một ứng dụng nhất định. Ngoài ra, việc phân tích các đánh giá này có thể cải
thiện chất lượng ứng dụng và nâng cao khả năng thu hút các khách hàng mới. Đối với các
ứng dụng lớn, số lượng đánh giá có thể lên đến hàng chục nghìn. Vì vậy, hầu như không
có bất kỳ công ty nào đọc những đánh giá này một cách thủ công để tìm hiểu xem liệu
khách hàng có thích sản phẩm, dịch vụ của họ hay không.

1.2 Mục tiêu nghiên cứu


Luận văn tập trung vào nghiên cứu mô hình phân tích cảm xúc theo khía cạnh và thực
nghiệm mô hình đề xuất trên tập ngữ liệu Tiếng Việt là các đánh giá của khách hàng đối
với ứng dụng ví điện tử MoMo, nhằm giúp cho công ty có thể hình dung được trải
nghiệm mà họ đang mang lại cho khách hàng – một trong những yếu tố quan trọng tạo
nên lợi thế cạnh tranh so với các ứng dụng ví điện tử khác trên thị trường.

1.3 Đối tượng nghiên cứu


Phương pháp trích xuất khía cạnh: nhận diện cặp thực thể (E) và thuộc tính (A) trong các
nội dung mà khách hàng đề cập

 Thực thể E: ứng dụng, chương trình khuyến mãi, tính năng, hỗ trợ…
 Thuộc tính A: chất lượng, giao diện, lựa chọn…

Phương pháp phân tích cảm xúc: phân loại các cảm xúc của mỗi cặp E#A vào các nhóm
tích cực, tiêu cực, trung tính.

1.4 Phương pháp nghiên cứu


Trong luận văn, nghiên cứu sẽ dựa trên mô hình được đề xuất tập trung thực hiện các
nhóm nhiệm vụ chính sau:

(1) thu thập bình luận người dùng trên cửa hàng ứng dụng;

(2) tiền xử lý dữ liệu và gán nhãn dữ liệu;

9
Đề cương chi tiết Luận văn thạc sĩ
(3) tách từ và sử dụng mô hình PhoBERT để tiền huấn luyện, xử lý ngôn ngữ tự nhiên:
Gắn nhãn từ loại, Phân tích cú pháp phụ thuộc, Nhận dạng thực thể và Suy luận ngôn ngữ
tự nhiên;

(4) xây dựng mô hình đa nhiệm vụ với đầu ra là danh sách các C vectơ one-hot, trong đó
C là số khía cạnh đề cập trong tập dữ liệu và mỗi vectơ có 4 phần tử với 1 phần tử có giá
trị 0 hay 1 – cho thấy khía cạnh có được đề cập không, 3 phần tử còn lại chỉ cảm xúc tích
cực, tiêu cực hay trung tính;

(5) phân tích kết quả thực nghiệm.

1.5 Phạm vi nghiên cứu


Dữ liệu được phân tích là tập các bình luận trực tuyến của khách hàng bằng ngôn ngữ
Tiếng Việt gồm mã bình luận, nội dung bình luận, điểm đánh giá, ngày bình luận, phiên
bản ứng dụng… thu thập từ ứng dụng ví điện tử MoMo trong khoảng thời gian 01/2021 -
07/2022.

1.6 Ý nghĩa thực tiễn


Mô hình, phương pháp nghiên cứu được đề xuất và kết quả thực nghiệm có thể được áp
dụng vào thực tế tại doanh nghiệp trong dự án phân tích hành vi và trải nghiệm của khách
hàng về việc sử dụng ứng dụng ví điện tử MoMo. Từ đó, bài nghiên cứu có thể đưa ra
những khuyến nghị cho đội vận hành nhằm cải thiện chất lượng ứng dụng, giúp doanh
nghiệp hiểu hơn về khách hàng, giữ chân khách hàng.
Kết quả từ bài nghiên cứu còn có thể ứng dụng vào xây dựng các hệ thống phân tích dữ
liệu, hệ thống lắng nghe mạng xã hội (Social Listening), phân tích quan điểm cộng đồng
mạng đối với các ứng dụng di động.

10
Đề cương chi tiết Luận văn thạc sĩ
CHƯƠNG 2 Tổng quan các nghiên cứu liên quan
2.1 Xử lý ngôn ngữ tự nhiên (NLP)
Ngôn ngữ tự nhiên là định nghĩa dùng để đặt cho ngôn ngữ giao tiếp giữa con người với
nhau, giúp phân biệt giữa ngôn ngữ con người và các loại ngôn ngữ khác như ngôn ngữ
lập trình để chạy các câu lệnh máy tính hay ngôn ngữ giao tiếp của các loài động vật khác
trong tự nhiên.

Với sự phát triển của khoa học máy tính và trí tuệ nhân tạo AI, con người đã có thể tạo ra
những cách thức để máy tính có khả năng tiếp nhận, hiểu và xử lý ngôn ngữ của con
người. Xử lý ngôn ngữ tự nhiên - NLP liên quan đến việc làm cho máy tính có thể hiểu,
xử lý một cách tự động dựa trên cách ngôn ngữ của con người được biểu diễn và tổ chức.
NLP kết hợp nhiều phương pháp mô hình hóa, tính toán trên nền tảng ngôn ngữ học
thông qua các mô hình thống kê, machine learning, deep learning, nghiên cứu cách con
người xác định từ, phân tích câu, học một ngôn ngữ, và cách ngôn ngữ tiến hóa.

Ngôn ngữ của con người chứa đầy những ý nghĩa khác nhau, mơ hồ, phức tạp. Ngoài
những đoạn văn đơn thuần còn lồng ghép các câu thành ngữ tục ngữ, phép ẩn dụ, từ đồng
âm, phép nhân hóa hay mỉa mai châm chọc, v.v Điều đó gây cản trở vô cùng khó khăn
cho các phần mềm xác định chính xác ý nghĩa của dữ liệu văn bản hay giọng nói. Vì vậy
NLP có rất nhiều tác vụ xử lý khác nhau, nhưng với cùng một phương thức tổng quát
chung là chia nhỏ dữ liệu theo cách máy tính có thể hiểu được.

Có hai loại phân tích chính của NLP là phân tích cú pháp (Syntactic analysis) và phân
tích ngữ nghĩa (Semantic analysis). Phân tích cú pháp được hiểu như là xác định cấu trúc
của văn bản và các mối liên hệ phụ thuộc giữa các từ, được đại diện bằng sơ đồ cây cấu
trúc (parse tree). Phân tích ngữ nghĩa là tập trung giải nghĩa của ngôn ngữ. Vì ngôn ngữ
có ý nghĩa linh động không rõ ràng, nên phân tích ngữ nghĩa là một trong những lĩnh vực
thách thức nhất trong phân tích ngôn ngữ tự nhiên. Ngoài ra còn có những phân tích khác
về hình thái học, diễn ngôn, thực chứng và tri thức thế giới.

11
Đề cương chi tiết Luận văn thạc sĩ
2.2 Tổng quan về phân tích quan điểm (Sentiment Analysis)
Trong những năm gần đây, các ứng dụng của phân tích cảm xúc đã lan rộng đến hầu hết
mọi lĩnh vực, từ sản phẩm tiêu dùng, chăm sóc sức khỏe, du lịch, khách sạn và dịch vụ tài
chính đến các sự kiện xã hội và bầu cử chính trị.

Một số nhà nghiên cứu đã sử dụng phân loại cảm xúc để dự đoán thành công của bộ phim
và doanh thu phòng vé. Mishne và Glance (2006) đã chỉ ra rằng cảm xúc tích cực là một
yếu tố dự báo thành công của bộ phim tốt hơn so với số lượng từ khóa được nhắc đến.
Sadikov và cộng sự (2009) đã đưa ra dự đoán tương tự bằng cách sử dụng cảm xúc và các
đặc trưng khác. Liu và cộng sự (2007) đã báo cáo một mô hình cảm xúc để phân bổ trước
doanh thu phòng vé. Phương pháp này bao gồm hai bước. Bước đầu tiên xây dựng một
mô hình chủ đề dựa trên phân tích ngữ nghĩa tiềm ẩn theo xác suất (PLSA) (Hofmann,
1999) chỉ sử dụng các từ cảm xúc trong một tập hợp các bài phê bình phim. Các từ cảm
xúc, còn được gọi là các từ quan điểm, là các từ trong ngôn ngữ chỉ trạng thái mong
muốn hoặc không mong muốn. Ví dụ, tốt, tuyệt vời và đẹp đẽ là những từ tình cảm tích
cực, và xấu, khủng khiếp và đáng sợ là những từ cảm xúc tiêu cực. Bước thứ hai xây
dựng một mô hình tự hồi quy sử dụng cả doanh thu và chủ đề cảm xúc trong vài ngày qua
để dự đoán doanh thu trong tương lai.

Một số nhà nghiên cứu cũng đã phân tích cảm xúc của ý kiến công chúng trong bối cảnh
chính trị bầu cử. Ví dụ, với O’Connor và cộng sự (2010), một điểm số cảm xúc được tính
toán đơn giản dựa trên việc đếm các từ cảm xúc tích cực và tiêu cực, được chứng minh là
có mối tương quan tốt với sự chấp thuận của tổng thống, các cuộc thăm dò bầu cử chính
trị và khảo sát lòng tin của người tiêu dùng.

Một lĩnh vực ứng dụng phổ biến khác là dự đoán thị trường chứng khoán. Das và Chen
(2007) xác định ý kiến từ các bài đăng trên bảng tin bằng cách phân loại mỗi bài đăng
thành một trong ba loại cảm xúc: tăng giá (lạc quan), giảm giá (bi quan), hoặc trung tính
(không tăng cũng không giảm).

12
Đề cương chi tiết Luận văn thạc sĩ
Ngoài nghiên cứu trong ba hướng ứng dụng phổ biến trên, nhiều bài báo cũng đã được
xuất bản về việc sử dụng phân tích cảm xúc để nghiên cứu các hướng ứng dụng khác. Ví
dụ, với McGlohon và cộng sự (2010), đánh giá sản phẩm được sử dụng để xếp hạng sản
phẩm và người bán. Với Hong và Skiena (2010), mối quan hệ giữa đường dây cá cược
của Liên đoàn bóng đá quốc gia và ý kiến của công chúng trên blog và trên Twitter đã
được nghiên cứu. Trong Groh và Hauffa (2011), phân tích tình cảm được sử dụng để mô
tả các mối quan hệ xã hội và ở Sakunkoo và Sakunkoo (2009), ảnh hưởng xã hội trong
các bài phê bình sách trực tuyến đã được nghiên cứu. Chirag Sangani và cộng sự (2017)
thực hiện phân loại cảm xúc từ các bình luận cho các ứng dụng trên cửa hàng Google
Play để xếp hạng các ứng dụng. Dany Pratmanto và cộng sự (2020) cũng đã nghiên cứu
về các bình luận về ứng dụng Shopee sử dụng thuật toán Naïve Bayes đánh giá quan
điểm của người dùng.

Tuy nhiên, phương pháp phân tích này có hạn chế rất lớn đối với những bình luận, đánh
giá chứa nhiều nội dung khác nhau và với mỗi nội dung người bình luận có thái độ trái
ngược nhau. Ngoài ra, kết quả của phương pháp này chỉ đơn giản là cảm xúc của người
bình luận nhưng lại không làm rõ được khía cạnh nào đang được nhắc đến.

2.3 Tổng quan về trích xuất khía cạnh (Aspect Extraction)


Trích xuất khía cạnh được chia thành hai nhóm là học có giám sát và học không giám sát.
Học có giám sát được phân loại dựa trên từ điển (dictionary based), dựa trên tần suất từ
(frequence based), mạng nơron thần kinh (NN), trường ngẫu nhiên có điều kiện (CRF)
(Lafferty và cộng sự, 2001), máy véc-tơ hỗ trợ (SVM), phân bố dirichlet ẩn (LDA) (Blei
và cộng sự, 2003). Học không giám sát được phân loại thành dựa trên cú pháp (syntax
based).

Ví dụ: trong câu “Chất lượng giọng nói của điện thoại này thật tuyệt vời” chúng ta nên
trích xuất chất lượng giọng nói như một khía cạnh của đối tượng - ở đây là điện thoại
này. Mỗi khía cạnh phải gắn với đối tượng mà nó thuộc về; nếu không, khía cạnh không
có ý nghĩa. Do đó trích xuất khía cạnh bao gồm việc trích xuất đối tượng. Lưu ý rằng
điện thoại này ở đây không cho biết khía cạnh CHUNG vì đánh giá không phải về điện
13
Đề cương chi tiết Luận văn thạc sĩ
thoại nói chung mà về chất lượng giọng nói của nó. Câu "Tôi yêu chiếc điện thoại này"
đánh giá toàn bộ điện thoại, nghĩa là, khía cạnh được trích xuất sẽ là CHUNG của điện
thoại.

Máy véc-tơ hỗ trợ (SVM) là thuật toán mà đầu ra một siêu phẳng tối ưu phân loại dữ liệu
thành hai lớp. Siêu phẳng này có thể được sử dụng để phân loại dữ liệu mới. (Falk và
cộng sự, 2016) đã mô tả những thách thức để tìm ra khía cạnh lĩnh vực cụ thể trong câu.
Bằng cách tập trung vào việc xác định khía cạnh lĩnh vực cụ thể bằng cách sử dụng mối
quan hệ phụ thuộc ngữ pháp của các vectơ từ để phân loại từng từ trong một câu thành
mục tiêu hoặc không mục tiêu.

Dựa trên tần suất (Frequency based) giả định rằng những từ khía cạnh có tần suất xuất
hiện càng cao thì càng quan trọng. (Islam và cộng sự, 2016) đã trích xuất các tính năng
bằng cách đề xuất một tiêu chí cho kỹ thuật liên quan cho lĩnh vực nội tại và bên ngoài.
Tác giả đã đề xuất một phương pháp được gọi là Intrinsic and Extrinsic Domain
Relevance (IEDR) (Hai và cộng sự, 2014), tạm dịch là phương pháp “Mối liên quan giữa
lĩnh vực nội tại và bên ngoài”. Nghiên cứu chỉ ra rằng hầu hết các khía cạnh là lĩnh vực
cụ thể và hiếm được tìm thấy trong các lĩnh vực khác. Vì thế dựa trên quy tắc cú pháp
này có thể ứng dụng cho việc trích xuất khía cạnh.

Mạng thần kinh tích chập (CNN) mô phỏng một mạng tương tự như nhóm tế bào thần
kinh liên kết với nhau trong não, mạng thần kinh tích chập là một lớp của các mạng lưới
thần kinh sâu và mạng thần kinh truyền thẳng (feed-forward neural network) áp dụng cho
một hoạt động tích chập tới đầu vào. (Poria và cộng sự, 2016) đã sử dụng CNN và phân
loại có giám sát phi tuyến để trích xuất khía cạnh.

Trường ngẫu nhiên có điều kiện (CRF). CRF một phương pháp mô hình thống kê được
sử dụng cho dự đoán có cấu trúc, nó có thể giải thích theo bối cảnh. (Gunes, 2016) đề
xuất một kỹ thuật để trích xuất các thuật ngữ khía cạnh từ các tài liệu có quan điểm bằng
cách sử dụng cách tiếp cận học tuần tự (sequential learning).

14
Đề cương chi tiết Luận văn thạc sĩ
Khai phá dữ liệu (Data mining) (Mars & Gouider, 2017) đã sử dụng các kỹ thuật phân
tích văn bản để trích xuất tính năng sản phẩm, ý kiến từ đánh giá của khách hàng trên
mạng xã hội. Tác giả đã xây dựng một cây các từ tiêu cực và tích cực và sau đó thiết kế
bản thể học (ontology) đại diện cho sản phẩm.

Phân bố dirichlet tiềm ẩn (LDA). LDA (Blei và cộng sự, 2003) cho phép một tập hợp dữ
liệu được giải thích bởi bộ dữ liệu không quan sát được trước đó giúp giải thích lý do dữ
liệu tương tự. (Asnani & Pawar, 2017) tăng cường LDA bằng cách cải thiện mối liên
quan của các cụm khía cạnh bằng cách bao gồm các cụm từ không quan trọng và bao
gồm các từ mạch lạc để xử lý dữ liệu mã hỗn hợp nhằm tạo ra các cụm chủ đề có liên
quan về mặt ngữ nghĩa với nhau.

Dựa trên cú pháp (syntax method). (Zhu và cộng sự, 2009) đã giải quyết vấn đề bằng
cách xác định nhiều khía cạnh đơn và phân cực đơn trong một câu, được gọi là phân khúc
câu dựa trên khía cạnh. Các tác giả đã đề xuất hai phương pháp cơ sở là phương pháp dựa
trên dấu phẩy và phương pháp dựa trên dấu chấm câu, ứng dụng kỹ thuật học không giám
sát.

Tương tự với phương pháp phân tích cảm xúc, phương pháp trích xuất khía cạnh cũng có
những mặt hạn chế. Chẳng hạn, phương pháp này chỉ phát hiện ra khía cạnh được nhắc
đến trong bình luận nhưng lại không thu được thông tin về thái độ của người bình luận
đối với khía cạnh đó.

2.4 Tổng quan về phân tích cảm xúc theo khía cạnh (Aspect-based Sentiment
Analysis)
Vì vậy, phương pháp kết hợp trích xuất khía cạnh và phân loại cảm xúc cho từng khía
cạnh đó mang lại hiệu quả tối ưu hơn hai phương pháp đã đề cập trước đó.

Trong lĩnh vực Xử lý ngôn ngữ tự nhiên, bài toán phân tích cảm xúc theo khía cạnh
(ABSA) lần đầu tiên được đề xuất tại SemEval-2014 Task 4 [8] bởi Pontiki và cộng sự.
Sau đó, nhiều cuộc thi lớn về kỹ thuật này đã được tổ chức và đạt kết quả nổi bật như
SemEval 2015 task 12 [7], SemEval 2016 task 5 [6]. Ngoài ra, với sự xuất hiện của các

15
Đề cương chi tiết Luận văn thạc sĩ
mô hình ngôn ngữ lớn, mạnh mẽ như BERT [1], các bài toán Xử lý ngôn ngữ tự nhiên đã
có những bước tiến dài.

16
Đề cương chi tiết Luận văn thạc sĩ
CHƯƠNG 3 Cơ sở lý thuyết
3.1 Xu hướng sử dụng và mức độ hài lòng về ứng dụng thanh toán trực tuyến
Kết quả khảo sát Thực trạng thanh toán không dùng tiền mặt tại 6 quốc gia ASEAN (gồm
Singapore, Thái Lan, Malaysia, Indonesia, Campuchia và Việt Nam) do IDG ASEAN
thực hiện cho thấy, tỷ lệ thanh toán qua thẻ (thẻ tín dụng / thẻ ghi nợ) chiếm 38%. Tổng
lượng giao dịch, qua ngân hàng di động chiếm 30% và qua ví điện tử chiếm 28,4%.
Trung bình, tỷ lệ giao dịch thanh toán không dùng tiền mặt ở 6 nước ASEAN là 36% và
64% là tiền mặt. Việt Nam có tỷ lệ thanh toán bằng tiền mặt là 79% và thanh toán không
dùng tiền mặt là 21%, đứng thứ 5/6 trong khu vực. (Hoang Ha, 2020)

Tại Việt Nam, thanh toán không dùng tiền mặt không chỉ là một phương thức thanh toán
mới trong tiêu dùng mà còn là một trong những các chủ đề nghiên cứu được quan tâm
gần đây. Cụ thể, thanh toán bằng thẻ tín dụng (Nguyen & Cassidy, 2018) hoặc thanh toán
bằng thẻ ngân hàng (Nguyễn & Quân, 2013), ví điện tử (Phan & Hồ, 2020) hoặc ngân
hàng di động (Tran và cộng sự, 2020) tập trung vào phân tích các đặc điểm nhân khẩu
học và chi phí phát sinh khi sử dụng không dùng tiền mặt để thanh toán ảnh hưởng đến
quyết định sử dụng phương pháp thanh toán không dùng tiền mặt. Thật vậy, thanh toán
không dùng tiền mặt là một trong những mục tiêu của Ngân hàng Nhà nước Việt Nam
trong việc giảm tỷ trọng tiền mặt trong lưu thông để tốt hơn quản lý (Ha, 2020), từ đó
khuyến khích các giải pháp thúc đẩy sự phát triển của hình thức thanh toán. (Chi. H.P Ho
và cộng sự, 2022)

Vì vậy mà ngày càng có nhiều ứng dụng cung cấp các giải pháp thanh toán trực tuyến ra
đời ở Việt Nam, tiên phong là ví điện tử MoMo. Các nhà cung cấp ứng dụng thanh toán
di động phải tập trung vào việc giữ chân khách hàng hiện tại và tạo ra sự khác biệt trong
lợi thế cạnh tranh để người dùng duy trì việc sử dụng thường xuyên, hạn chế tối đa
trường hợp người dùng chuyển sang các ứng dụng thay thế khác.

Sự thành công của bất kỳ công nghệ mới nào phụ thuộc nhiều vào ấn tượng, quan điểm
và sự hài lòng của người dùng trên mỗi lượt nghe hay tương tác đối với các ứng dụng.

17
Đề cương chi tiết Luận văn thạc sĩ
(Oliver 1994; Sun et al. 2009) Dahlberg và cộng sự (2008) cũng chỉ ra rằng việc chấp
nhận giao dịch trực tuyến chịu sự chi phối bởi sự hài lòng và sự lựa chọn của khách hàng
về phương thức giao dịch. Các biến nhận thức và biến hài lòng có ảnh hưởng đáng kể đến
việc người tiêu dùng sử dụng các ứng dụng thanh toán trực tuyến. (Alaa Mahdi Sahi và
cộng sự, 2021)

Do đó, việc xây dựng lòng tin, thúc đẩy thói quen thanh toán điện tử chỉ có thể thực hiện
được khi người dùng hài lòng và có kỳ vọng tích cực. Mức độ hài lòng của khách hàng là
quan trọng trong việc quyết định khách hàng có bắt đầu và tiếp tục sử dụng ứng dụng
thanh toán trực tuyến hay không. Sự hài lòng của người dùng là tổng hợp những cảm xúc
chủ quan mà người tiêu dùng có được khi có sự tương tác giữa họ với nhà cung cấp dịch
vụ thông qua ứng dụng. Các nghiên cứu trước đây đã xác định rằng các yếu tố chi phí,
tính hữu ích, sự tin tưởng, ảnh hưởng xã hội, uy tín, quyền riêng tư thông tin và khả năng
đáp ứng,… là điều cần thiết để tăng sự hài lòng của người dùng đối với các dịch vụ thanh
toán di động.

18
Đề cương chi tiết Luận văn thạc sĩ
What Affects Usage Satisfaction in Mobile Payments? Modelling User Generated Content to Develop the
“Digital Service Usage Satisfaction Model”

3.2 Các chỉ số đánh giá mô hình


Ma trận nhầm lẫn (Confusion Matrix)

Một bảng ma trận vuông với N chiều (N là số class), biểu diễn hiệu suất của mô hình dự
đoán, cho biết thông tin thống kê về số lượng trường hợp dự đoán đúng và dự đoán sai.
Có bốn thuật ngữ được sử dụng trong bảng Confusion matrix:

- True Positive: số trường hợp dự đoán đúng và thực tế là đúng


- True Negative: số trường hợp dự đoán là sai và thực tế là sai
- False Positive: số trường hợp dự đoán là đúng nhưng thực tế là sai

19
Đề cương chi tiết Luận văn thạc sĩ
- False Negative: số trường hợp dự đoán là sai nhưng thực tế là đúng

Độ chính xác (Accuracy)

Chỉ số đo lường tỉ lệ giữa số trường hợp được dự đoán đúng so với tất cả các dự đoán.

Accuracy = (TP + TN) / (TP + TN + FP + FN)

Độ dự đoán (Precision)

Chỉ số đánh giá mức độ dự đoán đúng của mô hình. Chỉ số này được tính bằng tỷ lệ giữa
số trường hợp dự đoán là đúng và kết quả thực sự là đúng với tổng số trường hợp mà mô
hình dự đoán là đúng.

Precision = TP/ (TP + FP)

Độ bao phủ (Recall)

Tỷ lệ trường hợp mà mô hình dự đoán là đúng, trên tổng số trường hợp thực sự là đúng.

Recall = TP/ (TP + FN)

Giá trị trung bình điều hòa (F1-score)

Chỉ số là sự kết hợp giữa hai chỉ số Precision và Recall. Chỉ số này được tính theo công
thức sau:

F1-score = 2 * ((Precision * Recall) / (Precision + Recall))

ROC/ AUC

Chỉ số này là công cụ dùng để dự đoán xác suất của phân loại nhị phân, nó thể hiện sự
cân bằng giữa tỷ lệ đúng thật và tỷ lệ đúng giả đối với mô hình dự đoán. Từ đây, đường

20
Đề cương chi tiết Luận văn thạc sĩ
cong ROC là tỷ lệ đúng giả (trục x) so với tỷ lệ đúng thật (trục y) cho một số giá trị trong
khoảng từ 0 đến 1.

3.3 Kỹ thuật trích xuất khía cạnh TF-IDF


Đây là một thước đo, được sử dụng trong các lĩnh vực truy xuất thông tin (IR) và học
máy, có thể định lượng tầm quan trọng hoặc mức độ liên quan của các chuỗi (từ, cụm từ,
bổ đề, v.v.) trong một tài liệu giữa một tập hợp các tài liệu.

TF-IDF hoặc tần số từ - nghịch đảo tần số từ trong tài liệu, ước lượng độ quan trọng so
với toàn bộ kho tài liệu (tập hợp nhiều tài liệu hơn) của một từ trong tài liệu. Mục đích
trọng số TF-IDF là để đánh giá tầm quan trọng của một từ trong một tài liệu từ một bộ
sưu tập các từ, đánh giá trong một tài liệu và cả giữa những tài liệu. Tầm quan trọng của
một từ tỷ lệ thuận với số lần nó xuất hiện trong một tài liệu.

TF-IDF được xây dựng trên ý tưởng là những từ xuất hiện nhiều hơn các từ khác trong tài
liệu không hẳn là quan trọng nhất. Thuật toán này ưu tiên các từ thường hiện diện trong
tài liệu văn bản này và không thường xuất hiện trong các tài liệu khác. “Độ quan trọng
của một từ có thể tăng lên cùng với số lần xuất hiện của nó trong tài liệu và sẽ giảm
xuống nếu từ đó xuất hiện trong nhiều tài liệu khác.”, chính là nguyên lý của TF-IDF. Lý
do là vì nếu một từ có ở nhiều văn bản khác nhau, có thể hiểu đó là từ rất thông dụng, do
đó khả năng đó là từ khóa sẽ thấp hơn, chẳng hạn ‘nhưng’, ‘và’, ‘tuy nhiên’,… là những
từ không có giá trị nội dung.

TF-IDF là tích của tần suất xuất hiện của từ và nghịch đảo tần suất của văn bản. Có nhiều
cách khác nhau để xác định giá trị chính xác của cả hai yếu tố này.

TF: tần suất xuất hiện của từ (Term Frequency) là số lần từ xuất hiện trong văn bản. Từ
tần suất này chúng ta có thể nhận ra được từ ngữ nào được lặp lại nhiều lần trong văn
bản, và có thể đó là một trong những từ quan trọng của văn bản.

TF = Ns(t) / Σw

21
Đề cương chi tiết Luận văn thạc sĩ
IDF: nghịch đảo tần suất của văn bản (Inverse Document Frequency), thể hiện sự quan
trọng của một từ trong văn bản. Khi tính toán TF, tất cả các từ được coi như có độ quan
trọng bằng nhau. Vì vậy, chúng ta cần giảm độ quan trọng của những từ phổ biến (như
liên từ, từ cảm thán,…) xuống để loại bỏ chúng và xác định được chính xác từ quan trọng
của văn bản.

IDF = log( Σd/ (d: t ∈ d ))

Độ đo sự quan trọng của một từ trong tài liệu f sẽ được tính:

TF-IDF (t,d) = TF(t, d) x IDF(t)

Trong đó: Ns(t) là số lần xuất hiện của từ t trong tài liệu f. Σw là tổng số các từ trong tài
liệu f. Σd là tổng số tài liệu. d: t ∈ d là số tài liệu có chứa t.

Ưu điểm của TF-IDF là nhanh. TF-IDF không phụ thuộc vào ngôn ngữ. Tuy nhiên
phương pháp này cần một kho tài liệu lớn. TF-IDF còn gặp phải những nhược điểm như
nếu một từ xảy ra nhiều lần trong một đoạn văn nhưng không phải trong tài liệu tổng thể
TF-IDF sẽ không coi từ này là từ khóa vì nó thấp tần suất liên quan đến tài liệu tổng thể.
Những từ như vậy có thể đại diện cho một bối cảnh quan trọng của tài liệu.

3.4 Kỹ thuật gán nhãn từ loại POS


Part-of-speech tagging hay còn gọi là gán nhãn từ loại là một quy trình xử lý ngôn ngữ tự
nhiên phổ biến đề cập đến việc phân loại các từ trong một văn bản tương ứng với một
phần cụ thể của lời nói, tùy thuộc vào định nghĩa của từ và bối cảnh của văn bản. Tức là
mối liên hệ các từ liền kề và liên quan trong một cụm từ, câu hoặc đoạn.

Nhãn Mô tả Ví dụ
A Tính từ Tốt, nhanh, tiện, dễ,…
C Liên từ Thì, và, nhưng, hay, như,…
E Giới từ Vì, của, đến, từ,…
I Từ cảm thán Ôi, thay, biết bao,…
L Từ hạn định Các, những, mọi, vài,…

22
Đề cương chi tiết Luận văn thạc sĩ
M Số từ Một, hai, trăm, nghìn,…
N Danh từ thường Ứng dụng, giao dịch,…
Nc Danh từ chỉ loại Cái,
Ny Danh từ viết tắt Gd (giao dịch), …
Np Danh từ riêng
Nu Danh từ chỉ đơn vị đo lường
P Đại từ Tôi, chúng ta, nó, ai, mày,

R Phụ từ Rất, quá, lại, cũng, còn,…
S Liên từ phụ thuộc Trong khi, trước khi, sau
khi, mỗi khi,…
T Trợ từ Cả, những, cái, thì, mà,
là…
V Động từ Muốn, xài, …
X Tổ hợp từ không thể xác định
F Dấu câu .,;!?

23
Đề cương chi tiết Luận văn thạc sĩ
CHƯƠNG 4 Mô hình nghiên cứu đề xuất và phương pháp thực
nghiệm
4.1 Mô hình nghiên cứu
Mô hình nghiên cứu đề xuất

4.2 Thu thập dữ liệu


Với mục tiêu trích xuất khía cạnh và khai phá ý kiến khách hàng trực tuyến dựa vào các
đoạn văn bản mà họ bình luận. Dữ liệu sử dụng trong luận văn này là dữ liệu công khai
được thu thập từ ứng dụng ví điện tử MoMo trên Google Play và Apple Store. Để thu
thập dữ liệu, trước tiên sử dụng thư viện “google_play_scraper” và “app_store_scraper”
trên python để truy cập vào API của website Google play store và thu thập tự động các
đoạn văn bản bình luận của khách hàng. Với đối tượng và phạm vi nghiên cứu hướng đến
là khai phá ý kiến khách hàng được viết bằng ngôn ngữ tiếng Việt, do đó dữ liệu chỉ sử
dụng những ý kiến nhận xét, đánh giá của khách hàng về ứng dụng bằng ngôn ngữ và
lãnh thổ tương ứng. Dữ liệu thu được bao gồm 73590 bình luận, phản hồi của khách hàng
trong giai đoạn từ 01/2021 đến 07/2022 với các trường thông tin như sau:

 review_id: mã bình luận


 date: ngày bình luận
 title: tiêu đề bình luận
 market_code: cửa hàng ứng dụng
 version: phiên bản ứng dụng
 text: bình luận dạng văn bản

24
Đề cương chi tiết Luận văn thạc sĩ
 rating: đánh giá 1-5
 language: ngôn ngữ bình luận

4.3 Tiền xử lý dữ liệu và gán nhãn


Dữ liệu sẽ được gán các cặp nhãn thực thể (E) và thuộc tính (A)
Về thực thể

- App: nhắc đến hoạt động của ứng dụng


- Feature: nhắc đến giao dịch, tính năng, sản phẩm của MoMo
- Promotion: nhắc đến các mã giảm giá, chương trình khuyến mại
- Help: nhắc đến vấn đề chăm sóc khách hàng

Về thuộc tính

- General: nhắc đến ứng dụng nói chung, không rõ ràng chủ thể
- Options: nhắc đến các sự lựa chọn
- Quality: nhắc đến chất lượng
- Display: nhắc đến giao diện, thao tác trên ứng dụng

Mỗi thực thể sẽ có những thuộc tính như trong bảng bên dưới
E#A General Options Quality Display
App x x x
Feature x x x x
Promotion x x x
Help x x

4.4 Tách từ và đưa vào mô hình PhoBERT


4.5 Mô hình đa nhiệm vụ trích xuất khía cạnh và phân tích cảm xúc

25
Đề cương chi tiết Luận văn thạc sĩ
CHƯƠNG 5 Đánh giá kết quả thực nghiệm và thảo luận
5.1 Đánh giá kết quả thực nghiệm và lựa chọn mô hình
5.2 Trực quan hóa và phân tích kết quả thực nghiệm
5.3 Thảo luận kết quả và khuyến nghị

26
Đề cương chi tiết Luận văn thạc sĩ
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

27
Đề cương chi tiết Luận văn thạc sĩ
TÀI LIỆU THAM KHẢO
PwC, 2021, Payments 2025 & beyond: Evolution to Revolution - Six macro trends
shaping the future of payments in Vietnam

Tiahn Wetzler, 2022, Siêu ứng dụng và sự dịch chuyển trong ngành mobile marketing

Hoang Ha, 2020, The careless economy in Vietnam – the situation and policy
implications

Chi H.P Ho, Kiet Tuan Nguyen và Tu D Quach, 2022, Factors Affecting the Choice of
Cashless Payment in Vietnam

Alaa Mahdi Sahi, Haliyana Khalid, Alhamzah F. Abbas và Saleh F. A. Khatib, 2021, The
Evolving Research of Customer Adoption of Digital Payment: Learning from Content
and Statistical Analysis of the Literature

AppDynamics Team, 2019, The App Attention Index 2019: The Era of the Digital Reflex

Sakshi Ranjan và Subhankar Mishra, 2020, Comparative Sentiment Analysis of App


Reviews

Dany Pratmanto, 2020, App Review Sentiment Analysis Shopee Application In Google
Play Store Using Naive Bayes Algorithm

Sebastian Ruder, Parsa Ghaffari và John G. Breslin, 2016, A Hierarchical Model of


Reviews for Aspect-based Sentiment Analysis

Mishne, Gilad và Natalie Glance, 2006, Predicting Movie Sales from Blogger Sentiment.
In Proceedings of AAAI Spring Symposium on Computational Approaches to Analysing
Weblogs.

Sadikov, Eldar, Aditya Parameswaran, và Petros Venetis, 2009, Blogs as Predictors of


Movie Success. In Proceedings of the Third International Conference on Weblogs and
Social Media (ICWSM 2009).

28
Đề cương chi tiết Luận văn thạc sĩ
Liu, Yang, Xiangji Huang, Aijun An, và Xiaohui Yu, 2007, Arsa: A Sentiment-Aware
Model for Predicting Sales Performance Using Blogs. In Proceedings of ACM SIGIR
Conference on Research and Development in Information Retrieval (SIGIR-2007).

Hofmann và Thomas, 1999, Probabilistic Latent Semantic Indexing. In Proceedings of


Conference on Uncertainty in Artificial Intelligence (UAI-1999).

O’Connor, Brendan, Ramnath Balasubramanyan, Bryan R. Routledge, và Noah A. Smith,


2010, From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In
Proceedings of the International AAAI Conference on Weblogs and Social Media
(ICWSM 2010).

Das, Sanjiv và Mike Chen, 2007, Yahoo! For Amazon: Sentiment Extraction from Small
Talk on the Web. Management Science, 53(9): 1375–88.

McGlohon, Mary, Natalie Glance, và Zach Reiter, 2010, Star Quality: Aggregating
Reviews to Rank Products and Merchants. In Proceedings of the International
Conference on Weblogs and Social Media (ICWSM-2010).

Hong, Yancheng và Steven Skiena, 2010, The Wisdom of Bookies? Sentiment Analysis
vs. The NFL Point Spread. In Proceedings of the International Conference on Weblogs
and Social Media (ICWSM-2010).

Groh, Georg và Jan Hauffa, 2011, Characterizing Social Relations via NLP-Based
Sentiment Analysis. In Proceedings of the Fifth International AAAI Conference on
Weblogs and Social Media (ICWSM-2011).

Sakunkoo, Patty and Nathan Sakunkoo, 2009, Analysis of Social Influence in Online
Book Reviews. In Proceedings of Third International AAAI Conference on Weblogs and
Social Media (ICWSM-2009).

Ioannis (John) Pavlopoulos, 2014, Aspect-based Sentiment Analysis

Bing Liu, Sentiment Analysis - Mining Opinions, Sentiments, and Emotions

29
Đề cương chi tiết Luận văn thạc sĩ

You might also like