You are on page 1of 10

Đánh giá hiệu suất của ChatGPT trên bài toán

phân tích cảm xúc trên bình luận tiếng Việt⋆

Nguyễn Bá Đại1,2,3[0009−0008−8559−3154] , Nguyễn Tấn


1,2,3[1111−2222−3333−4444]
Dũng , and Đặng Văn Thìn1,3[0000−0001−8340−1405]
1
Trường Đại học Công nghệ Thông tin, Thành phố Hồ Chí Minh, Việt Nam
2
Khoa Khoa học và Kỹ thuật thông tin, Trường Đại học Công nghệ Thông tin,
Thành phố Hồ Chí Minh, Việt Nam
3
Đại học quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh, Việt Nam

Tóm tắt nội dung Gần đây, các nghiên cứu về đánh giá hiệu suất của
mô hình ChatGPT đã thu hút được nhiều sự chú ý của cộng đồng nghiên
cứu trong và ngoài nước về lĩnh vực xử lý ngôn ngữ tự nhiên. Tuy nhiên,
hầu hết các nghiên cứu trước đó thường tập trung vào các ngôn ngữ có
nguồn tài nguyên lớn như tiếng Anh và tiếng Trung, thay vì tập trung
vào các ngôn ngữ có nguồn tài nguyên thấp như tiếng Việt. Do đó, chúng
tôi sẽ nghiên cứu, đánh giá hiệu suất của ChatGPT trong việc phân tích
cảm xúc trong bình luận tiếng Việt. Kết quả thí nghiệm chứng minh
rằng sử dụng truy vấn bằng tiếng Anh sẽ cho hiệu suất tốt hơn so với
truy vấn bằng tiếng Việt. Ngoài ra, thiết kế câu truy vấn theo kỹ thuật
“few-shot” bằng tiếng Anh cho ra kết quả tốt nhất trong tất cả các kỹ
thuật. Bên cạnh đó, mô hình ChatGPT chưa thể phân biệt tốt giữa các
bình luận có cảm xúc “Trung tính” và “Tích cực”, điều này làm nổi bật
sự nhập nhằng trong ngữ nghĩa của tiếng Việt. Đồng thời, nghiên cứu
này cũng đã góp phần đánh giá hiệu suất của mô hình ChatGPT trên
ngôn ngữ ít tài nguyên như tiếng Việt và đưa ra một số kết quả để giúp
nâng cao hiệu quả khi sử dụng ChatGPT cho bài toán phân tích cảm
xúc.

Keywords: ChatGPT · Mô hình ngôn ngữ lớn · Tiếng Việt · Phân tích
cảm xúc.

1 Giới thiệu
Vào cuối năm 2022, sự phát hành của ChatGPT đã gây nên một sự đột phá,
tiếng vang lớn trong ngành công nghệ, làm sáng tỏ tiềm năng phi thường của
các Mô hình Ngôn ngữ Lớn (LLM). Được phát triển bởi OpenAI và xuất hiện
trong [6], ChatGPT đã và đang được sử dụng rộng rãi, đặc biệt là trong các lĩnh
vực nghiên cứu để đánh giá khả năng ứng dụng của nó trong nhiều lĩnh vực khác
nhau, các vấn đề đa dạng liên quan đến ngôn ngữ, tâm lý học, kinh tế, xã hội và
nhiều lĩnh vực khác. Đồng thời, ChatGPT đã tác động mạnh mẽ đến cộng đồng
Xử lý ngôn ngữ tự nhiên, đặc biệt là với ngôn ngữ tiếng Việt, là ngôn ngữ nghèo

Hội nghị khoa học trẻ 2023
2 Nguyễn Bá Đại và đồng tác giả.

tài nguyên. Do đó, nghiên cứu này tập trung đánh giá hiệu suất của ChatGPT
và trong phân tích tình cảm ở ngôn ngữ tiếng Việt. Thông qua các thử nghiệm
nghiêm ngặt và phân tích chuyên sâu, chúng tôi mong muốn rằng mình có thể
mang đến những tri thức, kỹ thuật của ChatGPT cho công việc phân tích cảm
xúc bằng tiếng Việt, từ đó góp phần vào sự tiến bộ của các kỹ thuật phân tích
tình cảm trong ngữ cảnh Việt Nam.
Cấu trúc bài báo được trình bày như sau: Phần 2 trình bày các công trình
nghiên cứu liên quan trực tiếp đến nội dung nghiên cứu. Phương pháp tiếp cận
bao gồm cách thiết kế thí nghiệm, thiết kế lời nhắc và câu truy vấn khi sử dụng
ChatGPT được trình bày ở Phần 3. Phần 4 trình bày chi tiết cách cài đặt thí
nghiệm và Kết quả thí nghiệm được trình bày ở Phần 5 của bài báo. Cuối cùng
là Phần kết luận trình bày đóng góp của bài báo.

2 Công trình nghiên cứu liên quan

Trong những năm gần đây, sự phát triển của các mô hình ngôn ngữ lớn như
ChatGPT, Bing, Bard, v.v. đã thúc đẩy nhiều nhóm nghiên cứu tham gia khảo
sát và đánh giá hiệu quả của các mô hình trên. Tương đồng với nghiên cứu của
chúng tôi, Tác giả Feine và cộng sự (2019) [5] đã nghiên cứu được bước ngoặt
trong lĩnh vực phân tích tình cảm bằng chatbot, họ đã kết luận rằng điểm cảm
xúc có thể được sử dụng như một chỉ số tự động và khách quan để đo Độ hài
lòng của Khách hàng trong tương tác dịch vụ trực tuyến.
Vào năm 2022, Haque và đồng nghiệp [2], đã tiến hành phân tích cảm xúc ở
hai nhãn là Tiêu cực và Tích cưc. Họ sử dụng bộ dữ liệu bao gồm 55.000 tweet
liên quan đến ChatGPT. Nghiên cứu này góp phần làm sáng tỏ các ứng dụng
thực tế của ChatGPT. Cùng năm đó, Nicolescu và Tudorache [8] đã nghiên cứu
nhiều khía cạnh khác nhau của chatbot. Các tác giả đã phân loại chúng về các
loại như sau: chức năng, tính hệ thống, và tính cá nhân hoá. Việc này giúp chúng
ta có cái nhìn sâu hơn vào tâm lý người dùng trong thời đại bùng nổ của công
nghệ thông tin. Gần đây, nhóm nghiên cứu của tác giả Heumann [7] đã khảo
sát khả năng của ChatGPT trong việc phục vụ nhu cầu của con người ở nhiều
lĩnh vực đa dạng như giáo dục, xã hội, y tế và nghiên cứu. Từ đó, họ tìm ra
tiềm năng to lớn của ChatGPT trong việc hỗ trợ phân tích dữ liệu trên nhiều
nền tảng. Cũng năm 2023, De Angelis và nhóm nghiên cứu [1] đã chỉ ra rằng,
khi tích hợp tâm lý của con người vào chat bot thì ta phải sử dụng một bộ dữ
liệu với độ chính xác cao cũng như xem xét kỹ các tiêu chuẩn đạo đức. Ngoài
ra, tác giả Teo Susnjak [9] đã tiến hành một cuộc khảo sát phân tích cảm xúc
trên dữ liệu bệnh lý bằng ChatGPT và mô hình BERT [4], góp phần làm phong
phú thêm các cuộc thảo luận xoay quanh các công cụ trí tuệ nhân tạo.

3 Phương pháp tiếp cận

Lấy các nghiên cứu liên quan trên làm nền tảng, chúng tôi quyết định sẽ áp
dụng các kỹ thuật truy vấn như Zero-shot [10], Few-shot [3], Chain-of-thought
Title Suppressed Due to Excessive Length 3

Hình 1: Truy vấn cho kỹ thuật Zero-shot.

(CoT) [11] cho ChatGPT ở bài toán phân tích cảm xúc tiếng Việt. Chi tiết các
kỹ thuật như được liệt kê dưới đây:

3.1 Zero-shot
Trong lĩnh vực xử lý ngôn ngữ tự nhiên thì Zero-shot là một kỹ thuật cung cấp
truy cấp không tồn tại trong bộ dữ liệu huấn luyện mô hình, nhưng vẫn có thể
nhận về kết quả mong muốn. Chính vì thế, kỹ thuật này có thể giúp ta đánh giá
khách quan ChatGPT trong việc phân tích cảm xúc tiếng Việt khi chỉ sử dụng
duy nhất kiến thức sẵn có của ChatGPT nói riêng cũng như các bài toán khác
nói chung.
Như ở Hình 1, trong truy vấn, chúng tôi đã nêu rõ vai trò, chỉ thị cũng như
hướng dẫn chi tiết bài toán, đồng thời cũng như định dạng đầu ra của mô hình.
Điều này giúp mô hình định hướng, cũng như hiểu rõ hơn truy vấn bài toán, từ
đó mà đưa ra được kết quả tốt hơn.

3.2 Few-shot
Với Zero-shot thì ta cần một truy vấn chi tiết, phức tạp để mô hình có thể hiểu
rõ truy vấn. Tuy nhiên, với kỹ thuật Few-shot thì ta chỉ cần cung cấp mẫu thử
cho mô hình mà không cần miêu tả chi tiết truy vấn như ở Zero-shot.
Như Hình 2, đầu tiên chúng tôi cung cấp ví dụ hay là shot, với một ví dụ -
shot bao gồm một cặp 3 nhãn Tiêu cực, Tích cực và Trung lập. Kéo theo đó là
truy vấn cũng như chỉ thị cho mô hình và đồng thời cũng là định dạng đầu ra.

3.3 Chain-of-thought
Kỹ thuật Chain-of-thought (CoT) được giới thiệu lần đầu bởi Wei và đồng nghiệp
vào năm 2022. Kỹ thuật này cho phép mô hình suy nghĩ, suy luận để giải một
bài toán phức tạp theo từng bước đơn giản hơn. Từ đó có thể tạo ra được kết
quả tốt hơn.
4 Nguyễn Bá Đại và đồng tác giả.

Hình 2: Truy vấn cho kỹ thuật Few-shot.

Hình 3: Truy vấn cho kỹ thuật Chain-of-thought.

Hình 3 cho ta thấy rõ hơn về cách chúng tôi thiết kế luồng suy nghĩ cho mô
hình. Đầu tiên là mô hình sẽ liệt kê ra tất cả các từ, câu có mang trạng thái
cảm xúc. Sau đó, mô hình sẽ gán nhãn cho từng từ, câu đó. Cuối cùng là dựa
vào danh sách các nhãn để tổng hợp thành một nhãn cuối. Hơn nữa, chúng tôi
có bổ sung thêm 1-shot cho kỹ thuật này nhằm định hướng mô hình đi đúng
hướng luồng suy nghĩ đã thiết kế. Nhằm đảm bảo tối đa hiệu suất của mô hình.

4 Cài đặt thí nghiệm

4.1 Bộ dữ liệu

Để khảo sát hiệu suất của ChatGPT trong nhiệm vụ phân tích cảm xúc tiếng
Việt, chúng tôi đã trích xuất dữ liệu từ bộ dữ liệu UIT-MultidomainSA, từ đó
thu thập tổng cộng 200 câu. Tập dữ liệu này bao gồm bốn lĩnh vực khác nhau
bao gồm: Thời trang, Balo, Làm đẹp và Trẻ em, mỗi lĩnh vực có ba nhãn lần
lượt là: Tích cực (Positive), Tiêu cực (Negative) và Trung tính (Neutral) được
phân phối theo tỷ lệ 4-4-2, như đã được trình bày rõ trong Bảng 1 và Bảng 2.
Title Suppressed Due to Excessive Length 5

Bảng 2: Số lượng lĩnh vực của bộ dữ liệu.


Bảng 1: Số lượng nhãn dữ liệu.
Tên lĩnh vực Kích thước (mẫu)
Tên nhãn Kích thước (mẫu)
Thời trang 51
Tích cực 80
Balo 50
Tiêu cực 80
Trẻ em 50
Trung tính 40
làm đẹp 49

Thêm nữa là chúng tôi không áp dụng tiền xử lý cho bộ dữ liệu, nhằm đảm bảo
đánh giá chính xác về khả năng xử lý tình huống thực tế của chatGPT.
Sau khi thu thập dữ liệu, chúng tôi tách ra 2-shots hay 6 câu để làm ví dụ
minh họa cho phương pháp Few-shot. Phần còn lại, bao gồm 194 câu, dùng để
kiểm tra và đánh giá hiệu suất của chatGPT. Việc phân tách dữ liệu này cho
phép chúng tôi đánh giá khả năng tổng quát hóa và tạo ra các phản hồi liên
quan ngữ cảnh với hướng dẫn tối thiểu, nhằm phản ánh các tình huống thực tế
trong đó chỉ có một tập hợp hạn chế các ví dụ có thể có sẵn.

4.2 Phương pháp truy vấn


Về mô hình, do các hạn chế tài chính của nhóm nên chúng tôi đã lựa chọn phiên
bản miễn phí của ChatGPT, cụ thể là sử dụng mô hình GPT-3.5 Turbo. Thứ
hai là để ngăn chặn việc ChatGPT nhớ bất kỳ thông tin nào từ các phản hồi
trước, mỗi truy vấn đều được xem xét như một phòng trò chuyện riêng biệt đảm
bảo sự chính xác trong việc khảo sát độ hiệu quả của ChatGPT.

5 Kết quả thí nghiệm


Bảng 3 trình bày kết quả thí nghiệm dựa trên độ đo độ chính xác và chỉ số F1.
Kết quả cho thấy rằng cách tiếp cận với lời nhắc tiếng Anh kết hợp với chiến lược
Few-shot cho kết quả tốt nhất so với các cách tiếp cận còn lại. Cụ thể phương
pháp này đạt kết quả này đạt độ chính xác là 75.00% về độ chính xác, độ đo
micro F1 đạt 71.92% và độ đo F1 trung bình đạt 75.91%.
So sánh kết quả giữa các phương pháp, chúng ta có thể thấy rằng việc sử
dụng những truy vấn bằng tiếng Anh cho ra hiệu suất cao hơn so với việc sử

Bảng 3: Accuracy và F1-score của ChatGPT trong phân tích cảm xúc
Phương pháp Accuracy F1-macro F1-weighted
Zero-shot-en 72.91 70.61 74.14
Zero-shot-vn 69.79 67.31 71.05
Few-shot-en 75.00 71.92 75.91
Few-shot-vn 66.66 65.13 68.71
Chain-of-thought-en 74.48 70.97 74.85
Chain-of-thought-vn 59.37 57.65 60.20
6 Nguyễn Bá Đại và đồng tác giả.

Hình 4: Ma trận nhầm lẫn của các phương pháp

dụng bằng tiếng Việt. Cụ thể, khi sử dụng phương pháp Zero-shot, thì truy vấn
bằng tiếng Anh vượt trội hơn tiếng Việt +3.12%, trong Few-shot là +8.31%, và
trong Chain-of-thought là +15.11%. Điều này cho thấy sự hiệu quả của truy vấn
bằng tiếng Anh vượt trội hơn hẳn so với các ngôn ngữ khác, đặc biệt là tiếng
Việt. Sự chênh lệch này có thể được hiểu răng do chatGPT được huấn luyện chủ
yếu trên dữ liệu tiếng Anh. Từ đo, điểm sẽ càng ít hơn khi ngôn ngữ ít phổ biến
hơn trong tập dữ liệu của chatGPT, và ngược lại. Hơn nữa, kết quả thí nghiệm
cho thấy phương pháp Few-shot-en đạt độ chính xác cao nhất ở mức 75.00%,
vượt trội hơn so với các đối tác trong cùng danh mục Zero-shot-en +2.09% và
Chain-of-thought +0.52%. Ngược lại, trong tiếng Việt, phương pháp Few-shot
lại xếp thứ hai sau phương pháp Zero-shot -3.13% nhưng lại vượt trội hơn so
với phương pháp Chain-of-thought +7.29%.
Thêm nữa, sự chênh lệch này giữa các phương pháp khi sử dụng tiếng Anh
và tiếng Việt là rất đáng kể. Trong tiếng Anh, các phương pháp dao động từ
0.52% đến 2.09%, trong khi ở tiếng Việt, khoảng cách này mở rộng từ 3.13% đến
10.42%. Điều này củng cố giả thuyết trước của chúng tôi rằng truy vấn bằng
tiếng Anh mang lại độ chính xác cao hơn.
Hơn nữa, phương pháp Chain-of-thought-en chỉ đứng sau phương pháp Few-
shot-en một khoảng rất nhỏ là -0.52%, nhưng lại vượt trội hơn phương pháp
Zero-shot-en +1.5%, gần ba lần sự khác biệt. Điều này gợi ý rằng phương pháp
Chain-of-thought có thể tạo ra kết quả chất lượng cao, ngay cả với ít ví dụ hơn
(1-6 tương ứng với Chain-of-thought và Few-shot). Tuy nhiên, ta nên lưu ý rằng
Title Suppressed Due to Excessive Length 7

việc tạo truy vấn cho phương pháp Chain-of-thought sẽ tốn nhiều thời gian hơn
và phức tạp hơn so với Few-shot và Zero-shot.

5.1 Sự phân bố giữa các nhãn

Hình 4 trình bày ma trận nhầm lẫn cho tất cả các phương pháp, ta có thể thấy
rằng chatGPT gặp khó khăn trong việc phân biệt nhãn Trung tính (Neutral)
và thường phân loại sai thành Tích cực (Positive) hoặc Tiêu cực (Negative). Sự
nhầm lẫn có thể dễ hiểu do sự đa dạng về ngữ nghĩa trong tiếng Việt cũng như
mô hình ChatGPT được huấn luyện trên bộ dữ liệu mà tiếng Anh chiếm phần
lớn.
Ta cũng thấy rằng sự phân phối giữa các nhãn là tương đối đồng đều trong
từng phương pháp, với tỷ lệ chính xác tương đồng cho các nhãn Tiêu cực (Neg-
ative) và Tích cực (Positive). Tuy nhiên, trong phương pháp Chain-of-thought
khi sử dụng tiếng Việt, thì đã có sự cải thiện trong nhãn Trung tính (Neutral)
với tỷ lệ 79% vượt trội so với các nhãn khác. Thêm nữa ở các nhãn Tích cực
(Positive) bị gán nhầm sang Trung tính (Neutral) tăng +47%. Điều này gợi
ý rằng trong phương pháp Chain-of-thought sử dụng tiếng Việt, mô hình gặp
khó khăn trong việc phân biệt giữa 2 nhãn Trung tính (Neutral) và Tích cực
(Positive). Tương tự, khi sử dụng phương pháp Few-shot với tiếng Việt, chúng
ta quan sát sự chênh lệch đáng kể trong việc phân loại sai 2 nhãn Trung tính
(Neutral) và Tích cực (Positive), với tỷ lệ gần gấp đôi so với các sự phân loại
sai khác. Nhưng khi sử dụng truy vấn bằng tiếng Anh, các tỷ lệ phân loại sai
này phân bố đều hơn. Điều này làm nổi bật thêm hiệu quả truy vấn bằng tiếng
Việt so với tiếng Anh.
Một điều thú vị là khi Zero-shot với truy vấn bằng tiếng Việt thì không biểu
hiện tương tự. Nguyên nhân là do nó không cung cấp nhiều ví dụ như Few-shot
hoặc không phân tích ngữ nghĩa sâu như phương pháp Chain-of-thought, điều
này khiến cho phương pháp Zero-shot bằng tiếng Việt hoạt động khá giống các
truy vấn bằng tiếng Anh.

5.2 Phân tích lỗi

Ở Ảnh 5, đầu vào 1 cho kết quả dự đoán là Trung tính (Neutral) mặc dù phân
tích là Tiêu cực | Trung tính | Trung tính (Negative | Neutral | Neutral) trong
tiếng Việt. Có thể thấy ChatGPT đang coi các nhãn đều có trọng số như nhau
trong khi đáng lẽ Trung tính (Neutral) phải không có trọng số. Trong khi đó,
đầu vào 2 thể hiện sự đa ngữ nghĩa của tiếng Việt. Với đầu vào như “Quét mã
thì thấy sản phẩm chính hãng” được xếp vào loại Trung tính (Neutral) trong khi
phải là Tích cực (Positive) do “sản phẩm chính hảng” là Tích cực (Positive) tuy
nhiên mô hình lại dự đoán là Trung tính (Neutral) từ đó mà dẫn tới kết quả là
Trung tính (Neutral). Từ những lỗi trên, ta có thể thấy những thách thức trong
việc diễn giải những ý nghĩa tiềm ẩn trong văn bản tiếng Việt và sự phức tạp
trong việc thiết kế truy vấn cho phương pháp Chain-of-thought.
8 Nguyễn Bá Đại và đồng tác giả.

Hình 5: Một số ví dụ sai trong phương pháp Chain-of-thought với truy vấn bằng
tiếng Việt
Title Suppressed Due to Excessive Length 9

6 Kết luận

Tổng kết, nghiên cứu trong bài báo này tập trung đánh giá các chiến lược tạo lời
nhắc, cách truy vấn để ứng dụng ChatGPT giải quyết bài toán phân tích cảm
xúc trên bình luận. Sau đây là những kết quả chính chúng tôi rút ra được trong
quá trình thực hiện thí nghiệm liên quan:

1. Tiếng Anh luôn vượt trội hơn tiếng Việt ở các phương pháp khác nhau. Điều
này có thể giải thích được với lý do là mô hình ChatGPT được huấn luyện
trên bộ dữ liệu có lượng tiêng Anh vượt trội hơn so với các tiếng khác. Do
đó sử dụng tiếng Anh để diễn tả các câu nhắc giúp mô hình hiểu rõ hơn mục
đích của bài toán thay vì sử dụng tiếng Việt để mô tả.
2. Dựa vào kết quả thí nghiệm, chúng tôi quan sát được rằng kỹ thuật Chain-
of-thought có tiềm năng nâng cao hiệu suất cao hơn các phương pháp khác.
Tuy nhiên việc tạo ra thiết kế truy vấn cho phương pháp này là rất phức
tạp và tốn thời gian.
3. Phương pháp Few-of-shot cho ra kết quả tốt nhất đồng thời cũng không
phức tạp như Chain-of-thought. Tuy nhiên lại cần cung cấp mẫu để có thể
cải thiện.
4. Khi phân tích kết quả thử nghiệm, chúng tôi nhận thấy rằng mô hình Chat-
GPT hạn chế khả năng phân tích đối với các bình luận được gán nhãn nhãn
Trung tính (Neutral) và Tích cực (Positive). Nguyên nhân là do sự đa ngữ
nghĩa và độ phức tạp của tiếng Việt.
5. Việc thiết kế các truy vấn một cách chi tiết và đầy đủ ngữ cảnh là một kỹ
thuật giúp nâng cao hiệu quả khi sử dụng ChatGPT để giải quyết các bài
toán trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên tiếng Việt.

Tóm lại, việc lựa chọn ngôn ngữ và phương pháp khi tương tác với ChatGPT
đóng một vai trò quan trọng trong việc đạt được kết quả mong muốn. Sử dụng
tiếng Anh để tạo lời nhắc khi sử dụng ChatGPT giúp chúng ta nâng cao hiệu
quả hơn khi sử dụng tiếng Việt. Ngoài ra, bổ sung thêm các thông tin chi tiết
cho ChatGPT hiểu được ngữ cảnh cũng đóng vai trò quan trọng trong việc nâng
cao hiệu quả, đặc biệt là đối với bài toán phân phân tích cảm xúc và xử lý đa
ngữ nghĩa trong tiếng Việt.

Tài liệu
1. Angelis, L.D., Baglivo, F., Arzilli, G., Privitera, G.P., Ferragina, P., Tozzi,
A.E., Rizzo, C.: Chatgpt and the rise of large language models: the new ai-
driven infodemic threat in public health. Frontiers in Public Health 11 (2023),
https://api.semanticscholar.org/CorpusID:256756338
2. Arif, T.B., Munaf, U., Ul-Haque, I.: The future of medical education and research:
Is chatgpt a blessing or blight in disguise? Medical Education Online 28 (2023),
https://api.semanticscholar.org/CorpusID:257076711
3. Brown, T.B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P.,
Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss,
10 Nguyễn Bá Đại và đồng tác giả.

A., Krueger, G., Henighan, T.J., Child, R., Ramesh, A., Ziegler, D.M., Wu,
J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess,
B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., Amodei,
D.: Language models are few-shot learners. ArXiv abs/2005.14165 (2020),
https://api.semanticscholar.org/CorpusID:218971783
4. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of deep bidirec-
tional transformers for language understanding. ArXiv abs/1810.04805 (2019),
https://api.semanticscholar.org/CorpusID:52967399
5. Feine, J., Morana, S., Gnewuch, U.: Measuring service encounter satisfaction
with customer service chatbots using sentiment analysis. In: Wirtschaftsinformatik
(2019), https://api.semanticscholar.org/CorpusID:198119093
6. Floridi, L., Chiriatti, M.: Gpt-3: Its nature, scope, limits,
and consequences. Minds and Machines 30, 681–694 (2020),
https://api.semanticscholar.org/CorpusID:228954221
7. Heumann, M., Kraschewski, T., Breitner, M.H.: Chatgpt and gptzero in research
and social media: A sentiment- and topic-based analysis. SSRN Electronic Journal
(2023), https://api.semanticscholar.org/CorpusID:259630007
8. Nicolescu, L., Tudorache, M.T.: Human-computer interaction in customer ser-
vice: The experience with ai chatbots—a systematic literature review. Electronics
(2022), https://api.semanticscholar.org/CorpusID:248840399
9. Susnjak, T.: Applying bert and chatgpt for sentiment analysis of
lyme disease in scientific literature. ArXiv abs/2302.06474 (2023),
https://api.semanticscholar.org/CorpusID:256827671
10. Wei, J., Bosma, M., Zhao, V., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M., Le,
Q.V.: Finetuned language models are zero-shot learners. ArXiv abs/2109.01652
(2021), https://api.semanticscholar.org/CorpusID:237416585
11. Wei, J., Wang, X., Schuurmans, D., Bosma, M., hsin Chi, E.H.,
Xia, F., Le, Q., Zhou, D.: Chain of thought prompting elicits rea-
soning in large language models. ArXiv abs/2201.11903 (2022),
https://api.semanticscholar.org/CorpusID:246411621

You might also like