You are on page 1of 9

TARGETED ASPECTS-BASED SENTIMENT ANALYSIS DATA

ANNOTATION GUIDLINE
I-Hướng dẫn sử dụng công cụ gán nhãn
1. Truy cập url: https://uit-doccano.herokuapp.com
2. Chọn mục “Login”, sau đó đăng nhập bằng tài khoản và mật khẩu đã được cung cấp
3. Nhấp chọn project như hình

4. Nhấp chọn “Start Annotation”

5. Cửa sổ làm việc sẽ hiện lên như sau


Chuyển đến câu trước / tiếp theo
Ghi chú

Xem guideline

6. Quét chuột tô đen target cần gán nhãn và chọn nhãn thích hợp
7. Nhấp chọn nhãn đã gán để thực hiện sửa đổi nhãn đó (bỏ hoặc thay đổi nhãn khác)

Bỏ nhãn
II-Hướng dẫn gán nhãn
Dưới đây là hướng dẫn cho tác vụ gán nhãn để phát hiện các mục tiêu (target) tiềm
năng cùng với khía cạnh (aspect) và cảm xúc (sentiment) mà chúng thể hiện.
A. Xác định đối tượng (target)
Ở bước này, bạn sẽ tiến hành xem xét các mẫu dữ liệu là các nhận xét / bình luận
của người dùng về các sản phẩm, dịch vụ,… Công việc của bạn là xác định các đối
tượng mang cảm xúc của người dùng trong từng mẫu dữ liệu đó.
Các bước thực hiện:
1. Đọc thật kỹ nội dung đoạn văn trong từng mẫu dữ liệu (sẽ có một số lỗi
chính tả, viết tắt,… nên bạn cần vận dụng kiến thức ngôn ngữ của mình để
hiểu đúng nội dung của các mẫu dữ liệu).
2. Xác định các mục tiêu (target) mà có cảm xúc được diễn đạt nhắm đến
chúng. Các mục tiêu nà thường là chủ ngữ (danh từ, cụm danh từ, tên
riêng,…).
3. Thực hiện đánh dấu các mục tiêu, và với mỗi mục tiêu tiến hành xác định
khía cạnh và cảm xúc cho chúng.
4. Nếu không có mục tiêu nào có diễn đạt cảm xúc nhắm đến trong mẫu dữ
liệu thì bỏ qua và chuyển qua mẫu tiếp theo.
Một số mẹo và quy tắc:
• Đánh dấu tất cả các mục tiêu có cảm xúc diễn đạt đến mà bạn có thể xác
định được.
• Với một số mục tiêu, có thể sẽ có nhiều lựa chọn chồng chéo. Trong trường
hợp này, chỉ cần chọn một trong số các lựa chọn đó là được.
• Cảm xúc diễn đạt đến mục tiêu nên được diễn đạt từ các phần còn lại của
văn bản, nó không thể đến từ chính mục tiêu đã được chọn (xem ví dụ 4 bên
dưới).
• Không có giới hạn về độ dài của các mục tiêu được chọn.
• Chỉ phân tích dựa trên nội dung của mẫu dữ liệu, tránh gộp chung hoặc
đánh đồng với cảm xúc do bản thân tự suy diễn từ nội dung đã đọc.
• Ở từng mẫu dữ liệu đều có mục ghi chú. Đối với những trường hợp phức
tạp, bạn có thể ghi lại giải thích cho lựa chọn của mình ở đây. Hoặc bạn có
thể sử dụng ghi chú để feedback giúp cải thiện công việc này tốt hơn.
Một số ví dụ:
1. Ví dụ cơ bản:
Ví dụ #1.1:
Đối tượng: Lag và hao pin là cái tóm tắt về máy. Sam làm tệ quá, không
bằng mấy con tàu cùng phân khúc
Giải thích: “Lag và hao pin” thể hiện cảm xúc đến đối tượng “máy”. “tệ”
thể hiện cảm xúc tiêu cực đến đối tượng “Sam” (có thể tự hiểu là
samsung).
Ví dụ #1.2:
Đối tượng: kiểu dáng thì đẹp, cầm chắc tay, nhưng loa nhỏ quá, nhân
viên phục vụ rất nhiệt tình
Giải thích: “đẹp” thể hiện cảm xúc đến đối tượng “máy”. “nhỏ quá” thể
hiện cảm xúc đến đối tượng “loa”. “rất nhiệt tình” thể hiện cảm xúc đến
đối tượng “nhân viên”.
Ví dụ #1.3:
Đối tượng: Hài lòng về sản phẩm. Mọi thứ đêu rât tốt nghe nhạc xem
phim chơi game âm thanh to và hay
Giải thích: “Hài lòng” và “Mọi thứ đều rất tốt” thể hiện cảm xúc đến đối
tượng “sản phẩm”. “to và hay” thể hiện cảm xúc đến đối tượng “âm
thanh”.
2. Ví dụ về chồng chéo:
Ví dụ #2.1:
Đối tượng: nhân viên thế giới di động trần văn thời cà mau nhiệt tình và
vui vẻ ...chúc các ae sức khỏe tốt và phục ok hoài nha....
Giải thích: “nhiệt tình và vui vẻ” thể hiện cảm xúc đến đối tượng “nhân
viên thế giới di động trần văn thời cà mau”. Tuy nhiên, bạn có thể lựa
chọn đánh dấu “nhân viên” hoặc “nhân viên thế giới di động” cũng đều
được.
3. Ví dụ về dữ liệu không diễn đạt cảm xúc nào:
Ví dụ #3.1: Điện Máy Xanh mở bán thêm nhưMáy Ảnh Gopro ... Có nhữ
ng sản phẩm đó thì tuyệt vời , đất khách (có thể tự hiểu là đắt khách).
→ Đây là câu cảm thán nêu lên suy nghĩ của bản thân, không có đối tượng
nào được cảm xúc nhắm đến.
Ví dụ #3.2: Mình mới mua SS A70 được khoảng 6 tháng ko bị rơi vào nước
cũng như xuống sàn. Tối vẫn chơi games sau đó đi ngủ thì sặc pin, sáng dậy
ko lên màn hình. Vẫn có chuông báo và cuộc gọi đến. Ra TTBH SS, họ tháo ra
thấy quỳ đổi màu nên ko bảo hành, họ bảo hỏng màn hình. Mình đồng ý
thay màn hình thì vẫn ko lên, TTBH bảo thay cả main mà ko bảo hành.
→ Mẫu dữ liệu này chỉ mang tính trần thuật (kể chuyện).
4. Ví dụ về chọn đối tượng đã mang cảm xúc nội tại:
Ví dụ #4.1:
Đối tượng: Tôi rất thích món ăn tuyệt vời của nhà hàng này.
Giải thích: “rất thích” đã mang cảm xúc nhắm đến đối tượng phía sau
nên ở đây, bạn có thể lựa chọn đánh dấu một trong “món ăn”, “món ăn
tuyệt vời” hay “món ăn tuyệt vời của nhà hàng này” đều được (vì chúng
chồng chéo nhau).
Ví dụ #4.2:
Đối tượng: Tôi đã từng ăn món ăn tuyệt vời của nhà hàng này.
Giải thích: trong trường hợp này chí có thể đánh dấu “món ăn”, vì ngoài
“tuyệt vời” thì KHÔNG còn phần nào diễn tả cảm xúc nhắm đến đối tượng
“món ăn”nữa. Không được chọn “món ăn tuyệt vời” hay “món ăn tuyệt
vời của nhà hàng này” trong trường hợp này.
B. Xác định khía cạnh và cảm xúc
Ở bước này, bạn sẽ xem xét lại mẫu dữ liệu một lần nữa để xác định đúng khía
cạnh và cảm xúc được diễn tả cho từng đối tượng đã xác định được ở bước A.
Các bước thực hiện:
1. Đọc kỹ lại đoạn văn.
2. Xác định các khía cạnh mà đối tượng biểu đạt (dựa trên suy luận của bản
thân, chọn 1 trong các nhãn ở phần phụ lục bên dưới).
3. Xác định cảm xúc được diễn đạt đến từng cặp đối tượng-khía cạnh đã có. Có
3 trạng thái cảm xúc bao gồm:
➢ Positive: cảm xúc diễn đạt đến mang ý nghĩa tích cực.
➢ Negative: cảm xúc diễn đạt đến mang ý nghĩa tiêu cực.
➢ Neutral: cảm xúc diễn đạt đến mang ý nghĩa trung tính / trung lập
(có thể là vừa tích cực vừa tiêu cực ngang nhau hoặc không chê
cũng không khen).
Một số mẹo và quy tắc:
• Xác định trạng thái cảm xúc dựa trên các phần còn lại của mẫu dữ liệu, nó
không thể được xác định dựa trên nội tại của mục tiêu (xem ví dụ A.4)
• Ở từng mẫu dữ liệu đều có mục ghi chú. Đối với những trường hợp phức
tạp, bạn có thể ghi lại giải thích cho lựa chọn của mình ở đây. Hoặc bạn có
thể sử dụng ghi chú để feedback giúp cải thiện công việc này tốt hơn.
Một số ví dụ:
1. Ví dụ cơ bản:
Ví dụ #1.1:
Đối tượng: Máy xài tạm được, nhân viên tư vấn nhiệt tình.
Khía cạnh và cảm xúc: “tạm được” thể hiện cảm xúc trung tính đến khía
cạnh “general” của “Máy”. “nhiệt tình” thể hiện cảm xúc tích cực đến khía
cạnh “service&accesories” của “nhân viên”.
Ví dụ #1.2:
Đối tượng: Hài lòng về sản phẩm. Mọi thứ đêu rất tốt.
Khía cạnh và cảm xúc: “hài lòng” và “mọi thứ đều rất tốt” thể hiện cảm
xúc tích cực đến khía cạnh “general” của “sản phẩm”.
Giải thích: “Hài lòng” và “Mọi thứ đều rất tốt” thể hiện cảm xúc đến đối tượng
“sản phẩm”. “to và hay” thể hiện cảm xúc đến đối tượng “âm thanh”.
2. Ví dụ đối tượng được nhắm đến bởi nhiều hơn một cặp khía cạnh-cảm xúc:
Ví dụ #2.1:
Đối tượng: Lag và hao pin là cái tóm tắt về máy. Sam làm tệ quá, không
bằng mấy con tàu cùng phân khúc
Khía cạnh và cảm xúc: “Lag” thể hiện cảm xúc tiêu cực về khía cạnh
“performence”, “hao pin” thể hiện cảm xúc tiêu cực về khía cạnh
“ battery” của máy. Vì vậy đối tượng “máy” mang hai cặp nhãn nêu trên.
“làm tệ quá” thể hiện cảm xúc tiêu cực cho khía cạnh
“service&accesories” của đối tượng “Sam”.
Ví dụ #2.2:
Đối tượng: Máy ok nhưng thỉnh thoảng văng messages ra game mượt đề
nghị cập nhật cảm ứng tốt hơn
Khía cạnh và cảm xúc: “ok” thể hiện cảm xúc tích cực cho khía cạnh
“general”, “game mượt” thể hiện cảm xúc tích cực cho khía cạnh
“performence” và “đề nghị cập nhật cảm ứng tốt hơn” thể hiện cảm xúc
tiêu cực cho khía cạnh “features” của đố tượng “Máy”. “Máy” sẽ mang 3
cặp khía cạnh – cảm xúc như trên.
PHỤ LỤC: DANH SÁCH CÁC KHÍA CẠNH THEO TỪNG DOMAIN
1. Điện thoại
Nhãn khía cạnh Ý nghĩa liên quan
GENERAL Chung, tổng thể
PERFORMANCE Hiệu suất (thường liên quan đến mượt, giật lag, …)
SER&ACC Dịch vụ và phụ kiện
BATTERY Pin
CAMERA Camera (chụp ảnh,…)
PRICE Giá cả
SCREEN Màn hình
FEATURES Các tính năng (loa, ứng dụng,...)
DESIGN Thiết kế (cầm nắm, đẹp xấu,…)
STORAGE Bộ nhớ, dung lượng lưu trữ,…

2. Nhà hàng
Nhãn khía cạnh Ý nghĩa liên quan
RESTAURANT#GENERAL Liên quan đến tổng quan, chung của nhà
hàng
RESTAURANT#QUALITY Liên quan đến chất lượng chung của nhà
hàng
RESTAURANT#PRICE Liên quan đến giá cả chung của nhà hàng
RESTAURANT#STYLE_OPTIONS Liên quan đến phong cách, tùy chọn của nhà
hàng
RESTAURANT#MISCELLANEOUS Liên quan đến các khía cạnh khác của nhà
hàng
AMBIENCE#GENERAL Liên quan đến tổng quan chung của phong
cảnh, ngoại cảnh
AMBIENCE#QUALITY Liên quan đến chất lượng của phong cảnh,
ngoại cảnh.
AMBIENCE#PRICE Liên quan đến giá cả của phong cảnh, ngoại
cảnh.
AMBIENCE#STYLE_OPTIONS Liên quan đến phong cách, các tùy chọn của
phong cảnh, ngoại cảnh.
AMBIENCE#MISCELLANEOUS Liên quan đến các khía cạnh khác của phong
cảnh, ngoại cảnh.
LOCATION#GENERAL Liên quan đến tổng quan chung của vị trí
LOCATION#QUALITY Liên quan đến chất lượng của vị trí
LOCATION#PRICE Liên quan đến giá cả của vị trí
LOCATION#STYLE_OPTIONS Liên quan đến phong cách, các tùy chọn của
vị trí
LOCATION#MISCELLANEOUS Liên quan đến các khía cạnh khác của vị trí
FOOD#GENERAL Liên quan đến tổng quan chung của thức ăn
FOOD#QUALITY Liên quan đến chất lượng của thức ăn
FOOD#PRICE Liên quan đến giá cả của thức ăn
FOOD#STYLE_OPTIONS Liên quan đến phong cách, các tùy chọn của
thức ăn
FOOD#MISCELLANEOUS Liên quan đến các khía cạnh khác của thức ăn
DRINKS#GENERAL Liên quan đến tổng quan chung của thức
uống
DRINKS#QUALITY Liên quan đến chất lượng của thức uống
DRINKS#PRICE Liên quan đến giá cả của thức uống
DRINKS#STYLE_OPTIONS Liên quan đến phong cách, các tùy chọn của
thức uống
DRINKS#MISCELLANEOUS Liên quan đến các khía cạnh khác của thức
uống
SERVICE#GENERAL Liên quan đến tổng quan chung của dịch vụ
SERVICE#QUALITY Liên quan đến chất lượng của dịch vụ
SERVICE#PRICE Liên quan đến giá cả của dịch vụ
SERVICE#STYLE_OPTIONS Liên quan đến phong cách, các tùy chọn của
dịch vụ
SERVICE#MISCELLANEOUS Liên quan đến các khía cạnh khác của dịch vụ

3. Khách sạn
Nhãn khía cạnh của miền khách sạn được tạo nên bở một cặp gồm hai thuộc tính
(dạng tt1#tt2):
Thuộc tính thứ 1 Ý nghĩa Thuộc tính thứ 2 Ý nghĩa
HOTEL Khách sạn GENERAL Chung, tổng quan
ROOMS Phòng ốc PRICES Giá cả
ROOM_AMENITIES Tiện nghi trong DESIGN&FEATURES Thiết kế và tính
phòng năng
FACILITIES Nội thất CLEANLINESS Vệ sinh
SERVICE Dịch vụ COMFORT Sự thoải mái
LOCATION Vị trí QUALITY Chất lượng
FOOD&DRINKS Đồ ăn uống STYLE&OPTIONS Phong cách, các lựa
chọn, tùy chọn
MISCELLANEOUS Khác
Ví dụ: HOTEL# GENERAL, FACILITIES#QUALITY, FOOD&DRINKS#PRICES, SERVICE#PRICES,…

You might also like