Sentiment Analysis

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
Học viên thực hiện: Nguyễn Thị Ngọc Anh

Giảng viên hướng dẫn: TS. Lê Thị Tú Kiên
NỘI DUNG
Giới thiệu
Stanford Sentiment Treebank
Recursive Neural Models
Thử nghiệm
2
Giới thiệu
http://nlp.stanford.edu:8080/sentiment/rntnDemo.html
3
Giới thiệu
• Không gian vectơ ngữ nghĩa cho các từ đơn đã được

sử dụng rộng rãi nhưng việc nắm bắt được ý nghĩa của
các cụm từ dài là rất khó, chính vì thế gần đây việc
nghiên cứu thành phần trong không gian véc tơ ngữ
nghĩa đã nhận được rất nhiều sự quan tâm.
• Richard Socher, Alex Perelygin, Jean Y. Wu, Jason
Chuang, Christopher D. Manning, Andrew Y. Ng and
Christopher Potts đã giới thiệu Stanford Sentiment
Treebank và Recursive Neural Tensor Network giúp
phát hiện cảm xúc tinh tế và có các đánh giá chất
lượng cao hơn.
4
Giới thiệu
• Stanford Sentiment Treebank có các cây phân tích nhãn

cho phép phân tích các thành phần của cảm xúc trong ngôn
ngữ.
• Kho ngữ liệu dựa trên tập dữ liệu được giới thiệu bởi Pang và
Lee (2005) gồm 11.855 câu đơn trích ra từ các bài phê bình
phim.
• Nó phân tích cú pháp với bộ phân tích Stanford (Klein và
Manning, 2003) và bao gồm tổng cộng 215.154 cụm từ
từ những cây phân tích.
• Cho phép chúng tôi phân tích những cảm xúc phức tạp và để
nắm bắt các hiện tượng ngôn ngữ phức tạp.
5
Giới thiệu
Hình 1: Recursive Neural Tensor Network

6
Giới thiệu
• Mô hình Recursive Neural Tensor Network

(RNTN) được sử dụng như các cụm từ đầu vào
có chiều dài bất kỳ.
• Nó gồm các vectơ từ (đại diện cho cụm từ) và
một cây phân tích cú pháp.
• Để tính các vectơ cho các nút cao hơn trong cây
sử dụng một chức năng thành phần dựa trên
tensor cơ sở.
7
Giới thiệu
Nghiên cứu này được kết hợp từ 5 lĩnh vực khác

nhau của nghiên cứu NLP:
• Semantic Vector Spaces
• Compositionality in Vector Spaces
• Logical Form
• Deep Learning
• Sentiment Analysis
8
Thu hồi và xử lý dữ liệu :

• Nhận trích đoạn phim từ rottentomatoes.com, trong đó có 10.662
câu.
• Phân tích các câu sử dụng bộ phân tích cú pháp Stanford.
• Sử dụng Amazon Mechanical Turk để gán nhãn kết quả 215.154
cụm từ.
Hình 2: Giao diện gán nhãn 9

Phát hiện:
• Hầu hết các n-gram ngắn là neural;
• n-gram dài hơn được phân bố đều;
• Mức độ cảm xúc cực đoan hiếm khi xảy ra.
Hình 3: Biểu đồ chuẩn hóa cảm xúc ở n-gram chiều dài

10
• Các mô hình trong phần này tính toán các biểu

diễn vector thành phần cho các cụm từ có độ dài
thay đổi.
• Các đại diện này sau đó sẽ được sử dụng làm
các đặc tính để phân loại mỗi cụm từ.
11
1. N-gram được truyền đến

các mô hình thành phần, thì
đó là được phân tích thành
một cây nhị phân nơi mỗi nút
lá được biểu diễn như một
vector.
2. Các mô hình đệ quy sau đó
tính toán vector gốc bằng
cách sử dụng thành phần
Hình 4: Approach of
chức năng g.
Recursive Neural
Network models for
sentiment
12
Sử dụng tri-gram:
• Khởi tạo mỗi vector từ sử dụng phân phối
thống nhất:
U ( -r, r ), trong đó r = 0 . 0001.
• Sử dụng các vectơ từ ma trận L ∈ R d × |V| ,
trong đó d là kích thước vectơ, |V| là kích
thước từ vựng.
13
RNN: Recursive Neural Network
Trong đó f = tanh, W ∈ Rd×2d

1. Đầu tiên vector cha xác định tất cả các vector con
của nó.
2. Các vectơ cha sau đó được tính theo cách từ
dưới lên.
3. Một khi các vectơ cha đã được tính thì chúng
được đưa ra cùng một softmax classifier để tính xác
suất nhãn của nó.
15
MV-RNN: Ma trận-Vector RNN
Ý tưởng chính của MV-RNN là đại diện

cho mỗi từ và cụm từ dài hơn trong cây
phân tích như là một vector và một ma
trận.
Ma trận của nó thông qua hai phương

trình:
trong đó WM  Rd2d
16
RNTN: Mạng kết nối Neural đệ quy
• Ý tưởng chính là sử dụng cùng một chức năng

kết hợp dựa trên cơ sở tensor cho tất cả các
nút.
Trong đó:
• h ∈ R d : đầu ra của sản phẩm tensor
• V [1:d ] ∈ R 2d × 2d × d : tensor định nghĩa
dạng bilinear.
• V [ i ] ∈ R 2d × 2d : mỗi phần của V [1:d ].
17
RNTN: Mạng kết nối Neural đệ quy
RNTN sử dụng định nghĩa này để tính:
18
Thử nghiệm
Hai loại phân tích:

• Đánh giá định lượng lớn trên bộ kiểm tra.
• Các hiện tượng ngôn ngữ học: kết hợp tương
phản và phủ định.
19
Thử nghiệm
Phân loại tình cảm

1. Tình cảm tinh tế đối với tất cả các cụm từ
2. Toàn bộ câu Binary sentiment
20
Thử nghiệm
Độ chính xác
• Các mô hình đệ quy hoạt động tốt hơn trên các gram ngắn hơn.
• RNTN giới hạn trên các mô hình khác với chiều dài n chiều cao
nhất.
21
Thử nghiệm
Phân tích mô hình: Kết hợp Tương phản

• X nhưng Cấu trúc Y : hai cụm từ, X và Y, kết nối bằng "nhưng".
• Kết quả thử nghiệm: tập kiểm tra bao gồm 131 trường hợp (tập
hợp con của bộ kiểm tra ban đầu), RNTN đạt được độ chính xác
41%, so với MV-RNN (37), RNN (36) và biNB (27).
22
Thử nghiệm
Phân tích mô hình: Tiêu cực mức độ cao

• Set 1: Negative Posences Sentences
23
Thử nghiệm

• Set 2: Negating Negative Sentences
24
Thử nghiệm
25
Chân thành cảm ơn cô và các
bạn đã chú ý lắng nghe!
26

Sentiment Analysis

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sentiment Analysis

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

Học viên thực hiện: Nguyễn Thị Ngọc Anh

Stanford Sentiment Treebank

Recursive Neural Models

• Không gian vectơ ngữ nghĩa cho các từ đơn đã được

• Stanford Sentiment Treebank có các cây phân tích nhãn

Hình 1: Recursive Neural Tensor Network

• Mô hình Recursive Neural Tensor Network

Nghiên cứu này được kết hợp từ 5 lĩnh vực khác

Thu hồi và xử lý dữ liệu :

Hình 2: Giao diện gán nhãn 9

Hình 3: Biểu đồ chuẩn hóa cảm xúc ở n-gram chiều dài

• Các mô hình trong phần này tính toán các biểu

1. N-gram được truyền đến

Trong đó f = tanh, W ∈ Rd×2d

Ý tưởng chính của MV-RNN là đại diện

Ma trận của nó thông qua hai phương

• Ý tưởng chính là sử dụng cùng một chức năng

RNTN sử dụng định nghĩa này để tính:

Hai loại phân tích:

Phân loại tình cảm

Phân tích mô hình: Kết hợp Tương phản

Phân tích mô hình: Tiêu cực mức độ cao

Phân tích mô hình: Tiêu cực mức độ cao

Phân tích mô hình: Tiêu cực mức độ cao

You might also like