You are on page 1of 25

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

Học viên thực hiện: Nguyễn Thị Ngọc Anh


Giảng viên hướng dẫn: TS. Lê Thị Tú Kiên
NỘI DUNG

Giới thiệu

Stanford Sentiment Treebank

Recursive Neural Models

Thử nghiệm

2
Giới thiệu

http://nlp.stanford.edu:8080/sentiment/rntnDemo.html

3
Giới thiệu

• Không gian vectơ ngữ nghĩa cho các từ đơn đã được


sử dụng rộng rãi nhưng việc nắm bắt được ý nghĩa của
các cụm từ dài là rất khó, chính vì thế gần đây việc
nghiên cứu thành phần trong không gian véc tơ ngữ
nghĩa đã nhận được rất nhiều sự quan tâm.
• Richard Socher, Alex Perelygin, Jean Y. Wu, Jason
Chuang, Christopher D. Manning, Andrew Y. Ng and
Christopher Potts đã giới thiệu Stanford Sentiment
Treebank và Recursive Neural Tensor Network giúp
phát hiện cảm xúc tinh tế và có các đánh giá chất
lượng cao hơn.

4
Giới thiệu

• Stanford Sentiment Treebank có các cây phân tích nhãn


cho phép phân tích các thành phần của cảm xúc trong ngôn
ngữ.
• Kho ngữ liệu dựa trên tập dữ liệu được giới thiệu bởi Pang và
Lee (2005) gồm 11.855 câu đơn trích ra từ các bài phê bình
phim.
• Nó phân tích cú pháp với bộ phân tích Stanford (Klein và
Manning, 2003) và bao gồm tổng cộng 215.154 cụm từ
từ ​những cây phân tích.
• Cho phép chúng tôi phân tích những cảm xúc phức tạp và để
nắm bắt các hiện tượng ngôn ngữ phức tạp.

5
Giới thiệu

Hình 1: Recursive Neural Tensor Network


6
Giới thiệu

• Mô hình Recursive Neural Tensor Network


(RNTN) được sử dụng như các cụm từ đầu vào
có chiều dài bất kỳ.
• Nó gồm các vectơ từ (đại diện cho cụm từ) và
một cây phân tích cú pháp.
• Để tính các vectơ cho các nút cao hơn trong cây
sử dụng một chức năng thành phần dựa trên
tensor cơ sở.

7
Giới thiệu

Nghiên cứu này được kết hợp từ 5 lĩnh vực khác


nhau của nghiên cứu NLP:
• Semantic Vector Spaces
• Compositionality in Vector Spaces
• Logical Form
• Deep Learning
• Sentiment Analysis

8
Stanford Sentiment Treebank

Thu hồi và xử lý dữ liệu :


• Nhận trích đoạn phim từ rottentomatoes.com, trong đó có 10.662
câu.
• Phân tích các câu sử dụng bộ phân tích cú pháp Stanford.
• Sử dụng Amazon Mechanical Turk để gán nhãn kết quả 215.154
cụm từ.

Hình 2: Giao diện gán nhãn 9


Stanford Sentiment Treebank

Phát hiện:
• Hầu hết các n-gram ngắn là neural;
• n-gram dài hơn được phân bố đều;
• Mức độ cảm xúc cực đoan hiếm khi xảy ra.

Hình 3: Biểu đồ chuẩn hóa cảm xúc ở n-gram chiều dài


10
Recursive Neural Models

• Các mô hình trong phần này tính toán các biểu


diễn vector thành phần cho các cụm từ có độ dài
thay đổi.
• Các đại diện này sau đó sẽ được sử dụng làm
các đặc tính để phân loại mỗi cụm từ.

11
Recursive Neural Models

1. N-gram được truyền đến


các mô hình thành phần, thì
đó là được phân tích thành
một cây nhị phân nơi mỗi nút
lá được biểu diễn như một
vector.
2. Các mô hình đệ quy sau đó
tính toán vector gốc bằng
cách sử dụng thành phần
Hình 4: Approach of
chức năng g.
Recursive Neural
Network models for
sentiment
12
Recursive Neural Models

Sử dụng tri-gram:
• Khởi tạo mỗi vector từ sử dụng phân phối
thống nhất:
U ( -r, r ), trong đó r = 0 . 0001.
• Sử dụng các vectơ từ ma trận L ∈ R d × |V| ,
trong đó d là kích thước vectơ, |V| là kích
thước từ vựng.

13
RNN: Recursive Neural Network

Trong đó f = tanh, W ∈ Rd×2d


1. Đầu tiên vector cha xác định tất cả các vector con
của nó.
2. Các vectơ cha sau đó được tính theo cách từ
dưới lên.
3. Một khi các vectơ cha đã được tính thì chúng
được đưa ra cùng một softmax classifier để tính xác
suất nhãn của nó.

15
MV-RNN: Ma trận-Vector RNN

Ý tưởng chính của MV-RNN là đại diện


cho mỗi từ và cụm từ dài hơn trong cây
phân tích như là một vector và một ma
trận.

Ma trận của nó thông qua hai phương


trình:

trong đó WM  Rd2d

16
RNTN: Mạng kết nối Neural đệ quy

• Ý tưởng chính là sử dụng cùng một chức năng


kết hợp dựa trên cơ sở tensor cho tất cả các
nút.

Trong đó:
• h ∈ R d : đầu ra của sản phẩm tensor
• V [1:d ] ∈ R 2d × 2d × d : tensor định nghĩa
dạng bilinear.
• V [ i ] ∈ R 2d × 2d : mỗi phần của V [1:d ].
17
RNTN: Mạng kết nối Neural đệ quy

RNTN sử dụng định nghĩa này để tính:

18
Thử nghiệm

Hai loại phân tích:


• Đánh giá định lượng lớn trên bộ kiểm tra.
• Các hiện tượng ngôn ngữ học: kết hợp tương
phản và phủ định.

19
Thử nghiệm

Phân loại tình cảm


1. Tình cảm tinh tế đối với tất cả các cụm từ
2. Toàn bộ câu Binary sentiment

20
Thử nghiệm

Độ chính xác
• Các mô hình đệ quy hoạt động tốt hơn trên các gram ngắn hơn.
• RNTN giới hạn trên các mô hình khác với chiều dài n chiều cao
nhất.

21
Thử nghiệm

Phân tích mô hình: Kết hợp Tương phản


• X nhưng Cấu trúc Y : hai cụm từ, X và Y, kết nối bằng "nhưng".

• Kết quả thử nghiệm: tập kiểm tra bao gồm 131 trường hợp (tập
hợp con của bộ kiểm tra ban đầu), RNTN đạt được độ chính xác
41%, so với MV-RNN (37), RNN (36) và biNB (27).
22
Thử nghiệm

Phân tích mô hình: Tiêu cực mức độ cao


• Set 1: Negative Posences Sentences

23
Thử nghiệm

Phân tích mô hình: Tiêu cực mức độ cao


• Set 2: Negating Negative Sentences

24
Thử nghiệm

Phân tích mô hình: Tiêu cực mức độ cao

25
Chân thành cảm ơn cô và các
bạn đã chú ý lắng nghe!

26

You might also like