You are on page 1of 8

Machine Translated by Google

So sánh giữa LSA-LDA-Lexical Chains

Costin Chiru1 , Trajan Rebedea1 , Silvia Ciotec 1


University Politehnica of Bucharest, Khoa Khoa học Máy tính và Kỹ thuật, 313 Splaiul
Independetei, Bucharest, Romania {costin.chiru, traian.rebedea} @
cs.pub.ro, silvia.ciotec@gmail.com

Từ khóa: Phân tích ngữ nghĩa tiềm ẩn - LSA, Phân bổ Dirichlet tiềm ẩn - LDA, chuỗi từ vựng, liên quan đến ngữ nghĩa.

Trừu tượng: Bài báo này trình bày phân tích ba kỹ thuật được sử dụng cho các nhiệm vụ tương tự, đặc biệt liên quan đến
ngữ nghĩa, trong Xử lý ngôn ngữ tự nhiên (NLP): Phân tích ngữ nghĩa tiềm ẩn (LSA), Phân bổ Dirichlet tiềm ẩn
(LDA) và chuỗi từ vựng. Các kỹ thuật này được đánh giá và so sánh trên hai kho ngữ liệu khác nhau để làm nổi
bật những điểm giống và khác nhau giữa chúng từ quan điểm phân tích ngữ nghĩa. Kho tài liệu đầu tiên bao gồm
bốn bài viết trên Wikipedia về các chủ đề khác nhau, trong khi tập thứ hai bao gồm 35 cuộc trò chuyện trực
tuyến giữa 4-12 người tham gia tranh luận về bốn chủ đề áp đặt (diễn đàn, trò chuyện, blog và wiki). Nghiên
cứu tập trung vào việc tìm ra những điểm tương đồng và khác biệt giữa kết quả của ba phương pháp từ quan điểm
phân tích ngữ nghĩa, bằng cách tính toán các yếu tố định lượng như mối tương quan, mức độ bao quát của các
chủ đề kết quả, v.v. Sử dụng kho ngữ liệu từ các loại diễn ngôn và định lượng khác nhau. các yếu tố độc lập
với nhiệm vụ cho phép chúng tôi chứng minh rằng mặc dù LSA và LDA cung cấp các kết quả tương tự, kết quả của
chuỗi từ vựng không tương quan nhiều với các chuỗi từ vựng của LSA hoặc LDA, do đó, chuỗi từ vựng có thể được
sử dụng bổ sung cho LSA hoặc LDA khi thực hiện phân tích ngữ nghĩa cho các ứng dụng NLP khác nhau.

1. GIỚI THIỆU Do đó, việc so sánh và giải thích những điểm tương đồng và
khác biệt giữa các phương pháp nói trên là rất quan trọng để

hiểu mô hình nào có thể phù hợp nhất cho một tình huống nhất
Phân tích ngữ nghĩa tiềm ẩn (LSA) (Landauer và Dumais, 1997),
định (ví dụ: nhiệm vụ và kiểu diễn ngôn). Các nghiên cứu trước
Phân bổ Dirichlet tiềm ẩn (LDA)
đây nhằm mục đích so sánh các thước đo tương tự khác nhau được
(Blei và cộng sự, 2003) và chuỗi từ vựng (Halliday và Hasan,
xây dựng trên Mạng từ để quyết định cái nào cho kết quả tốt hơn
1976; Morris và Hirst, 1991) được sử dụng rộng rãi trong các
(Barzilay và Elhadad, 1997) hoặc để so sánh kết quả được cung
ứng dụng NLP cho các nhiệm vụ tương tự. Tất cả các phương pháp
này sử dụng khoảng cách ngữ nghĩa hoặc sự tương đồng / liên cấp bởi các chuỗi từ vựng được xây dựng bằng cách sử dụng các

biện pháp khác nhau với các kết quả được đưa ra bởi LSA để thêm
quan giữa các thuật ngữ để tạo thành chủ đề hoặc chuỗi từ. LSA
một lớp quan hệ khác vào Mạng từ để cải thiện tính hữu ích của
và LDA sử dụng tần suất xuất hiện chung của các từ trong kho
nó đối với các tác vụ NLP (Boyd Graber và cộng sự, 2006). Tuy
ngữ liệu khác nhau, trong khi kỹ thuật chuỗi từ vựng sử dụng
nhiên, gần đây hơn Cramer (2008) đã chỉ ra rằng các nghiên cứu
Mạng từ (http://wordnet.princeton.edu/) các tập hợp và liên kết
hiện có không nhất quán với nhau và các phán đoán của con người
giữa chúng để tìm các nhóm từ được kết nối cao hoặc có liên
không nên được sử dụng làm cơ sở để đánh giá hoặc so sánh các
quan chặt chẽ với nhau.
thước đo ngữ nghĩa khác nhau.

Mặc dù các phương pháp này có thể được sử dụng tương tự

cho các nhiệm vụ NLP khác nhau - tóm tắt văn bản (Barzilay và

Elhadad, 1997; Gong và Liu, 2001; Haghighi và Vanderwende,


Công việc này nhằm mục đích nghiên cứu hành vi của ba
2009), trả lời câu hỏi (Novischi và Moldovan, 2006) hoặc phát
phương pháp: LSA, LDA và chuỗi từ vựng, dựa trên một loạt các
hiện chủ đề (Carthy, 2004) ) - họ tính toán các biện pháp khác
bài kiểm tra được thực hiện trên hai kho tài liệu: một bài bao
nhau, có ý nghĩa khác nhau. LDA tạo ra các chủ đề theo chủ đề
gồm bốn bài viết trên Wikipedia về các chủ đề khác nhau và một
dưới một bản phân phối Dirichlet trước đó, LSA tạo ra một ma
bài khác được xây dựng từ các cuộc trò chuyện trò chuyện trực
trận tương quan giữa các từ và tài liệu, trong khi các chuỗi
tuyến của nhiều bên. tranh luận về bốn chủ đề được áp đặt
từ vựng sử dụng cấu trúc WordNet để thiết lập kết nối giữa các
trước: diễn đàn, trò chuyện, blog, wiki.
synsets.
Machine Translated by Google

Bài báo tiếp tục với việc xem xét các kỹ thuật được một số thuộc tính thuận tiện tạo điều kiện cho các thuật
đánh giá. Sau đó, chúng tôi trình bày quy trình so sánh toán ước lượng tham số và suy luận cho LDA.
ba phương pháp cùng với các văn bản được sử dụng để đánh
giá. Phần 4 mô tả các kết quả thu được và các quan sát 2.3 Chuỗi Lexical
của chúng tôi, trong khi phần cuối nêu bật các kết luận
chính của nghiên cứu. Chuỗi từ vựng là những nhóm từ giống nhau về mặt ngữ
nghĩa (Halliday và Hasan, 1976; Morris và Hirst, 1991).
Mỗi từ trong chuỗi được liên kết với các từ trước của nó
thông qua một mối quan hệ gắn kết từ vựng nhất định.
Chuỗi từ vựng yêu cầu một cơ sở dữ liệu từ vựng hoặc một
2 PHƯƠNG PHÁP ĐÁNH GIÁ
bản thể học (hầu hết thời gian, cơ sở dữ liệu này là Mạng
từ) để thiết lập sự tương đồng về ngữ nghĩa giữa các từ.
2.1 LSA - Phân tích ngữ nghĩa tiềm ẩn
Đối với nhiệm vụ này, chúng tôi đã sử dụng Mạng từ và
thước đo Jiang-Conrath (Jiang và Conrath, 1997). Vì biện
LSA (Landauer và Dumais, 1997) là một phương pháp thống
pháp này yêu cầu tần suất xuất hiện của các từ trong ngôn
kê để trích xuất mối quan hệ giữa các từ trong văn bản.
ngữ tiếng Anh và vì chúng tôi không có quyền truy cập vào
Đây là một phương pháp dựa trên ngữ liệu không sử dụng từ
kho dữ liệu có liên quan, chúng tôi đã sử dụng số lần
điển, mạng ngữ nghĩa, ngữ pháp, trình phân tích cú pháp
truy cập được trả về bởi tìm kiếm của Google cho mỗi từ
hoặc hình thái và đầu vào của nó chỉ được trình bày bằng
được xem xét. Khi khoảng cách giữa các từ đã được tính
văn bản thô được chia thành "khối". Một đoạn có thể là
toán, chúng tôi đã sử dụng thuật toán phân cụm đầy đủ để
một câu, một phát biểu trong một cuộc trò chuyện, một
nhóm các từ thành chuỗi. Thuật toán hoạt động theo kiểu
đoạn văn hoặc thậm chí là toàn bộ tài liệu, tùy thuộc vào ngữ liệu.
trực tuyến (mỗi từ được đánh giá theo thứ tự xuất hiện
Phương pháp bắt đầu từ ma trận từ-doc được tính toán trên
của chúng trong văn bản được phân tích), chỉ thêm một từ
kho ngữ liệu được phân đoạn thành các phần và sau đó áp
vào một cụm hiện có nếu nó có liên quan đến hơn 90% các
dụng phân tách giá trị đơn lẻ để tính toán các giá trị
từ đã là một phần của cụm từ đó. chuỗi. Nếu từ được xem
đơn lẻ quan trọng nhất.
xét không thể được lắp vào bất kỳ chuỗi nào hiện có, thì
Sau đó, nó tạo ra một biểu diễn trong một không gian mới,
chúng tôi tạo một chuỗi mới chỉ chứa từ cụ thể đó (Chiru,
được gọi là không gian ngữ nghĩa tiềm ẩn, chỉ sử dụng k
Janca và Rebedea, 2010).
giá trị đơn lẻ (lớn) quan trọng nhất . Giá trị của k phụ
thuộc vào ngữ liệu và nhiệm vụ, và thường nằm trong
khoảng từ 100 đến 600, lựa chọn phổ biến là 300.
Không gian mới này được sử dụng để tính toán các điểm
tương đồng giữa các từ khác nhau và thậm chí toàn bộ tài
liệu, trên thực tế, xét rằng các từ cùng xuất hiện trong 3 SO SÁNH
các ngữ cảnh tương tự có thể được coi là có liên quan về PHƯƠNG PHÁP NGHIÊN CỨU
mặt ngữ nghĩa.

Các thí nghiệm được thực hiện trên hai kho ngữ liệu khác
2.2 LDA - Phân bổ Dirichlet tiềm ẩn
nhau: một kho ngữ liệu bao gồm bốn bài báo từ Wikipedia
đang tranh luận về các chủ đề hoàn toàn khác nhau:
LDA (Blei và cộng sự, 2003) là một mô hình xác suất chung graffiti, quần vợt, núi lửa và chiêm tinh học, bao
được thiết kế để trích xuất các chủ đề từ văn bản. Ý gồm 294 đoạn văn và có kích thước từ vựng là 7744
tưởng cơ bản đằng sau LDA là các tài liệu được thể hiện từ. Để kết quả của chúng tôi không bị ảnh hưởng
dưới dạng hỗn hợp ngẫu nhiên của các chủ đề tiềm ẩn, bởi tiếng ồn, chúng tôi đã loại bỏ các đại từ ngữ
trong đó mỗi chủ đề được đặc trưng bởi một tập hợp các liệu, mạo từ, giới từ và liên từ. một kho ngữ
cặp từ xác suất, đại diện cho xác suất một từ thuộc về liệu bao gồm 35 cuộc trò chuyện trực tuyến tranh
một chủ đề. luận về bốn chủ đề được đặt ra trước: diễn đàn,
LDA giả định quá trình tạo sau cho mỗi tài liệu trong trò chuyện, blog, wiki, mỗi chủ đề liên quan đến từ 4
một kho ngữ liệu: đối với mỗi từ wd, i trong kho ngữ đến 12 người tham gia. Kho ngữ liệu này bao gồm
liệu, nó tạo ra một chủ đề z phụ thuộc vào hỗn hợp θ được 6000 câu nói (41902
liên kết với tài liệu d và sau đó nó tạo ra một từ từ chủ

đề z. Để đơn giản hóa mô hình cơ bản này, kích thước của


phân phối Dirichlet k từ), với kích thước từ vựng là 2241 từ.
(số lượng chủ đề z) được giả định là đã biết và cố định.
Dirichlet trước được sử dụng vì nó có
3.1 Phương pháp thu được kết quả
Machine Translated by Google

SVD được thực hiện bằng gói nghiên cứu airhead khoảng cách trong Mạng từ (Tsatsaronis và cộng sự, 2010), nhưng

(https://code.google.com/p/airhead
LatentSemanticAnalysis)
research
và/giá
wiki
trị
/ không phải với chuỗi từ vựng.

k = 300. Sau đó, kết quả LSA thu được bắt đầu từ ma
trận các điểm tương đồng giữa mỗi cặp từ trong kho 3.1.3 LDA - So sánh Lexical Chains
ngữ liệu. Mức độ giống nhau giữa hai từ được tính
bằng cách sử dụng cosin của Sự so sánh này dựa trên số lượng từ phổ biến giữa
các chuỗi từ vựng và các chủ đề LDA. Đối với mỗi chủ

các vectơ tương ứng trong không gian tiềm ẩn. đề LDA, chúng tôi trích xuất một số 35, 50, 100, 150

Đối với LDA, kết quả nhận được từ sự phân bố các và 200 từ và tính toán các số liệu thống kê khác

từ của mỗi chủ đề và các xác suất tương ứng. Trong nhau cho từng trường hợp. Theo hiểu biết của chúng

kho ngữ liệu đầu tiên, chứa các bài viết bách khoa tôi, LDA và chuỗi từ vựng chỉ được so sánh như một

từ bốn lĩnh vực khác nhau, chúng tôi quyết định sử giải pháp thay thế cho phân đoạn văn bản (Misra và

dụng một số chủ đề k = 4 cho phân tích này. Đối với cộng sự, 2009).

ngữ liệu thứ hai, bao gồm các cuộc tranh luận về bốn
chủ đề áp đặt, chúng tôi quyết định sử dụng k = 5
chủ đề để phân tích, vì bên cạnh các chủ đề áp đặt, 4 KẾT QUẢ THÍ NGHIỆM
những người tham gia cũng nhập một số nội dung lạc
đề có thể được coi là 4.1 Tập đoàn Wikipedia
chủ đề thứ năm. Để hiểu rõ hơn về hành vi của LDA,
chúng tôi đã trích xuất 35, 50, 100, 150 và 200 từ
hàng đầu được coi là đại diện cho mỗi chủ đề, với
4.1.1 So sánh LDA - LSA
điều kiện mỗi bài viết chứa hơn 1000 từ. Các mô hình Bảng 1 trình bày 10 từ hàng đầu từ 4 chủ đề LDA của
chủ đề được trích xuất bằng Bộ công cụ MALLET - kho ngữ liệu đầu tiên. Trong Bảng 2, chúng tôi trình
MAchine Learning for LanguagE (http:// bày 30 cặp từ giống nhau nhất do LSA tạo ra. Chúng
mallet.cs.umass.edu/). tôi cần đề cập rằng LSA đã được đào tạo về cách nối
Trong trường hợp chuỗi từ vựng, chúng tôi đã của tất cả 4 bài báo từ Wikipedia.
phân tích các từ từ mỗi chuỗi và cũng xem xét độ dài

tối đa và tổng số chuỗi từ vựng từ một tài liệu (trò Bảng 1: 10 từ hàng đầu từ các chủ đề LDA cho kho ngữ liệu Wikipedia.

chuyện hoặc bài viết trên Wikipedia).

3.1.1 So sánh LDA - LSA


Chủ đề 0 Chủ đề 1 Chủ đề 2 Chủ đề 3

graffiti quần vợt núi lửa núi chiêm tinh

hình người
lửa dung học được
Để so sánh hai phương pháp, chúng tôi bắt đầu từ các
thức văn chơi trò
nham núi Khoa học
chủ đề LDA và tính điểm LSA cho mỗi khái niệm từ mỗi
hóa mới chơi đầu tiên lửa nhân cách
chủ đề do LDA tạo ra.
york người chơi mặt Trung Quốc
Điểm này thể hiện mức độ tương đồng trung bình giữa hai dựa trên
thiết kế ví dụ hình
khái niệm mục tiêu và mỗi từ còn lại trong chủ đề. tòa án thành được coi là
phong cách
Việc đánh giá mối quan hệ giữa phân phối điểm LSA và hip phổ ba điểm ví dụ về niềm tin

LDA được thực hiện bằng cách sử dụng hệ số tương biến dòng chảy bce bẩm

quan của Pearson và hệ số tương quan về thứ hạng của Xịt nước người Pháp tuyệt chủng sinh

Spearman . LSA và LDA cũng đã được so sánh trên một


số nhiệm vụ NLP, chẳng hạn như dự đoán các liên kết
Bảng 2: Top 30 cặp từ giống nhau nhất do LSA tạo ra cho kho ngữ liệu Wikipedia.

từ (Griffiths và cộng sự, 2007) và chấm điểm bài


luận tự động (Kakkonen và cộng sự, 2008).
Các cặp từ LSA

men-cup bổ sung cà vạt đường cơ sở trung

giữa vỏ bánh mỏng giữa tâm mảng kiến tạo

hop-music thinning-ridge mid-ridge speed- người nhận lựa chọn


3.1.2 LSA - So sánh Lexical Chains receiver Lake-park shift-Equinox
bounce basque-
mm- mô tả-đại lý độ-phân-

perera lady-week-shiftnewport
são-brazil
Federation-
rhode- phân-giác-cil-khó-tuyệt-
Để so sánh hai phương pháp này, chúng tôi đã xác
itf chủng-kiến-tạo-thời-
định giá trị tương tự cho mỗi chuỗi từ vựng dựa trên đại-cạnh tranh sự

sự tương tự LSA như sau: chúng tôi tính toán mức độ sống-tuổi thọ nhà
tương tự LSA giữa bất kỳ cặp hai từ nào trong chuỗi lực lượng anh hùng
núi lửa
và tính trung bình cho tất cả các từ trong chuỗi đó. kết quả kiểm tra sự hình thành bùn

LSA trước đây đã được so sánh với ngữ nghĩa


Machine Translated by Google

Bảng 3: Hệ số Pearson của LDA-LSA cho kho dữ liệu Wikipedia.

Chủ đề Của Pearson Spearman's


Hệ số Hệ số

0 (graffiti) 0,560 0,778

1 (quần 0,855 0,873

vợt) 2 (núi lửa) 0,782 0,840

3 (chiêm tinh học) 0,745 0,745

Hình 1: Phân phối LDA - LSA cho Chủ đề 1 (quần vợt) từ kho
4.1.2 LSA - So sánh Lexical Chains
dữ liệu Wikipedia.

Hình 2: Biểu đồ phân tán cho các phân bố thứ hạng cho phép
so sánh LDA - LSA cho Chủ đề 1 (quần vợt).

Hình 3: Điểm LSA cho các chuỗi từ vựng của quần vợt
bài viết từ Wikipedia, bách khoa toàn thư miễn phí
Machine Translated by Google

Hình 4: Điểm LSA (màu xanh lá cây) và độ dài chuỗi từ vựng


(màu xanh lam) từ bài báo quần vợt .

4.1.3 LDA - So sánh Lexical Chains


Machine Translated by Google

Nhìn chung, các từ của Chủ đề 3 thường được tìm thấy Một phương pháp tương tự đã được sử dụng để so sánh
nhiều nhất trong các chuỗi từ vựng (hơn 40 chuỗi có các kết quả trên kho dữ liệu trò chuyện nhằm xem liệu
từ o chung, 2 chuỗi có 2 từ chung và 1 với 3 và 1 có có bất kỳ sự khác biệt đáng chú ý nào do sự thay đổi
4 từ chung). của loại diễn ngôn hay không. Kết quả được báo cáo

Cuối cùng, chúng tôi tăng số lượng từ cho mỗi chủ ngắn gọn hơn trong phần này.

đề lên 200 (Hình 5). Cũng trong trường hợp này, vẫn
còn khoảng 350 chuỗi không có từ nào chung với bất kỳ 4.2.1 So sánh LDA - LSA
chủ đề nào. Có thể thấy Chủ đề 3 (núi lửa) có 7 từ
Bảng 5 trình bày 10 từ hàng đầu từ 5 chủ đề LDA. Trong
chung với một trong những chuỗi từ vựng (điểm tốt nhất
Bảng 6, chúng tôi trình bày 30 cặp từ giống nhau nhất
cho đến nay), trong khi Chủ đề 2 (chiêm tinh) có 5 từ
do LSA tạo ra.
chung với một trong những chuỗi. Chi tiết của cuộc
thảo luận này được tóm tắt trong Bảng 4. Tương tự như kho ngữ liệu Wikipedia, chúng tôi vẽ
biểu đồ phân bố điểm LDA và LSA cho mỗi từ từ chủ đề

đó và thu được kết quả tốt nhất cho Chủ đề 1 (0,73).


Trường hợp này được trình bày trong Hình 6, trong khi
trong Hình 7, chúng tôi trình bày sơ đồ tán xạ cho
chủ đề này. Hệ số tương quan Xếp hạng của Pearson và
Spearman giữa điểm LDA và LSA cho mỗi chủ đề LDA được

trình bày trong Bảng 7.

Bảng 5: 10 từ hàng đầu từ các chủ đề LDA trong kho ngữ liệu trò
chuyện.

Chủ đề Chủ đề 1 Chủ đề 2 Chủ đề 3 Chủ đề


0 4
Diễn đàn tuần các blog trò chuyện
blog
Giải pháp Internet đang thông tin người
làm mưa làm gió
Hình 5: Sự phân bố các từ phổ biến giữa các chủ đề (200 từ) và
Tốt giải quyết
khách hàng bạn bè diễn đàn
chuỗi từ vựng.
Ý tưởng web ý của công ty tìm thấy Cái bảng

Đúng kiến thay đổi quy luật dân gian nhất định
Bảng 4: Số chuỗi có một từ chung với các chủ đề khác nhau (giá
Người sóng so sánh các theo sau rất khóvuitích
vẻ

trị cao nhất được in đậm) và số từ chung tối đa với một chủ đề
dùng số cần trường hợp có thể Mới
trong một chuỗi đơn.
viết ý like hợp khác nhau thay

tưởng mọi dễ đổi một

Từ chủ T0 T1 T2 T3 Không có chủ đề Tối đa người giúp sử dụng hơn phần bạn bè

đề phổ thông

S/ từ ngữ
Bảng 6: Top 30 cặp từ giống nhau nhất do LSA tạo ra trong kho ngữ
chủ đề
liệu trò chuyện.
35 > 25 16 12 15> 300 2 (3
chuỗi cho Các cặp từ LSA

T2, 1 cho
tin nhắn mô hình nhà toán học

du lịch đặt- vmtstudents các mẫu


phần còn lại)

50 29 17 15 cột-cột ngọn lửa chiến tranh ra lệnh-hành vi


20 ~ 300 3 (T1 &
T3) quyết sự hài lòng

100 định tổng trực tuyến vật lý được tiến hành


24 > 40 33> 40 ~ 270 4 (T3) 34 41 > 50 ~ 260
150 51 đài dễ bất tiện
6 (T3)
200> 40 > 70 > 50> 60 ~ 250 dàng không phù hợp phản đối số đếm-trình chỉnh sửa cảm ứng
7 (T3)
phổ biến mẫu tính khách quan
thuậnkhông
tiện
doanh thu từ quảng cáo
Tóm lại, tình huống thường gặp nhất (ngoài chuỗi từ
tập trung
vựng không có từ nào chung với chủ đề) là tình huống
cung cấp phản đối nhiệm vụ tối thiểu
khi chuỗi từ vựng và chủ đề có đúng một từ chung và
chuyển đổi bộ-cột quyết định không đúng
số từ phổ biến tối đa được tìm thấy là 7 cho chủ đề bệnh nhân phương
bao gồm 200 từ.
nhớ lại hm trình quicksilver dối trá tự hào

an toàn đã hack đơn giản hóa-bằng chatroom-để lại cẩn thận-

posible-mảng lục giác đồng nghiệp

4.2 Tập đoàn hội thoại trò chuyện


Machine Translated by Google

nhận thức sự khác biệt đáng kể giữa các khái niệm này.
Tuy nhiên, kết quả hấp dẫn nhất là việc đặt chủ đề thứ
ba (liên quan đến trò chuyện) ở vị trí cuối cùng, ít thể
hiện sự mạch lạc nhất. Chúng tôi kỳ vọng rằng chủ đề này
trên thực tế sẽ có tính liên kết cao nhất, là công cụ
được những người tham gia sử dụng thường xuyên nhất và
do đó là công cụ mà họ biết rõ nhất. Những kết quả này
cũng có thể bị ảnh hưởng bởi cách chúng tôi đo lường
tính mạch lạc của một chủ đề LDA thông qua mối tương
quan của nó với điểm số tương tự LSA trung bình.
Hình 6: Các phân phối LDA - LSA cho Chủ đề 1 từ kho dữ liệu trò
chuyện.

4.2.2 LSA - So sánh Lexical Chains

Đối với kho ngữ liệu trò chuyện, các giá trị của sự
giống nhau LSA giữa các từ cho mọi chuỗi từ vựng dao động từ:
1 đến 1, như có thể thấy trong Hình 8. Chúng ta có thể
quan sát thấy mối tương quan giữa LSA và chuỗi từ vựng

cho kho ngữ liệu trò chuyện thấp hơn mối tương quan với
kho ngữ liệu Wikipedia, điều này được tạo ra bởi sự gắn
kết thấp hơn của văn bản trong trường hợp này.

Hình 7: Biểu đồ phân tán cho các phân phối cấp bậc cho phép so
sánh LDA-LSA cho Chủ đề 1 từ kho dữ liệu trò chuyện.

Bảng 7: Hệ số LDA-LSA Pearson cho cuộc trò chuyện

kho ngữ liệu.

Chủ đề Hệ số Pearson Hệ số Spearman

0 0,63 0,46
1 0,73 0,55 Hình 8: Điểm LSA cho các chuỗi từ vựng từ cuộc trò chuyện
2 0,55 0,41 kho ngữ liệu.

3 0,46 0,35
4 0,71 0,32 4.2.3 LDA - So sánh Lexical Chains

Đúng như dự đoán, kết quả cho kho dữ liệu trò chuyện Tương tự như kho ngữ liệu Wikipedia, mỗi chủ đề trong
ít tương quan hơn so với kết quả thu được cho kho dữ số năm chủ đề được tạo ra giữ 35, 50, 100 và 200 từ hàng
liệu Wikipedia. Sự sụt giảm hiệu suất này có thể được đầu và dần dần so sánh số lượng từ phổ biến giữa các chủ
giải thích một phần do số lượng chủ đề tăng lên (một chủ đề và chuỗi từ vựng. Độ dài tối đa của các chuỗi từ vựng
đề bổ sung), nhưng chủ yếu là do bản chất khác nhau của từ kho ngữ liệu này là 84, lớn hơn nhiều so với độ dài
diễn ngôn: các bài viết trên Wikipedia tập trung / gắn thu được trong trường hợp của kho ngữ liệu Wikipedia.
kết và mạch lạc hơn nhiều so với cuộc trò chuyện giữa Điều này là do thực tế là bốn chủ đề được áp dụng để
nhiều người tham gia. Nó cũng cung cấp một cái nhìn sâu tranh luận trong các cuộc trò chuyện (diễn đàn, trò
sắc liên quan đến nội dung của các cuộc trò chuyện: có chuyện, blog và wikipedia) có liên quan chặt chẽ so với
vẻ như chủ đề một (liên quan đến wiki / Wikipedia) do các bài viết trên Wikipedia tranh luận về các chủ đề từ
LDA phát hiện có mạch lạc hơn các chủ đề khác, ít nhất các lĩnh vực khác nhau.
là bằng cách xem xét điểm tương quan LSA. Điểm cao thứ
hai trong hệ thống phân cấp này là cho chủ đề blog của Số lượng từ phổ biến chủ yếu là 1, đạt tối đa 8 từ
diễn đàn cho thấy rằng những người tham gia không thông dụng cho chủ đề thứ ba (liên quan đến trò chuyện)
trong một độ dài của từ vựng
Machine Translated by Google

chuỗi 150 từ. Kết quả tương tự như kết quả thu được đối Budanitsky, A. và Hirst, G., 2006. Đánh giá các thước đo dựa
trên wordnet về mức độ liên quan ngữ nghĩa. Trong: Ngôn
với kho dữ liệu Wikipedia.
ngữ học tính toán 32 (1), trang 13–47.
Blei, DM, Ng, AY và Jordan, MI, 2003. Phân bổ Dirichlet tiềm
ẩn. Trong: Tạp chí Nghiên cứu Máy học 3, trang 993-1022.
5. KẾT LUẬN
Boyd-Graber, J., Fellbaum, C., Osherson, D. và Schapire, R.,

Trong bài báo này, chúng tôi đã thảo luận về các đặc 2006. Thêm các kết nối dày đặc, có trọng số vào WordNet.
Trong: Kỷ yếu của Cuộc họp GlobalWordNet lần thứ 3, trang
điểm và hành vi của ba phương pháp thường được sử dụng
29–35.
để đánh giá ngữ nghĩa trong các ứng dụng NLP khác nhau:
Carthy, J., 2004. Chuỗi từ vựng so với từ khóa để theo dõi chủ
LSA, LDA và chuỗi từ vựng. Các phương pháp này đã được
đề. Trong: Ngôn ngữ học tính toán và xử lý văn bản thông
thử nghiệm trên hai kho ngữ liệu khác nhau chứa các
minh, LNCS, trang 507–510. Springer.
loại khám phá bằng văn bản khác nhau: một kho ngữ liệu Chiru, C., Janca, A., Rebedea, T., 2010. Xây dựng chuỗi phân
bao gồm 4 bài báo từ Wikipedia và một kho ngữ liệu khác biệt và hợp lý bằng cách sử dụng mạng từ. Trong S. Trăuşan-
bao gồm 35 cuộc trò chuyện với nhiều người tham gia Matu, P.Dessus (Eds.) Xử lý ngôn ngữ tự nhiên trong hỗ trợ

tranh luận về bốn chủ đề được đặt trước: diễn đàn, trò học tập: Số liệu, Phản hồi và Kết nối, MatrixRom, trang
chuyện, blog và wiki. 65-71.
Cramer, I., 2008. Các biện pháp liên quan đến ngữ nghĩa hoạt
Ngược lại với các nghiên cứu trước, chúng tôi đã so
động tốt như thế nào? một nghiên cứu tổng hợp. Trong: Kỷ
sánh kết quả của ba phương pháp bằng cách sử dụng điểm
yếu Hội thảo Chuyên đề về Ngữ nghĩa trong Hệ thống Xử lý
số định lượng được tính toán dựa trên kết quả đầu ra
Văn bản.
của mỗi phương pháp. Những điểm số này bao gồm mối
Griffiths, TL, Steyvers, M. và Tenenbaum, JB, 2007.
tương quan giữa điểm số tương tự và số lượng từ phổ Các chủ đề trong biểu diễn ngữ nghĩa. Trong: Tạp chí Tâm
biến từ các chủ đề và chuỗi. Do đó, kết quả thu được là lý học, tập. 114, không. 2, trang 211–244.
nhiệm vụ và không phụ thuộc vào diễn ngôn. Gong, Y. và Liu, X., 2001. Tóm tắt văn bản chung sử dụng thước

Kết quả quan trọng nhất là LSA và LDA đo mức độ liên quan và phân tích ngữ nghĩa tiềm ẩn. Trong:

đã cho thấy mối tương quan mạnh nhất trên cả hai kho Kỷ yếu hội nghị ACM SIGIR lần thứ 24, trang 19-25.

ngữ liệu. Điều này phù hợp với cơ sở lý thuyết, vì LDA


Haghighi, A. và Vanderwende, L., 2009. Khám phá các mô hình
tương tự như Phân tích ngữ nghĩa tiềm ẩn xác suất
nội dung để tóm tắt nhiều tài liệu. Trong: Kỷ yếu của HLT-
(pLSA), ngoại trừ việc phân phối LDA của các chủ đề
NAACL, trang 362–370.
được giả định có phân phối Dirichlet trước đó. Hơn nữa,
Halliday, MAK và Hasan, R., 1976. Cohesion Bằng tiếng
điểm LSA có thể được sử dụng để tính toán tính mạch lạc
Anh, Longman.
của một chủ đề LDA như được trình bày trong bài báo. Jiang, JJ và Conrath, D. W, 1997. Sự giống nhau về ngữ nghĩa
dựa trên thống kê ngữ liệu và phân loại từ vựng. Trong:
Một đóng góp quan trọng khác là các chuỗi từ vựng Kỷ yếu của ROCLING X, trang 19-33.
dựa trên Mạng từ không tương quan nhiều với cả LSA và Kakkonen, T., Myller, N., Sutinen, E. và Timonen, J.,
LDA, do đó chúng có thể được coi là bổ sung cho các kết 2008. So sánh các phương pháp giảm thứ nguyên để chấm
quả LSA hoặc LDA. điểm tiểu luận tự động. Trong: Công nghệ & Xã hội Giáo
dục, 11 (3), trang 275–288.
Landauer, TK và Dumais, ST, 1997. Một giải pháp cho

Vấn đề của Plato: lý thuyết Phân tích ngữ nghĩa tiềm ẩn


SỰ NHÌN NHẬN
về thu nhận, quy nạp và biểu diễn tri thức. Tạp chí Tâm
lý học, 104 (2), 211-240.
Nghiên cứu này được hỗ trợ bởi dự án số 264207, ERRIC-
Misra, H., Yvon, F., Jose, J. và Cappé, O., 2009. Phân
Empowering Romanian Research on Intelligent Information
đoạn văn bản thông qua mô hình chủ đề: Một nghiên cứu
Technologies / FP7-REGPOT 2010-1. phân tích. Trong: Hội nghị ACM lần thứ 18 về Quản lý
Thông tin và Tri thức, trang 1553–1556.
Morris, J. và Hirst, G., 1991. Lexical Cohesion,
Thesaurus, và Cấu trúc của Văn bản. Trong: Ngôn ngữ

NGƯỜI GIỚI THIỆU học tính toán, Tập 17 (1), trang 211-232.
Novischi, A. và Moldova, D., 2006. Trả lời câu hỏi bằng chuỗi
từ vựng tuyên truyền các lập luận động từ. Trong: Kỷ yếu
Barzilay, R. và Elhadad. M., 1997. Sử dụng chuỗi từ vựng để
của Hội nghị quốc tế về CL và Hội nghị thường niên lần thứ
tóm tắt văn bản. Trong: Kỷ yếu Hội thảo Tóm tắt Văn bản Có
44 của ACL, trang 897–904.
thể Mở rộng Thông minh, trang 10–17.
Tsatsaronis, G., Varlamis, I. và Vazirgiannis, M., 2010.
Tính liên quan của văn bản dựa trên một từ đồng nghĩa. Trong:

Nghiên cứu trí tuệ nhân tạo, 37, trang 1–39.

You might also like