You are on page 1of 3

19.

5) Topic Analysis with Time Series Context


Trong nhiều ứng dụng, chúng ta có thể quan tâm đến việc khai thác dữ liệu văn
bản để hiểu các sự kiện đã xảy ra trong thế giới thực. Như một trường hợp đặc
biệt, chúng tôi có thể quan tâm đến việc sử dụng khai phá văn bản để hiểu
chuỗi thời gian. Ví dụ: chúng ta có thể đã quan sát thấy giá giảm đột ngột trên
thị trường chứng khoán trong một khoảng thời gian cụ thể và muốn xem dữ
liệu văn bản đi kèm như tin tức có thể giúp giải thích những gì đã xảy ra hay
không. Nếu thời gian của các cổ phiếu tương ứng với thời điểm một chủ đề tin
tức cụ thể đột nhiên xuất hiện nhiều luồng tin tức, có thể có mối quan hệ tiềm
năng giữa chủ đề và sự cố về chứng khoán. Tương tự, người ta cũng có thể
quan tâm đến việc hiểu chủ đề nào được báo cáo trong luồng tin tức có liên
quan đến cuộc bầu cử tổng thống và do đó quan tâm đến việc tìm kiếm chủ đề
trong luồng tin tức có liên quan đến sự biến động của Thị trường dự đoán tổng
thống ứng cử viên tổng thống. Tất cả các trường hợp này là trường hợp đặc
biệt của một vấn đề chung về phân tích chung của văn bản và một chuỗi thời
gian để khám phá các chủ đề nhân quả. Ở đây, chúng ta sử dụng thuật ngữ
nhân quả theo cách không hấp dẫn để chỉ bất kỳ chủ đề nào có thể liên quan
đến chuỗi thời gian và do đó có thể có khả năng gây ra nhân quả.
Dữ liệu đầu vào bao gồm chuỗi thời gian cộng với dữ liệu văn bản được tạo
trong cùng một thời gian cho trước, còn được gọi là luồng văn bản đi kèm.
Chuỗi thời gian có thể được coi là ngữ cảnh (context) để phân tích dữ liệu văn
bản. Đầu ra mà chúng tôi muốn tạo ra là các chủ đề có mức độ phù hợp trong
luồng văn bản có tương quan mạnh với chuỗi thời gian.

Chúng tôi gọi những chủ đề này là chủ đề nhân quả vì chúng có khả năng giải
thích nguyên nhân biến động của chuỗi thời gian và cung cấp thông tin chi tiết
để con người phân tích sâu hơn các chủ đề để hiểu rõ hơn về chuỗi thời gian.
Chúng cũng có thể là các tính năng hữu ích để dự đoán chuỗi thời gian. Bằng
trực giác, đầu ra tương tự như những gì chúng ta tạo ra bằng cách sử dụng
một mô hình chủ đề, nhưng với một sự khác biệt quan trọng. Trong mô hình
chủ đề thường xuyên, mục tiêu của chúng tôi là khám phá các chủ đề giải thích
tốt nhất nội dung trong dữ liệu văn bản, nhưng trong thiết lập của chúng tôi về
khám phá các chủ đề nhân quả, các chủ đề được khám phá không chỉ mang ý
nghĩa ngữ nghĩa và mạch lạc (như trong trường hợp thường xuyên mô hình
chủ đề), nhưng cũng tương quan với chuỗi thời gian bên ngoài. Để giải quyết
vấn đề này, ý tưởng tự nhiên là áp dụng một mô hình như CPLSA vào luồng
văn bản của chúng tôi để khám phá một số chủ đề cùng với phạm vi của chúng
theo thời gian.. Sau đó, chúng tôi có thể chọn các chủ đề từ tập hợp này có
mối tương quan mạnh nhất với chuỗi thời gian bên ngoài. Tuy nhiên, phương
pháp này không tối ưu vì nội dung của các chủ đề sẽ chỉ được phát hiện dựa
trên dữ liệu văn bản (ví dụ: tối đa hóa chức năng khả năng) mà không xem xét
chuỗi thời gian. Thật vậy, các chủ đề được phát hiện sẽ có xu hướng là các
chủ đề chính giải thích dữ liệu văn bản tốt (như chúng nên), nhưng chúng không
nhất thiết phải tương quan với chuỗi thời gian. Ngay cả khi chúng tôi chọn
những từ tốt nhất từ họ, các chủ đề tương quan nhất vẫn có thể có tương quan
thấp và do đó không hữu ích lắm từ quan điểm phát hiện chủ đề nhân quả.
Ý tưởng của phương pháp này là thực hiện điều chỉnh lặp lại các chủ đề được
phát hiện bởi các mô hình chủ đề bằng chuỗi thời gian để tạo ra trước đó. Cụ
thể, như trong Hình 19.15, đầu tiên chúng ta lấy dòng văn bản làm đầu vào và
áp dụng mô hình chủ đề thường xuyên để tạo ra một số chủ đề (bốn được hiển
thị ở đây). Tiếp theo, chúng tôi sử dụng chuỗi thời gian bên ngoài để đánh giá
chủ đề nào liên quan đến nhân quả hơn (tương quan) với chuỗi thời gian bên
ngoài bằng cách sử dụng thước đo nhân quả như Granger Test.

Chủ đề 1 và chủ đề 4 có thể tương quan hơn chủ đề 2 và chủ đề 3. Cách tiếp
cận đơn giản mà chúng ta đã thảo luận trước đó sẽ dừng lại ở đây và lấy chủ
đề 1 và 4 là các chủ đề nhân quả ‘tiềm năng”. Tuy nhiên, ở đây chúng tôi tiến
xa hơn để cải thiện chúng bằng cách phóng to (zoom) cấp độ từ để xác định
thêm các từ có mối tương quan mạnh nhất với chuỗi thời gian. Cụ thể, chúng
ta có thể xem xét từng từ trong các từ được xếp hạng hàng đầu cho từng chủ
đề (những từ có xác suất cao nhất) và tính toán tương quan của từng từ với
chuỗi thời gian.
Điều này sẽ cho phép chúng ta tách biệt những từ đó thành ba nhóm: những
từ tương quan mạnh mẽ; các từ tương quan nghịch mạnh; và những từ tương
quan yếu. Hai nhóm đầu tiên sau đó có thể được coi là hạt giống để xác định
hai chủ đề phụ mới có thể được mong đợi tương quan tích cực và tiêu cực với
chuỗi thời gian tương ứng. Hình này cho thấy một phân chia tiềm năng của chủ
đề 1 thành hai chủ đề phụ có khả năng tương quan hơn: một với w1 và w3
(dương) và một với w 2 và w4 (âm). Tuy nhiên, hai chủ đề phụ này có thể không
nhất thiết phải có tính mạch lạc. Để cải thiện tính mạch lạc, thuật toán sẽ không
trực tiếp sử dụng các chủ đề này, mà thay vào đó chúng là mô hình chủ đề
trước để chỉ đạo mô hình chủ đề hướng tới việc khám phá các chủ đề phù hợp
với hai chủ đề phụ này. Do đó, chúng ta có thể mong đợi các chủ đề được mô
hình chủ đề phát hiện trong lần lặp tiếp theo sẽ tương quan hơn với chuỗi thời
gian hơn so với các chủ đề ban đầu được phát hiện từ lần lặp trước đó. Khi
chúng ta khám phá ra một thế hệ chủ đề mới, chúng ta có thể lặp lại quy trình
để phân tích các từ trong các chủ đề tương quan và tạo ra một tập hợp các chủ
đề khác, sau đó sẽ được đưa vào mô hình chủ đề như trước.

You might also like