You are on page 1of 56

Chương 6

Lý luận xác suất


6.1 Mở đầu
Bayesian Network là một mô hình đồ thị để mô tả xác suất kết nối giữa
các biến. Nó cung cấp một đại diện tự nhiên của mối quan hệ thông
thường và thường được sử dụng để khám phá các mối quan hệ tiềm năng
giữa các dữ liệu. Trong mạng, các nút biểu thị các biến và các liên kết có
hướng biểu thị các mối quan hệ phụ thuộc giữa các biến. Với nền tảng
toán học vững chắc, Lý thuyết Bayes đưa ra phương pháp tính toán hàm
ngắn gọn và mô tả sự trùng hợp giữa tóm tắt và bằng chứng, đồng thời
sở hữu thuộc tính học tăng dần mà ngắn gọn thay đổi cùng với sự thay
đổi của bằng chứng. Trong khai phá dữ liệu, mạng Bayesian có thể xử lý
tập dữ liệu không đầy đủ hoặc nhiễu. Nó mô tả mối tương quan giữa các
dữ liệu với phép đo xác suất và do đó giải quyết vấn đề về sự không nhất
quán của dữ liệu. Nó mô tả mối tương quan giữa các dữ liệu bằng
phương pháp đồ họa, có ngữ nghĩa rõ ràng và biểu diễn dễ hiểu. Nó cũng
đưa ra dự đoán và phân tích với các mối quan hệ ngẫu nhiên giữa các dữ
liệu. Mạng Bayesian đang trở thành một trong những phương pháp khai
phá dữ liệu đáng chú ý nhất do các đặc tính tốt của nó, bao gồm biểu
diễn tri thức duy nhất về thông tin không chắc chắn, khả năng xử lý xác
suất và học tăng dần với tri thức trước đó.
6.1.1 Lịch sử của định lý Bayesian
Công trình nền tảng của Trường Bayesian là Reverend Thomas Bayes’
(1702-1761) “Một tiểu luận hướng tới giải quyết một vấn đề trong học
thuyết về cơ hội”.
Có lẽ anh ấy cảm thấy tác phẩm chưa đủ hoàn hảo, tác phẩm này không
được xuất bản trong cuộc đời của anh ấy, nhưng sau đó bởi người bạn
của anh ấy. Như nhà toán học nổi tiếng Laplace P. S. duced Law of
Succession dựa trên phương pháp Bayesian, phương pháp Bayesian và
lý thuyết bắt đầu được công nhận. Vào thế kỷ 19, vì việc thúc đẩy và xây
dựng các xác suất trước đó không được trả lời thỏa đáng, nên lý thuyết
Bayesian không được chấp nhận vào thời điểm đó. Đầu thế kỷ 20, B. de
Finetti và Jeffreys H. đã đóng góp đáng kể cho lý thuyết Bayesian. Sau
Thế chiến Ⅱ, Wald A. đề xuất lý thuyết quyết định thống kê. Trong lý
thuyết này, Phương pháp Bayesian đóng một vai trò quan trọng. Bên
cạnh đó, sự phát triển của khoa học thông tin cũng góp phần tái sinh lý
thuyết Bayesian. Trong 1958, bài báo của Bayes được tái bản bởi
Biometrika, thống kê lịch sử nhất tạp chí ở Anh. Vào những năm 1950,
Robbins H. đề nghị kết hợp kinh nghiệm Phương pháp tiếp cận Bayesian
và phương pháp thống kê thông thường. Cách tiếp cận mới lạ gây ra sự
chú ý của lĩnh vực nghiên cứu thống kê, và sớm cho thấy giá trị của nó,
và trở thành một hướng nghiên cứu tích cực.
Với sự phát triển của trí tuệ nhân tạo, đặc biệt là sau sự trỗi dậy của học
máy và khai phá dữ liệu, lý thuyết Bayes đã đạt được nhiều hơn nữa
phát triển và ứng dụng. ý nghĩa của nó cũng đã thay đổi rất nhiều từ nó
nguồn gốc. Vào những năm 1980, mạng Bayes được sử dụng để biểu
diễn tri thức trong các hệ chuyên gia. Vào những năm 1990, mạng Bayes
đã được áp dụng để khai phá dữ liệu và học máy. Gần đây, ngày càng có
nhiều bài báo liên quan đến lý thuyết Bayesian đã được xuất bản, bao
gồm hầu hết các lĩnh vực trí tuệ nhân tạo, bao gồm cả suy luận thông
thường, biểu diễn tri thức không chắc chắn, nhận dạng mẫu, phân tích
phân cụm, v.v. Xuất hiện một tổ chức và một tạp chí, ISBA, tập trung
đặc biệt vào sự tiến bộ của lý thuyết Bayesian.
6.1.2 Các khái niệm cơ bản của phương pháp Bayesian
Trong lý thuyết Bayes, tất cả các loại không chắc chắn được biểu diễn
bằng xác suất. Học tập và lý luận được thực hiện thông qua các quy tắc
xác suất. Các kết quả học tập Bayesian là các phân phối của các biến
ngẫu nhiên, hiển thị tóm tắt các kết quả có thể khác nhau. Nền tảng của
trường phái Bayesian là định lý Bayesian và giả định Bayesian. Định lý
Bayes kết nối xác suất trước của các sự kiện với xác suất sau của chúng.
Giả sử mật độ xác suất chung của vectơ ngẫu nhiên x và θ là p(x, θ), và
p(x) và p(θ) đưa ra mật độ biên của x và θ tương ứng. Trong các trường
hợp phổ biến, x là một vectơ quan sát và θ là một vectơ tham số chưa
biết. Ước tính của tham số θ có thể thu được với vectơ quan sát thông
qua định lý Bayes. Định lý Bayes là như sau:

Từ công thức trên, chúng ta thấy rằng trong phương pháp Bayes, ước
tính của một tham số cần thông tin trước của tham số và thông tin từ
chứng cớ. Ngược lại, phương pháp thống kê truyền thống, v.d. khả năng
tối đa, chỉ sử dụng thông tin từ bằng chứng. Quy trình chung để ước
lượng vectơ tham số thông qua phương pháp Bayesian được mô tả như
sau:
(1) Coi các tham số chưa biết là vectơ ngẫu nhiên. Đây là điều cơ bản sự
khác biệt giữa phương pháp Bayesian và phương pháp thống kê truyền
thống.
(2) Đã xác định trước π(θ) dựa trên kiến thức trước đó về tham số θ.
bước này là một bước gây tranh cãi và bị các nhà khoa học thống kê
thông thường tấn công.
(3) Tính mật độ sau và ước lượng các tham số theo phân phối sau. Trong
bước thứ hai, nếu không có kiến thức trước đó để xác định π(θ) của một
tham số, Bayes đề xuất giả sử phân phối đồng đều là của nó phân bổ.
Điều này được gọi là giả định Bayes. Theo trực giác, Bayesian giả định
được chấp nhận tốt. Tuy nhiên, nó gặp vấn đề khi không có thông tin về
phân phối trước có sẵn, đặc biệt là khi tham số là vô hạn.Empirical
Bayes (EB) Estimator kết hợp phương pháp thống kê thông thường và
phương pháp Bayesian, do đó nó áp dụng phương pháp thông thường để
đạt được giá trị cận biên mật độ p(x), và sau đó xác định trước π(θ) với
công thức sau:
6.1.3 Các ứng dụng của mạng Bayesian trong khai phá dữ liệu
1. Phương pháp Bayes trong phân loại và phân tích hồi quy
Phân loại là phân loại một đối tượng dựa trên vectơ đặc trưng của nó và
một số ràng buộc. Trong khai phá dữ liệu, chúng ta chủ yếu nghiên cứu
cách học các luật phân lớp từ dữ liệu hoặc kinh nghiệm. Để phân loại,
đôi khi mỗi vectơ đặc trưng tương ứng đến một nhãn lớp (phân loại xác
định); đôi khi các lớp khác nhau có thể trùng lặp, trong đó các mẫu từ
các lớp khác nhau rất giống nhau và chúng tôi chỉ có thể cho biết xác
suất của một mẫu trong tất cả các lớp và chọn một lớp cho mẫu theo xác
suất. Trường Bayesian cung cấp hai phương pháp để xử lý tình huống
này: một là chọn lớp có xác suất hậu nghiệm lớn nhất; các khác là chọn
lớp có chức năng tiện ích tối đa hoặc bị mất tối thiểu hàm số. Đặt vectơ
đặc trưng là X = (x1, x2, …, xm) và vectơ lớp là C = (c1, c2, …, cl).
Phân loại là gán một lớp ci (i∈(1, …,l ) cho một vectơ đặc trưng X.
Trong phương pháp đầu tiên, lớp ci với xác suất sau tối đa sẽ là đã chọn,
nghĩa là P( c x i ) ≥ P( c j x ) j ∈ 1( l) . Trong trường hợp này hàm quyết
định là ri (x) = p(ci x) . Nó đã được chứng minh rằng trong phương pháp
này tối thiểu lỗi phân loại có thể được đảm bảo. Phương pháp thứ hai
thường được sử dụng trong lý thuyết quyết định. Nó sử dụng lợi ích
trung bình để đánh giá rủi ro quyết định, có mối quan hệ chặt chẽ với
mức độ không chắc chắn. LetLij(X) là sự mất mát do phân loại sai vectơ
đặc trưng X của lớp ci thành lớp c j . Lớp có X bị mất ít nhất

Trong trường hợp này, chức năng quyết định là . Nếu các
phần tử đường chéo của Lij(X) đều bằng 0 và các phần tử không thuộc
đường chéo của Lij(X) đều bằng 1, tức là. Chính xác phân loại không
làm mất mát và phân loại sai có cùng mất mát, phương pháp đầu tiên và
phương pháp thứ hai là bằng nhau.
Trong khai phá dữ liệu, nghiên cứu về phân loại Bayes chủ yếu tập
trung vào cách tìm hiểu sự phân bố của các vectơ đặc trưng và mối
tương quan giữa các vectơ đặc trưng từ dữ liệu để tìm P(ci|x) và Lij(X))
tốt nhất. Đến nay các mô hình thành công đã được đề xuất, bao gồm
Naïve Bayesian, Bayesian Network và Bayesian Mạng lưới thần kinh.
Phương pháp phân loại Bayes đã được áp dụng thành công cho nhiều
lĩnh vực, chẳng hạn như phân loại văn bản, nhận dạng bảng chữ cái, và
kinh tế sự dự đoán.
2. Phương pháp Bayes trong lý luận thông thường và biểu diễn tri thức
không chắc chắn
Mạng Bayesian là một biểu đồ để mô tả các mối quan hệ xác suất của
ngẫu nhiên biến. Những năm này, mạng Bayesian là phương pháp chính
của biểu diễn tri thức không chắc chắn trong hệ chuyên gia. Nhiều thuật
toán có đã được đề xuất để tìm hiểu mạng Bayesian từ dữ liệu. Những
kỹ thuật này có đã đạt được thành công hợp lý trong mô hình hóa dữ
liệu, lý luận về sự không chắc chắn, v.v.
So với các phương pháp biểu diễn tri thức khác trong khai phá dữ liệu,
chẳng hạn như biểu diễn luật, cây quyết định, mạng nơ-ron nhân tạo,
mạng Bayesian sở hữu những ưu điểm sau trong biểu diễn tri thức
(Cooper, 1992):
(1) Mạng Bayesian có thể xử lý dữ liệu không đầy đủ một cách thuận
tiện. Ví dụ, khi chúng ta đối mặt với vấn đề phân loại hoặc hồi quy với
nhiều biến tương quan biến, mối tương quan giữa các biến không phải là
yếu tố chính cho tiêu chuẩn các thuật toán học có giám sát. Kết quả là,
các giá trị bị thiếu sẽ gây ra nhiều thiên vị dự báo. Tuy nhiên, mạng
Bayesian có thể xử lý dữ liệu không đầy đủ với tương quan xác suất của
các biến.
(2) Mạng Bayesian có thể tìm hiểu mối quan hệ ngẫu nhiên của các biến.
quan hệ tình cờ là một mẫu rất quan trọng trong khai phá dữ liệu, chủ
yếu là do: trong phân tích dữ liệu, ngẫu nhiên mối quan hệ là hữu ích
cho sự hiểu biết kiến thức lĩnh vực; nó cũng có thể dễ dàng dẫn đến dự
đoán chính xác ngay cả dưới nhiều can thiệp. Ví dụ, một số bán các nhà
phân tích tự hỏi liệu việc tăng quảng cáo có làm tăng doanh số bán hàng
hay không.
Để có câu trả lời, người phân tích phải biết liệu quảng cáo có tăng hay
không. nguyên nhân bán tăng. Đối với mạng Bayesian, câu hỏi này có
thể là dễ dàng trả lời ngay cả khi không có dữ liệu thực nghiệm, bởi vì
mối quan hệ nhân quả đã được mã hóa trong mạng Bayesian.
(3) Sự kết hợp giữa mạng Bayesian và thống kê Bayesian có thể lấy toàn
bộ lợi thế của kiến thức lĩnh vực và thông tin từ dữ liệu. mọi người với
kinh nghiệm lập mô hình biết rằng thông tin trước đây hoặc kiến thức
lĩnh vực rất quan trọng đối với mô hình hóa, đặc biệt là khi dữ liệu mẫu
thưa thớt hoặc hầu như không được. Một số hệ chuyên gia thương mại,
được xây dựng hoàn toàn dựa trên kiến thức chuyên môn lĩnh vực, là
một ví dụ hoàn hảo. Mạng Bayesian, thể hiện quan hệ phụ thuộc với
cạnh có hướng và sử dụng phân phối xác suất để mô tả sức mạnh của sự
phụ thuộc, có thể tích hợp kiến thức trước đó và thông tin mẫu tốt.
(4) Sự kết hợp giữa mạng Bayesian và các mô hình khác có thể tránh
được hiệu quả vấn đề quá phù hợp.
3. Phương pháp Bayes trong phân cụm và khám phá mẫu
Nói chung, phân cụm là một trường hợp đặc biệt của việc lựa chọn mô
hình. Mỗi mẫu phân cụm có thể được xem như là một mô hình. Nhiệm
vụ của phân cụm là tìm ra một mẫu mà tốt nhất phù hợp với bản chất của
dữ liệu, từ nhiều mô hình dựa trên phân tích và một số khác các chiến
lược. Phương pháp Bayesian tích hợp kiến thức và đặc điểm trước đó
của dữ liệu hiện tại để chọn mô hình tốt nhất.
Với phân tích Bayesian Vaithyanathan et al. đề xuất một mô hình dựa
trên phương pháp phân cụm theo thứ bậc (Vaithyanathan,1998). Bằng
cách phân vùng bộ tính năng, họ đã tổ chức dữ liệu thành một cấu trúc
phân cấp. Các tính năng hoặc có độc đáo phân phối trong các lớp khác
nhau hoặc có cùng phân phối trong một số lớp. Họ đồng thời đưa ra
phương pháp xác định cấu trúc mô hình với khả năng cận biên, bao gồm
cách tự động xác định số lớp, độ sâu của lớp cây mô hình và tập hợp con
tính năng của mỗi lớp.
AutoClass là một hệ thống điển hình triển khai phân cụm với Bayesian
phương pháp. Hệ thống này tự động xác định số lớp và độ phức tạp của
mô hình bằng cách tìm kiếm tất cả các phân loại có thể có trong không
gian mô hình. Nó cho phép các đối tượng trong các lớp nhất định có mối
quan hệ tương quan và kế tiếp tồn tại giữa các lớp (trong cấu trúc thứ
bậc của các lớp, một số lớp có thể chia sẻ một số tham số mô hình).
Thông tin chi tiết về AutoClass có thể được tìm thấy trên Trang web
http://ic-www.arc.nasa.gov/ic/projects/bayes-group/autoclass.
Trên đây chúng tôi chỉ liệt kê một số ứng dụng tiêu biểu của phương
pháp Bayesian. Các các ứng dụng của phương pháp Bayesian trong khai
phá dữ liệu còn nhiều hơn thế nữa. Các Mạng thần kinh Bayesian, kết
hợp phương pháp Bayesian và mạng thần kinh, Bayes Point Machine,
kết hợp phương pháp Bayesian và thống kê học tập, đều là những ví dụ
thú vị về các ứng dụng của phương pháp Bayesian. Độc giả quan tâm có
thể tìm thêm trong sách (Amari, 1985).
6.2 Nền tảng của xác suất Bayesian
6.2.1 Cơ sở lý thuyết xác suất
Xác suất là một nhánh của toán học, tập trung vào tính đều đặn của hiện
tượng ngẫu nhiên. Hiện tượng ngẫu nhiên là hiện tượng mà các kết quả
khác nhau xuất hiện trong cùng điều kiện. Hiện tượng ngẫu nhiên bao
gồm ngẫu nhiên cá nhân hiện tượng và hiện tượng ngẫu nhiên bản chất.
Sự đều đặn từ quan sát các hiện tượng ngẫu nhiên thực chất được gọi là
tính đều đặn thống kê.
Theo thống kê, chúng tôi thường gọi một quan sát, một đăng ký hoặc
một thí nghiệm về hiện tượng một thử nghiệm. Một thử nghiệm ngẫu
nhiên là một quan sát trên một hiện tượng ngẫu nhiên. Trong cùng một
điều kiện, các phép thử ngẫu nhiên có thể dẫn đến các kết quả khác nhau
kết quả. Nhưng phạm vi của tất cả các kết quả có thể có là ước tính
được. kết quả của một phép thử ngẫu nhiên vừa không chắc chắn vừa có
thể dự đoán được. Theo thống kê, kết quả của một phép thử ngẫu nhiên
gọi là biến cố ngẫu nhiên, ngắn gọn bằng biến cố. Biến cố ngẫu nhiên là
kết quả sẽ xuất hiện hoặc không xuất hiện trong một phép thử ngẫu
nhiên. Trong hiện tượng ngẫu nhiên, tần suất của một dấu hiệu là tổng số
mà dấu hiệu đó xuất hiện trong tất cả các thử nghiệm.
Ví dụ 6.1 Để nghiên cứu chất lượng sản phẩm của một nhà máy, chúng
tôi thực hiện ngẫu nhiên một số lấy mẫu. Trong mỗi lần lấy mẫu, số
lượng mẫu là khác nhau. Kết quả của lấy mẫu được mã hóa lại và trình
bày trong
Bảng 6.1.
Bảng 6.1 Kết quả lấy mẫu chất lượng sản phẩm

Trong Bảng, số lượng sản phẩm được kiểm tra là tổng số sản phẩm được
kiểm tra trong một mẫu. Số lượng sản phẩm đủ tiêu chuẩn là tổng số số
sản phẩm đạt yêu cầu dự thi. Tần suất của trình độ là tỷ lệ sản phẩm đủ
tiêu chuẩn trong tất cả các sản phẩm được kiểm tra trong một mẫu. Từ
bảng, chúng ta có thể dễ dàng thấy rằng mối quan hệ giữa số hiệu và tần
số của một nhãn hiệu. Chúng ta cũng có thể tìm thấy một quy tắc thống
kê. Đó là, với tư cách là số lượng sản phẩm được kiểm tra tăng lên, tần
suất kiểm tra chất lượng nghiêng về 0,9 ổn định. Hoặc tần số của các
dao động quanh một số cố định p = 0,9. Vì vậy, p là trung tâm ổn định
thống kê của loạt thử nghiệm này. Nó đại diện cho khả năng đủ điều
kiện của một sản phẩm được kiểm tra. Khả năng được gọi là xác suất.
Định nghĩa 6.1 Xác suất thống kê: nếu trong số lần thử lặp lại,
tần suất của sự kiện A nghiêng về một hằng số p ổn định, nó thể hiện
khả năng xảy ra sự xuất hiện của sự kiện A, và chúng ta gọi hằng số này
là xác suất của sự kiện A, ngay sau đó bởi P(A).
p = P(A)
Vì vậy, một xác suất là trung tâm ổn định của một tần số. Xác suất của
bất kỳ sự kiện A là số thực không âm và không lớn hơn 1.
0 ≤ P(A) ≤ 1
Định nghĩa thống kê về xác suất có quan hệ chặt chẽ với tần suất và là
điều dễ hiểu. Nhưng đó là một vấn đề khó khăn để tìm ra xác suất của
một sự kiện tùy ý với các thí nghiệm. Đôi khi nó thậm chí là không thể.
Vì vậy, chúng tôi thường xuyên tính xác suất bằng phương pháp xác suất
cổ điển hoặc hình học phương pháp xác suất.
Định nghĩa 6.2 Xác suất cổ điển: Cho phép thử có và chỉ có N hữu hạn
kết quả có thể, hoặc N sự kiện cơ bản. Nếu sự kiện A chứa K kết quả có
thể xảy ra, chúng tôi gọi K/N xác suất của biến cố A, ngắn gọn P(A)
P(A) = K/N (6,2)
Để tính xác suất cổ điển, chúng ta cần biết số lượng của tất cả các sự
kiện cơ bản. Vì vậy, xác suất cổ điển bị hạn chế trong các trường hợp
dân số hữu hạn. Trong trường hợp dân số vô hạn hoặc tổng số sự kiện cơ
bản chưa biết, mô hình xác suất hình học được sử dụng để tính toán xác
suất. Ngoài ra, xác suất hình học cũng đưa ra một định nghĩa chung về
xác suất.
Phép thử ngẫu nhiên hình học: Giả sử Ω là miền giới hạn của M chiều
không gian, và L(Ω) là thể tích của Ω. Chúng tôi xem xét thử nghiệm
ngẫu nhiên mà chúng tôi ném một điểm ngẫu nhiên thành Ω đều và giả
sử: (1) Điểm ngẫu nhiên có thể rơi vào bất kỳ miền xác định của Ω,
nhưng không thể nằm ngoài Ω. (2) Phân phối điểm ngẫu nhiên trong Ω
chẵn, tức là. khả năng điểm ngẫu nhiên rơi vào một miền là Suy luận xác
suất 221 tỷ lệ thuận với khối lượng của miền và không phụ thuộc vào vị
trí hoặc hình dạng của miền trong Ω. Theo các hạn chế ở trên, chúng tôi
gọi bản dùng thử là thử nghiệm ngẫu nhiên hình học, trong đó Ω là
không gian sự kiện cơ bản. Biến cố trong phép thử ngẫu nhiên hình học:
Giả sử Ω là không gian biến cố cơ bản của thử nghiệm ngẫu nhiên hình
học và A là tập hợp con của Ω có thể được đo bằng thể tích, trong đó
L(A) là thể tích M chiều của A. Khi đó biến cố “Điểm ngẫu nhiên rơi
vào miền A” được biểu thị bằng A. Trong Ω, một tập hợp con có thể
được đo bằng thể tích gọi là tập đo được. Mỗi bộ đo lường có thể được
xem như một sự kiện. Tập hợp tất cả các tập con có thể đo được được
biểu diễn bởi F.
Định nghĩa 6.3 Xác suất hình học: Giả sử Ω là một không gian biến cố
cơ bản của một thử nghiệm ngẫu nhiên hình học và F là tập hợp tất cả
các tập con có thể đo được của Ω. sau đó xác suất của bất kỳ biến cố A
nào trong F là tỉ số giữa thể tích của A và của Ω.
P(A) = V(A)/V(Ω) (6.3)
Định nghĩa 6.4 Xác suất có điều kiện: Xác suất của biến cố A dưới điều
kiện mà sự kiện B đã xảy ra được ký hiệu là P(A|B). Chúng tôi gọi nó là
xác suất có điều kiện của sự kiện A trong điều kiện B. P(A) được gọi là
xác suất vô điều kiện.
Ví dụ 6.2 Trong một cái túi có hai quả bóng trắng và một quả bóng đen.
Bây giờ chúng tôi lấy ra hai quả bóng lần lượt. Câu hỏi: (1) Xác suất của
biến cố đó là bao nhiêu? lần thứ nhất nhặt được bi trắng? (2) Xác suất
của trường hợp bi trắng được lấy lần thứ hai khi bi trắng đã được chọn
trong lần đầu tiên?
Giải: Giả sử A là biến cố lấy được bi trắng lần đầu tiên và B là biến cố
lần thứ hai lấy được bi trắng. Khi đó {B|A} là trường hợp bi trắng được
lấy lần thứ hai khi bi trắng đã được chọn trong lần đầu tiên. Theo Định
nghĩa 6.4 ta có:
(1) Bất kể lấy mẫu lặp lại hay lấy mẫu không lặp lại, P(A)=2/3
(2) Khi lấy mẫu không lặp lại, P(B|A)=1/2; Khi lấy mẫu lặp lại,
P(B|A) = P(B) = 2/3. Xác suất có điều kiện bằng với xác suất không có
điều kiện xác suất.
Nếu sự xuất hiện của bất kỳ sự kiện A hoặc B nào không ảnh hưởng đến
xác suất của sự kiện khác, viz. P(A) = P(A|B) hoặc P(B) = P(B|A). Ta
gọi biến cố A và B các sự kiện độc lập.222 Trí tuệ nhân tạo nâng cao
Định lý 6.1 (Định lý cộng) Xác suất của tổng hai đồng biến biến cố loại
trừ bằng tổng xác suất của hai biến cố. Đó là
P(A+B) = P(A)+P(B)
Tổng xác suất của hai sự kiện nghịch đảo lẫn nhau là 1. Nói cách khác,
nếu A + A−1 = Ω , và A và A−1 nghịch đảo nhau thì P( A ) +
P( A−1 )=1 hoặc P( A )=1-P( A−1 )
Nếu A và B là hai biến cố tùy ý thì P(A+B)=P(A)+P(B)-P(AB) nắm
giữ. Định lý này có thể được tổng quát hóa cho trường hợp liên quan đến
hơn ba sự kiện.
P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(CA)+P(ABC)
Định lý 6.2 (Định lý nhân) Giả sử A và B đồng biến các biến cố độc lập
khác không, thì xác suất của nhiều biến cố bằng nhân xác suất của sự
kiện A và B, đó là:
P(A·B)=P(A)·P(B) hoặc P(A·B)=P(B)·P(A)
Giả sử A và B là hai biến cố khác không tùy ý, khi đó xác suất của nhiều
sự kiện bằng với phép nhân xác suất của sự kiện A (hoặc B) và xác suất
có điều kiện của biến cố B (hoặc A) với điều kiện A (hoặc B).
P(A·B)=P(A)·P(B|A) hoặc P(A·B)=P(B)·P(A|B)
Định lý này có thể được tổng quát hóa cho trường hợp liên quan đến hơn
ba sự kiện. Khi xác suất của nhiều biến cố P(A1A2…An-1)>0, ta có:
P(A1A2…An)=P(A1)·P(A2|A1)·P(A3|A1A2) …P(An|A1A2An-1)
Nếu tất cả các sự kiện là độc lập từng cặp, chúng ta có:
P(A1A2…An)=P(A1)·P(A2)·P(A3) …P(An)

6.2.2 Xác suất Bayesian


(1) Xác suất trước. Xác suất trước là xác suất của một sự kiện xảy ra thu
được từ tư liệu lịch sử hoặc phán đoán chủ quan. Nó không được xác
minh và là ước tính trong trường hợp không có bằng chứng. Vì vậy, nó
được gọi là xác suất trước. Có hai loại xác suất trước. Một là xác suất
tiên nghiệm khách quan, đó là tính theo tư liệu lịch sử; khác là chủ quan
trước xác suất, được ước tính hoàn toàn dựa trên kinh nghiệm chủ quan
khi tư liệu lịch sử không có hoặc không đầy đủ.
(2) Xác suất sau. Xác suất sau là xác suất được tính toán theo xác suất
trước và thông tin bổ sung từ điều tra thông qua Công thức Bayesian.
(3) Xác suất chung. Xác suất chung của hai biến cố là xác suất giao nhau
của hai biến cố đó. Nó còn được gọi là công thức nhân.
(4) Công thức xác suất toàn phần. Giả sử tất cả các yếu tố ảnh hưởng của
biến cố A là B1,
B2, …, và chúng thỏa mãn Bi·Bj = ∅, (i ≠ j) và P(∪Bi) = 1, P(Bi) > 0, i
= 1, 2, …,
sau đó chúng tôi có:
P(A) = ∑P(Bi) P(A|Bi) (6.4)

(5) Công thức Bayes. Công thức Bayesian, còn được gọi là hậu nghiệm
công thức xác suất hoặc công thức xác suất nghịch đảo, có ứng dụng
rộng rãi
Giả sử P(Bi) là xác suất trước và P(Aj|Bi) là thông tin mới thu được từ
điều tra, trong đó i=1, 2, …, n, và j=1, 2, …, m. Sau đó, phía sau xác
suất được tính bằng Công thức Bayes là:

Ví dụ 6.3 Một loại sản phẩm được sản xuất tại nhà máy. Ba tổ công tác
(A1, A2, và A3) phụ trách 2 quy cách (B1 và B2) của sản phẩm. hàng
ngày của họ đầu ra được liệt kê trong Bảng 6.2
Bảng 6.2 Sản lượng hàng ngày của ba đội

Bây giờ chúng tôi chọn ngẫu nhiên một trong số 6000 sản phẩm. Hãy trả
lời các câu hỏi sau đây.
1. Tính các xác suất sau bằng Xác suất cổ điển
(1) Tính xác suất để sản phẩm được chọn xuất phát từ đầu ra của
A1, A2 hoặc A3 tương ứng.
Lời giải:
P(A1)=3000/6000=1/2
P(A2)=2000/6000=1/3
P(A3)=1000/6000=1/6
Tính xác suất sản phẩm được chọn thuộc B1 hoặc B2
tương ứng
Lời giải:
P(B1)=4000/6000=2/3
P(B2)=2000/6000=1/3
(2) Tính xác suất để sản phẩm được chọn là B1 và đến từ A1
Lời giải:P(A1·B1)=2000/6000=1/3
(3) Nếu biết sản phẩm của A1 thì xác suất để sản phẩm đó là bao nhiêu?
nó thuộc B1?
Lời giải:P(B1|A1)=2000/3000=2/3
(4) Nếu sản phẩm thuộc loại B2 thì xác suất sản phẩm đó thuộc loại B2
là bao nhiêu?
A1, A2, hay A3 tương ứng?
Lời giải:P(A1|B2)=1000/2000=1/2
P(A2|B2)=500/2000=1/4
P(A3|B2)=500/2000=1/4
2. Tính các xác suất sau bằng Xác suất có điều kiện
(1) Nếu một sản phẩm đến từ A1, xác suất nó thuộc về B1 là bao nhiêu?
Giải: P(B1|A1)=(1/3)/(1/2)=2/3
(2) Nếu một sản phẩm thuộc B2, xác suất nó đến từ A1 là bao nhiêu,
A2, hay A3 tương ứng?
Lời giải: P(A1|B2)=(1/6)/(1/3)=1/2
P(A2|B2)=(1/12)/(1/3)=1/4
P(A3|B2)=(1/12)/(1/3)=1/4
3. Tính các xác suất sau bằng Công thức Bayesian.
(1) Đã biết: P(B1)=4000/6000=2/3
P(B2)=2000/6000=1/3
P(A1|B1)=1/2
P(A1|B2)=1/2
Câu hỏi: Nếu một sản phẩm đến từ A1, xác suất nó thuộc về là bao nhiêu
đến B2?
Giải pháp: Tính xác suất chung:
P(B1)P(A1|B1)=(2/3)(1/2)=1/3
P(B2)P(A1|B2)=(1/3)(1/2)=1/6
Tính tổng xác suất:
P(A1)=(1/3)+(1/6)=1/2
Tính xác suất hậu nghiệm theo Công thức Bayes:
P(B2|A1) = (1/6) ÷ (1/2) = 1/3
(2) Biết: P(A1)=3000/6 000=1/2
P(A2)=2000/6 000=1/3
P(A3)=1000/6 000=1/6
P(B2|A1)=1000/3 000=1/3
P(B2|A2)=500/2 000=1/4
P(B2|A3)=500/1 000=1/2
Câu hỏi: Nếu một sản phẩm thuộc loại B2 thì xác suất nó xuất hiện là
bao nhiêu?
từ A1, A2, hay A3?
Giải pháp: Tính xác suất chung:
P(A1)P(B2|A1)=(1/2)(1/3)=1/6
P(A2)P(B2|A2)=(1/3)(1/4)=1/12
P(A3)P(B2|A3)=(1/6)(1/2)=1/12
Tính tổng xác suất P(B2):
P(B2)=∑P(Ai)P(B2|Ai)
=(1/2)(1/3)+(1/3)(1/4)+(1/6)(1/2)=1/3
Tính xác suất hậu nghiệm theo Công thức Bayes:
P(A1|B2)=(1/6)÷(1/3)=1/2
P(A2|B2)=(1/12)÷(1/3)=1/4
P(A3|B2)=(1/12)÷(1/3)=1/4

6.3 Giải bài toán Bayesian


Lý thuyết học tập Bayes sử dụng thông tin trước và dữ liệu mẫu để ước
tính dữ liệu chưa biết. Xác suất (xác suất chung và xác suất có điều kiện)
là biểu diễn thông tin trước đó và dữ liệu mẫu trong học tập Bayesian
học thuyết. Làm thế nào để có được ước tính của các xác suất này (còn
gọi là xác suất ước lượng mật độ) gây nhiều tranh cãi trong lý thuyết học
Bayesian. Bayesian ước tính mật độ tập trung vào cách đạt được ước
tính phân phối của các biến chưa biết (vectơ) và các tham số của nó dựa
trên dữ liệu mẫu và trước đó kiến thức từ các chuyên gia con người. Nó
bao gồm hai bước. Một là xác định trước phân phối của các biến chưa
biết; khác là để có được các thông số của những phân phối. Nếu chúng
ta không biết gì về thông tin trước đó, phân phối là được gọi là phân
phối trước không mang tính thông tin. Nếu chúng ta biết phân phối và
tìm kiếm nó tham số thích hợp, phân phối được gọi là phân phối thông
tin trước. Bởi vì học từ dữ liệu là đặc điểm cơ bản nhất của khai phá dữ
liệu, phân phối trước không cung cấp thông tin là chủ đề chính của lý
thuyết học tập Bayesian nghiên cứu.
Bước đầu tiên của giải quyết vấn đề Bayesian là chọn Bayesian trước
phân bổ. Đây là một bước quan trọng. Có hai phương pháp phổ biến để
chọn trước phân phối, cụ thể là phương pháp chủ quan và phương pháp
khách quan. Cái trước làm cho sử dụng kinh nghiệm của con người và
kiến thức chuyên môn để chỉ định phân phối trước. Các sau đó là phân
tích các ký tự của dữ liệu để có được các tính năng thống kê của dữ liệu.
Nó yêu cầu đủ dữ liệu để có được phân phối dữ liệu thực sự.
Trong thực tế, hai phương pháp này thường được kết hợp với nhau. Một
số phương pháp phổ biến để lựa chọn phân phối trước là được liệt kê sau
đây. Trước khi thảo luận về các phương pháp này, chúng tôi đưa ra một
số định nghĩa đầu tiên.
Gọi θ là tham số của mô hình, X = (x1, x2, …, xn) là dữ liệu quan sát,
π(θ) là phân phối trước của θ. π(θ) đại diện cho tóm tắt của tham số θ khi
không bằng chứng tồn tại. l(x1, x2, …, xn|θ) ∝ p(x1, x2, …, xn|θ) là
hàm khả năng. Nó đại diện cho bản tóm tắt của dữ liệu chưa biết khi biết
tham số θ. h(θ|x1, x2, …, xn) ∝ p(θ|x1, x2, …, xn) là tóm tắt của tham
số θ sau khi xuất hiện bằng chứng mới.
Định lý Bayes mô tả mối quan hệ của chúng

Định nghĩa 6.5 Hạt nhân của mật độ phân phối: Nếu f(x), mật độ phân
phối của biến ngẫu nhiên z, có thể phân tách thành f(x), = cg(x), trong
đó c là hằng số không phụ thuộc vào x, ta gọi g(x) là nhân của f(x), rút
gọn f(x) ∝ g(x). Nếu chúng ta biết hạt nhân của mật độ phân phối, chúng
ta có thể xác định hằng số tương ứng theo thực tế là tích phân của mật
độ phân bố trong toàn bộ không gian là 1. Do đó, mấu chốt của việc giải
mật độ phân bố của một biến ngẫu nhiên là giải quyết hạt nhân của mật
độ phân phối của nó.
Định nghĩa 6.6 Thống kê đầy đủ: Với tham số θ, thống kê t(x1, x2, …,
xn) là đủ nếu phân phối sau của θ, h(θ|x1, x2, …, xn), luôn là một hàm
của θ và t(x1, x2, …, xn) bất chấp sự phân bố trước của nó. Định nghĩa
này nêu rõ rằng thông tin của θ trong dữ liệu có thể được biểu diễn bởi
số liệu thống kê đầy đủ của nó. Số liệu thống kê đầy đủ là kết nối giữa
sau phân phối và dữ liệu. Dưới đây, chúng tôi đưa ra một định lý để
đánh giá liệu một thống kê có hợp lý.
Định lý 6.3 Định lý Neyman-Fisher: Cho fθ (x) là hàm mật độ hoặc khối
lượng cho vectơ ngẫu nhiên x, được tham số hóa bởi vectơ θ. Thống kê t
= T(x) là đủ cho θ khi và chỉ khi tồn tại hàm số a(x) (không phụ thuộc
vào θ) và bθ (t) sao cho fθ (x) = a(x) bθ (t) với mọi khả năng các giá trị
của x.
6.3.1 Các phương pháp phổ biến để lựa chọn phân phối trước
1. Họ phân phối liên hợp
Raiffa và Schaifeer đã đề xuất sử dụng phân phối liên hợp như trước đây
phân phối, trong đó phân phối sau và phân phối trước tương ứng phân
phối là cùng một loại phân phối. Mô tả chung của phân phối liên hợp
như sau:
Định nghĩa 6.7 Cho phân phối có điều kiện của các mẫu x1, x2, …, xn
dưới tham số θ là p(x1, x2, …, xn|θ). Nếu hàm mật độ trước π(θ) và của
nó dẫn đến hàm mật độ sau π(θ|x) nằm trong cùng một họ, hàm trước
hàm mật độ π(θ) được cho là liên hợp với phân bố có điều kiện p(x|θ).
Định nghĩa 6.8 Cho P = {p(x|θ): θ∈Θ} là họ hàm mật độ với thông số θ.
H = π(θ) là họ phân phối trước của θ. Nếu với bất kỳ p∈P đã cho và
π∈H, kết quả phân phối sau π(θ|x) luôn thuộc họ H, H là được gọi là họ
liên hợp của P
Khi các hàm mật độ của phân phối dữ liệu và hàm trước của nó đều là
hàm mũ hàm, hàm kết quả của phép nhân của chúng là loại mẫu của
hàm số mũ. Sự khác biệt duy nhất là một yếu tố tỷ lệ. Vì vậy, chúng tôi
có:
Định lý 6.4 Nếu đối với biến ngẫu nhiên Z, nhân của hàm mật độ f(x)
của nó là hàm mũ, hàm mật độ thuộc họ liên hợp.
Tất cả các bản phân phối có hàm nhân lũy thừa đều tổng hợp theo cấp số
nhân họ, bao gồm phân phối nhị phân, phân phối đa thức, bình thường
phân phối, phân phối Gamma, phân phối Poisson và phân phối Dirichlet.
Phân phối liên hợp có thể cung cấp một tổng hợp hợp lý các thử nghiệm
lịch sử và một điều kiện tiên quyết hợp lý cho các thử nghiệm trong
tương lai. Tính toán không liên hợp phân phối khá khó khăn. Ngược lại,
việc tính toán liên hợp phân phối dễ dàng, trong đó chỉ cần nhân với
trước. Vì vậy, trên thực tế, họ liên hợp tạo nền tảng vững chắc cho ứng
dụng thực tế của Bayesian học tập.
2. Nguyên lý Entropi cực đại
Entropy được sử dụng để định lượng sự không chắc chắn của sự kiện
trong lý thuyết thông tin. Nếu một biến ngẫu nhiên x nhận hai giá trị khả
dĩ khác nhau, cụ thể là a và b, so sánh hai trường hợp sau:
(1) p(x=a) = 0,98, p(x=b) =0,02,
(2) p(x=a) = 0,45, p(x=b) =0,55,
Rõ ràng, độ không đảm bảo của trường hợp 1 nhỏ hơn nhiều so với
trường hợp 2. Theo trực giác, chúng ta có thể thấy rằng sự không chắc
chắn sẽ đạt cực đại khi xác suất của hai giá trị bằng nhau.
Định nghĩa 6.9

Theo định nghĩa, khi hai biến ngẫu nhiên có cùng phân phối thì chúng có
entropy bằng nhau. Vì vậy, entropy chỉ liên quan đến phân phối. Nguyên
tắc entropy cực đại: Đối với dữ liệu phi thông tin, cách tốt nhất phân
phối là phân phối, làm cho entropy tối đa dưới thông số θ.
Có thể chứng minh rằng entropy của một biến ngẫu nhiên, hoặc vectơ,
đạt tới lớn nhất khi và chỉ khi phân phối của nó là đều. Do đó, phương
pháp Bayes giả định, giả định phi thông tin trước khi thống nhất, phù
hợp với nguyên lý entropy cực đại. Nó tạo ra entropy của một biến ngẫu
nhiên, hoặc vectơ, cực đại. Dưới đây là bằng chứng của trường hợp ngẫu
nhiên có giá trị giới hạn Biến đổi.
Định lý 6.5 Cho biến ngẫu nhiên x nhận các giá trị giới hạn a1, a2 , …,
an. Các xác suất tương ứng là p1, p2, …, pn. Entropy H(x) lớn nhất nếu
và chỉ khi p1 = p2 = … = pn =1/n.

Đối với biến ngẫu nhiên liên tục, kết quả là như nhau. Từ trên, khi
không có thông tin để xác định phân phối trước, nguyên tắc phân phối
tối đa là một lựa chọn hợp lý để lựa chọn trước. Có nhiều trường hợp
không có thông tin để xác định trước nên Giả định Bayes là rất quan
trọng trong những trường hợp này.
3. Nguyên tắc của Jeffrey
Jeffrey đã đóng góp đáng kể vào việc lựa chọn phân phối trước đó. Anh
ta đề xuất một nguyên tắc bất biến, giải quyết tốt xung đột trong
Bayesian giả định và đưa ra một cách tiếp cận để tìm mật độ trước.
Nguyên tắc của Jeffrey là bao gồm hai phần: một là yêu cầu hợp lý để
phân phối trước; các khác là đưa ra cách tiếp cận cụ thể để tìm ra một
phân phối trước chính xác phù hợp với yêu cầu.
Có một mâu thuẫn trong giả định Bayesian: Nếu chúng ta chọn đồng
phục là phân phối của tham số θ, một khi chúng ta lấy hàm g(θ) làm
tham số, nó sẽ cũng tuân theo phân phối đều và ngược lại. Tuy nhiên,
điều kiện tiên quyết trên không thể dẫn đến kết quả mong đợi. Để giải
quyết xung đột, Jeffrey đề xuất một bất biến lời yêu cầu. Đó là, một
nguyên tắc hợp lý để lựa chọn trước nên có bất biến. Nếu chúng ta chọn
π(θ) làm phân phối trước của tham số θ, theo nguyên lý bất biến,
πg(g(θ)), phân phối của hàm g(θ) phải thỏa mãn tiếp theo:

Điểm mấu chốt là làm thế nào để tìm một phân phối tiên nghiệm π(θ) để
thỏa mãn điều kiện trên tình trạng. Jeffrey đã khéo léo sử dụng tính bất
biến của ma trận thông tin Fisher để tìm một π(θ) cần thiết.
Phân phối của tham số θ có nhân là căn bậc hai của ma trận thông tin

Quá trình dẫn xuất bê tông không được trình bày ở đây. Độc giả quan
tâm có thể tìm thấy chúng trong các tài liệu tham khảo liên quan. Cần
lưu ý rằng Nguyên tắc Jeffrey chỉ là một nguyên tắc tìm tiên nghiệm hợp
lý, trong khi sử dụng căn bậc hai của ma trận thông tin làm hạt nhân của
tiên nghiệm là một cách tiếp cận cụ thể. Họ khác nhau. Trên thực tế,
chúng ta có thể tìm kiếm những cách tiếp cận cụ thể khác để thể hiện
nguyên tắc này.
6.3.2 Học tính toán
Học hỏi là một hệ thống có thể cải thiện hành vi của nó sau khi chạy. Là
phân phối sau đạt được thông qua công thức Bayesian tốt hơn so với
trước đó tương ứng của nó?
Cơ chế học tập của nó là gì? Ở đây chúng tôi phân tích phân phối chuẩn
như một ví dụ để nghiên cứu tác động của thông tin trước và dữ liệu mẫu
bằng cách thay đổi các tham số.
Do đó, θ~ , ước tính của θ, là trung bình có trọng số của µ0, kỳ vọng của
trước đó và x1, giá trị trung bình của mẫu. σ 02 là phương sai của N(µ0,
σ 02 ), do đó nghịch đảo của nó, 1/σ 02 , là độ chính xác của µ0. Tương
tự, σ12 /n là phương sai của trung bình mẫu x , vì vậy nghịch đảo của nó
là độ chính xác của x1 . Do đó, chúng ta thấy rằng ~θ là giá trị trung
bình có trọng số của µ0 và x1 , trong đó các trọng số lần lượt là độ chính
xác của chúng. Phương sai càng nhỏ thì trọng số càng lớn. Bên cạnh đó,
cỡ mẫu n càng lớn thì phương sai σ12 /n càng nhỏ hay trọng số của
trung bình mẫu càng lớn. Điều này có nghĩa là khi n khá lớn, ảnh hưởng
của giá trị trung bình trước đó sẽ được rất nhỏ. Phân tích trên minh họa
rằng hậu thế từ công thức Bayesian tích hợp thông tin trước đó và dữ
liệu mẫu. Kết quả hợp lý hơn kết quả chỉ dựa trên thông tin trước đó
hoặc dữ liệu mẫu. Cơ chế học tập hiệu quả.
Theo thảo luận trước đó, với liên hợp từ trước, chúng ta có thể sử dụng
thông tin sau làm thông tin trước của phép tính tiếp theo và tìm kiếm sau
đó bằng cách tích hợp thêm thông tin mẫu. Nếu chúng ta cứ lặp đi lặp lại
quá trình này hết lần này đến lần khác, liệu chúng ta có thể ngày càng
tiệm cận với thực tế không? Chúng tôi nghiên cứu vấn đề này sau đây:
Giả sử mẫu mới x1, x2, … , xn có phân phối chuẩn N(θ, σ 22 ), trong đó
2 2 σ đã biết và θ chưa biết. Nếu chúng ta sử dụng hậu nghiệm trước h(θ|
x1)= N(α1, d21 ) làm nghiệm trước của phép tính vòng tiếp theo, thì hậu
nghiệm mới là h1(θ| x2 )= N(α2, d22 ), trong đó

Rõ ràng là do việc bổ sung mới mẫu, tỷ lệ của mẫu ban đầu và mẫu cũ
giảm. Dựa theo phương trình (6.9), với sự gia tăng liên tục của mẫu mới
(ở đây chúng tôi giả sử cỡ mẫu không đổi), ta có:

Từ phương trình (6.10), nếu phương sai của các mẫu mới bằng nhau thì
chúng bằng mẫu có kích thước m×n. Quá trình trên đã cân tất cả các
phương tiện mẫu với độ chính xác của chúng. Độ chính xác càng cao thì
trọng lượng càng lớn. Nếu phân phối trước được ước tính chính xác,
chúng ta có thể sử dụng ít dữ liệu mẫu hơn và chỉ cần tính toán một chút.
Điều này đặc biệt hữu ích trong trường hợp khó lấy mẫu. Đó cũng là
điểm mà phương pháp Bayesian mang lại kết quả cho các phương pháp
khác. Do đó, việc xác định phân phối trước trong học Bayesian là vô
cùng quan trọng. Nếu không có thông tin trước và chúng tôi áp dụng
thông tin không có trước, với sự gia tăng của mẫu, ảnh hưởng của mẫu
sẽ ngày càng trở nên rõ ràng hơn. Nếu độ nhiễu của mẫu nhỏ thì hậu
nghiệm sẽ ngày càng gần với giá trị thực của nó. Vấn đề duy nhất là tính
toán lớn được yêu cầu.
6.3.3 Các bước giải quyết bài toán Bayesian
Các bước giải bài toán Bayesian có thể được tóm tắt như sau:
(1) Định nghĩa biến ngẫu nhiên. Đặt tham số chưa biết làm biến ngẫu
nhiên hoặc vectơ, ngay sau θ. Mật độ khớp p(x1, x2, ..., xn; θ) của mẫu
x1, x2, ..., xn là được coi là mật độ có điều kiện của x1, x2, ..., xn đối
với θ, ngay sau đó p(x1, x2, ..., xn |θ) hoặc p(D|θ).
(2) Xác định mật độ phân bố trước p(θ). Sử dụng phân phối liên hợp.
Nếu có không có thông tin về phân phối trước, sau đó sử dụng giả định
Bayesian của phi thông tin phân phối trước.
(3) Tính mật độ phân bố sau qua định lý Bayes.
(4) Suy luận vấn đề với kết quả phân phối sau Tỉ trọng.
Lấy trường hợp của một biến và một tham số làm ví dụ. xem xét vấn đề
ném đinh bấm. Nếu chúng ta ném một cái đinh bấm lên không trung,
đinh bấm sẽ rơi xuống và đặt lại ở một trong hai trạng thái: trên đầu
hoặc trên cái đuôi. Giả sử chúng ta lật cái đinh bấm N+1 lần. Từ N quan
sát đầu tiên, làm thế nào chúng ta có thể tính được xác suất của quả ném
đầu trong lần ném thứ N+1?
Bước 1 Xác định một biến ngẫu nhiên Θ. Giá trị θ tương ứng với khả
năng giá trị của xác suất thực sự của đầu. Hàm mật độ p(θ) đại diện cho
độ bất định của Θ. Biến của kết quả thứ i là Xi (i=1,2,...,N+1) và tập các
quan sát là D={X1=x1,..., Xn=xn}. Mục tiêu của chúng ta là tính (xN+1|
D).
Bước 2 Theo định lý Bayes, chúng ta có

Nếu θ, giá trị của Θ, đã biết; giá trị quan sát trong D là độc lập; và xác
suất ra đầu (sấp) là θ, xác suất ra sấp là (1- θ); sau đó:
Trong đó h và t lần lượt là thời gian đầu và đuôi trong quan sát D.
Chúng là số liệu thống kê đầy đủ về phân phối nhị phân mẫu.
Bước 3 Tìm giá trị trung bình của Θ là xác suất mặt ngửa trong lần tung
thứ N+1:

Trong đó Ep(θ|D)(θ) là kỳ vọng của θ dưới phân phối p(θ|D)


Bước 4 Gán các tham số phân phối trước và siêu cho Θ.
Phương pháp phổ biến để gán trước là giả sử phân phối trước và sau đó
để xác định các thông số thích hợp. Ở đây chúng tôi giả sử phân phối
trước là Phân phối beta:

Trong đó αh >0 và αt>0 là các tham số của phân phối Beta, và α = αh +


αt, và Γ(·) là hàm Gamma. Để phân biệt với tham số θ, σh và αt được
gọi là “Thông số bữa ăn tối”. Bởi vì phân phối Beta thuộc họ liên hợp,
kết quả sau cũng là phân phối Beta.

Đối với phân phối này, kỳ vọng của nó có dạng đơn giản:

Do đó, đối với một Beta nhất định trước đó, chúng ta có xác suất đứng
đầu trong lần tung thứ N+1 như sau:
Có nhiều cách để xác định các thông số bữa ăn tối của Beta trước phân
phối p(θ), chẳng hạn như dữ liệu tưởng tượng trong tương lai và các mẫu
tương đương. Khác có thể tìm thấy các phương pháp trong các tác phẩm
của Winkler, Chaloner và Duncan. bên trong phương pháp của dữ liệu
tương lai tưởng tượng, hai phương trình có thể được suy ra từ phương
trình (6.16) và hai tham số siêu cao αh và αt có thể được giải tương ứng.
Trong trường hợp một biến có nhiều tham số (một biến đơn với nhiều
trạng thái có thể xảy ra), thông thường X được coi là một biến liên tục
với
Phân phối Gaussian. Giả sử mật độ vật chất của nó là p(x|θ), thì ta có:

Tương tự như cách tiếp cận trước đây về phân phối nhị phân, trước tiên
chúng tôi chỉ định trước các tham số và sau đó giải vế sau với dữ liệu
D={X1=x1, X2=x2,…., XN=xN} qua định lý Bayes.
P(θ|D)=p(D|θ)p(θ)/ p(D)
Tiếp theo, chúng tôi sử dụng giá trị trung bình của Θ làm dự đoán:
p x D ( | ) N + ! =∫p(xN+1|θ)p(θ| D)dθ (6.17)
Đối với họ số mũ, việc tính toán là hiệu quả và gần gũi. Trong trường
hợp nhiều mẫu, nếu giá trị quan sát được của X là rời rạc, phân phối
Dirichlet có thể là được sử dụng làm phân phối trước, có thể đơn giản
hóa việc tính toán. Cơ chế học tính toán của định lý Bayes là lấy trung
bình có trọng số của kỳ vọng phân phối trước và giá trị trung bình của
mẫu, trong đó độ chính xác càng cao thì trọng lượng càng lớn. Với điều
kiện tiên quyết là cái trước là phân phối liên hợp, thông tin sau có thể
được sử dụng làm cái trước trong tính toán vòng tiếp theo, để nó có thể
được tích hợp với thu được thêm thông tin mẫu. Nếu quá trình này được
lặp đi lặp lại hết lần này đến lần khác, ảnh hưởng của mẫu sẽ ngày càng
nổi bật. Bởi vì phương pháp Bayes tích hợp trước thông tin và thông tin
sau, nó có thể tránh được sự thiên vị chủ quan khi chỉ sử dụng thông tin
trước đó và tránh tìm kiếm mù quáng và tính toán khi thông tin mẫu bị
hạn chế. Bên cạnh đó, nó cũng có thể tránh được ảnh hưởng của tiếng ồn
khi chỉ sử dụng thông tin sau. Vì vậy nó phù hợp cho các bài toán khai
phá dữ liệu với các đặc trưng thống kê và các bài toán tri thức khám phá,
đặc biệt là các vấn đề khó thu thập mẫu hoặc chi phí lấy mẫu cao. Chìa
khóa của việc học hiệu quả với phương pháp Bayesian là xác định trước
một cách hợp lý và chính xác. Hiện nay, chỉ có một số nguyên tắc để xác
định trước, và không có lý thuyết toàn bộ khả thi để xác định trước.
Trong nhiều trường hợp, tính hợp lý và chính xác của phân phối là khó
để đánh giá. Cần nghiên cứu thêm để giải quyết những các vấn đề.
6.4 Mô hình học Naïve Bayesian
Trong các mô hình học tập Naïve Bayesian, mẫu đào tạo tôi được phân
tách thành tính năng vectơ X và biến lớp quyết định C. Ở đây, giả định
rằng tất cả các trọng số trong một vectơ đặc trưng được đưa ra biến
quyết định một cách độc lập.
Nói một cách khác, mỗi trọng số ảnh hưởng đến biến quyết định một
cách độc lập. Mặc dù giả định ở một mức độ nào đó giới hạn phạm vi
của mô hình Naïve Bayesian, trong thực tế các ứng dụng, mô hình Naïve
Bayesian có thể giảm độ phức tạp theo cấp số nhân để xây dựng mô hình
và có thể thể hiện sự mạnh mẽ và hiệu quả nổi bật ngay cả khi giả định
không được thỏa mãn (Nigam, 1998). Nó đã thành công được áp dụng
trong nhiều nhiệm vụ khai phá dữ liệu, chẳng hạn như phân loại, phân
cụm, mô hình lựa chọn và như vậy. Hiện nay, nhiều nhà nghiên cứu
đang làm việc để nới lỏng hạn chế tính độc lập giữa các biến
(Heckerman, 1997), do đó mô hình có thể được áp dụng rộng rãi hơn.
6.4.1 Mô hình học Naïve Bayesian
Định lý Bayes cho chúng ta biết làm thế nào để dự đoán lớp của mẫu
đến đã cho mẫu huấn luyện. Quy tắc phân loại là xác suất sau tối đa,
được cho trong phương trình sau:
Ở đây A là mẫu thử cần phân loại, P(Y|X) là xác suất có điều kiện của Y
trong điều kiện của X. Xác suất ở vế phải của phương trình có thể là ước
lượng từ dữ liệu huấn luyện. Giả sử rằng mẫu được biểu diễn dưới dạng
một vectơ của các tính năng. Nếu tất cả các tính năng là độc lập cho các
lớp nhất định, P(A|Ci) có thể là được phân tách thành tích của các thừa
số: P a C P a C P a C ( | ) ( | ) ( | ) 1 2 i i m i × × × , trong đó ai là đặc
trưng thứ i của mẫu thử nghiệm. Theo đó, hậu phương trình tính toán có
thể được viết lại như sau:

Toàn bộ quá trình được gọi là phân loại Naïve Bayesian. ở chung ý
nghĩa, chỉ khi giả định độc lập đúng, hoặc khi mối tương quan của các
tính năng rất yếu, trình phân loại Naïve Bayesian có thể đạt được tối ưu
hoặc kết quả dưới tối ưu. Tuy nhiên, điều kiện giới hạn mạnh dường như
không phù hợp với thực tế là trình phân loại Bayesian naïve đạt được
hiệu suất nổi bật trong nhiều lĩnh vực, bao gồm một số lĩnh vực có sự
phụ thuộc rõ ràng giữa các tính năng. Trong 16 trong tổng số 28 bộ dữ
liệu của UCI, trình phân loại Bayesian naïve vượt trội so với C4.5 các
thuật toán và có hiệu suất tương tự với CN2 và PEBLS. Một số công
trình nghiên cứu báo cáo kết quả tương tự (Clark & Niblett, 1989;
Dougherty Kohavi & Sahami, 1995). Đồng thời, các nhà nghiên cứu
cũng đã đề xuất thành công một số chiến lược để nới lỏng giới hạn độc
lập giữa các tính năng (Nigam,
1998).
Xác suất có điều kiện trong công thức (6.19) có thể đạt được bằng cách
sử dụng tối đa ước tính khả năng:
Để tránh xác suất bằng không, nếu xác suất có điều kiện thực tế bằng
không, thì đó là được gán là 0,5/N, trong đó N là tổng số ví dụ.
Giả sử rằng chỉ có hai lớp, cụ thể là lớp0 và lớp1, và a1, …, ak đại diện
cho các tính năng của bộ kiểm tra. Cho b P C 0 = = ( 0) , b P C b 1 0 = =
= − ( 1) 1 ,

trong đó z là một hằng số. Sau khi lấy logarit cả hai vế của hai phương
trình trên phương trình, chúng ta trừ phương trình thứ hai từ phương
trình thứ nhất và nhận được:

Trong đó tôi là một chức năng đặc trưng. nếu φ đúng, thì I(φ)=1; khác
I(φ)=0; Trong thực tế tính toán, phương trình (6.27) có thể tính tương tự
như phương trình (6.20).
Thực tế, phương trình (6.27) là một hàm nhận thức với hàm kích hoạt
sigmoid. Đầu vào của chức năng này là các giá trị có thể có của tất cả
các tính năng. Vì vậy, ở một mức độ nào đó, trình phân loại naïve
Bayesian tương đương với một mô hình nhận thức. Nghiên cứu sâu hơn
đã chứng minh rằng trình phân loại naïve Bayesian có thể được khái
quát hóa thành hồi quy logic với các tính năng số.
Xét phương trình (6.20). Nếu Aj nhận các giá trị rời rạc, tính
có thể được tính toán trực tiếp từ các mẫu huấn luyện. Nếu
Aj liên tục thì nó phải rời rạc hóa. Trong rời rạc hóa không giám sát, một
tính năng được rời rạc hóa thành M phần rộng bằng nhau, trong đó thông
thường là M=10. Chúng ta cũng có thể sử dụng phương pháp rời rạc
phức tạp hơn, chẳng hạn như phương pháp rời rạc có giám sát. Đặt mỗi
Aj là một thuộc tính số (rời rạc hoặc liên tục). Mô hình hồi quy logic là:
:

6.4.2 Tăng cường mô hình Naïve Bayesian


Khi tăng cường, một loạt các bộ phân loại sẽ được xây dựng và trong
mỗi bộ phân loại theo chuỗi, các ví dụ bị phân loại sai bởi bộ phân loại
trước đó sẽ được chú ý nhiều hơn.
Cụ thể, sau khi học bộ phân loại k, trọng số của các ví dụ huấn luyện
được phân loại sai bởi bộ phân loại k sẽ tăng lên và bộ phân loại k+1 sẽ
được học dựa trên trên các ví dụ đào tạo trọng số mới. Quá trình này sẽ
được lặp lại T lần.
Bộ phân loại cuối cùng là tổng hợp của tất cả các bộ phân loại theo
chuỗi. Ban đầu, mỗi ví dụ đào tạo được thiết lập với một trọng số. Trong
quá trình học tập, nếu một số ví dụ bị phân loại sai bởi một bộ phân loại,
trong vòng học tiếp theo, trọng số tương ứng sẽ được tăng lên, do đó bộ
phân loại tiếp theo sẽ trả nhiều tiền hơn chú ý đến nó.
Thuật toán tăng cường cho bài toán phân loại nhị phân được đưa ra bởi
Freund và Scbapire là Thuật toán AdaBoost (Freund, 1995).
Thuật toán 6.1 Thuật toán AdaBoost.
6.4.3 Độ phức tạp tính toán
Giả sử một mẫu trong không gian mẫu có f thuộc tính và mỗi thuộc tính
chiếm v các giá trị. Bộ phân loại Naïve Bayesian được suy ra theo công
thức (6.27) sẽ có fv+1 thông số. Các tham số này được học tích lũy
2fv+2 lần. Trong mỗi quá trình học tập, mỗi giá trị tính năng của mỗi ví
dụ đào tạo sẽ cải thiện độ chính xác cuối cùng. Vì vậy, độ phức tạp về
thời gian cho n ví dụ huấn luyện là O(nf), độc lập với v. Về cơ bản, độ
phức tạp lần này là tối ưu. Đối với trình phân loại Bayesian tăng cường,
độ phức tạp về thời gian của mỗi vòng là O(nf). vòng chữ T đào tạo
tương ứng với O(Tnf). Lưu ý rằng T là một hằng số. Vì vậy toàn bộ thời
gian độ phức tạp vẫn là O(nf).
Đối với bộ phân loại Bayesian naïve, tính toán chính là đếm. Tập huấn
các ví dụ có thể được xử lý tuần tự hoặc theo lô từ đĩa hoặc băng. Vì thế
phương pháp này hoàn toàn phù hợp để khám phá tri thức trên tập dữ
liệu lớn. Tập huấn bộ không nhất thiết phải được tải hoàn toàn vào bộ
nhớ và một phần của nó có thể được giữ trong đĩa hoặc băng. Tuy nhiên,
mô hình Naïve Bayesian đang thúc đẩy cũng có những điều sau đây các
vấn đề.
(1) Từ ý tưởng tăng cường, khi nhiễu tồn tại trong tập huấn luyện,
phương pháp tăng cường sẽ coi đó là thông tin hữu ích và khuếch đại tác
dụng của nó với trọng lượng lớn. Đây sẽ làm giảm hiệu suất của boost.
Nếu có nhiều dữ liệu tiếng ồn, tăng cường sẽ dẫn đến kết quả tồi tệ hơn.
(2) Mặc dù về mặt lý thuyết, việc tăng cường có thể đạt được tỷ lệ lỗi
bằng 0 cho tập huấn luyện, trong đó ứng dụng thực tế của mô hình
Bayesian naïve, 0 lỗi phân loại trong đào tạo set nói chung hầu như
không được đảm bảo.
6.5 Xây dựng mạng Bayesian
6.5.1 Cấu trúc của mạng Bayesian và cách xây dựng của nó
Nói tóm lại, mạng Bayes là một đồ thị tuần hoàn có hướng với các ghi
chú xác suất. Mô hình đồ họa có thể được sử dụng để biểu diễn khớp nối
(vật lý hoặc Bayesian) phân phối của tập biến lớn. Nó cũng có thể được
sử dụng để phân tích mối tương quan giữa vô số biến. Với khả năng học
tập và thống kê suy luận theo định lý Bayes, nó có thể thực hiện nhiều
nhiệm vụ khai phá dữ liệu, chẳng hạn như dự đoán, phân loại, phân
cụm, phân tích ngẫu nhiên, v.v.
Cho trước một loạt các biến X={x1, x2, … , xn }, một mạng Bayes là
bao gồm hai thành phần: một là cấu trúc mạng S, đại diện cho độc lập có
điều kiện giữa các biến X; cái còn lại là tập phân phối cục bộ P, liên
quan đến mọi biến. Hai thành phần xác định khớp xác suất của X. S là
đồ thị tuần hoàn có hướng. Các nút trong S và các biến trong X là một
đến một tương ứng. Đặt xi là biến hoặc nút và Pai là cha các nút của xi
trong S. Việc không có cung giữa các nút thường biểu thị điều kiện Sự
độc lập. Xác suất chung của X được biểu diễn dưới dạng:

trong đó p(xi| Pai)(i =1, 2, …, n) là phân phối xác suất địa phương trong
công thức (6.32). Cặp (S, P) đại diện cho phân phối xác suất chung p(X).
Nếu mạng Bayesian được xây dựng chỉ dựa trên thông tin trước đó, thì
phân phối xác suất là Bayesian hoặc chủ quan. Nếu mạng Bayesian được
xây dựng hoàn toàn dựa trên dữ liệu, thì phân phối là vật lý hoặc khách
quan.
Để xây dựng mạng Bayesian, chúng ta nên thực hiện các công việc sau:
Bước 1 Xác định tất cả các biến liên quan và giải thích của chúng. Để
làm được như vậy, chúng ta cần: (1) Xác định mục tiêu của mô hình,
hoặc đưa ra lời giải thích hợp lý cho vấn đề đã cho; (2) Tìm càng nhiều
càng tốt các quan sát liên quan đến vấn đề và xác định một tập hợp con
có giá trị để xây dựng mô hình; (3) Chuyển những quan sát này thành
các biến trạng thái toàn diện và loại trừ lẫn nhau. Kết quả của các hoạt
động này không phải là duy nhất.
Bước 2 Xây dựng đồ thị tuần hoàn có hướng, biểu diễn khẳng định độc
lập có điều kiện. Theo công thức nhân ta có:

Với bất kỳ biến X nào, nếu tồn tại một tập con πi ⊆{x1, x2, , xi-1} sao
cho xi và {x1, x2, , xi-1}\πi là độc lập có điều kiện. Nghĩa là, đối với bất
kỳ X đã cho, phương trình sau đúng.
p(x i |x1,x2, , xi-1)=p(x i |πi), (i=1,2, ,n) (6.34)
Theo công thức (6.33) và (6.34) ta có p(x)=
1 ∏in= p x ( | ) i i π . Tập biến (π1, …, πn) tương ứng với tập cha (Pa1, ,
Pan). Vì vậy, phương trình trên cũng có thể được viết là p(X)= 1 ∏in= p
x Pa ( | ) i i . Để xác định cấu trúc của mạng Bayes, ta cần (1) sắp xếp
các biến x1, x2, , xi;
(2)xác định tập biến (π1, , πn) thỏa mãn công thức (6.34).
Về mặt lý thuyết, việc tìm một dãy độc lập có điều kiện thích hợp từ n
biến là một bài toán bùng nổ tổ hợp, vì nó sẽ yêu cầu so sánh giữa n!
trình tự khác nhau. Trong thực tế, quan hệ thông thường thường được sử
dụng để giải quyết vấn đề này. Nói chung, quan hệ thông thường sẽ
tương ứng với khẳng định độc lập có điều kiện. Vì vậy, chúng ta có thể
tìm thấy một trình tự thích hợp bằng cách thêm các cung có mũi tên từ
các biến lý do đến các biến kết quả.
Bước 3 Gán phân phối xác suất cục bộ p(xi|Pai). Trong trường hợp rời
rạc, chúng ta cần gán phân phối cho từng biến trên từng trạng thái của
các nút cha của nó. Rõ ràng, các bước trên có thể xen kẽ nhưng không
hoàn toàn được thực hiện theo trình tự.
6.5.2 Phân phối xác suất của mạng Bayesian học
Hãy xem xét vấn đề sau: với cấu trúc của mạng Bayesian, làm cách nào
chúng ta có thể tìm hiểu phân phối xác suất hoặc làm cách nào chúng ta
có thể cập nhật bản gốc của nó trước đó, dựa trên dữ liệu được quan sát?
Ở đây chúng tôi sử dụng phương pháp Bayesian, tích hợp kiến thức và
dữ liệu trước đó để cải thiện kiến thức hiện có. Kỹ thuật này có thể được
áp dụng để khai phá dữ liệu. Giả sử rằng phân phối khớp vật lý của các
biến X=(x1, x2, , xn) có thể được mã hóa trong một số cấu trúc mạng S:

trong đó θi là vectơ tham số của phân bố p(xi | Pai, θi,Sh); θs là vectơ


của nhóm tham số(θ1 , θ2 , , θn ); Sh là giả thuyết cho rằng phân phối
khớp vật lý có thể được phân tách theo cấu trúc S. Cần lưu ý rằng phân
tách không chéo hoặc chồng chéo. Ví dụ, cho trước X={x1, x2}, bất kỳ
phân phối chung nào của X có thể được phân tách thành mạng không có
cung hoặc mạng chỉ có cung x1 →x2. Đây là chéo hoặc chồng chéo.
Ngoài ra, giả sử chúng ta tạo một mẫu ngẫu nhiên D={x1, , xn} dựa trên
phân phối vật lý của X. Một phần tử xi của D đại diện cho một giá trị
quan sát được của mẫu và được gọi là một trường hợp. Chúng tôi xác
định một biến có giá trị véc tơ ΘS tương ứng với véc tơ tham số θs và
gán một hàm mật độ tiên nghiệm p(θs|Sh) để biểu thị độ không đảm bảo
của ΘS. Sau đó, việc học xác suất của mạng Bayesian được mô tả là:
cho một mẫu D ngẫu nhiên, để tính p(θs| D,Sh) hậu nghiệm.
Dưới đây chúng tôi sử dụng phân phối đa thức không giới hạn để thảo
luận về ý tưởng cơ bản của việc học xác suất. Giả sử rằng mỗi biến xi∈X
là rời rạc và có ri giá trị khả dĩ x x x i i i 1, , , 2 ri . Mỗi hàm phân phối
cục bộ là một tập hợp các phân phối đa thức, mỗi hàm tương ứng với
một thành phần của Pai.
Tức là để
Do phân phối đa thức không giới hạn thuộc họ hàm mũ nên việc tính
toán trên khá dễ dàng. Mạng Bayesian đối với các biến X đại diện cho
phân phối chung của X. Vì vậy, bất kể mạng Bayesian được xây dựng từ
kiến thức, dữ liệu hoặc tích hợp trước đó, về nguyên tắc, nó có thể được
sử dụng để suy ra bất kỳ xác suất quan tâm nào. Tuy nhiên, lý luận chính
xác hoặc thậm chí gần chính xác trên mạng Bayes với các biến rời rạc là
NP khó. Giải pháp hiện tại là đơn giản hóa tính toán dựa trên một số tính
độc lập có điều kiện hoặc xây dựng cấu trúc liên kết mạng đơn giản cho
một số vấn đề lý luận cụ thể hoặc đơn giản hóa cấu trúc mạng với chi
phí giảm độ chính xác thấp hơn. Mặc dù vậy, nó thường yêu cầu tính
toán đáng kể để xây dựng một mạng Bayesian. Đối với một số vấn đề,
chẳng hạn như phân loại Naïve Bayesian, sử dụng tính độc lập có điều
kiện có thể làm giảm phần lớn tính toán mà không làm mất đi nhiều độ
chính xác.
Khi dữ liệu mẫu không đầy đủ, ngoại trừ một số trường hợp đặc biệt,
chúng ta cần mượn phương pháp xấp xỉ, chẳng hạn như phương pháp
Monte-Carlo, xấp xỉ Gaussian, thuật toán EM để tìm Khả năng tối đa
(ML) hoặc Tối đa A Posteriori (MAP), v.v. Mặc dù các thuật toán này
đã trưởng thành nhưng chi phí tính toán lớn.
6.5.3 Cấu trúc học mạng Bayes
Khi cấu trúc của mạng Bayes không được xác định, có thể học cả cấu
trúc mạng và xác suất từ dữ liệu. Bởi vì, trong khai phá dữ liệu, có một
lượng dữ liệu rất lớn và khó có thể nói được mối quan hệ giữa các biến,
nên bài toán học cấu trúc có ý nghĩa thực tế.
Cấu trúc mạng đại diện cho xác suất chung vật lý của X là có thể cải tiến
được. Theo cách tiếp cận Bayesian, chúng tôi xác định một biến rời rạc
để biểu thị sự không chắc chắn của cấu trúc mạng. Các trạng thái của
biến tương ứng với tất cả các giả thuyết cấu trúc mạng khả dĩ Sh. Chúng
tôi đặt trước của nó là p(Sh). Đối với mẫu ngẫu nhiên D đã cho, xuất
phát từ phân phối vật lý của X, chúng tôi tính xác suất hậu nghiệm p(Sh|
D) và p(θS | D,Sh), trong đó θS là vectơ tham số. Sau đó, chúng tôi sử
dụng những hậu quả này để tính toán kỳ vọng quan tâm. Cách tính p(θS |
D, Sh) tương tự như cách chúng ta minh họa trong phần trước. Việc tính
toán p(Sh|D) về mặt lý thuyết là dễ dàng. Theo định lý Bayes, ta có:
p(Sh|D)= p(Sh,D)/ p(D) = p(Sh)p(D|Sh)/ p(D) (6.40)
trong đó p(D) là hằng số chuẩn hóa độc lập cấu trúc và p(D|Sh) là khả
năng cận biên. Để xác định hậu thế hoặc cấu trúc mạng, chúng ta chỉ cần
tính khả năng cận biên cho từng cấu trúc có thể. Với điều kiện tiên quyết
là phân phối đa thức không giới hạn, độc lập tham số, dữ liệu trước và
đầy đủ của Dirichlet, vectơ tham số θij có thể được cập nhật độc lập.
Khả năng cận biên của dữ liệu chính xác là phép nhân các khả năng cận
biên của mỗi cặp i-j.

Công thức này ban đầu được đề xuất bởi Cooper và Herskovits vào năm
1992 (Cooper, 1992). Trong các trường hợp phổ biến, số lượng mạng
Bayes có thể có với n biến lớn hơn hàm mũ trong n. Thật khó để loại trừ
những giả thuyết này. Hai cách tiếp cận có thể được sử dụng để xử lý
vấn đề này, đó là lựa chọn mô hình và lấy trung bình mô hình chọn lọc.
Cách tiếp cận trước đây là chọn một mô hình “tốt” từ tất cả các mô hình
có thể (giả thuyết cấu trúc) và sử dụng nó làm mô hình chính xác.
Cách tiếp cận thứ hai là chọn một số lượng hợp lý các mô hình “tốt” từ
tất cả các mô hình có thể và giả vờ rằng các mô hình này là toàn diện.
Các câu hỏi là: làm thế nào để quyết định xem một mô hình có “tốt” hay
không? Làm thế nào để tìm kiếm các mô hình "tốt"? Liệu có thể mang
lại kết quả chính xác khi các phương pháp này được áp dụng cho cấu
trúc Bayes không? Có một số định nghĩa khác nhau và các phương pháp
tính toán tương ứng về mô hình “tốt”. Hai câu hỏi cuối khó có thể trả lời
về mặt lý thuyết. Một số công trình nghiên cứu đã chứng minh rằng sử
dụng thuật toán tham lam để chọn một mô hình tốt duy nhất thường dẫn
đến dự đoán chính xác (Chickering, Heckerman, 1996). Áp dụng
phương pháp Monte-Carlo để thực hiện tính trung bình của mô hình
chọn lọc đôi khi cũng có hiệu quả. Nó thậm chí có thể dẫn đến dự đoán
tốt hơn. Những kết quả này phần nào chịu trách nhiệm chính cho sự
quan tâm lớn gần đây đối với việc học với mạng Bayesian. Năm 1995,
Heckerman đã chỉ ra rằng với điều kiện tiên quyết là độc lập tham số,
mô đun tham số, tương đương khả năng, v.v., các phương pháp học
Bayesian phi ngẫu nhiên mạng có thể được áp dụng để học mạng thông
thường. Năm 1997, ông gợi ý rằng trong điều kiện Markov ngẫu nhiên,
mối quan hệ ngẫu nhiên có thể được suy ra từ tính độc lập có điều kiện
và tương quan có điều kiện (Heckerman, 1997). Điều này cho phép dự
đoán hiệu ứng tương ứng khi nhiễu xuất hiện.
Dưới đây là một trường hợp nghiên cứu mà Heckerman et al. đã sử dụng
mạng Bayesian để thực hiện khai phá dữ liệu và khám phá tri thức. Dữ
liệu được lấy từ 10318 học sinh trung học ở Wisconsin (Sewell và Shah,
1968). Mỗi sinh viên được mô tả bởi các biến sau và các trạng thái
tương ứng Giới tính (SEX): nam, nữ;
Tình trạng kinh tế xã hội (SES): thấp, dưới trung bình, trên trung bình,
cao;
Chỉ số thông minh (IQ): thấp, trung bình thấp, trung bình cao, cao;
Khuyến khích của cha mẹ (PE): thấp, cao;
Kế hoạch đại học (CP): có, không.
Bảng 6.3 Thống kê đầy đủ

Mục tiêu của chúng ta ở đây là khám phá các yếu tố ảnh hưởng đến ý
định theo học đại học của học sinh trung học hoặc để hiểu mối quan hệ
nhân quả có thể có giữa các biến số này. Số liệu được mô tả bằng các số
liệu thống kê đầy đủ trong Bảng 6.3.
Trong bảng này, mỗi mục biểu thị một thống kê về trạng thái xoay vòng
qua tất cả các cấu hình có thể. Ví dụ: mục đầu tiên cho biết thống kê cho
cấu hình (SEX=nam, SES=thấp, IQ=thấp, PE=thấp, CP=có) là 4; mục
thứ hai nói rằng thống kê cho cấu hình (SEX=nam, SES=thấp, IQ=thấp,
PE=thấp, CP=không) là 349. Trong chu kỳ cấu hình của các biến trong
bảng, biến cuối cùng (CP ) thay đổi nhanh nhất, sau đó là PE, IQ, SES.
TÌNH DỤC thay đổi chậm nhất. Như vậy 4 dòng trên là thống kê của
sinh viên nam và 4 dòng dưới là của sinh viên nữ.
Hình 6.1. Các cấu trúc mạng rất có thể không có biến ẩn

Khi phân tích dữ liệu, chúng tôi giả định rằng không có biến ẩn. Để tạo
các ưu tiên cho các tham số mạng, chúng tôi sử dụng cỡ mẫu tương
đương là 5 và mạng trước đó p(X| Sch ) là đồng nhất. Ngoại trừ việc
chúng tôi loại trừ cấu trúc trong đó SEX và/hoặc SES có cha mẹ và/hoặc
CP có con cái, chúng tôi giả định rằng tất cả các cấu trúc mạng đều có
khả năng như nhau. Do tập dữ liệu đã đầy đủ nên chúng tôi sử dụng
công thức (6.40) và (6.41) để tính hậu nghiệm của cấu trúc mạng.
Sau khi tìm kiếm toàn bộ cấu trúc mạng, chúng tôi tìm thấy hai mạng có
khả năng nhất, được thể hiện trong Hình 6.1. Lưu ý rằng xác suất bên
ngoài của hai cấu trúc mạng có khả năng xảy ra nhất là rất thấp. Nếu
chúng ta áp dụng giả định Markov ngẫu nhiên và giả sử rằng không có
biến ẩn nào, thì tất cả các cung trong hai đồ thị đều có thể được diễn giải
một cách ngẫu nhiên. Một số kết quả này, chẳng hạn như ảnh hưởng của
tình trạng kinh tế xã hội và chỉ số IQ đối với kế hoạch học đại học,
không có gì đáng ngạc nhiên.
Một số kết quả khác rất thú vị: từ cả hai biểu đồ, chúng ta có thể thấy
rằng ảnh hưởng của Giới tính đến Kế hoạch Đại học được chuyển tải bởi
ảnh hưởng của Sự khuyến khích của Cha mẹ. Ngoài ra, điểm khác biệt
duy nhất giữa hai đồ thị là hướng của cung giữa PE và IQ. Hai mối quan
hệ tình cờ khác nhau dường như đều hợp lý. Mạng bên phải được chọn
bởi Sprites et al. vào năm 1993 với phương pháp phi Bayesian.
Kết quả đáng nghi ngờ nhất là tình trạng kinh tế xã hội có ảnh hưởng
trực tiếp đến chỉ số IQ. Để xác minh kết quả, chúng tôi xem xét một mô
hình mới, thay thế ảnh hưởng trực tiếp trong mô hình ban đầu bằng một
biến ẩn trỏ đến SES và IQ. Ngoài ra, chúng tôi cũng xem xét các mô
hình như vậy trong đó các điểm biến ẩn đến SES, IQ và PE và không có
hoặc một hoặc cả hai liên kết của SES-PE và PE-IQ bị loại bỏ. Đối với
mỗi cấu trúc, số lượng biến ẩn trong các mô hình này thay đổi từ 2 đến
6.

Chúng tôi sử dụng biến thể Cheeseman-Stutz của Xấp xỉ Laplace để tính
toán xác suất sau của các mô hình này. Để tìm MAP θ s , chúng tôi sử
dụng thuật toán EM và lấy giá trị tối đa cục bộ lớn nhất từ 100 lần chạy
với θ s ban đầu ngẫu nhiên khác nhau. Mô hình có MAP cao nhất được
thể hiện trong Hình 6.2. Mô hình này có khả năng cao gấp 2×1010 lần
so với mô hình tốt nhất không chứa các biến ẩn. Một mô hình rất có thể
khác chứa một biến ẩn và có một cung bổ sung từ biến ẩn đến PE. Mô
hình này chỉ có khả năng thấp hơn 5×10-9 lần so với mô hình tốt nhất.
Giả sử rằng không có mô hình hợp lý nào bị bỏ qua, bằng chứng rõ ràng
cho thấy có một biến ẩn ảnh hưởng đến SES và IQ. Việc kiểm tra các
xác suất trong Hình 6.2 gợi ý rằng biến ẩn tương ứng với một số khái
niệm như “chất lượng gốc”.
Sử dụng phương pháp Bayes để tìm hiểu cấu trúc và xác suất của mạng
Bayes từ thông tin trước đó và thông tin mẫu để xây dựng toàn bộ mạng
Bayes sẽ mở ra một con đường áp dụng mạng Bayes để khai phá dữ liệu
và khám phá tri thức. So với các phương pháp khai phá dữ liệu khác,
chẳng hạn như phương pháp dựa trên quy tắc, cây quyết định và mạng
thần kinh nhân tạo, Bayesian mạng có các đặc điểm sau:
(1) Nó có thể tích hợp thông tin trước và sau, để tránh sai lệch chủ quan
khi chỉ sử dụng thông tin trước, để tránh tìm kiếm và tính toán mù quáng
khi thiếu mẫu và để tránh ảnh hưởng từ nhiễu khi chỉ sử dụng thông tin
sau. Miễn là trước đó được xác định đúng, chúng ta có thể thực hiện học
tập hiệu quả, đặc biệt là khi mẫu khó đạt được hoặc tốn kém.
(2) Nó có thể xử lý tập dữ liệu không đầy đủ.
(3) Nó có thể khám phá các mối quan hệ ngẫu nhiên trong dữ liệu.
(4) Có thuật toán hoàn thiện và hiệu quả. Mặc dù lý luận xác suất là NP
khó đối với bất kỳ mạng Bayesian tùy ý nào, nhưng trong nhiều vấn đề
thực tế, các hoạt động này có thể được đơn giản hóa bằng cách thêm một
số ràng buộc hoặc giải quyết bằng một số phương pháp gần đúng.
Tuy nhiên, tính toán của mạng Bayes là rất lớn. Mạng Bayesian dường
như kém hiệu quả hơn so với một số phương pháp khác nếu vấn đề cũng
được giải quyết bằng các phương pháp hiệu quả khác. Mặc dù có một số
phương pháp để xác định trước, điều này cực kỳ quan trọng khi khó lấy
được mẫu, nhưng trên thực tế, để tìm ra một xác định trước hợp lý liên
quan đến nhiều biến số vẫn là một bài toán khó. Bên cạnh đó, mạng
Bayesian đòi hỏi nhiều giả định như một điều kiện tiên quyết. Không có
quy tắc sẵn sàng để đánh giá liệu một vấn đề thực tế có thỏa mãn các giả
định hay không.
Đây là những vấn đề đáng được nghiên cứu thêm. Tuy nhiên, có thể dự
đoán rằng trong khai phá dữ liệu và khám phá tri thức, đặc biệt là khai
phá dữ liệu với các tính năng thống kê xác suất, mạng Bayes sẽ trở thành
một công cụ mạnh mẽ.
6.6 Mô hình ngữ nghĩa tiềm ẩn Bayesian
Với sự phổ biến của Internet, thông tin Web đang gia tăng theo cấp số
nhân. Trọng tâm nghiên cứu của xử lý thông tin Web là cách tổ chức
thông tin hợp lý, để tìm mục tiêu dự kiến trong dữ liệu web khổng lồ và
cách phân tích thông tin hiệu quả để khai thác mẫu mới và tiềm ẩn hữu
ích trong dữ liệu web lớn. Việc phân loại thông tin Web là một cách tiếp
cận hiệu quả để nâng cao hiệu lực và hiệu suất tìm kiếm. Ví dụ: khi tìm
kiếm bằng công cụ tìm kiếm trên Web, nếu thông tin về lớp của truy vấn
có sẵn, phạm vi tìm kiếm sẽ bị hạn chế và khả năng thu hồi sẽ được cải
thiện. Trong khi đó, phân loại có thể cung cấp tổ chức thông tin tốt để
giúp người dùng duyệt và lọc thông tin. Nhiều Website lớn áp dụng kiểu
tổ chức thông tin này. Ví dụ, Yahoo duy trì cấu trúc danh mục Web của
mình theo cách thủ công; Google sử dụng một số cơ chế sắp xếp để cho
phép các trang có liên quan đến người dùng nhất được xếp hạng trước,
nhằm giúp người dùng duyệt web thuận tiện. Deerwester và cộng sự. tận
dụng lợi thế của đại số tuyến tính và thực hiện lọc thông tin và chỉ số
ngữ nghĩa tiềm ẩn (LSI) thông qua phân tách giá trị số ít (SVD)
(Deerwester, 1990). Họ chiếu biểu diễn chiều cao của tài liệu trong mô
hình không gian vectơ (VSM) sang chiều thấp không gian ngữ nghĩa
tiềm ẩn (LSS). Cách tiếp cận này một mặt làm giảm quy mô của vấn đề,
mặt khác, ở một mức độ nào đó, tránh được tình trạng quá thưa thớt dữ
liệu. Nó đạt được các hiệu ứng thích hợp hơn trong nhiều ứng dụng bao
gồm mô hình hóa ngôn ngữ, truy xuất video và cơ sở dữ liệu protein.
Phân cụm là một trong những cách tiếp cận chính trong khai thác văn
bản. Các tác dụng chính của nó bao gồm: a) bằng cách phân cụm các kết
quả tìm kiếm, Trang web có thể cung cấp cho người dùng các trang Web
theo yêu cầu theo các lớp, để người dùng có thể nhanh chóng định vị các
mục tiêu mong đợi của họ; b) tạo danh mục tự động; c) phân tích tính
phổ biến trong các trang web bằng cách nhóm chúng lại. Thuật toán
phân cụm điển hình là K-nghĩa là phân cụm.
Bên cạnh đó, một số thuật toán phân cụm mới như bản đồ tự tổ chức
(SOM), phân cụm bằng mạng nơ-ron, phân cụm Bayesian phân cấp dựa
trên xác suất (HBC) cũng được nghiên cứu và ứng dụng nhiều. Tuy
nhiên, hầu hết các thuật toán phân cụm là các thuật toán không giám sát,
chúng tìm kiếm không gian giải pháp một cách mù quáng. Do đó, kết
quả phân cụm thường thiếu các ký tự ngữ nghĩa. Trong khi đó, trong các
trường hợp nhiều chiều, việc chọn số liệu khoảng cách thích hợp trở nên
rất khó khăn.
Phân loại web là một loại học tập có giám sát. Bằng cách phân tích dữ
liệu đào tạo, bộ phân loại có thể dự đoán nhãn lớp cho các trang Web
chưa xem. Hiện nay, có nhiều thuật toán hiệu quả để phân loại các trang
Web, chẳng hạn như phương pháp Bayesian naïve và SVM. Thật đáng
tiếc khi có được một lượng lớn các mẫu đào tạo được phân loại, cần thiết
cho việc đào tạo các bộ phân loại có độ chính xác cao, lại rất tốn kém.
Bên cạnh đó, trong thực tế, các kiến trúc phân loại khác nhau thường
không nhất quán. Điều này làm cho việc duy trì danh mục Web hàng
ngày trở nên khó khăn. Kamal Nigam và cộng sự. đã đề xuất một
phương pháp có thể sử dụng các tài liệu có nhãn lớp và những tài liệu
không có nhãn lớp để huấn luyện bộ phân loại. Nó chỉ yêu cầu một
lượng nhỏ các mẫu đào tạo được gắn nhãn và có thể học một bộ phân
loại Bayes bằng cách tích hợp kiến thức trong các mẫu không được gắn
nhãn (Nigam, 1998).
Ý tưởng cơ bản của chúng tôi để giải quyết vấn đề này là như sau. Nếu
một số trang Web D = {d1, d2, , dn} bao gồm mô tả về một số biến lớp
tiềm ẩn Z = {z1, z2, , zk}, trước tiên, bằng cách giới thiệu mô hình ngữ
nghĩa tiềm ẩn Bayesian, chúng tôi chỉ định các tài liệu chứa lớp tiềm ẩn
biến cho lớp tương ứng; sau đó chúng tôi sử dụng mô hình Bayesian
naïve để phân loại các tài liệu không chứa các biến lớp tiềm ẩn với kiến
thức ở bước trước. Theo các ký tự của hai bước này, chúng tôi xác định
hai hàm khả năng và sử dụng thuật toán EM để tìm giải pháp tối ưu cục
bộ với khả năng tối đa. Cách tiếp cận này một mặt tránh tìm kiếm mù
quáng trong không gian giải pháp như học tập không giám sát; mặt khác,
nó chỉ yêu cầu một số biến lớp chứ không phải số lượng lớn các mẫu
đào tạo được dán nhãn. Nó sẽ giải phóng các nhà quản lý trang web khỏi
việc ghi nhãn tài liệu đào tạo cầu kỳ và cải thiện hiệu quả của việc phân
loại trang web tự động. Để phân biệt với học có giám sát và học không
giám sát, phương pháp này được đặt tên là học bán giám sát. Ý tưởng cơ
bản của phân tích ngữ nghĩa tiềm ẩn (LSA) là chiếu các tài liệu trong mô
hình không gian vectơ chiều cao (VSM) sang không gian ngữ nghĩa tiềm
ẩn chiều thấp. Phép chiếu này được thực hiện thông qua phân tách giá trị
số ít (SVD) trên ma trận mục nhập/tài liệu Nm×n. Cụ thể, theo đại số
tuyến tính, bất kỳ ma trận Nm*n nào cũng có thể được phân tích như
sau:

trong đó U, V là các ma trận trực giao (UUT = VVT = I); ∑ = diag(a1,


a2, , ak, ,av) (a1, a2, , av là các giá trị số ít) là ma trận đường chéo.
Trong ngữ nghĩa tiềm ẩn phân tích, xấp xỉ đạt được bằng cách giữ k giá
trị số ít lớn nhất và đặt những người khác thành 0:

Bởi vì sự giống nhau giữa hai tài liệu có thể được biểu diễn bằng
tọa độ của một tài liệu trong không gian ngữ nghĩa tiềm
ẩn có thể được tính gần đúng bằng U ∑ . Sau khi chiếu biểu diễn của
một
tài liệu từ không gian chiều cao sang không gian ngữ nghĩa chiều thấp,
sự thưa thớt của dữ liệu, tồn tại trong không gian chiều cao, không còn
tồn tại trong không gian ngữ nghĩa tiềm ẩn chiều thấp. Điều này cũng
chỉ ra rằng ngay cả khi không có yếu tố chung giữa hai tài liệu trong
không gian chiều cao, chúng ta vẫn có thể tìm thấy các kết nối có ý
nghĩa của chúng trong không gian ngữ nghĩa chiều thấp.
Sau SVD và chiếu các tài liệu từ không gian chiều cao sang không gian
ngữ nghĩa tiềm ẩn chiều thấp, quy mô của một vấn đề được giảm đi một
cách hiệu quả. LSA đã được áp dụng thành công cho nhiều lĩnh vực, bao
gồm lọc thông tin, lập chỉ mục văn bản và truy xuất video. Tuy nhiên,
SVD rất nhạy cảm với sự thay đổi của dữ liệu và có vẻ cứng nhắc khi
thiếu thông tin trước đó. Những thiếu sót này hạn chế ứng dụng của nó.
Theo kinh nghiệm của chúng tôi, mô tả về bất kỳ vấn đề nào được phát
triển tập trung vào một số chủ đề. Có ranh giới rõ ràng tương đối giữa
các chủ đề khác nhau. Do sự khác biệt về sở thích và sở thích cá nhân,
mối quan tâm của mọi người về các chủ đề khác nhau là khác nhau. Có
kiến thức trước trong các chủ đề khác nhau. Theo đó, chúng tôi đã đề
xuất mô hình ngữ nghĩa tiềm ẩn Bayesian để tạo tài liệu.
Đặt tập tài liệu là D = {d1, d2, …, dn} và tập từ là W = {w1, w2, …,
wm}. Mô hình tạo cho tài liệu d ∈ D có thể được biểu diễn như sau:
(1) Chọn tài liệu d với xác suất P(d);
(2) Chọn chủ đề tiềm ẩn z, chủ đề có kiến thức trước đó p(z|θ);
(3) Biểu thị xác suất chủ đề z chứa tài liệu d bởi p(z|d,θ)
(4) Biểu thị xác suất của từ w ∈ W theo chủ đề z bằng p(w| z,θ)
Sau quá trình trên, ta được cặp quan sát (d, w). Chủ đề tiềm ẩn z là
bỏ qua, và mô hình xác suất chung được tạo ra:

Mô hình này là một mô hình xác suất lai dưới sự độc lập sau giả định:
(1) Việc tạo ra từng cặp được quan sát (d, w) là độc lập tương đối và
chúng có liên quan thông qua các chủ đề tiềm ẩn.
(2) Việc tạo ra từ w độc lập với bất kỳ tài liệu cụ thể nào d. nó chỉ phụ
thuộc vào biến chủ đề tiềm ẩn z.
Công thức (6.45) chỉ ra rằ ng trong một tài liệu d nào đó, sự phân bố của
từ w là sự kết hợp lồi của các chủ đề tiềm ẩn. Trọng lượng của một chủ
đề trong kết hợp là xác suất, tại đó tài liệu d thuộc về chủ đề.
Hình 6.3 minh họa mối quan hệ giữa các nhân tố trong mô hình.

Theo công thức Bayes, ta thay công thức (6.45) vào công thức (6.44) ta
được:

So với LSA, mô hình ngữ nghĩa tiềm ẩn Bayesian có nền tảng thống kê
vững chắc và tránh được tính nhạy cảm của dữ liệu trong LSA. Nó cũng
sử dụng thông tin trước về các biến chủ đề tiềm ẩn để tránh quá cứng
như SVD. Trong mô hình ngữ nghĩa tiềm ẩn Bayesian, công thức (6.42)
có thể được viết lại thành:

Vì vậy, nó có dạng biểu diễn giống như của SVD.


Trong LSA, tiêu chí để lựa chọn tham số là tổn thất bình phương nhỏ
nhất. Từ quan điểm của việc học Bayesian, trong mô hình của chúng tôi,
chúng tôi có hai tiêu chí áp dụng: tối đa một hậu nghiệm (MAP) và khả
năng tối đa (ML).
Ước tính MAP được áp dụng để tìm biến chủ đề tiềm ẩn phù hợp với
điều kiện của tập tài liệu D và tập từ W:

6.7 Thuật toán khai thác văn bản bán giám sát
6.7.1 Phân cụm trang web
Hiện nay có rất nhiều thuật toán để phân loại văn bản và chúng có thể
đạt được độ chính xác và khả năng thu hồi hài lòng. Tuy nhiên, chi phí
để có được các tài liệu đào tạo được dán nhãn là rất cao. Nigam et al. đã
đề xuất một cách tiếp cận, trong đó họ sử dụng kho ngữ liệu hỗn hợp bao
gồm các tài liệu được gắn nhãn và không được gắn nhãn để huấn luyện
bộ phân loại và thu được kết quả phân loại tốt, nhưng họ vẫn cần một số
lượng tài liệu được dán nhãn nhất định (Nigam, 1998). Phân cụm web là
hợp nhất các trang web có liên quan thành một cụm với một số tiêu chí
tương tự. Khi xử lý dữ liệu lớn và nhiều chiều, các phương pháp phân
cụm thông thường không thể đạt được hiệu quả và hiệu quả hài lòng. Lý
do là: một mặt, tìm kiếm không giám sát trong không gian giải pháp ở
một mức độ nào đó là mù quáng; mặt khác, số liệu tương tự phổ biến, ví
dụ: khoảng cách Euclide, không hoạt động tốt trong không gian nhiều
chiều và khó tìm được phép đo độ tương tự thích hợp trong tình huống
này. Xem xét các đặc điểm của học có giám sát và học không giám sát,
chúng tôi đã đề xuất một thuật toán học bán giám sát. Trong khuôn khổ
của mô hình ngữ nghĩa tiềm ẩn Bayesian, chúng ta có thể phân loại tài
liệu thành các lớp khác nhau với một số biến lớp tiềm ẩn do người dùng
cung cấp. Trong quá trình này, không có tài liệu đào tạo được dán nhãn
nào được yêu cầu.
Mô hình tổng quát được mô tả như sau: tập tài liệu cho trước D = {d1,
d2, …, dn} và tập từ của nó W = {w1, w2, …, wm}, và một nhóm biến
lớp Z = {z1, z2, …, zk} với thông tin cho trước θ = {θ1, θ2, …, θk}, cố
gắng tìm phép chia Dj (j ∈(1, …, k)) của D, sao cho:

Trong thuật toán của chúng tôi, quá trình phân loại bao gồm hai giai
đoạn:
Giai đoạn 1 Sử dụng mô hình ngữ nghĩa tiềm ẩn Bayesian với các tham
số được ước tính dựa trên thuật toán EM để gắn nhãn tài liệu trong DL:
( ) max{ ( | I )}
l d = z j = i p d z (6.51)
Giai đoạn 2 Đào tạo một trình phân loại Naïve Bayesian với các tài liệu
được dán nhãn trong DL và dán nhãn tài liệu trong DU với bộ phân loại
này. Sau đó cập nhật các tham số của Bayesian các mô hình ngữ nghĩa
tiềm ẩn với thuật toán EM.
6.7.2 Dán nhãn tài liệu có chủ đề phân loại tiềm ẩn
Lý tưởng nhất là bất kỳ tài liệu nào cũng sẽ không chứa nhiều hơn một
chủ đề lớp tiềm ẩn. Trong trường hợp này, chúng ta có thể dễ dàng gắn
nhãn tài liệu với chủ đề tiềm ẩn. Tuy nhiên, trên thực tế, trạng thái lý
tưởng rất khó đạt được. Một mặt, rất khó để tìm ra chủ đề tiềm ẩn như
vậy; mặt khác, có thể có nhiều chủ đề trong một tài liệu.
Ví dụ: một tài liệu được gắn nhãn “kinh tế học” có thể chứa các từ thuộc
các chủ đề khác, ví dụ: “chính trị” và/hoặc “văn hóa”. Chúng tôi xử lý
các trường hợp này bằng cách gắn nhãn chúng với chủ đề liên quan nhất.
Theo tiêu chí ML, sau một số vòng lặp EM, cuối cùng chúng tôi xác
định chủ đề của tài liệu thử nghiệm theo công thức
(6.51). Thuật toán EM là một trong những phương pháp ước tính tham
số chính cho dữ liệu thưa thớt. Nó thực hiện luân phiên bước E và bước
M để tìm ra kết quả có khả năng xảy ra nhất. Quá trình chung của thuật
toán EM được mô tả dưới đây:
(1) Bước E: tính toán kỳ vọng dựa trên các tham số hiện tại;
(2) Bước M: tìm tham số phù hợp với khả năng xảy ra tối đa dựa trên kỳ
vọng ở bước E;
(3) Tính khả năng xảy ra với các tham số được đổi mới. Nếu khả năng
vượt quá ngưỡng được xác định trước hoặc số lần lặp lại vượt quá giá trị
được xác định trước, hãy dừng lại. Nếu không, chuyển sang Bước (1).
Trong thuật toán của chúng tôi, chúng tôi áp dụng hai bước sau để thực
hiện phép lặp

So với SVD trong LSA, thuật toán EM có thời gian hội tụ tuyến tính. Nó
đơn giản và dễ thực hiện, và nó dẫn đến hàm khả năng tối ưu cục bộ.
Hình 6.4 cho thấy mối quan hệ giữa thời gian lặp lại và khả năng tối đa
tương ứng trong thử nghiệm của chúng tôi.
6.7.3 Học dữ liệu được gắn nhãn và không gắn nhãn dựa trên mô
hình Naïve Bayesian
Các phương pháp phân loại thông thường thường học các bộ phân loại
dựa trên các mẫu huấn luyện đã được gán nhãn để phân loại dữ liệu chưa
được gán nhãn. Tuy nhiên, để có được số lượng lớn các mẫu đào tạo
được dán nhãn là rất tốn kém và cầu kỳ. Nghiên cứu của Kamal Nigam
và cộng sự chỉ ra rằng dữ liệu chưa được gắn nhãn cũng chứa thông tin
hữu ích cho việc học phân loại. Theo đó, chúng tôi sử dụng mô hình
Naïve Bayesian làm phân loại; và dán nhãn cho các mẫu đào tạo không
được dán nhãn với trạng thái không nhãn đặc biệt; sau đó ước tính các
nhãn này bằng thuật toán EM.

Ở đây, chúng tôi trình bày mô tả chung về phân loại văn bản với bộ phân
loại Bayesian naïve: cho tập tài liệu huấn luyện D = {d1, d2, …, dn} và
tập từ của nó W = {w1, w2, …, wm}, mỗi tài liệu huấn luyện được biểu
diễn dưới dạng m+1 vectơ chiều di = < w1, w2, …, wm, ci >, trong đó ci
∈C = {c1, c2, …, ck } là một biến lớp. Nhiệm vụ phân loại là dự đoán
lớp của tài liệu chưa nhìn thấy d= <w1, w2, …, wm>:

Khi tính công thức (6.54) với mô hình Bayes đơn giản, ta cần đưa ra các
giả định về tính độc lập sau:
(1) Việc tạo ra các từ trong tài liệu không phụ thuộc vào nội dung. Điều
đó có nghĩa là, cùng một từ ở các vị trí khác nhau của một tài liệu là độc
lập.
(2) Các từ trong tài liệu độc lập với loại tài liệu.
Trang web với bộ phân loại leant. Tuy nhiên, việc thu thập dữ liệu đào
tạo được dán nhãn thường tốn kém và cầu kỳ. Phân cụm trang web, có
thể phân cụm tài liệu theo một số chỉ số tương tự, có thể giúp cải thiện
việc truy xuất. Vấn đề là tìm kiếm giải pháp của các phương pháp phân
cụm truyền thống hơi mù quáng và thiếu ý nghĩa ngữ nghĩa. Do đó, hiệu
quả của việc phân cụm thường không thỏa mãn. Trong phần này, chúng
tôi đề xuất một thuật toán học bán giám sát.
Trong khuôn khổ của mô hình ngữ nghĩa tiềm ẩn Bayesian, thuật toán
mới không sử dụng dữ liệu huấn luyện được gắn nhãn mà chỉ sử dụng
một vài biến lớp/chủ đề tiềm ẩn để gán tài liệu cho lớp/chủ đề tương
ứng. Thuật toán bao gồm hai giai đoạn. Trong giai đoạn đầu tiên, nó áp
dụng phân tích ngữ nghĩa tiềm ẩn Bayesian cho các tài liệu nhãn, chứa
(các) biến chủ đề tiềm ẩn; trong giai đoạn thứ hai, nó sử dụng mô hình
Naïve Bayesian gắn nhãn cho các tài liệu không có chủ đề tiềm ẩn với
thông tin tri thức trong các tài liệu này. Kết quả thực nghiệm chứng tỏ
thuật toán đạt độ chính xác và độ nhớ cao. Chúng tôi sẽ điều tra thêm
các vấn đề liên quan, chẳng hạn như ảnh hưởng của lựa chọn biến tiềm
ẩn đối với kết quả phân cụm và cách thực hiện phân cụm từ trong khuôn
khổ phân tích ngữ nghĩa tiềm ẩn Bayesian.
Bài tập
1. Hãy giải thích xác suất có điều kiện, xác suất trước và xác suất sau.
2. Hãy mô tả Công thức Bayesian và giải thích cặn kẽ ý nghĩa của nó.
3. Hãy trình bày một số tiêu chí lựa chọn phân phối trước.
4. 'Naïve' nghĩa là gì trong phân loại Naïve Bayesian? Hãy trình bày
ngắn gọn những ý chính để cải thiện phân loại Naïve Bayesian.
5. Hãy mô tả cấu trúc của mạng Bayes và cách xây dựng của nó, đồng
thời nêu ví dụ về cách sử dụng mạng Bayes.
6. Khai thác văn bản bán giám sát là gì? Hãy trình bày một số ứng dụng
của mô hình Bayesian trong phân cụm trang Web.
7. Trong những năm gần đây, với sự phát triển của công nghệ Internet,
các quy tắc Bayes được áp dụng rộng rãi. Vui lòng lấy ví dụ về hai ứng
dụng cụ thể của quy tắc Bayes và giải thích kết quả.

You might also like