You are on page 1of 14

Mục lục

MỞ ĐẦU
Thuật toán EM (Expectation- Maximization) được nghiên cứu từ năm 1958 bởi
Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977.
Thuật toán EM được sử dụng để tìm ra kỳ vọng tối đa các thông số một mô hình thống
kê trong trường hợp các phương trình không thể giải quyết trực tiếp được. Thông
thường các mô hình liên quan đến các giá trị tiềm ẩn ngoài không biết các thông số và
dữ liệu không quan sát được thông số. Có nghĩa là những giá trị bị thiếu hoặc không
quan sát được mô hình bằng sự giả định của các điểm dữ liệu bổ sung. (Ví dụ: một mô
hình kết hợp đơn giản có thể được mô tả bằng cách giả định rằng mỗi điểm dữ liệu
quan sát được có một điểm tương ứng với dữ liệu không quan sát được, hoặc biến tiềm
ẩn, xác định thành phần hỗn hợp cho mỗi điểm dữ liệu.)
Việc tìm kiếm một giải pháp hợp lý là lấy các dẫn xuất của các hàm hợp
(likehood function) đối với các giá trị không rõ tức là các thông số và các biến tiềm ẩn
đồng thời giải quyết các phương trình. Trong một mô hình thống kê với các biến tiềm
ẩn thường là không thể. Thay vào đó, kết quả thường là một tập hợp các chương trình
đan xem vào đó là giải pháp cho các giá trị của biến tiềm ẩn và ngược lại .
Thuật toán EM nhằm tìm ra sự ước lượng về khả năng lớp nhất của các tham số
trong mô hình xác suất( các mô hình phụ thuộc vào các biến tiềm ẩn chưa được quan
sát), nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán
k-means. EM gán các đối tượng của cụm đã cho theo xác suất phân phối thành phần
của đối tượng đó. Phân phối xác suất thường được sửa dụng là phân phối xác suất
Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng
hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mô
hình xác suất cho các đối tượng dữ liệu.
3

CHƯƠNG 1: CÁC KIẾN THỨC CƠ SỞ

1.1 .Hàm logarit


Cho a là một số dương khác 1 và b là một số dương, số thực α thỏa mãn aα = b
được gọi là lôgarit cơ số a của b và kí hiệu loga(b).
1.2 .Công thức xác suất
Xác suất là các số trong khoảng [0,1], được gán tương ứng với một biến cố mà
khả năng xảy ra hoặc không xảy ra là ngẫu nhiên. Kí hiệu: P(Z)
Công thức sử dụng: P(A|B)= P(A). P(B/A)/ P(B)
1.3 .Entropy thông tin
Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự
kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín
hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.
1.4 .Gom cụm dữ liệu
Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta
vẫn làm và thực hiện hằng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân
loại đất đai, phân loại tài sản, phân loại sách trong thư viện….
Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm. Các đối tượng trong
cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác.
Mục tiêu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối
tượng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng tương tự nhau
trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng
còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.
Quá trình gom cụm dữ liệu

Các yêu cầu tiêu biểu về việc gom cụm dữ liệu


4

Khả năng co giãn về tập dữ liệu (scalability).


Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes).
Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape).
Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain
knowledge for input parameters).
Khả năng xử lý dữ liệu có nhiễu (noisy data).
Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental
clustering and insensitivity to the order of input records).
Khả năng xử lý dữ liệu đa chiều (high dimensionality).
Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering).
Khả diễn và khả dụng (interpretability and usability).
Phân loại các phương pháp gom cụm dữ liệu tiêu biểu.
Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí
nào đó.
Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu
chí nào đó.
Dựa trên mật độ (density-based): dựa trên connectivity and density functions.
Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.
Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm;
sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.

CHƯƠNG 2: NỘI DUNG THUẬT TOÁN

2.1.Khái niệm:
Thuật toán EM là một phương pháp lặp hiệu quả để ước lượng Maximum
Likehood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước lượng
các tham số mô hình sao cho dữ liệu đã được quan sát( dữ liệu đã được biết) là tương
thích nhất( the most likely). Ví dụ ước lượng kỳ vọng và phương sai của mỗi thành
phần Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai
bước:
5

Bước E (Expectation step): dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan
sát và các tham số mô hình của ước lượng hiện tại. Điều này được thực hiện bằng cách
sử dụng kì vọng có điều kiện.
Bước M (Maximization step): hàm likehood được cực đại hóa với giả sử dữ liệu
ẩn đã biết( sự ước lượng của dữ liệu ẩn trong bước E được sửa dụng thay cho dữ liệu
ẩn thực sự.). Thuật toán EM luôn hội tụ vì chắc chắn likehood luôn tăng sau mỗi vòng
lặp.
Tiến trình tiếp tục cho đến khi likelihood hội tụ, ví dụ như đạt tới cực đại địa
phương. EM sử dụng hướng tiếp cận leo đồi, nên chỉ đảm bảo đạt được cực đại địa
phương. Khi tồn tại nhiều cực đại, việc đạt tới cực đại toàn cục hay không là phụ thuộc
vào điểm bắt đầu leo đồi. Nếu ta bắt đầu từ một đồi đúng (right hill), ta sẽ có khả năng
tìm được cực đại toàn cục. Tuy nhiên, việc tìm được right hill thường là rất khó. Có
hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta thử nhiều giá
trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood hội tụ lớn nhất.
Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu cho các mô hình
phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm được vùng tồn tại cực đại
toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó để tìm kiếm tối ưu chính xác khi
sử dụng mô hình phức tạp hơn.
Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả
nếu dữ liệu có tính phân cụm cao.

2.2.Chi tiết thuật toán EM


Thuật toán ước lượng cực đại hay gọi là thuật toán EM là kỹ thuật phổ biến để
tìm giải pháp khả năng cực đại cho mô hình xác suất có biến ẩn. Ở đây chúng tôi đưa
ra các xử lý rất chung của thuật toán EM và trong quá trình chứng minh thuật toán EM
có tính heuristic tại mục 3.2.1 và 3.2.2 đối với hỗn hợp Gaussian thực hiện tối đa hóa
hàm khả năng.
Xét một mô hình xác suất trong đó chúng ta gọi tất cả các các biến được quan sát là X
và tất cả các biến tiềm ẩn là Z. Các phân phối p (X, Z | θ) bị chi phối bởi một tập hợp
các tham số ký hiệu là θ. Mục tiêu của chúng tôi là tối đa hóa hàm khả năng được cho
bởi:
6

P (X | θ)= Σz P(X, Z | θ) (1)


Ở đây chúng ta giả sử Z là rời rạc, tương tự với Z liên tục hoặc là tập các biến
rời rạc và liên tục, với phép tổng được thay thế bởi phép hội. Chúng ta sẽ giả sử tối ưu
hóa trực tiếp của P (X | θ) là khó khăn, nhưng tối ưu hóa hàm khả năng của dữ liệu đấy
đủ(X, Z | θ) là dễ dàng hơn. Tiếp theo, chúng tôi giới thiệu một phân phối q(Z) được
xác định qua các biến ẩn, và chúng tôi quan sát thấy rằng, đối với bất kỳ sự lựa chọn
của q (Z), có sự khai triển sau:
ln P(X| θ)= L(q, θ) + KL(q||p) (2)
Trong đó:
L(q, θ) = ∑z q(Z) ln { } (3)
KL(q||p) = -∑z q(Z) ln { } (4)

Hình 1a. Các khai triển từ (2) lựa chọn phân phối q (Z). Bởi vì phân kỳ Kullback-
Leibler thỏa mãn KL (q||p), chúng ta thấy rằng L (q, θ) là bé hơn hàm khả năng ln
p (X | θ)
Lưu ý rằng L (q, θ) là một hàm của phân phối q(Z), và một hàm có tham số θ.
Đây là giá trị được nghiên cứu kỹ lưỡng cho các biểu thức (3) và (4), và đặc biệt lưu ý
rằng chúng khác nhau khi L (q, θ) chứa các phân phối kết hợp của X và Z và trong khi
7

KL (q||p) chứa các phân phối có điều kiện của Z với điều kiện X. Để xác minh khai
triển (2), chúng tôi sử dụng các nguyên tắc nhân của xác suất để cho
ln P(X| θ)= ln P(Z|X, θ)+ln P(X| θ) (5)
mà chúng tôi sau đó thay thế vào biểu thức cho L (q, θ).
Từ (4), chúng tôi thấy rằng KL (q ||p) là phân kỳ Kullback-Leibler giữa q (Z) à phân
phối hậu nghiệm p (Z | X, θ). Nhớ lại rằng phân kỳ Kullback-Leibler thỏa mãn KL (q||
p)≥0, với tương đương khi và chỉ khi, q (Z) = P (Z | X, θ). Do đó từ (2), có rằng L (q,
θ) ≤ ln p (X | θ), nói cách khác là L (q, θ) bé hơn p ln (X | θ). Các khai triển (2) minh
hoạ trong hình 1a.
Thuật toán EM là kỹ thuật tối ưu hóa lặp hai giai đoạn cho việc tìm kiếm giải
pháp tối đa hóa khả năng. Chúng tôi có thể sử dụng khai triển (2) để xác định thuật
toán EM và để chứng minh rằng nó thực sự tối đa hóa khả năng. Giả sử rằng giá trị
hiện tại của véc tơ tham số là θ old. Trong bước E, cận bé hơn L (q, θ old) được tối đa hóa
đối với q (Z) trong khi đang cố định θold. Các giải pháp cho vấn đề tối đa hóa này được

dễ dàng nhìn thấy bằng cách ghi nhận rằng giá trị của p ln (X | θ old) không phụ
thuộc vào q (Z) và do đó giá trị lớn nhất của L (q,θ old) sẽ xảy ra khi không có phân kỳ
Kullback-Leibler, nói cách khác khi q (Z) bằng với phân phối hậu nghiệm p(Z | X,
θold).
8

Hình 1b. Minh họa bước E của thuật toán EM. Các phân phối q được thiết lập
bằng phân phối hậu nghiệm cho các tham số hiện tại θ old, dẫn đến cận dưới thấp
hơn để dẫn đến cùng một giá trị như hàm log likelihood không có phân kỳ.
Trong bước M này, phân phối q (Z) được giữ cố định và L (q, θ) được tối đa
hóa đối với θ để đưa đến giá trị mới θnew. Điều này sẽ tăng L (trừ khi nó đã được tối đa
một lần), mà sẽ nhất thiết là tăng hàm log likelihood tương ứng. Bởi vì phân phối q
được xác định bằng cách sử dụng các giá trị tham số cũ chứ không phải là các giá trị
mới và được tổ chức cố định trong bước M, nó sẽ không bằng với phân phối hậu
nghiệm mới p (Z | X, θnew), và do đó sẽ có một phân kỳ KL khác không. Sự gia tăng
trong hàm log likelihood do đó lớn hơn sự gia tăng trong cận dưới, như là thể hiện
trong hình 1c. Nếu chúng tôi thay thế q (Z) = P (Z | X, θ old) vào (3), chúng tôi thấy
rằng, sau bước E, ràng buộc có dạng:

L(q,) = ∑z p(Z|X, θold) ln p(Z|X, θ) - ∑z p(Z|X, θold) ln p(Z|X, θold)


= Q(θ, θold) + const (6)

Trong đó, hằng số chỉ đơn giản là entropy âm của phân phối q và do đó độc lập
với θ. Vì vậy, trong bước M, đại ượng đang được tối đa là kỳ vọng của hàm likelihood
với dữ liệu đầy đủ, như chúng tôi đã thấy trước đó trong trường hợp trộn của Gaussian.
Lưu ý rằng biến θ mà chúng tôi tối ưu hóa xuất hiện chỉ trong lôgarit. Nếu phân phối
kết hợp p(Z, X | θ) là hàm mũ, chúng ta thấy rằng lôgarit sẽ hủy bỏ mũ và dẫn đến một
bước M sẽ đơn giản hơn nhiều hơn so với tối đa hóa hàm log likelihood với dữ liệu
không đầy đủ p(X | θ) tương ứng.
9

Hình 1c. Bước M của thuật toán EM. Các phân phối q(Z) được giữ cố định
và L (q, θ) được tối đa đối với tham số θ để cho một giá trị mới θnew

Hình 1d. Thuật toán EM tính toán thay thế một cận dưới thấp hơn trên hàm
log likelihood cho các giá trị tham số hiện thời và sau đó tối đa hóa để có được giá
trị tham số mới.

Các hoạt động của thuật toán EM cũng có thể được xem xét trong không gian
của tham số, như minh họa trong hình 1d. Dưới đây là mô tả các đường cong màu đỏ
của hàm log likelihood với dữ liệu không đầy đủ mà chúng tôi mong muốn cực đại
hóa. Chúng tôi bắt đầu với một số giá trị tham số ban đầu θ old, và trong bước E đầu tiên
chúng tôi đánh giá phân phối hậu nghiệm qua các biến tiềm ẩn, mà cho phép tăng ít
hơn L (θ, θold), có giá trị bằng log likelihood tại θ old như được hiển thị bằng các đường
cong màu xanh lam. Trong bước M, cận được tối đa hóa đưa đến giá trị θ new lớn hơn
θold. Bước E tiếp theo sau đó là xây dựng một cận là tiếp tuyến tại θ new như được hiển
thị bằng các đường cong màu xanh lá cây.
Đối với những trường hợp cụ thể của tập dữ liệu được phân bố độc lập, X sẽ gồm N dữ
liệu điểm (xn) trong khi Z sẽ gồm N biến tiềm ẩn (z n) tương ứng, trong đó n = 1 ,..., N.
Từ giả định độc lập, chúng tôi có p(X, Z) =∏ n(xn, zn), từ đó chúng ta có p(X) =∏n(xn).
Sử dụng quy tắc tổng và nhân, chúng ta thấy rằng các xác suất hậu nghiệm ở bước E
có dạng:
10

p(Z|X, θ) ( xn, zn| θ)


p(Z|X, θ) = = = ( x n, zn| θ) (7)
∑z p(X,Z| θ) ∑z( xn, zn| θ)

Trong trường hợp của mô hình hỗn hợp Gaussian này, chỉ đơn giản nói rằng đó
là trách nhiệm của mỗi thành phần hỗn hợp sẽcho một điểm dữ liệu x n cụ thể chỉ phụ
thuộc vào giá trị của xn và trên các tham số θ của những thành phần hỗn hợp, không
phải trên các giá trị của dữ liệu khác điểm. Chúng tôi đã thấy rằng cả bước E và M
theo các giải thuật EM tăng giá trị của hàm log likelihood và chu trình EM sẽ thay đổi
các tham số mô hình (trừ khi nó đã được tối đa, trong trường hợp này các tham số vẫn
không thay đổi). Chúng tôi cũng có thể sử dụng thuật toán EM để tối đa hóa phân phối
hậu nghiệm p(θ| X) cho các mô hình, trong đó chúng tôi đã giới thiệu một p(θ) qua
các tham số. Chúng ta lưu ý rằng, cũng như một hàm của θ, chúng ta có p (θ| X) = P
(θ, X) / P (X) và như vậy:
ln p(θ| X) = ln p(θ, X)- ln p(X) (8)
Sử dụng các khai triển (2), chúng ta có:
ln p( θ| X) = L(q, θ) + KL(q||p) + ln p(θ) – ln p(X)

L(q, θ) + ln p(θ)- ln p(X) (9)

Trong đó ln p (X) là hằng số. Chúng tôi lại có thể tối ưu hóa vế phải đối với q
và θ. Việc tối ưu hóa đối với q tăng cho đến cùng bước E như cho các thuật toán EM
chuẩn, vì q chỉ xuất hiện trong L (q, θ). Bước M được sửa đổi thông qua việc cho các
ln p (θ) trước. Thuật toán EM chia vấn đềkhó khăn của tối đa hóa hàm khả năng làm
hai giai đoạn, bước E và M, mỗi trong số đó sẽ thường được chứng minh đơn giản để
thực hiện. Tuy nhiên, đối với các mô hình phức tạp nó có thể là trường hợp đó, hoặc là
bước E hoặc bước M, hoặc cả hai, vẫn không giải quyết được. Cái này dẫn đến hai
phần mở rộng khả năng của thuật toán EM, như sau.
Các thuật toán GEM hoặc EM tổng quát thay vì nhằm tối đa hóa L (q, θ) đối với θ, có
thể thay đổi các tham số để tăng giá trị của nó. Mỗi EM hoàn tất chu kỳ thuật toán
GEM được đảm bảo để tăng giá trị của log likelihood (trừ khi các tham số đã được tối
đa của địa phương). Một cách để khai thác GEM sẽ sử dụng một trong những chiến
11

lược tối ưu hóa phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước
M. Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện,
hoặc thuật toán ECM, liên quan đến việc tối ưu hóa một số hạn chế trong mỗi bước M
(Meng và Rubin, 1993). Ví dụ, các tham số có thể được phân chia thành các nhóm, và
bước M được chia thành nhiều bước trong đó bao gồm việc tối ưu hóa một trong
những tập con với phần còn lại của tổ chức cố định. Chúng tôi tương tự như vậy có thể
khái quát bước E của các thuật toán EM bằng cách thực hiện một một phần, việc tối ưu
hóa của L (q, θ) đối với q (Z) (Neal và Hinton, 1999). Như chúng ta đã thấy, đối với
bất kỳ giá trị nhất định của θ có một tối đa duy nhất L (q, θ) đối với q (Z) tương ứng
với phân phối hậu nghiệm q θ(Z) = p (Z | X, θ) và cho rằng sự lựa chọn của q (Z)
những ràng buộc L (q, θ) bằng với hàm log likelihood ln p (X | θ). Sau đó thuật toán
hội tụ khi tối đa hóa L (q, θ) sẽ tìm thấy một giá trị của θ mà tối đa hóa hàm log
likelihood ln (X | θ). Hãy xem xét trường hợp của N điểm dữ liệu độc lập x 1,..., xn với
tương ứng các biến tiềm ẩn z1,..., zn. Trong bước E, thay vì tính toán lại cho tất cả các
điểm dữ liệu, chúng tôi chỉ cần đánh giá lại ảnh hưởng cho một điểm dữ liệu. Nó có
thể xuất hiện trong M bước tiếp theo sẽ đòi hỏi tính toán liên quan đến ảnh hưởng cho
tất cả các điểm dữ liệu. Xem xét ví dụ, trường hợp của một hỗn hợp Gaussian, và giả
sử chúng tôi thực hiện một cập nhật cho m điểm dữ liệu, trong đó các giá trị của các
trách nhiệm được ký hiệu là γold (zmk) và γnew(zmk). Trong bước M, các số liệu thống kê
đầy đủ yêu cầu có thể được cập nhật từng bước. Ta được:

(γnew (zmk) - γnew (zmk) )


new old old
k = k + (xm - k ) (10)
Nknew


Nknew = Nkold + γnew (zmk) – γold (zmk) (11)

Các kết quả tương tự cho covariant và các hệ số trộn.


Vì vậy, cả hai bước E và M có thời gian cố định độc lập với tổng số điểm dữ
liệu. Bởi vì các tham số được sửa đổi sau mỗi điểm dữ liệu, chứ không phải chờ đợi
12

cho đến sau khi toàn bộ dữ liệu được xử lý, sự hội tụ có thể nhanh hơn phiên bản cũ.
Mỗi bước E hoặc M tăng giá trị của L (q, θ) và, như chúng tôi đã thấy ở trên, nếu các
thuật toán hội tụ đến một điểm tối đa của L (q, θ) (cục bộ hoặc toàn cục), điều này sẽ
tương ứng với đến một tối đa (cục bộ hoặc toàn cục) của hàm log likelihood ln p(X |
θ).

2.3.Ví dụ: Thí nghiệm tung đồng xu


Chúng ta cùng tung 2 đồng xu đồng chất lần lượt là A và B. Lần lượt gọi θ A và
θB là xác suất xuất hiện số lần mặt ngửa (H) của mỗi đồng xu. Mục tiêu của chúng ta
là ước tính θ =( θA ,θB ) bằng cách: ngẫu nhiên chọn một trong hai đồng tiền (với xác
suất bằng nhau), và thực hiện tung đồng xu mười lần độc lập với các đồng tiền được
lựa chọn. Ta thực hiện năm lần như thế. Như vậy, toàn bộ thủ tục liên quan đến tổng
cộng 50 tung đồng xu.

Hình 2: Thông số ước tính số liệu đầy đủ và không đầy đủ


13

Hình a. Khả năng ước lượng tối đa.Với mỗi một bộ sau khi tung 10 lần thì khả năng
ước lượng tối đa số lần sấp, ngửa của mỗi đồng xu A và B được tính riêng
Hình b. Tối đa hóa kì vọng.
Tải bản FULL (file word 26 trang): bit.ly/2Ywib4t
Cụ thể: Dự phòng: fb.com/KhoTaiLieuAZ

Bước 1: Ước lượng tham số của đồng xu A và B lần lượt là θA =0,6 ; θB =0,5

Bước 2: Tại bước E ta sử dụng công thức xác suất thống kê:

P(A/B)=(P(A). P(B/A))/ P(B)


14

Ta lần lượt gọi:

Số lần tung là x=(x1, x2, x3, x4, x5) trong đó xi ∈{0,1…10}

Số lần tung các loại đồng xu là z=( z 1 ,z2 ,z3 ,z4 ,z5 ) trong đó zi ∈{A,B} (z là một biến
ẩn hay là yếu tố tiềm ẩn). Như vậy, ta có:
P(x1 =5| z1=A). P(z1=A)
P(z1=A |x1 =5) =
P(x1=5)

()5 5 . (
=
P(x1=5)

P(x1 =5| z1=B). P(z1=B)


P(z1=B |x1 =5) =
P(x 1=5)

()5 5 . (
=
P(x1=5)

P(z1=A |x1 =5)


= 0,45
P(z1=A |x1 =5) + P(z1=B |x1 =5)

P(z1=B |x1 =5)


= 0,55
P(z1=A |x1 =5) + P(z1=B |x1 =5)
Tính toán tương tự ta được
P(z2=A |x2 =9)= 0,8 P(z2=B |x2 =1)= 0,2
P(z3=A |x3 =8)=0,73 P(z2=B |x2 =2)=0,27
P(z4=A |x4 =4)=0,35 P(z2=B |x2 =6)=0,65
P(z5=A |x5 =7)=0,65 P(z2=B |x2 =3)=0,35

1432233

You might also like