Professional Documents
Culture Documents
MỞ ĐẦU
Thuật toán EM (Expectation- Maximization) được nghiên cứu từ năm 1958 bởi
Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977.
Thuật toán EM được sử dụng để tìm ra kỳ vọng tối đa các thông số một mô hình thống
kê trong trường hợp các phương trình không thể giải quyết trực tiếp được. Thông
thường các mô hình liên quan đến các giá trị tiềm ẩn ngoài không biết các thông số và
dữ liệu không quan sát được thông số. Có nghĩa là những giá trị bị thiếu hoặc không
quan sát được mô hình bằng sự giả định của các điểm dữ liệu bổ sung. (Ví dụ: một mô
hình kết hợp đơn giản có thể được mô tả bằng cách giả định rằng mỗi điểm dữ liệu
quan sát được có một điểm tương ứng với dữ liệu không quan sát được, hoặc biến tiềm
ẩn, xác định thành phần hỗn hợp cho mỗi điểm dữ liệu.)
Việc tìm kiếm một giải pháp hợp lý là lấy các dẫn xuất của các hàm hợp
(likehood function) đối với các giá trị không rõ tức là các thông số và các biến tiềm ẩn
đồng thời giải quyết các phương trình. Trong một mô hình thống kê với các biến tiềm
ẩn thường là không thể. Thay vào đó, kết quả thường là một tập hợp các chương trình
đan xem vào đó là giải pháp cho các giá trị của biến tiềm ẩn và ngược lại .
Thuật toán EM nhằm tìm ra sự ước lượng về khả năng lớp nhất của các tham số
trong mô hình xác suất( các mô hình phụ thuộc vào các biến tiềm ẩn chưa được quan
sát), nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán
k-means. EM gán các đối tượng của cụm đã cho theo xác suất phân phối thành phần
của đối tượng đó. Phân phối xác suất thường được sửa dụng là phân phối xác suất
Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng
hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mô
hình xác suất cho các đối tượng dữ liệu.
3
2.1.Khái niệm:
Thuật toán EM là một phương pháp lặp hiệu quả để ước lượng Maximum
Likehood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước lượng
các tham số mô hình sao cho dữ liệu đã được quan sát( dữ liệu đã được biết) là tương
thích nhất( the most likely). Ví dụ ước lượng kỳ vọng và phương sai của mỗi thành
phần Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai
bước:
5
Bước E (Expectation step): dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan
sát và các tham số mô hình của ước lượng hiện tại. Điều này được thực hiện bằng cách
sử dụng kì vọng có điều kiện.
Bước M (Maximization step): hàm likehood được cực đại hóa với giả sử dữ liệu
ẩn đã biết( sự ước lượng của dữ liệu ẩn trong bước E được sửa dụng thay cho dữ liệu
ẩn thực sự.). Thuật toán EM luôn hội tụ vì chắc chắn likehood luôn tăng sau mỗi vòng
lặp.
Tiến trình tiếp tục cho đến khi likelihood hội tụ, ví dụ như đạt tới cực đại địa
phương. EM sử dụng hướng tiếp cận leo đồi, nên chỉ đảm bảo đạt được cực đại địa
phương. Khi tồn tại nhiều cực đại, việc đạt tới cực đại toàn cục hay không là phụ thuộc
vào điểm bắt đầu leo đồi. Nếu ta bắt đầu từ một đồi đúng (right hill), ta sẽ có khả năng
tìm được cực đại toàn cục. Tuy nhiên, việc tìm được right hill thường là rất khó. Có
hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta thử nhiều giá
trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood hội tụ lớn nhất.
Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu cho các mô hình
phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm được vùng tồn tại cực đại
toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó để tìm kiếm tối ưu chính xác khi
sử dụng mô hình phức tạp hơn.
Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả
nếu dữ liệu có tính phân cụm cao.
Hình 1a. Các khai triển từ (2) lựa chọn phân phối q (Z). Bởi vì phân kỳ Kullback-
Leibler thỏa mãn KL (q||p), chúng ta thấy rằng L (q, θ) là bé hơn hàm khả năng ln
p (X | θ)
Lưu ý rằng L (q, θ) là một hàm của phân phối q(Z), và một hàm có tham số θ.
Đây là giá trị được nghiên cứu kỹ lưỡng cho các biểu thức (3) và (4), và đặc biệt lưu ý
rằng chúng khác nhau khi L (q, θ) chứa các phân phối kết hợp của X và Z và trong khi
7
KL (q||p) chứa các phân phối có điều kiện của Z với điều kiện X. Để xác minh khai
triển (2), chúng tôi sử dụng các nguyên tắc nhân của xác suất để cho
ln P(X| θ)= ln P(Z|X, θ)+ln P(X| θ) (5)
mà chúng tôi sau đó thay thế vào biểu thức cho L (q, θ).
Từ (4), chúng tôi thấy rằng KL (q ||p) là phân kỳ Kullback-Leibler giữa q (Z) à phân
phối hậu nghiệm p (Z | X, θ). Nhớ lại rằng phân kỳ Kullback-Leibler thỏa mãn KL (q||
p)≥0, với tương đương khi và chỉ khi, q (Z) = P (Z | X, θ). Do đó từ (2), có rằng L (q,
θ) ≤ ln p (X | θ), nói cách khác là L (q, θ) bé hơn p ln (X | θ). Các khai triển (2) minh
hoạ trong hình 1a.
Thuật toán EM là kỹ thuật tối ưu hóa lặp hai giai đoạn cho việc tìm kiếm giải
pháp tối đa hóa khả năng. Chúng tôi có thể sử dụng khai triển (2) để xác định thuật
toán EM và để chứng minh rằng nó thực sự tối đa hóa khả năng. Giả sử rằng giá trị
hiện tại của véc tơ tham số là θ old. Trong bước E, cận bé hơn L (q, θ old) được tối đa hóa
đối với q (Z) trong khi đang cố định θold. Các giải pháp cho vấn đề tối đa hóa này được
dễ dàng nhìn thấy bằng cách ghi nhận rằng giá trị của p ln (X | θ old) không phụ
thuộc vào q (Z) và do đó giá trị lớn nhất của L (q,θ old) sẽ xảy ra khi không có phân kỳ
Kullback-Leibler, nói cách khác khi q (Z) bằng với phân phối hậu nghiệm p(Z | X,
θold).
8
Hình 1b. Minh họa bước E của thuật toán EM. Các phân phối q được thiết lập
bằng phân phối hậu nghiệm cho các tham số hiện tại θ old, dẫn đến cận dưới thấp
hơn để dẫn đến cùng một giá trị như hàm log likelihood không có phân kỳ.
Trong bước M này, phân phối q (Z) được giữ cố định và L (q, θ) được tối đa
hóa đối với θ để đưa đến giá trị mới θnew. Điều này sẽ tăng L (trừ khi nó đã được tối đa
một lần), mà sẽ nhất thiết là tăng hàm log likelihood tương ứng. Bởi vì phân phối q
được xác định bằng cách sử dụng các giá trị tham số cũ chứ không phải là các giá trị
mới và được tổ chức cố định trong bước M, nó sẽ không bằng với phân phối hậu
nghiệm mới p (Z | X, θnew), và do đó sẽ có một phân kỳ KL khác không. Sự gia tăng
trong hàm log likelihood do đó lớn hơn sự gia tăng trong cận dưới, như là thể hiện
trong hình 1c. Nếu chúng tôi thay thế q (Z) = P (Z | X, θ old) vào (3), chúng tôi thấy
rằng, sau bước E, ràng buộc có dạng:
Trong đó, hằng số chỉ đơn giản là entropy âm của phân phối q và do đó độc lập
với θ. Vì vậy, trong bước M, đại ượng đang được tối đa là kỳ vọng của hàm likelihood
với dữ liệu đầy đủ, như chúng tôi đã thấy trước đó trong trường hợp trộn của Gaussian.
Lưu ý rằng biến θ mà chúng tôi tối ưu hóa xuất hiện chỉ trong lôgarit. Nếu phân phối
kết hợp p(Z, X | θ) là hàm mũ, chúng ta thấy rằng lôgarit sẽ hủy bỏ mũ và dẫn đến một
bước M sẽ đơn giản hơn nhiều hơn so với tối đa hóa hàm log likelihood với dữ liệu
không đầy đủ p(X | θ) tương ứng.
9
Hình 1c. Bước M của thuật toán EM. Các phân phối q(Z) được giữ cố định
và L (q, θ) được tối đa đối với tham số θ để cho một giá trị mới θnew
Hình 1d. Thuật toán EM tính toán thay thế một cận dưới thấp hơn trên hàm
log likelihood cho các giá trị tham số hiện thời và sau đó tối đa hóa để có được giá
trị tham số mới.
Các hoạt động của thuật toán EM cũng có thể được xem xét trong không gian
của tham số, như minh họa trong hình 1d. Dưới đây là mô tả các đường cong màu đỏ
của hàm log likelihood với dữ liệu không đầy đủ mà chúng tôi mong muốn cực đại
hóa. Chúng tôi bắt đầu với một số giá trị tham số ban đầu θ old, và trong bước E đầu tiên
chúng tôi đánh giá phân phối hậu nghiệm qua các biến tiềm ẩn, mà cho phép tăng ít
hơn L (θ, θold), có giá trị bằng log likelihood tại θ old như được hiển thị bằng các đường
cong màu xanh lam. Trong bước M, cận được tối đa hóa đưa đến giá trị θ new lớn hơn
θold. Bước E tiếp theo sau đó là xây dựng một cận là tiếp tuyến tại θ new như được hiển
thị bằng các đường cong màu xanh lá cây.
Đối với những trường hợp cụ thể của tập dữ liệu được phân bố độc lập, X sẽ gồm N dữ
liệu điểm (xn) trong khi Z sẽ gồm N biến tiềm ẩn (z n) tương ứng, trong đó n = 1 ,..., N.
Từ giả định độc lập, chúng tôi có p(X, Z) =∏ n(xn, zn), từ đó chúng ta có p(X) =∏n(xn).
Sử dụng quy tắc tổng và nhân, chúng ta thấy rằng các xác suất hậu nghiệm ở bước E
có dạng:
10
Trong trường hợp của mô hình hỗn hợp Gaussian này, chỉ đơn giản nói rằng đó
là trách nhiệm của mỗi thành phần hỗn hợp sẽcho một điểm dữ liệu x n cụ thể chỉ phụ
thuộc vào giá trị của xn và trên các tham số θ của những thành phần hỗn hợp, không
phải trên các giá trị của dữ liệu khác điểm. Chúng tôi đã thấy rằng cả bước E và M
theo các giải thuật EM tăng giá trị của hàm log likelihood và chu trình EM sẽ thay đổi
các tham số mô hình (trừ khi nó đã được tối đa, trong trường hợp này các tham số vẫn
không thay đổi). Chúng tôi cũng có thể sử dụng thuật toán EM để tối đa hóa phân phối
hậu nghiệm p(θ| X) cho các mô hình, trong đó chúng tôi đã giới thiệu một p(θ) qua
các tham số. Chúng ta lưu ý rằng, cũng như một hàm của θ, chúng ta có p (θ| X) = P
(θ, X) / P (X) và như vậy:
ln p(θ| X) = ln p(θ, X)- ln p(X) (8)
Sử dụng các khai triển (2), chúng ta có:
ln p( θ| X) = L(q, θ) + KL(q||p) + ln p(θ) – ln p(X)
Trong đó ln p (X) là hằng số. Chúng tôi lại có thể tối ưu hóa vế phải đối với q
và θ. Việc tối ưu hóa đối với q tăng cho đến cùng bước E như cho các thuật toán EM
chuẩn, vì q chỉ xuất hiện trong L (q, θ). Bước M được sửa đổi thông qua việc cho các
ln p (θ) trước. Thuật toán EM chia vấn đềkhó khăn của tối đa hóa hàm khả năng làm
hai giai đoạn, bước E và M, mỗi trong số đó sẽ thường được chứng minh đơn giản để
thực hiện. Tuy nhiên, đối với các mô hình phức tạp nó có thể là trường hợp đó, hoặc là
bước E hoặc bước M, hoặc cả hai, vẫn không giải quyết được. Cái này dẫn đến hai
phần mở rộng khả năng của thuật toán EM, như sau.
Các thuật toán GEM hoặc EM tổng quát thay vì nhằm tối đa hóa L (q, θ) đối với θ, có
thể thay đổi các tham số để tăng giá trị của nó. Mỗi EM hoàn tất chu kỳ thuật toán
GEM được đảm bảo để tăng giá trị của log likelihood (trừ khi các tham số đã được tối
đa của địa phương). Một cách để khai thác GEM sẽ sử dụng một trong những chiến
11
lược tối ưu hóa phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước
M. Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện,
hoặc thuật toán ECM, liên quan đến việc tối ưu hóa một số hạn chế trong mỗi bước M
(Meng và Rubin, 1993). Ví dụ, các tham số có thể được phân chia thành các nhóm, và
bước M được chia thành nhiều bước trong đó bao gồm việc tối ưu hóa một trong
những tập con với phần còn lại của tổ chức cố định. Chúng tôi tương tự như vậy có thể
khái quát bước E của các thuật toán EM bằng cách thực hiện một một phần, việc tối ưu
hóa của L (q, θ) đối với q (Z) (Neal và Hinton, 1999). Như chúng ta đã thấy, đối với
bất kỳ giá trị nhất định của θ có một tối đa duy nhất L (q, θ) đối với q (Z) tương ứng
với phân phối hậu nghiệm q θ(Z) = p (Z | X, θ) và cho rằng sự lựa chọn của q (Z)
những ràng buộc L (q, θ) bằng với hàm log likelihood ln p (X | θ). Sau đó thuật toán
hội tụ khi tối đa hóa L (q, θ) sẽ tìm thấy một giá trị của θ mà tối đa hóa hàm log
likelihood ln (X | θ). Hãy xem xét trường hợp của N điểm dữ liệu độc lập x 1,..., xn với
tương ứng các biến tiềm ẩn z1,..., zn. Trong bước E, thay vì tính toán lại cho tất cả các
điểm dữ liệu, chúng tôi chỉ cần đánh giá lại ảnh hưởng cho một điểm dữ liệu. Nó có
thể xuất hiện trong M bước tiếp theo sẽ đòi hỏi tính toán liên quan đến ảnh hưởng cho
tất cả các điểm dữ liệu. Xem xét ví dụ, trường hợp của một hỗn hợp Gaussian, và giả
sử chúng tôi thực hiện một cập nhật cho m điểm dữ liệu, trong đó các giá trị của các
trách nhiệm được ký hiệu là γold (zmk) và γnew(zmk). Trong bước M, các số liệu thống kê
đầy đủ yêu cầu có thể được cập nhật từng bước. Ta được:
Và
Nknew = Nkold + γnew (zmk) – γold (zmk) (11)
cho đến sau khi toàn bộ dữ liệu được xử lý, sự hội tụ có thể nhanh hơn phiên bản cũ.
Mỗi bước E hoặc M tăng giá trị của L (q, θ) và, như chúng tôi đã thấy ở trên, nếu các
thuật toán hội tụ đến một điểm tối đa của L (q, θ) (cục bộ hoặc toàn cục), điều này sẽ
tương ứng với đến một tối đa (cục bộ hoặc toàn cục) của hàm log likelihood ln p(X |
θ).
Hình a. Khả năng ước lượng tối đa.Với mỗi một bộ sau khi tung 10 lần thì khả năng
ước lượng tối đa số lần sấp, ngửa của mỗi đồng xu A và B được tính riêng
Hình b. Tối đa hóa kì vọng.
Tải bản FULL (file word 26 trang): bit.ly/2Ywib4t
Cụ thể: Dự phòng: fb.com/KhoTaiLieuAZ
Bước 1: Ước lượng tham số của đồng xu A và B lần lượt là θA =0,6 ; θB =0,5
Bước 2: Tại bước E ta sử dụng công thức xác suất thống kê:
Số lần tung các loại đồng xu là z=( z 1 ,z2 ,z3 ,z4 ,z5 ) trong đó zi ∈{A,B} (z là một biến
ẩn hay là yếu tố tiềm ẩn). Như vậy, ta có:
P(x1 =5| z1=A). P(z1=A)
P(z1=A |x1 =5) =
P(x1=5)
()5 5 . (
=
P(x1=5)
()5 5 . (
=
P(x1=5)
1432233