ML - 97 - 1 - Chp04 - Parametric Methods - 2

‫‪Machine Learning‬‬
‫یادگیری ماشینی‬
‫(‪)13-11-805-01‬‬
‫فصل چهارم‬
‫دانشگاه شهيد بهشتی‬
‫پژوهشکدهی فضای مجازی‬
‫پاييز ‪1397‬‬
‫احمد محمودی ازناوه‬
‫‪http://faculties.sbu.ac.ir/~a_mahmoudi/‬‬
‫فهرست مطالب‬
‫• تخمین تابع چگالی احتمال‬
‫• تابع درستنمایی‬
‫• برآورد درستنمایی بیشینه‬
‫– مثال‬
‫ارزیابی برآورد‬ ‫•‬
‫برآورد بیشینهگر احتمال پسین‬ ‫•‬
‫دستهبندی پارامتری‬ ‫•‬
‫رگرسیون‬ ‫•‬
‫‪2‬‬
‫شبکه عصبی‬
‫‪Parametric Estimation‬‬ ‫برآورد پارامتری‬
‫• در فصل پیش در مورد «اتخاذ تصمیم بهینه» با در نظر‬
‫گرفتن احتمال مشاهدهی ورودی با فرض دانستن‬
‫کالس و احتمال وقوع کالس بحث شد‪.‬‬
‫– با توجه به این فرض که توزیع دادهها‪ ،‬از توزیعی خاص‬
‫پیروی میکند‪ ،‬این روشها را «روشهای پارامتری»‬
‫مینامند‪.‬‬
‫)‪• X = { xt } t=1 where xt ~ p (x‬‬
‫‪N‬‬
‫• تخمین پارامتر‪:‬‬
‫– تخمین پارامترهای ‪ q‬از روی دادههای آموزشی ‪X‬‬
‫– برای دادهها یک مدل به صورت ) ‪ p (x |q‬در نظر گرفته‬
‫میشود ( ‪« q‬آمارهی بسنده» است؛ تمام اطالعات در مورد توزیع را‬
‫در بر دارد)‬
‫‪Sufficient statistic‬‬
‫‪3‬‬
‫يادگيری ماشين‬
‫‪Likelihood Function‬‬ ‫تابع درستنمایی‬
‫• «تابع درستنمایی»‪ ،‬تابعی از پارامترهای مدل‬
‫آماری است‪.‬‬
‫– درستنمایی یک مجموعه از پارامترها‪ ،θ ،‬برای‬
‫مقادیری معین (‪)X‬؛ برابرست با احتمال رخداد ‪ X‬به‬
‫ازای مجموعه پارامترها (احتمال درستی ‪ θ‬آن به شرط‬
‫‪)X‬‬
‫)‪– l (θ|X) ≡ p (X |θ‬‬
‫• ‪ X‬ثابت است و ‪ θ‬را تغییر داده میشود‪.‬‬
‫• این تابع در «استنباط آماری» نقش اساسی دارد‪.‬‬
‫‪Statistical inference‬‬
‫‪4‬‬
‫يادگيری ماشين‬ ‫‪Bishop‬‬
‫‪MLE‬‬ ‫برآورد درستنمایی بیشینه‬
‫‪Maximum Likelihood Estimation‬‬ ‫‪Make sampling xt from p (xt|θ) as likely as possible‬‬
‫• در صورتی که نمونهها‪« ،X = { xt } ،‬متغیرهای مستقل با‬

‫توزیع یکسان(‪ »)i.i.d.‬باشد‪:‬‬
‫‪independent and identically distributed‬‬
‫)‪• l (θ|X) = p (X |θ) = ∏t p (xt|θ‬‬

‫• در برآورد درستنمایی بیشینه در پی یافتن ‪ θ‬هستیم به‬
‫گونهای که احتمال تعلق ‪ X‬به ‪ p‬حدهاکثر شود؛‬
‫درستنمایی بیشینه شود‪.‬‬
‫• برای سادگی محاسبات‪ ،‬به جای درستنمایی‪ ،‬از لگاریتم‬
‫آن استفاده میشود‪:‬‬
‫)‪L(θ|X) = log l (θ|X) = ∑t log p (xt|θ‬‬ ‫‪Log likelihood‬‬
‫)‪θ* = argmaxθ L(θ|X‬‬
‫‪5‬‬
‫برآورد درستنمایی بیشینه‬
Likelihood
Log Likelihood
Pattern Classification, Chapter 3 6

Bernoulli /catagorical (generalized Bernoulli) Density ‫مثال‬
x in {0,1} ‫• توزیع برنولی‬
P (x) = pox (1 – po ) (1 – x)
L (po|X) = log ∏t poxt (1 – po ) (1 – xt)
MLE: p̂o = ∑t xt / N
‫• توزیع برنولی تعمیمیافته‬
• K>2 states, xi in {0,1}
P (x1,x2,...,xK) = ∏i pixi
L(p1,p2,...,pK|X) = log ∏t ∏i pixi = log ∏i piΣt(xi )
t t
MLE: p̂ i = ∑t xit / N
1 if exprimnet t choose state i
x 
t
i
0 otherwise 7
Gaussian (Normal) Distribution
1  x   2 
p x  
2
exp-
 2 2 
 • p(x) = N ( μ, σ2)
 x   2 

px 
1
exp  
2   2 
2
• MLE for μ and σ2:
μ σ
 x  
t 2
L ,  | X    log 2   N log  

N t
2 2 2
x  x  m
t t 2
m t
s2  t
8
‫يادگيری ماشين‬ N N
‫‪Evaluating an Estimator‬‬ ‫ارزیابی برآورد‬
‫یک نمونه از دادهها(جمعیت)‪X :‬‬ ‫•‬
‫پارامتر مجهول‪θ :‬‬ ‫•‬
‫برآورد پارامتر از روی دادهها )‪d = d (X‬‬ ‫•‬
‫معیار کیفیت تخمین‪(d (X)-θ)2 :‬‬ ‫•‬
‫– با توجه به این که این معیار به نمونهها وابسته است‪ ،‬از‬
‫میانگین استفاده میکنیم‪:‬‬
‫]‪r(d,θ)=E[(d (X)-θ)2‬‬ ‫‪Mean square error‬‬
‫– همچنین «بایاس تخمین» به صورت زیر تعریف میشود‪:‬‬
‫‪bθ(d)=E[d (X)] –θ‬‬
‫• چنانچه این مقدار برابر صفر باشد‪ d ،‬را‬
‫‪ unbiased estimator‬میگویند‪.‬‬
‫‪9‬‬
‫مثال‪ -‬تخمین میانگین‬
‫• در صورتی که ‪ xt‬نمونههای از یک توزیع با میانگین‬
‫‪ μ‬باشد‪،‬‬
‫‪ t x t  1‬‬ ‫‪N‬‬
‫‪Em  E ‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪t‬‬ ‫‪E‬‬ ‫‪‬‬‫‪x‬‬ ‫‪t‬‬
‫‪‬‬ ‫‪‬‬ ‫‪‬‬
‫‪ N ‬‬ ‫‪N‬‬ ‫‪N‬‬
‫• میانگین نمونهها ‪ unbiased‬است‪.‬‬

‫• در صورتی که واریانس تخمین‪ ،‬با افزایش تعداد‬
‫نمونهها به صفر میل کند‪ ،‬به برآورد انجام شده‬
‫‪Consistent estimator‬‬ ‫«سازگار» گفته میشود‪.‬‬
‫∞→‪Var(m) →0 as N‬‬
‫‪ t x t‬‬ ‫‪ 1‬‬ ‫‪‬‬ ‫‪‬‬
‫‪ ‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪var m  var‬‬
‫‪N‬‬
‫يادگيری ماشين‬ ‫‪ N‬‬
‫‪‬‬
‫‪ N‬‬ ‫‪2‬‬ ‫‪‬‬‫‪t‬‬
‫‪var‬‬ ‫‪x‬‬ ‫‪t‬‬
‫‪ 2 ‬‬
‫‪N‬‬ ‫‪N‬‬
‫‪10‬‬
‫‪‬‬ ‫‪‬‬
‫ تخمین واریانس‬-‫مثال‬
 x  m  x 
2 t 2
t
 Nm 2 Bishop
s2  t
 t
N N
 E x    N.Em 
t 2 2
 
E s2  t
N ‫یادآوری‬
 
Var  X   E X 2  EX 
2
    E m  
 2
E x t 2 2
 2 2
 2
N
E  s  
2   
N  2  2  N  2 N  2  
N 1 2
 2
N N
asymptotically unbiased estimator
‫يادگيری ماشين‬ bθ(s) →0 as N→∞ 11

‫ارزیابی برآورد‬
Mean square error:

r (d,q) = E [(d–q)2]
= (E [d] – q)2 + E [(d–E [d])2]
= Bias2 + Variance (4.11)
12
‫برآورد بیشینهگر احتمال پسین‬
‫)‪Maximum a Posteriori (MAP‬‬
‫• در ‪ ،MLE‬پارامتر مورد نظر به عنوان مجهول در نظر گرفته‬
‫میشود‪ ،‬ممکن است در مورد پارامتر مورد نظر از پیش‬
‫اطالعاتی (‪ )prior information‬داشته باشیم‪ .‬این‬
‫اطالعات میتوانند به تخمین دقیقتر کمک کنند‪ ،‬به ویژه‬
‫زمانی که دادههای آموزش کمتعداد باشند‪.‬‬
‫– در این حالت به ‪ θ‬به صورت یک متغیر تصادفی نگاه میکنیم‪.‬‬
‫– به عنوان مثال میدانیم‪ θ ،‬با احتمال نوددرصد‪ ،‬با توزیع‬
‫گاوسی بین ‪ 5‬و ‪ 9‬به (صورت متقارن) قرار دارد‪.‬‬
‫‪‬‬ ‫‪q ‬‬ ‫‪‬‬
‫‪P  1.64 ‬‬ ‫‪ 1.64   0.9‬‬
‫‪‬‬ ‫‪‬‬ ‫‪‬‬
‫‪‬‬
‫‪Pq  ~ N 7, 2 / 1.64 ‬‬
‫‪2‬‬
‫‪‬‬
‫‪P 1.64  q    1.64   0.9‬‬
‫‪13‬‬
‫برآورد بیشینهگر احتمال پسین‬
‫• در چنین حالتی اطالعاتی در مورد )‪ p(θ‬وجود دارد‪ .‬با‬
‫ترکیب این اطالعات با آنچه دادهها به ما‬
‫میگویند(‪ ،)likelihood density‬خواهیم داشت‪:‬‬
‫)‪p(θ|X)= p(X|θ) p(θ)/ p(X‬‬
‫)‪Maximum a Posteriori (MAP‬‬ ‫• و‬
‫)‪θMAP = argmaxθ p(θ|X) = argmaxθ p(θ) p(X|θ‬‬
‫تفاوت با ‪ ML‬در نظر گرفتن )‪ p(θ‬است‪.‬‬
‫)‪θML = argmaxθ p(X|θ‬‬
‫)‪Maximum Likelihood (ML‬‬
‫‪14‬‬
‫برآورد بیشینهگر احتمال پسین(ادامه‪)...‬‬
‫‪Pattern recognition, Sergios Theodoridis‬‬
‫در صورتی که )‪ p(θ‬دارای توزیع یکنواخت باشد‪ ،‬دو‬

‫روش پاسخ یکسانی به دست میآورند‪.‬‬
‫‪15‬‬
 x   2  ‫مثال‬
x ~ px  
1
exp  
2   2 
2
   0 2 
p  
1
exp  
2  0  2 0 
2
p | X   p  p X |  |
  t
 
p  | xt  p t p xt |  
:‫ باید رابطهی زیر محاسبه شود‬MAP ‫برای تخمین‬


 t

ln p t p x |   


 
ln p   t ln p x t |   0 
  1
 ln 2  ln  0 
  0  N
2
 x t
   
2
 ln 2  ln   t
  2 2 02
2 2 2 
 
16
‫ ادامه‬-‫مثال‬
 02
N 02 x   2 0 0  2 t x t
N  N  
N 02   2  02
1 2 N

µN →⅟N∑txt as N→∞
µN →⅟N∑txt as σ0>> σ
:‫برای واریانس هم به صورت مشابه خواهیم داشت‬

 2 02
  2
N 02   2
N
17
‫استنباط بیزی‬
‫• رویکرد دیگر محاسبهی)‪ P(x|X‬است‪ ،‬در شرایطی‬
‫که )‪ p(θ‬را میدانیم‪.‬‬
‫اگر پارامتر ‪ θ‬را بدانیم‪ ،‬کل توزیع‬

‫مشخص است‬
‫میانگین وزندار تخمین را بر اساس‬

‫احتمال مقادیر مدل‬
‫• عیب عمدهی این روش حجم محاسبات باالست‪ ،‬و‬
‫محاسبات تحلیلی تنها در حاالت خاصی امکانپذیر‬
‫است‪.‬‬
‫برای سادگی میتوان فرض کرد که )‪ P(θ|X‬شبیه تابع ضربه است‪ ،‬در این صورت‬
‫‪18‬‬
‫يادگيری ماشين‬ ‫)‪P(x|X)=P(x|θMAP‬‬
‫دستهبندی پارامتری‬
gi x   px |C i P C i 
‫تابع جداساز‬
or
gi x   log px |C i   log P C i 
:‫در صورتی که چگالی کالس را گاوسی در نظر بگیریم‬
px |C i  
1 
exp
 x  i  
2

2  i  2 i 2
1
gi x    log 2  log  i 
 x  i 2
 log P C i 
2 2 i 2
19
)...‫دستهبندی پارامتری (ادامه‬
X  {x t ,r t }tN1 ‫نمونههای آموزشی‬
1 if x t
Ci
x  ri  
t
0 if x t
C j , j  i
‫برآورد درستنمایی بیشینه‬

r x r  x  m  r
t t t t 2 t
i i i i
PˆC i   t
m  t
si2  t
r r
i t t
N i i
t t
‫تابع جداساز‬
1
gi x    log 2  log si 
 x  mi 
 log ˆC i 
P
2
2 2si 2
20
‫دستهبندی دو کالس با واریانس یکسان‬
1
gi x    log 2  log si 
 x  mi 2
 log PˆC i 
2
2 2si
Equal variances
Single boundary at
halfway between means
21
‫دستهبندی دو کالس با واریانس متفاوت‬
1
gi x    log 2  log si 
 x  mi 2
2
2 2si
Variances are different
Two boundaries
22
1  x  mi 2
‫مثال‬
gi x    log 2  log si  2
2 2si
23
Dependent variable ‫رگرسیون‬
r  f x   
Independent variable
estimator : g  x | q 
 ~ N 0,  2


pr | x  ~ N g x | q ,  2 
L q |X   log  px t , r t  px, r   pr | x px
N
t 1
 log  pr t | x t   log  px t 

N N
t 1 t 1
24
‫يادگيری ماشين‬ ‫ این بخش در نظر گرفته نمیشود‬،‫باتوجه به این که به تخمین ربطی ندارد‬
‫محاسبهی تابع خطا‬
L q | X   log
N
1 
 r t  g xt | q   
2
 2 
exp 
 2
t 1  2 
 r 
2

N
1
  N log 2   t
 g xt | q
2 2
t 1
‫ این بخش در نظر گرفته نمیشود‬،‫باتوجه به این که به تخمین ربطی ندارد‬
 
2

N
E q | X    r  g x | q
1 t t
2 t 1 Least Squares estimates
25
‫رگرسیون خطی‬
 
2

N
E q | X    r  g x | q
1 t t
2 t 1
gx t |w1 ,w0   w1x t  w0
t
r t
 Nw 0  w1 x t
r x t t
 w0  x  w1  x
t

t 2
t t t
 N t  w0 
x t
   r t

A      t 

x t
 t
2 w  w 
t x   1  t x 
 y
 r t t
w  A 1y 26
‫رگرسیون چندجملهای‬
gx |wk ,,w2 ,w1 ,w0   wk x
t
   w x 
t k
2
t 2
 w1x t  w0
 N
  xt
t
 x 
t
t 2
  x 
t
t k 

 x 
 t k 1 
A t
 x t
 
 t

  k  
 x t
 t
   x  t k 1
 x  t k 2
   xt 
2 k

t t t
  rt 
 w0   t 
w    r t xt 
 1  t 
w   w2 
 t
 
y   r t x t 
2

 
    
 
 wk 
 r x 
 t
t
 
t k

27
‫رگرسیون چندجملهای‬

A  DT D  y  DT r
1 x1

x 
1 2
  
x1 k 

 r 1

 2
D
1 x 2
x 
2 2
  2 k
x 
r  r 
   
   N
1 x N
x 
N 2
  
N k
x  r 
w  D D  DT r
T 1
28
‫معیارهای خطا‬
 
2
E q |X    r t  gx t |q 
N
1
‫• مجموع مربعات خطا‬
2 t 1
sum of squared error
‫• خطای نسبی‬
 r 
2
 g x |q 
N
t t
E q |X   t 1 relative square error

 r 
N 2
t
r
t 1
‫• قدرمطلق خطا‬
E q | X    r t  g x t | q 
N
1
Absolute Error
2 t 1
ε-sensitive Error
      
N
E q | X   1 r t  g x t | q   r t  g x t | q  
1
29
‫ يادگيری ماشين‬2 t 1
‫‪Bias and Variance‬‬
‫‪noise‬‬ ‫‪squared error‬‬
‫‪Expected square error at x‬‬
‫‪‬‬ ‫‪ ‬‬ ‫‪‬‬

‫‪E r  gx 2 | x  E r  Er | x 2 | x  Er | x   gx 2‬‬
‫به مدل بستگی ندارد‪ ،‬واریانس‬ ‫میزان خطا‪ :‬وابسته به‬

‫نویز است؛ در واقع بخشی از‬ ‫دادههای آموزشی و مدل‬
‫خطاست که قابل حذف نیست‬ ‫است‬
‫‪‬‬ ‫‪‬‬ ‫‪‬‬

‫‪E X E r | x   g x  | x  E r | x   E X g x   E X g x   E X g x ‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪‬‬
‫‪bias‬‬ ‫‪variance‬‬
‫معیاری است که میزان خطا را‬ ‫با تغییرات دادههای آموزشی‪،‬‬
‫صرفنظر از نمونههای آموزشی‬ ‫مقدار )‪ g(x‬به چه میزان تغییر‬
‫نشان میدهد‬ ‫‪30‬میکند‪.‬‬
Bias/Variance Dilemma ‫مثال‬
• M samples Xi={xti , rti}, i=1,...,M

are used to fit gi (x), i =1,...,M
Bias  g    g x   f x 
2 1 t t 2
N t
Variance  g    g x   g x 
1 t t 2
i
NM t i
g x   g i x 
1

M i
gi(x)=2 ‫ اما بایاس باالیی دارد‬،‫واریانس صفر است‬
gi(x)= ∑t rti/N ‫ اما واریانس افزایش مییابد‬،‫بایاس کاهش مییابد‬

31
f
f
bias
gi g
variance
32
‫انتخاب مدل‬
‫”‪Best fit “min error‬‬
‫‪33‬‬
Cross validation
Best fit, “elbow”
34
Regularization
Penalize complex models
E’=error on data + λ model complexity

w  D D  I D r
T

1 T Coefficients increase in
magnitude as order increases:
1: [-0.0769, 0.0016]
2: [0.1682, -0.6657, 0.0080]
3: [0.4238, -2.5778, 3.4675, -
0.0002
4: [-0.1093, 1.4356,
-5.5007, 6.0454, -0.0019]
 
2
regulariza tion : E w | X    r t  gx t |w    i wi2

N
1
35
‫يادگيری ماشين‬ 2 t 1
Regularization
9th Order Polynomial
36

ML - 97 - 1 - Chp04 - Parametric Methods - 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ML - 97 - 1 - Chp04 - Parametric Methods - 2

Uploaded by

Copyright:

Available Formats

‫‪Machine Learning‬‬

‫• در صورتی که نمونهها‪« ،X = { xt } ،‬متغیرهای مستقل با‬

‫)‪• l (θ|X) = p (X |θ) = ∏t p (xt|θ‬‬

Pattern Classification, Chapter 3 6

• MLE for μ and σ2:

L ,  | X    log 2   N log  

‫• میانگین نمونهها ‪ unbiased‬است‪.‬‬

asymptotically unbiased estimator

‫يادگيری ماشين‬ bθ(s) →0 as N→∞ 11

Mean square error:

‫‪Pattern recognition, Sergios Theodoridis‬‬

‫در صورتی که )‪ p(θ‬دارای توزیع یکنواخت باشد‪ ،‬دو‬

:‫برای واریانس هم به صورت مشابه خواهیم داشت‬

‫اگر پارامتر ‪ θ‬را بدانیم‪ ،‬کل توزیع‬

‫میانگین وزندار تخمین را بر اساس‬

:‫در صورتی که چگالی کالس را گاوسی در نظر بگیریم‬

‫برآورد درستنمایی بیشینه‬

Variances are different

 log  pr t | x t   log  px t 

2 t 1 Least Squares estimates

gx t |w1 ,w0   w1x t  w0

E q |X   t 1 relative square error

‫‪‬‬ ‫‪ ‬‬ ‫‪‬‬

‫به مدل بستگی ندارد‪ ،‬واریانس‬ ‫میزان خطا‪ :‬وابسته به‬

‫‪‬‬ ‫‪‬‬ ‫‪‬‬

• M samples Xi={xti , rti}, i=1,...,M

gi(x)=2 ‫ اما بایاس باالیی دارد‬،‫واریانس صفر است‬

gi(x)= ∑t rti/N ‫ اما واریانس افزایش مییابد‬،‫بایاس کاهش مییابد‬

‫”‪Best fit “min error‬‬

Best fit, “elbow”

regulariza tion : E w | X    r t  gx t |w    i wi2

9th Order Polynomial

You might also like