Professional Documents
Culture Documents
ML - 97 - 1 - Chp04 - Parametric Methods - 2
ML - 97 - 1 - Chp04 - Parametric Methods - 2
یادگیری ماشینی
()13-11-805-01
فصل چهارم
دانشگاه شهيد بهشتی
پژوهشکدهی فضای مجازی
پاييز 1397
احمد محمودی ازناوه
http://faculties.sbu.ac.ir/~a_mahmoudi/
فهرست مطالب
• تخمین تابع چگالی احتمال
• تابع درستنمایی
• برآورد درستنمایی بیشینه
– مثال
ارزیابی برآورد •
برآورد بیشینهگر احتمال پسین •
دستهبندی پارامتری •
رگرسیون •
2
شبکه عصبی
Parametric Estimation برآورد پارامتری
• در فصل پیش در مورد «اتخاذ تصمیم بهینه» با در نظر
گرفتن احتمال مشاهدهی ورودی با فرض دانستن
کالس و احتمال وقوع کالس بحث شد.
– با توجه به این فرض که توزیع دادهها ،از توزیعی خاص
پیروی میکند ،این روشها را «روشهای پارامتری»
مینامند.
)• X = { xt } t=1 where xt ~ p (x
N
• تخمین پارامتر:
– تخمین پارامترهای qاز روی دادههای آموزشی X
– برای دادهها یک مدل به صورت ) p (x |qدر نظر گرفته
میشود ( « qآمارهی بسنده» است؛ تمام اطالعات در مورد توزیع را
در بر دارد)
Sufficient statistic
3
يادگيری ماشين
Likelihood Function تابع درستنمایی
• «تابع درستنمایی» ،تابعی از پارامترهای مدل
آماری است.
– درستنمایی یک مجموعه از پارامترها ،θ ،برای
مقادیری معین ()X؛ برابرست با احتمال رخداد Xبه
ازای مجموعه پارامترها (احتمال درستی θآن به شرط
)X
)– l (θ|X) ≡ p (X |θ
• Xثابت است و θرا تغییر داده میشود.
• این تابع در «استنباط آماری» نقش اساسی دارد.
Statistical inference
4
يادگيری ماشين Bishop
MLE برآورد درستنمایی بیشینه
Maximum Likelihood Estimation Make sampling xt from p (xt|θ) as likely as possible
Likelihood
Log Likelihood
MLE: p̂ i = ∑t xit / N
1 if exprimnet t choose state i
x
t
i
0 otherwise 7
يادگيری ماشين
Gaussian (Normal) Distribution
1 x 2
p x
2
exp-
2 2
• p(x) = N ( μ, σ2)
x 2
px
1
exp
2 2
2
μ σ
x
t 2
x x m
t t 2
m t
s2 t
8
يادگيری ماشين N N
Evaluating an Estimator ارزیابی برآورد
یک نمونه از دادهها(جمعیت)X : •
پارامتر مجهولθ : •
برآورد پارامتر از روی دادهها )d = d (X •
معیار کیفیت تخمین(d (X)-θ)2 : •
– با توجه به این که این معیار به نمونهها وابسته است ،از
میانگین استفاده میکنیم:
]r(d,θ)=E[(d (X)-θ)2 Mean square error
– همچنین «بایاس تخمین» به صورت زیر تعریف میشود:
bθ(d)=E[d (X)] –θ
• چنانچه این مقدار برابر صفر باشد d ،را
unbiased estimatorمیگویند.
9
يادگيری ماشين
مثال -تخمین میانگین
• در صورتی که xtنمونههای از یک توزیع با میانگین
μباشد،
t x t 1 N
Em E t E x t
N N N
s2 t
t
N N
E x N.Em
t 2 2
E s2 t
N یادآوری
Var X E X 2 EX
2
E m
2
E x t 2 2
2 2
2
N
E s
2
N 2 2 N 2 N 2
N 1 2
2
N N
12
يادگيری ماشين
برآورد بیشینهگر احتمال پسین
)Maximum a Posteriori (MAP
• در ،MLEپارامتر مورد نظر به عنوان مجهول در نظر گرفته
میشود ،ممکن است در مورد پارامتر مورد نظر از پیش
اطالعاتی ( )prior informationداشته باشیم .این
اطالعات میتوانند به تخمین دقیقتر کمک کنند ،به ویژه
زمانی که دادههای آموزش کمتعداد باشند.
– در این حالت به θبه صورت یک متغیر تصادفی نگاه میکنیم.
– به عنوان مثال میدانیم θ ،با احتمال نوددرصد ،با توزیع
گاوسی بین 5و 9به (صورت متقارن) قرار دارد.
q
P 1.64 1.64 0.9
Pq ~ N 7, 2 / 1.64
2
P 1.64 q 1.64 0.9
13
يادگيری ماشين
برآورد بیشینهگر احتمال پسین
• در چنین حالتی اطالعاتی در مورد ) p(θوجود دارد .با
ترکیب این اطالعات با آنچه دادهها به ما
میگویند( ،)likelihood densityخواهیم داشت:
)p(θ|X)= p(X|θ) p(θ)/ p(X
)Maximum a Posteriori (MAP • و
)θMAP = argmaxθ p(θ|X) = argmaxθ p(θ) p(X|θ
تفاوت با MLدر نظر گرفتن ) p(θاست.
)θML = argmaxθ p(X|θ
)Maximum Likelihood (ML
14
يادگيری ماشين
برآورد بیشینهگر احتمال پسین(ادامه)...
0 2
p
1
exp
2 0 2 0
2
p | X p p X | |
t
p | xt p t p xt |
: باید رابطهی زیر محاسبه شودMAP برای تخمین
t
ln p t p x |
ln p t ln p x t | 0
1
ln 2 ln 0
0 N
2
x t
2
ln 2 ln t
2 2 02
2 2 2
16
يادگيری ماشين
ادامه-مثال
02
N 02 x 2 0 0 2 t x t
N N
N 02 2 02
1 2 N
µN →⅟N∑txt as N→∞
µN →⅟N∑txt as σ0>> σ
N 02 2
N
17
يادگيری ماشين
استنباط بیزی
• رویکرد دیگر محاسبهی) P(x|Xاست ،در شرایطی
که ) p(θرا میدانیم.
px |C i
1
exp
x i
2
2 i 2 i 2
1
gi x log 2 log i
x i 2
log P C i
2 2 i 2
19
يادگيری ماشين
)...دستهبندی پارامتری (ادامه
X {x t ,r t }tN1 نمونههای آموزشی
1 if x t
Ci
x ri
t
0 if x t
C j , j i
r r
i t t
N i i
t t
تابع جداساز
1
gi x log 2 log si
x mi
log ˆC i
P
2
2 2si 2
20
يادگيری ماشين
دستهبندی دو کالس با واریانس یکسان
1
gi x log 2 log si
x mi 2
log PˆC i
2
2 2si
Equal variances
Single boundary at
halfway between means
21
يادگيری ماشين
دستهبندی دو کالس با واریانس متفاوت
1
gi x log 2 log si
x mi 2
log PˆC i
2
2 2si
Two boundaries
22
يادگيری ماشين
1 x mi 2
مثال
gi x log 2 log si 2
log PˆC i
2 2si
23
يادگيری ماشين
Dependent variable رگرسیون
r f x
Independent variable
estimator : g x | q
~ N 0, 2
pr | x ~ N g x | q , 2
L q |X log px t , r t px, r pr | x px
N
t 1
t 1 t 1
24
يادگيری ماشين این بخش در نظر گرفته نمیشود،باتوجه به این که به تخمین ربطی ندارد
محاسبهی تابع خطا
L q | X log
N
1
r t g xt | q
2
2
exp
2
t 1 2
r
2
N
1
N log 2 t
g xt | q
2 2
t 1
این بخش در نظر گرفته نمیشود،باتوجه به این که به تخمین ربطی ندارد
2
N
E q | X r g x | q
1 t t
25
يادگيری ماشين
رگرسیون خطی
2
N
E q | X r g x | q
1 t t
2 t 1
t
r t
Nw 0 w1 x t
r x t t
w0 x w1 x
t
t 2
t t t
N t w0
x t
r t
A t
x t
t
2 w w
t x 1 t x
y
r t t
w A 1y 26
يادگيری ماشين
رگرسیون چندجملهای
gx |wk ,,w2 ,w1 ,w0 wk x
t
w x
t k
2
t 2
w1x t w0
N
xt
t
x
t
t 2
x
t
t k
x
t k 1
A t
x t
t
k
x t
t
x t k 1
x t k 2
xt
2 k
t t t
rt
w0 t
w r t xt
1 t
w w2
t
y r t x t
2
يادگيری ماشين
wk
r x
t
t
t k
27
رگرسیون چندجملهای
A DT D y DT r
1 x1
x
1 2
x1 k
r 1
2
D
1 x 2
x
2 2
2 k
x
r r
N
1 x N
x
N 2
N k
x r
w D D DT r
T 1
28
يادگيری ماشين
معیارهای خطا
2
E q |X r t gx t |q
N
1
• مجموع مربعات خطا
2 t 1
sum of squared error
• خطای نسبی
r
2
g x |q
N
t t
ε-sensitive Error
N
E q | X 1 r t g x t | q r t g x t | q
1
29
يادگيری ماشين2 t 1
Bias and Variance
noise squared error
Expected square error at x
N t
Variance g g x g x
1 t t 2
i
NM t i
g x g i x
1
M i
variance
32
يادگيری ماشين
انتخاب مدل
33
يادگيری ماشين
Cross validation
34
يادگيری ماشين
Regularization
Penalize complex models
E’=error on data + λ model complexity
w D D I D r
T
1 T Coefficients increase in
magnitude as order increases:
1: [-0.0769, 0.0016]
2: [0.1682, -0.6657, 0.0080]
3: [0.4238, -2.5778, 3.4675, -
0.0002
4: [-0.1093, 1.4356,
-5.5007, 6.0454, -0.0019]
2
36
يادگيری ماشين