Lecture 3

MLE vs.
MAP
Aarti Singh
Machine Learning 10-701/15-781

Sept 15, 2010
1
MLE vs. MAP
 Maximum Likelihood estimation (MLE)
Choose value that maximizes the probability of observed data
 Maximum a posteriori (MAP) estimation

Choose value that is most probable given observed data and
prior belief
When is MAP same as MLE?

2
MAP using Conjugate Prior
Coin flip problem

Likelihood is ~ Binomial
If prior is Beta distribution,
Then posterior is Beta distribution
For Binomial, conjugate prior is Beta distribution.

3
MLE vs. MAP
What if we toss the coin too few times?

• You say: Probability next toss is a head = 0
• Billionaire says: You’re fired! …with prob 1 
• Beta prior equivalent to extra coin flips (regularization)

• As n → 1, prior is “forgotten”
• But, for small sample size, prior is important! 4
Bayesians vs. Frequentists
You are no
good when
sample is
small You give a
different
answer for
different
priors
5
What about continuous variables?
• Billionaire says: If I am measuring a continuous
variable, what can you do for me?
• You say: Let me tell you about Gaussians…
= N(m,s2)
s2
s2
6
m=0 m=0
Gaussian distribution
Data, D = 3 4 5 6 7 8 9 Sleep hrs
• Parameters: m – mean, s2 - variance

• Sleep hrs are i.i.d.:
– Independent events
– Identically distributed according to Gaussian
distribution
7
Properties of Gaussians
• affine transformation (multiplying by scalar
and adding a constant)
– X ~ N(m,s2)
– Y = aX + b ! Y ~ N(am+b,a2s2)
• Sum of Gaussians
– X ~ N(mX,s2X)
– Y ~ N(mY,s2Y)
– Z = X+Y ! Z ~ N(mX+mY, s2X+s2Y)
8
MLE for Gaussian mean and variance
9
MLE for Gaussian mean and variance
Note: MLE for the variance of a Gaussian is biased

– Expected result of estimation is not true parameter!
– Unbiased variance estimator:
10
MAP for Gaussian mean and variance
• Conjugate priors
– Mean: Gaussian prior
– Variance: Wishart Distribution
• Prior for mean:
= N(h,l2)
11
MAP for Gaussian Mean
(Assuming known
variance s2)
MAP under Gauss-Wishart prior - Homework
12
What you should know…
• Learning parametric distributions: form known,
parameters unknown
– Bernoulli (q, probability of flip)
– Gaussian (m, mean and s2, variance)
• MLE
• MAP
13
What loss function are we minimizing?
• Learning distributions/densities – Unsupervised learning
• Task: Learn (know form of P, except q)
• Experience: D =
• Performance:
Negative log
Likelihood loss
14
Recitation Tomorrow!
• Linear Algebra and Matlab
• Strongly recommended!!
• Place: NSH 1507 (Note: change from last time)
• Time: 5-6 pm
Leman
15
Bayes Optimal Classifier
Aarti Singh
Machine Learning 10-701/15-781

Sept 15, 2010
Classification
Goal:
Sports
Science
News
Features, X Labels, Y
Probability of Error
17
Optimal Classification
Optimal predictor:
(Bayes classifier)
Bayes risk
• Even the optimal classifier makes mistakes R(f*) > 0

• Optimal classifier depends on unknown distribution
18
Optimal Classifier
Bayes Rule:
Optimal classifier:
Class conditional Class prior

density
19
Example Decision Boundaries
• Gaussian class conditional densities (1-dimension/feature)
Decision Boundary
20
Example Decision Boundaries
• Gaussian class conditional densities (2-dimensions/features)
Decision Boundary
21
Learning the Optimal Classifier
Optimal classifier:
Class conditional Class prior

density
Need to know Prior P(Y = y) for all y

Likelihood P(X=x|Y = y) for all x,y
22
Task: Predict whether or not a picnic spot is enjoyable
Training Data: X = (X1 X2 X3 … … Xd) Y
n rows
Lets learn P(Y|X) – how many parameters?

Prior: P(Y = y) for all y K-1 if K labels
Likelihood: P(X=x|Y = y) for all x,y (2d – 1)K if d binary features
23
Task: Predict whether or not a picnic spot is enjoyable
Training Data: X = (X1 X2 X3 … … Xd) Y
n rows
Lets learn P(Y|X) – how many parameters?

2dK – 1 (K classes, d binary features)
Need n >> 2dK – 1 number of training data to learn all parameters
24

Lecture 3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lecture 3

Uploaded by

Copyright:

Available Formats

MLE vs.

Machine Learning 10-701/15-781

 Maximum a posteriori (MAP) estimation

When is MAP same as MLE?

Coin flip problem

If prior is Beta distribution,

Then posterior is Beta distribution

For Binomial, conjugate prior is Beta distribution.

What if we toss the coin too few times?

• Beta prior equivalent to extra coin flips (regularization)

Data, D = 3 4 5 6 7 8 9 Sleep hrs

• Parameters: m – mean, s2 - variance

Note: MLE for the variance of a Gaussian is biased

• Prior for mean:

MAP under Gauss-Wishart prior - Homework

• Task: Learn (know form of P, except q)

Machine Learning 10-701/15-781

• Even the optimal classifier makes mistakes R(f*) > 0

Class conditional Class prior

Class conditional Class prior

Need to know Prior P(Y = y) for all y

Training Data: X = (X1 X2 X3 … … Xd) Y

Lets learn P(Y|X) – how many parameters?

Training Data: X = (X1 X2 X3 … … Xd) Y

Lets learn P(Y|X) – how many parameters?

You might also like