Professional Documents
Culture Documents
Guillaume Laco te
vBureau
E03
B Guillaume.Lacote@ensae.fr
http://ensae.no-ip.com/SE222/
Ensae SE222
Exercice 1
Enonc e de lexercice 1
Q4 Rappeler lexpression de la loi de la statistique dordre (X(1) , . . . , X(N ) ) en fonction de f . En d eduire la loi du n-uplet (nX(1) , (n 1)(X(2) X(1) ), . . . , 2(X(n1) X(n2) ), X(n) X(n1) )
Corrig e de lexercice 1
Q2 On a :
Q3 On ne peut pas appliquer le th eor` eme de la normalit e asymptotique a ` , car nest que lune des des deux composantes de lestimateur du maximum de vraisemblance (, ) dont les composantes ne sont pas ind ependantes, et qui dans ce cas particulier ne v erie pas les conditions de r egularit e habituelles (notamment d erivabilit e de la log-vraisemblance). Il faut retrouver la loi limite dune autre fa con. Ici : n( ) = n (x ( + )) + n( ) Comme E (X ) = + , V (X ) = 2 , il vient dapr` es le th eor` eme central limite : De plus, n (x ( + )) N (0, 2 )
n+ L
ensae.net
Soit f la densit e de la loi exponentielle de param` etre f (x ) = 1 x exp
1
translat ee de
[,+[ (x)
= exp(t/)
1 P n( ) = n( ) 0 n 1
Ensae SE222
Exercice 1
Q4 La densit e de l echantillon ordonn e Y = (X(1) , ..., X(n) ) s ecrit fY (y1 , ..., yn ) = n!f (y1 )...f (yn )
ensae.net
puisque n( ) E . Rappelons que :
L n+
Xn X, Yn a:Xn + Yn X +a
n+
n( ) N (0, 2 )
n+
y1 <...<yn
En dautres termes,
y1 <...<yn
y 1 n i e i =1 n
mini yi
n! n
y1 <...<yn e
Pn
i=1
yi
Soit alors
(ceci se montre en eectuant le changement de variable z = (y ) dans lint egrale n toute partie mesurable A de R ). Or (Y )1 = nY1 , donc ()1 = n Y1 ()1 = 0, Yi puis (Y )2 = (n 1)(Y2 Y1 ), et donc ()2 = (n 1) Y1 ()2 = (n 1), i 2 Y2 ()2 = 0, i 3 Yi
fY (y ), pour
i 2
Ensae SE222
Exercice 2
Enonc e de lexercice 2
Cet exercice pr esente les bases de lestimation bay esienne. Q1 Soit (, A, P ) un espace probabilis e, A un ev enement non-vide et (H1 , . . . , Hn ) un syst` eme complet dhypoth` eses incompatibles non-vides (cest-` a-dire une partition de ). Exprimer P (Hi |A) en fonction des probabilit es de H1 , . . . , Hn , de celles de A conditionnellement a ` Hi et inversement, mais pas de P(A). Q2 Soit (X1 , . . . , Xn ) L , de param` etre inconnu . On suppose que suit une loi a priori de densit e 0 sur . Donner la densit e |x de la loi a posteriori de conditionnellement a ` lobservation de X = x.
2 iid
ensae.net
de sorte quen d enitive
1 En cons equence, |Jac(1 )| = |Jac()1 | = |Jac()|1 = n ! Dautre part, y1 = (y)1 n , puis pour i 2, yi <yi+1 = (y)i >0 . Enn, une r ecurrence imm ediate montre que i 1, n , 1 (z )i = d enitive
Jac() =
n (n 1) 0 . . . 0
zj i j =1 nj +1 ,
de sorte quen
zi n)/
, et Zi E 1 pour i 2. Autrement dit, les Zi sont ind ependants, avec Z1 n + E 1 n 1 1 Finalement, constatant que = n Z1 et = n i=2 Zi , on conclut que et sont ind ependants.
E (X )
d ())
o` u d esigne une loi quelconque sur (par exemple d = 0 d ). On appelle estimateur bay esien de lestimateur qui minimise le risque associ e. Montrer que lestimateur bay esien de associ e au risque R0 est (x) = E|x () = |x ()d
Ensae SE222
Exercice 2
Q4 Donner lestimateur bay esien de [a, b] lorsque 0 = U[a,b] en fonction de la densit e de la loi L de X . Expliciter cet estimateur lorsque L est la loi exponentielle E () de param` etre inconnu > 0.
Corrig e de lexercice 2
Q2 Dans le cas o` u = {i / i N} est d enombrable il sut dappliquer le r esultat pr ec edent a ` A = {(x1 , . . . , xn )} et i N, Hi = {i }. Dans le cas g en eral le calcul est similaire : la formule des probabilit es totales s ecrit pour toute A Rn mesurable P (X A ) = P (X A| = 0 ) P ( = 0 ) d0
ensae.net
i 1, n , P (A|Hi ) = P (A H i ) P (H i ) et donc P(A) = P (A ) = P (A (n i=1 Hi ))
n
=
i=1 n
P (A H i )
=
i=1
P (A | H i ) P (H i )
(cette formule est dite des probabilit es totales ). Par ailleurs on a P (A | H i ) P (H i ) = P (A H i ) = P (H i | A ) P (A ) et donc P (H i | A ) = = P (H i ) P (A | H i ) P (A )
P(Hi )P(A|Hi ) Pn i=1 P(Hi )P(A|Hi )
Cette relation exprime la probabilit e dun ev enement Hi , une fois connue la r ealisation de A, en fonction de sa probabilit e a priori.
Ensae SE222
Exercice 2
Q3 Attention aux notations : E . . . (X ) . . . . . . d esigne lesp erance sur la variable X , esp erance qui d epend de , et non pas une esp erance sur la variable . En outre l enonc e suppose ici que Soit X = Rn . Premi` ere m ethode : On cherche l el ement T : X (qui est une fonction ) qui minimise R 0 (T ) =
X
ensae.net
et par suite pour toute B mesurable, a ` supposer que P(X A) = 0 P ( B|X A) = P ( B ) P (X A| B ) P (X A )
fLn (x1 ,...,xn ) 0 ()
et donc
|x (|X = x) =
=
X
Or la fonction :
X2 (x, t)
(T (x)) dx =
X x
argmin t (x, t)
(t )2 fL (x)0 ()d
fL (x)0 ()d t2 + 2
a>0
fL (x)0 ()d t +
b
2 fL (x)0 ()d
c
Donc (x, t) = at2 + bt + c est une parabole en t (` a x x e), et est donc extr emale en 2ba ; comme a > 0 elle est minimale en 2ba et donc argmin t (x, t) = = = b 2a fL (x)0 ()d f (x)0 ()d L f L (x ) 0 ( ) d f (x)0 ()d L 5
Ensae SE222
Exercice 3
Enonc e de lexercice 3
Version du 20050421-15h38, r evis ee le 21 avril 2005
ensae.net
Par cons equent, x X , (x ) =
|x ()d
[a,b]
1 fL (x1 , . . . , xn ) b a
[a,b]
1 d fL (x1 , . . . , xn ) b a
[a,b]
fL (x)d fL (x)d
[a,b]
xi 0
= e
n (x1 ++xn )
mini xi 0
[a,b]
n+1 = = 1
n i=1
b a
(n + 1) n [a,b]
Pn xi
xi e P i=1 d n i=1 xi
Pn
[a,b]
par parties
xi
n+1
Pn
Ainsi
(x ) =
Pn1
i=1
xi
n+1
R
[0, ]
i=1
xi
Ensae SE222
Exercice 3
Q1 Laplace munit le param` etre p dune loi a priori uniforme sur lintervalle [0, 1]. Ce choix vous semble-t-il naturel ?
1 Q2 Exprimer alors la loi a posteriori de p, puis exprimer la probabilit e P p> 2 |Ng = ng sous forme dun rapport dint egrales. 1 |N g = n g Remarque : Laplace, obtint, pour n = 493472 et ng = 251527, une probabilit eP p> 2 1 42 1 1.15.10 et en conclut que p etait tr` es vraisemblablement plus grand que 2 .
Q3 Donner lesp erance et la variance de la loi a posteriori en fonction de la vrai valeur p 0 du param` etre p. Quelles sont leurs limites lorsque n + ? Rappel : la loi Beta B (, ) de param` etres > 0, > 0 admet pour densit e: f, (x) = x1 (1 x) 1 B (, )
Q4 Ces limites sont-elles modi ees si on choisit pour loi a priori sur p une loi B (, ) quelconque ? Pourquoi est-il judicieux malgr e tout de se restreindre au moins a ` la classe des lois a priori telles que = ?
Corrig e de lexercice 3
Q1 Laplace consid` ere en fait de ne pas d etenir dinformation sur p autre que celle apport ee par les observations : en dautres termes, il na pas d a priori sur p, ce quil mod elise par une loi a priori uniforme. Cela revient intuitivement a ` donner une probabilit e egale a ` toutes les valeurs possibles de p. Mais cette intuition est en fait trompeuse : si on change la param etrisation 2 du mod` ele (en rempla cant p par q = p par exemple), on se rend compte alors que la loi a priori sur q nest plus uniforme ! Cette reparam etrisation ne nous a pourtant apport e aucune information suppl ementaire. Ce paradoxe illustre la dicult e de bien choisir une loi a priori, surtout dans un cadre non-informatif (cest a ` dire lorsquaucune information nest disponible a priori). Cependant, nous verrons en 4) quil est assez simple de se restreindre au moins a ` un choix limit e de lois a priori raisonnables. Q2 La densit e de la loi a posteriori (|x1 , ..., xn ) du param` etre s ecrit sous la forme (voir exercice 2 ): ()P(x1 , ..., xn |) (|x1 , ..., xn ) = ()P(x1 , ..., xn |)d
Version du 20050421-15h38, r evis ee le 21 avril 2005
ensae.net
[0,1] (x)
Un des premiers exemples dutilisation de la Statistique Bay esienne remonte a ` Laplace, en 1786. Celui-ci d ecida de r epondre a ` la question suivante : au regard du nombre observ e n g de naissances masculines parmi n naissances a ` Paris, peut-on dire si la probabilit e p quun enfant qui naisse soit un gar con est sup erieure a ` 1 ? 2
. (+ )2 (+ +1)
Exercice 3
Q3 Notons p la densit e de la loi a posteriori : p est la densit e de la loi B (ng + 1, n ng + 1). Son esp erance et sa variance sont donc : ng + 1 n+2 (ng + 1)(n ng + 1) V p [p ] = (n + 2)2 (n + 3) E p [p ] =
iid
Q4 Si on change la loi a priori uniforme (qui correspond dailleurs a ` une loi B (1, 1)) pour une loi a priori plus g en erale B (, ), on obtient une loi a posteriori : (p|Ng = ng ) p1 (1 p) 1 png (1 p)nng 1[0,1] (p) p+ng 1 (1 p) +nng 1 1[0,1] (p) (o` u signie proportionnel a `) La loi a posteriori est donc une loi B (ng + , n ng + ). On v erie alors facilement que Ep [p] et Vp [p] conservent le m eme comportement asymptotique que dans le cas pr ec edent. En eet, plus grand est le nombre dobservations, plus le poids de la priori est faible, et ce poids devient nul asymptotiquement.
Version du 20050421-15h38, r evis ee le 21 avril 2005
ensae.net
(p | N g = n g ) =
1 0 1 0
(p )P (N g = n g | p )
1 P (p > | N g = n g ) = 2
[0,1] 1
1 2
1 0
(p )P (N g = n g | p )
1 0
png (1 p)nng dp
(p)P(Ng = ng |p)dp
1 dp p> 2
png (1 p)nng dp
Or ng =
n i=1
gi o` u gi =
B (1, p0 ).
ng n
1 n
n i=1
gi p0 et donc
n+
p.s.
p0 E p [p ]
n+ p.s. n+
V p [p ]
p0 (1 p0 ) n
En dautres termes, lorsque n + la loi a posteriori se r etr ecie (sa variance tend vers 0) et se concentre autour de la vraie valeur p0 . Ce r esultat est intuitif : plus on dispose dobservations, plus faible est lincertidude sur la valeur du param` etre p.
Ensae SE222
Exercice 3
ensae.net
Version du 20050421-15h38, r evis ee le 21 avril 2005
Cependant, la Statistique Bay esienne ne repose pas sur des justications asymptotiques. A distance nie (cest a ` dire pour un nombre ni dobservations), une loi a priori mal choisie peut s erieusement d eformer la loi a posteriori, et mener a ` une inf erence compl` etement erron ee. 1 Ainsi, au vu du prob` eme pos e (situer p dans lun des deux intervalles [0, 2 ] ou [ 1 , 1]), on na 2 aucune raison de favoriser a priori lune de ces deux r egions, seules les observations pouvant nous permettre de les d epartager. Il est donc naturel de se restreindre au moins aux lois a priori sym etriques ( = ). Parmi celles-ci, on peut aussi ecarter les lois de tr` es faible variance (ie telles que prend de fortes valeurs, ex : B (10, 10)), qui privil egient inutilement un voisinage . trop restreint du point 1 2 Finalement, la loi a priori uniforme propos ee par Laplace semble donc un choix raisonnable parmi dautres, au moins pour le probl` eme pos e. Il est en fait possible de proposer une loi plus satisfaisante (dite loi a priori de Jereys, ici B (1/2, 1/2)) qui permette de saranchir du paradoxe de la reparam etrisation pr esent e en 1).