Professional Documents
Culture Documents
Parties du Module:
1 - Optimisation numérique
4 - Détection et estimation
Répartition des ménages marocains selon les classes de dépense (en dh) entre 1999 et 2010
Total 1510
Classes de dépense Fréquences absolues Fréquences relatives Fréquences cumulées F . Cumulées inverse
] 0 ; 1500 ] 500 33,11 % 33,11 % 100 %
] 1500 ; 5000 ] 250 16,55 % 49,66 % 66,99 %
] 5000 ; 15000 ] 650 43,04 % 92,7 % 51,33 %
] 15000 ; 30000 ] 100 6,62 % 99,33 % 7,3 %
] 30000 ; 100000] 10 0,66 % 100 % 0,66 %
Total 1510
𝑐 𝑓𝑖
Fréquence corrigée : 𝑓𝑖 =
𝑎𝑖
Une série statistique à deux caractères est une série dont les valeurs 𝑋𝑖 et les valeurs 𝑌𝑖
peuvent être observées simultanément. Elles sont données par des couples (𝑥; 𝑦).
Leur représentation dans un repère orthogonal forment les points de coordonnées (𝑋𝑖 ; 𝑌𝑖 ). On
l’appelle nuage de points.
Statistique à un seul caractère Statistique à deux caractères
Comparaison: Température 22 16 18 12 10 13 24
Nombre 5 10 7 16 21 5 10
d’enrhumés
Nombre 5 10 7 16 21 5 3
Jour L Ma Me J V S D d’enrhumés
Nombre de personnes enrhumées pendant une semaine Température et Nombre d’enrhumés durant
les jours d’une semaine
Température 22 16 18 12 10 13 24
Jour L Ma Me J V S D
On reprend le même exemple précédent et on souhaite établir une liaison (si elle existe)
entre les 2 caractères observés:
Température 22 16 18 12 10 13 24
Si on trouve bien une relation entre 𝑋𝑖 et 𝑌𝑖
Nombre 5 10 7 16 21 5 3
Cela veut dire que la température est une cause de contamination. d’enrhumés
Avant tout calcul, on remarque que plus la température baisse, plus le nombre d’enrhumés
augmente. (à quelques exceptions près)
25 𝐘
Température 22 16 18 12 10 13 24
20 _
𝒊 Nombre 5 10 7 16 21 5 3
15 d’enrhumés
10 Température et Nombre d’enrhumés durant
5 les jours d’une semaine
𝑿_𝒊
0
0 10 20 30
Avant tout calcul, on remarque que plus la température baisse, plus le nombre d’enrhumés
augmente. (à quelques exceptions près)
On peut tracerNotre
une courbe de variation
but est de Yun
d’effectuer fonction Xi : par une courbe
i enajustement
Une fois la droite d’ajustement établie, on peut prévoir des valeurs Yi pour des X i ne figurant
pas dans le tableau . Ce sera donné à quelques erreurs près.
Principe de l’estimation
Exemple: Un pharmacien prépare son stock le soir, et souhaite estimer le nombre de clients enrhumés du
lendemain. Il consulte la météo: on prévoit une température de 15°C.
25 𝐘
20 _
𝒊
13 cas
15
10
5 𝑿_𝒊
0
0 10 15°C 20 30
Dans l’exemple vu précédemment, on a supposé que le nuage de points peut être ajusté par
une droite. Ce n’est pas toujours le cas.
Expression : 𝑛
𝑖=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑟=
𝑛 𝑛
𝑖=1(𝑥𝑖 − 𝑥 )² . 𝑖=1(𝑦𝑖 − 𝑦)²
On a : −1 ≤ 𝑟 ≤ 1
1 𝑛
𝜎𝑥𝑦 = 𝑖=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦) covariance entre 𝑥 et 𝑦
𝑛
1 𝑛
𝜎𝑥 = 𝑖=1(𝑥𝑖 − 𝑥)² l’écart-type de 𝑥
𝑛
1 𝑛
𝜎𝑦 = 𝑖=1(𝑦𝑖 − 𝑦)² l’écart-type de 𝑦
𝑛
Propriété :
3
Lorsque la corrélation est forte (𝑟² ≥ ):
4
les droites de régression sont très proches et le nuage peut être approximé par une droite.
Principe :
Effectuer un ajustement de 𝑌 en 𝑋 d’un nuage de points par la méthode des moindres carrés
consiste à trouver la fonction f qui minimise la somme des carrés des écarts entre les valeurs
𝑌𝑖 observées et les valeurs f(𝑋𝑖 ) données par le modèle.
La fonction f doit donc minimiser l’expression:
𝑛
(𝑌
𝑖=1 𝑖
− f(𝑋𝑖 ))²
Définition :
Définition :
1 𝑛
Covariance de 𝑥 et de 𝑦 le nombre : cov 𝑥, 𝑦 = (𝑥
𝑖=1 𝑖
− 𝑥 )(𝑦𝑖 − 𝑦)
𝑛
1 𝑛
Variance du caractère 𝑥 est: V 𝑥 = 𝑖=1
𝑥𝑖 − 𝑥 ² = cov 𝑥, 𝑥
𝑛
𝑐𝑜𝑣(𝑥, 𝑦)
𝑎=
𝑉(𝑥)
- passe par le point moyen du nuage: G(𝑥, 𝑦).
On partage le nuage de points en deux groupes de même importance suivant les valeurs croissantes de 𝑥𝑖 ,
et on calcule les coordonnées des points moyens 𝐺1 et 𝐺2 de chaque groupe de points:
𝐺1 (𝑥1 , 𝑦1 ) et 𝐺2 (𝑥2 , 𝑦2 )
𝑦2 −𝑦1
𝑦=𝑎𝑥+𝑏 avec : 𝑎= 𝑏 = 𝑦1 − 𝑎 . 𝑥1 = 𝑦2 −𝑎 . 𝑥2
𝑥2 −𝑥1
Quand on trouve un modèle 𝑓 qui passe encore plus près du nuage de points que l’ajustement affine, il est
plus commode de le considérer pour les estimations
Exemple :
𝑋0
CHERIF Walid – Mathématiques pour l’ingénieur Année Universitaire: 2016/2017
1 - Optimisation numérique 2 - Estimation et analyse des données 3 - Rappels sur l’algèbre matricielle 4 - Détection et estimation
0-5 6,3 𝑦𝑖
5-7,5 3,6 Moyennes conditionnelles suivant X
7,5-10 2,5 𝐷𝑗
10-14 4,4 𝑥𝑗
14-18 0,4
18-24 0,6 2,5 ∗ 6,3 + 6,25 ∗ 3,6 + 8,75 ∗ 2,5 + 12 ∗ 4,4 + 16 ∗ 0,4 + 21 ∗ 0,6 + 27 ∗ 1,3
𝐷1 =
6,3 + 3,6 + 2,5 + 4,4 + 0,4 + 0,6 + 1,3
24-30 1,3
Total 19,1
𝑦𝑖 𝑥𝑗
𝐶𝑖 𝐷𝑖
Analyse :
Quoiqu’il n’y a pas de relation directe entre la le nombre d’heures de repos et la note, on peut affirmer que
quand le nombre d’heures de repos augmente, la note augmente, mais seulement en moyenne.
Ces deux courbes nous renseignent graphiquement sur le sens et le degré de la corrélation entre X et Y.
Définition :
Exemple:
On lance deux dés cubiques discernables. L’ensemble des résultats possibles est : 𝝮 = 1,2, … 6 x {1,2, … 6}
Soit l’événement A : « La somme des points obtenus est supérieure ou égale à dix »
A est représenté par la partie: { 6,4 ; 5,5 , 4,6 , 6,5 , 5,6 , 6,6 }
𝑁𝐴
0≤ ≤ 1.
𝑁
1.2. 3. Probabilités :
1.2. 3. Probabilités :
.𝒑 Φ =0
.𝒑 𝑨 =𝟏−𝒑 A
. 𝑆𝑖 ∶ 𝑨⊂𝑩 𝑎𝑙𝑜𝑟𝑠: 𝒑 A ≤ 𝒑 𝐵
𝒑 B\A ≤ 𝒑 𝐵 − 𝒑 A
. ∀ 𝐴, 𝐵∈ 𝑷(𝝮)² 𝑷 A ∪ B = 𝑷 A + 𝑷 B − 𝑷(A ∩ B)
1.2. 3. Probabilités :
𝒑 𝜔1 = 𝒑 𝜔2 = ⋯ 𝒑 𝜔𝑛
Comme : 𝒑 𝝮 = 𝟏, on a:
𝒏 1
. 𝒊=𝟏 𝒑 𝜔𝑖 = 1 équivaut : ∀ 𝒊 ∈ 𝟏, 𝟐, … 𝒏 𝒑 𝜔𝑖 =
𝑛
𝒄𝒂𝒓𝒅( 𝑨 )
donc : ∀𝑨∈𝝮 𝒑 A = ω∈ A𝒑 𝜔 = 𝒄𝒂𝒓𝒅(𝝮 )
1.2. 3. Probabilités :
≡ 𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒𝑠 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑒𝑠
1.2.3.2. L’hypothèse d’Equiprobabilité:
Théorème :
- L’hypothèse d’équiprobabilité :
1.2. 3. Probabilités :
Exemples :
2. On lance 2 dés discernables. Quelle est la probabilité qu’au moins un des 2 dés
1.2. 3. Probabilités :
Approche :
1.2. 3. Probabilités :
Justification:
Soit 𝐴 𝑒𝑡 𝐵 deux événements liés à une expérience aléatoire.
𝑁𝐴 𝑁𝐵
On répète 𝑁 fois cette expérience aléatoire et on note 𝑓𝐴 = et 𝑓𝐵 = les fréquences de réalisation
𝑵 𝑵
des événements 𝐴 𝑒𝑡 𝐵 respectivement.
Parmi 𝑁𝐵 expériences où 𝐵 est réalisé, il y a 𝑁A ∩ B expériences où𝐴 𝑒𝑡 𝐵 sont réalisés simultanément.
𝑁A ∩ B
La fréquence relative ou conditionnelle de 𝐴 sachant 𝐵 est donc
𝑵
1.2. 3. Probabilités :
𝒑 A∩B
𝒑 𝐴|𝐵 =
𝒑 𝐵
1.2. 3. Probabilités :
𝒑 𝐴𝑘 .𝒑 𝐴|𝐴𝑘
∀ 𝑘 ∈ {1, 2 … 𝑛} 𝒑 𝐴𝑘 |𝐴 =
i 𝒑 𝐴𝑖 .𝒑 𝐴|𝐴𝑖
1.2. 4. Application :
Exercice 1:
Une urne contient dix boules (6 blanches et 4 rouges).
On tire au hasard et successivement deux boules de cette urne.
Calculer, dans le cas où le tirage est effectué avec remise, puis dans le cas où le
tirage est effectué sans remise, les probabilités suivantes :
- probabilité pour que les deux boules soient blanches,
- probabilité pour que les deux boules soient de même couleur,
- probabilité pour que l'une au moins des boules tirées soit blanche.
1.2. 4. Application :
Exercice 2:
La population du Maroc en 2010 a répondu à un sondage sur son attitude face
nouveau code de la route:
(la somme des proportions est égale à 100 %)
Pour Contre
Région Est 7,8 % 22,2 %
Autres régions 18,2 % 51,8 %
1/ Quelle est la probabilité pour qu’un individu choisi au hasard soit pour le code?
2/ Quelle est la probabilité pour qu’un individu de la Région Est soit pour le code?
3/ Peut-on dire que les évènements « Appartenir à la Région Est » et « Etre pour le
code de la route» sont indépendants ?
On appelle variable aléatoire tout nombre réel aléatoire : dont la valeur dépend du résultat d'une expérience
probabiliste.
Exemple :
On lance un dé. Soit 𝑿 le résultat obtenu.
𝑿 est une variable aléatoire et les valeurs possibles de 𝑿 sont 1, 2, 3, 4, 5, 6.
Pour chacune de ces valeurs, 𝑿 a une certaine probabilité de lui être égal.
Les probabilités des événements "𝑿 = 𝟏"; "𝑿 = 𝟐"… "𝑿 = 𝟔":
𝟏
𝐏 "X = 1" = 𝐏 "X = 2" = ⋯ = 𝐏 "X = 6" =
𝟔
Notations:
𝑿 = 𝟏 , {𝟎 ≤ 𝑿 ≤ 𝟒} : des événements
𝑷(𝑿 = 𝟏) : probabilité
Le support d'une variable aléatoire est l'ensemble des ses valeurs possibles.
On le notera 𝐒(𝑿)
Exemple :
X est le résultat d'un lancer de dé. Le support de X est alors {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔} - Support fini -
X est le nombre de jours avant la prochaine pluie (supposant qu’elle finira par arriver)
X ∈ {𝟎, 𝟏, 𝟐, ...} = N - Support infini dénombrable -
On lance une balle, X est la distance qu’elle a parcourue avant de s'arrêter X ∈ 0, 𝑑 ou X ∈ [0, ∞[
- Support infini non dénombrable -
La fonction de répartition d’une variable aléatoire 𝑿 est la fonction 𝑭𝑿 définie sur 𝑹 par :
𝑭𝑿 (𝒕) : est la probabilité de l'événement "la valeur de X est inférieure ou égale à t"
Proposition:
∀𝒕 ∈ 𝑹: 𝑭𝑿 𝒕 ∈ 𝟎, 𝟏 , 𝑒𝑡 𝑭𝑿 𝑒𝑠𝑡 𝑢𝑛𝑒 𝑓𝑜𝑛𝑐𝑡𝑖𝑜𝑛 𝑐𝑟𝑜𝑖𝑠𝑠𝑎𝑛𝑡𝑒
Démonstration :
𝒕 ≤ 𝒖 → 𝑿 ≤ 𝒕 ⊂ 𝑿 ≤ 𝒖 → 𝑷(𝑿 ≤ 𝒕) ≤ 𝑷(𝑿 ≤ 𝒖)
Une variable aléatoire discrète est une variable aléatoire dont le support est un ensemble fini ou infini dénombrable.
Lorsque toutes les probabilités formant la loi de 𝐗 sont égales, comme dans
l'exemple du dé, on parle de loi uniforme.
Définition 1:
On dit que la variable 𝐗 suit la loi uniforme sur {𝑥1 , 𝑥2 , … 𝑥𝑛 } lorsque le support de 𝐗 est égal à {𝑥1 , 𝑥2 , … 𝑥𝑛 } et
𝟏
que 𝑷 𝑿 = 𝒙𝒊 = pour tout 𝟏 ≤ 𝒊 ≤ 𝒏
𝒏
Définition 2:
On dit que la variable 𝐗 suit la loi géométrique de paramètre 𝐩, où 𝐩 𝑒𝑠𝑡 𝑢𝑛 𝑛𝑜𝑚𝑏𝑟𝑒 𝑓𝑖𝑥é ∈ 𝟎, 𝟏 si :
- le support de 𝐗 est égal à 𝑵∗ et : 𝑷 𝑿 = 𝒏 = (𝟏 − 𝒑)𝒏−𝟏. 𝒑
Définition 3:
C'est la loi la plus élémentaire : 0 ou 1.
On dit que la variable 𝐗 suit la loi de Bernoulli de paramètre 𝐩 ∈ 𝟎, 𝟏 si :
𝐗 ∈ {𝟎, 𝟏} et : 𝑷 𝑿=𝟏 =𝒑 et : 𝑷 𝑿 =𝟎 =𝟏−𝒑
On note : 𝐗 ~ 𝑩(𝒑)
Définition 4:
Loi binomiale :
Une variable aléatoire 𝐗 suit la loi binomiale de paramètres 𝐧 ∈ 𝑵 et 𝐩 ∈ 𝟎, 𝟏
lorsque 𝐗 ∈ {𝟎, 𝟏, 𝟐 … , 𝒏} et
𝑷 𝑿 = 𝒌 = 𝑪𝒏 𝒌 𝒑𝒌 (𝟏 − 𝒑)𝒏−𝒌
On note : 𝐗 ~ 𝑩(𝒏, 𝒑)
Définition 5:
Loi de Poisson.:
Soit 𝛌 ≥ 𝟎,
Une variable aléatoire 𝐗 suit la loi de Poisson de paramètre 𝛌 si pour tout entier 𝒌 ≥ 𝟎
𝛌𝒌
𝑷 𝑿=𝒌 = . 𝒆−𝛌
𝒌!
On note : 𝐗 ~ 𝑷(𝛌)
Le support de 𝐗 est 𝐍
Définition:
Lorsqu'une variable aléatoire peut prendre toutes les valeurs d'un intervalle non vide et non réduit à
un point, on dit que c'est une variable aléatoire continue.
Densité de probabilité :
Soit 𝒇 une fonction continue: 𝑹 → [0, +∞[
+∞
On dit que 𝒇 est une densité de probabilité si : −∞ 𝑓(t) dt = 1
Définition :
Soit 𝒇 une densité de probabilité. On dit que la variable aléatoire continue 𝑿 a pour densité de
probabilité 𝒇 lorsque la fonction de répartition 𝑭𝑿 de 𝑿 vérifie :
𝒙
∀𝒙 ∈ 𝑹: 𝑭𝑿 𝒙 = 𝑷 𝑿 ≤ 𝒙 = 𝒇(t) dt
−∞
Variance :
𝝈 𝑿 = 𝑽(𝑿)
𝟎 𝒔𝒊 𝒙 ∉ [𝟎, 𝟏]
𝒇 𝒙 =
𝟏 𝒔𝒊 𝒙 ∈ [𝟎, 𝟏]
1. Montrez que 𝒇 est une densité de probabilité.
2. Soit 𝑿 une variable aléatoire de densité de probabilité 𝒇. Calculez l’espérance et l'écart-type de 𝑿
𝑅 → 𝑅
Alors : 𝑓∶ 1 𝑥−𝑚 2 est une densité de probabilité
𝑥 → 𝑒𝑥𝑝(− )
𝜎 2𝜋 2𝜎2
Définition:
Soient 𝒎 ∈ 𝑹 et 𝝈 ∈ 𝑹+ ∗ .
La variable aléatoire continue 𝑿 suit la loi normale 𝑵 𝒎, 𝝈 lorsque la densité de probabilité de 𝑿 est la
fonction 𝒇 définie sur 𝑹 par :
1 (𝑥 − 𝑚)2
𝑓 𝑥 = 𝑒𝑥𝑝 −
𝜎 2𝜋 2𝜎²
Remarque :
Si 𝑿 suit la loi normale 𝑵 𝒎, 𝝈 , Alors pour tous 𝒂 et 𝒃 dans 𝑹 (𝒂 < 𝒃) :
𝑷 𝒂<𝒙<𝒃 =𝑷 𝒂≤𝒙<𝒃 =𝑷 𝒂<𝒙≤𝒃 =𝑷 𝒂≤𝒙≤𝒃
𝑡
1 𝑥2
𝜫 𝒕 =𝑷 𝑻≤𝒕 = 𝑒𝑥𝑝 − 𝑑𝑥
−∞ 2𝜋 2
Théorème:
Soit 𝑿 une variable aléatoire suivant la loi 𝑵 𝒎, 𝝈 .
𝑿 𝝎 −𝒎
Notons 𝑻 la variable aléatoire définie pour tout 𝝎 dans 𝞨 , par : 𝑻 𝝎 =
𝝈
Théorème - Moivre-Laplace -:
Soit 𝑿𝒏 une variable aléatoire suivant la loi binomiale 𝑩 𝒏, 𝒑 .
𝑿𝒏 −𝒏𝒑
On associe à 𝑿𝒏 la variable centrée réduite 𝑻𝒏 définie par : 𝑻𝒏 = .
𝒏𝒑(𝟏−𝒑)
Alors, tout 𝒂 et tout 𝒃 dans 𝑹, (𝒂 < 𝒃), on a :
𝑏
1 𝑥2
lim 𝑷 𝒂 < 𝑻𝒏 ≤ 𝒙 = 𝑒𝑥𝑝 − 𝑑𝑥
𝒏→+∞ 𝑎 2𝜋 2
Loi exponentielle :
Espérance et Variance:
Espérance et Variance:
Théorème :
Loi Student:
Espérance et Variance:
𝑬 𝑻 = 𝟎 pour k>1, et n’est pas définie pour k = 1.
𝒌
𝑽 𝑻 = pour k>2, et infinie pour k ≤ 2.
𝒌−𝟐
2.1. Estimation:
2.1.1 Définition
On s’intéresse au critère 𝑋 d’une population (ou à un vecteur de critères), dont la loi dépend d’un
paramètre inconnu:
𝜃𝜖𝑉 ⊂ 𝑅𝑝 : 𝑝 ≥ 1
On note 𝑓𝜃 (𝑥) la densité de la loi de 𝑋 au point 𝑥 (resp. la loi 𝑃𝜃 (𝑋 = 𝑥) de X au point 𝑥) si 𝑋 est continue
(resp. si 𝑋 est discrète).
On dispose d’un sondage de taille 𝑛 de la population (l’observation de 𝑋 sur 𝑛 individus) noté (𝑥1 , 𝑥2 … 𝑥𝑛 ).
On note (𝑋1 , 𝑋2 … 𝑋𝑛 ) l’échantillon aléatoire associé à ce sondage (il s’agit d’un vecteur aléatoire dont une
réalisation particulière est (𝑥1 , 𝑥2 … 𝑥𝑛 )).
2.1. Estimation:
2.1.1 Définition
Estimer le paramètre 𝜃 consiste à lui donner une valeur approchée à partir d’un sondage de la
population:
(𝑥1 , 𝑥2 … 𝑥𝑛 ).
𝑋,
𝜃 = 𝐸(𝑋)
𝑛
1
𝑥= 𝑥𝑖
𝑛
𝑖=1
2.1. Estimation:
𝑋,
(𝑥′1 , 𝑥′2 … 𝑥′𝑛 ). 𝜃 = 𝐸(𝑋) (𝑥1 , 𝑥2 … 𝑥𝑛 ).
𝑛 𝑛
1 1
𝑥′ = 𝑥′𝑖 𝑥= 𝑥𝑖
𝑛 𝑛
𝑖=1 𝑖=1
2.1. Estimation:
2.1. Estimation:
2.1.3 Exemples
𝑛
a. Estimateur de l’espérance 𝐸(𝑋) de 𝑋 : La moyenne empirique: 1
𝑋𝑛 = 𝑋𝑖
𝑛
𝑖=1
Propriétés:
𝐸 𝑋𝑛 = 𝐸(𝑋).
𝑉(𝑋)
𝑉 𝑋𝑛 = .
𝑛
2.1. Estimation:
2.1.3 Exemples
b. Estimateur de la variance σ² et de l’écart-type σ de X:
1 𝑛
𝑇𝑛 ² = 𝑖=1(𝑋𝑖 − 𝑚)² est un estimateur de σ²
𝑛
𝑇𝑛 = 𝑇𝑛 ² est un estimateur de σ
1 𝑛
𝑡𝑛 ² = 𝑖=1(𝑥𝑖 − 𝑚)² et 𝑡𝑛 sont les estimations associées.
𝑛
2.1. Estimation:
2.1.3 Exemples
b. Estimateur de la variance σ² et de l’écart-type σ de X:
Propriétés:
𝐸 𝑇𝑛 ² = σ².
μ4 −σ4
𝑉 𝑇𝑛 ² = .
𝑛
2.1. Estimation:
2.1.3 Exemples
c. Généralisation:
La variance et l’écart-type empirique s
1 𝑛
𝑆𝑛 ² = 𝑖=1(𝑋𝑖 − 𝑋𝑛 )² est un estimateur de σ²
𝑛
𝑆𝑛 = 𝑆𝑛 ² est un estimateur de σ
1 𝑛
𝑠𝑛 ² = 𝑖=1(𝑥𝑖 − 𝑥)² et 𝑠𝑛 = 𝑠𝑛 ² sont les estimations associées
𝑛
qu’on notera: 𝜎² et 𝜎
2.1. Estimation:
2.1.3 Exemples
c. Généralisation:
La variance et l’écart-type empirique s
Propriétés:
𝑛−1
𝐸 𝑆𝑛 ² = σ².
𝑛
𝑛−1
𝑉 𝑆𝑛 ² = ((𝑛 − 1)μ4 − (𝑛 − 3)σ4 ).
𝑛3
2.1. Estimation:
2.1.3 Exemples
d. La variance et l’écart-type empiriques corrigés:
1
𝑆𝑛 ∗ ² = 𝑛
𝑖=1(𝑋𝑖 − 𝑋𝑛 )² est un estimateur de σ²
𝑛−1
𝑆𝑛 ∗ = 𝑆𝑛 ²∗ est un estimateur de σ
Propriétés:
𝐸 𝑆𝑛 ∗ ² = σ².
1 𝑛−3 4
𝑉 ∗
𝑆𝑛 ² = (μ4 − σ ).
𝑛 𝑛−1
2.1. Estimation:
2.1.3 Exemples
e. Estimateur de la fonction de répartition F(x) : La fonction de répartition empirique:
1 𝑛
𝐹𝑛 (𝑥) = 𝑖=1 1𝑋𝑖 <𝑥 est un estimateur de F(x) en tout point x.
𝑛
1 𝑛
𝐹𝑛 (𝑥) = 𝑖=1 1𝑋𝑖 <𝑥 est l’estimation de F(x)
𝑛
𝐹(𝑥).(1−𝐹 𝑥 )
𝑉 𝐹𝑛 (𝑥) = .
𝑛
2.1. Estimation:
2.1.3 Exemples
Soient (𝑋1 , 𝑋2 … 𝑋𝑛 ) et (𝑌1 , 𝑌2 … 𝑌𝑛 ) les échantillons aléatoires associés aux variables aléatoires 𝑋 et 𝑌 de 𝑃.
Soient 𝐸 𝑋 = 𝑚1 et 𝐸 𝑌 = 𝑚2 connues
1 𝑛
𝑇𝑛 (𝑋, 𝑌) = 𝑖=1(𝑋𝑖 − 𝑚1 )(𝑌𝑖 − 𝑚2 ) est un estimateur de cov(𝑥, 𝑦).
𝑛
2.1. Estimation:
2.1.3 Exemples
Cas général:
g. La covariance empirique :
1 𝑛
𝑆𝑛 (𝑋, 𝑌) = 𝑖=1(𝑋𝑖 − 𝑋 )(𝑌𝑖 − 𝑌) est un estimateur de 𝑐𝑜𝑣(𝑋, 𝑌).
𝑛
1 𝑛
𝑠𝑛 (𝑥, 𝑦) = 𝑖=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦) = 𝑐𝑜𝑣 (𝑋, 𝑌) est l’estimation associée.
𝑛
2.1. Estimation:
2.1.3 Exemples
1
𝑆𝑛 ∗ (𝑋, 𝑌) = 𝑛
𝑖=1(𝑋𝑖 − 𝑋 )(𝑌𝑖 − 𝑌) est un estimateur de 𝑐𝑜𝑣(𝑋, 𝑌).
𝑛−1
𝑛−1
𝐸 𝑆𝑛 2 (𝑋, 𝑌) = 𝑐𝑜𝑣(𝑋, 𝑌).
𝑛
2.1. Estimation:
2.1.3 Exemples
𝑆𝑛 (𝑋,𝑌)
𝑅𝑛 (𝑋, 𝑌) = est un estimateur de 𝜌(𝑋, 𝑌).
𝑆𝑛 𝑋 𝑆𝑛 (𝑌)
2.1. Estimation:
Soit 𝜃𝑛 ⊂ 𝑅 𝑝 un estimateur de 𝜃
2.1. Estimation:
𝜃𝑛 𝑏𝑖𝑎𝑖𝑠é
𝜃𝑛 𝑠𝑎𝑛𝑠 𝑏𝑖𝑎𝑖𝑠
Quand :
𝐵(𝜃𝑛 ) = 𝜃 ⇔ 𝐸(𝜃𝑛 ) = 0
2.1. Estimation:
Exemples:
2
𝑋𝑛 , 𝑇𝑛 , 𝑆𝑛 ∗ sont sans biais.
2.1. Estimation:
𝑉(𝜃𝑛 ) ≤ 𝑉(𝜃𝑛 ∗)
𝑉(𝜃𝑛 ∗ )
𝜃 𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑑𝑒 𝜃
2.1. Estimation:
Dans le cas de 2 estimateurs sans biais, le plus précis est celui qui a la plus petite variance.
Exemple:
2
Lorsque: E X = 𝑚 est connue, 𝑆𝑛 ∗ est moins précis que 𝑇𝑛 2
2.1. Estimation:
𝑛′′ > 𝑛′
𝑛′ > 𝑛
2.1. Estimation:
Notre but est de trouver l’estimateur à la plus faible Erreur Quadratique Moyenne
L'absence de biais facilite l'étude des propriétés d'un estimateur car le biais d'un estimateur
peut dépendre de façon complexe de la valeur du paramètre
Toutefois, l'absence de biais ne garantit pas la plus faible valeur possible de l'EQM : Il est possible de
trouver des estimateurs biaisés plus précis que le meilleur estimateur sans biais.
2.1. Estimation:
L’EQM minimal correspond donc au meilleur compromis entre le biais de l'estimateur et sa variance.
Parfois, on introduit un léger biais dans un estimateur initialement sans biais pour réduire
significativement sa variance, et diminuer son EQM, et donc améliorer ses performances.
Le calcul de la variance d’un estimateur et donc l’existence d’un estimateur de variance minimale
nécessite généralement la connaissance de la loi de probabilité jointe de l’échantillon aléatoire
2.1. Estimation:
∀ 𝑥1 , 𝑥2 … 𝑥𝑛 ∈ 𝑅𝑛 ∶ 𝐿𝜃 𝑥1 , 𝑥2 … 𝑥𝑛 = 𝑓𝜃 𝑥𝑖
𝑖=1
La forme paramétrique de 𝑓 est connue, mais dépend d’autres paramètres inconnus. Donc, la loi de
l’échantillon est inconnue en général (elle dépend de paramètres inconnus que l’on cherche à estimer).
2.1. Estimation:
2.1. Estimation:
2.1.6.1. Définition
information: Un sondage (une réalisation de l’échantillon aléatoire) nous apporte une certaine
information sur 𝜃 (la répartition de ses valeurs nous donne une information sur la loi de 𝑋, qui
dépend de 𝜃). Elle doit être suffisante pour pouvoir espérer estimer 𝜃.
exhaustivité: L’estimation de 𝜃 faite à partir de ce sondage perd forcément une partie de cette
information : partant de 𝑛 valeurs, on n’en construit qu’une seule, l’estimation. Et la connaissance
de la seule estimation ne permet pas de remonter à l‘échantillon tout entier.
On distingue deux types d’affaiblissements de l’information sur la loi :
– un affaiblissement lié au sondage
– un affaiblissement lié à la construction d’un estimateur
La perte doit être minimale pour construire un estimateur précis
2.1. Estimation:
2.1. Estimation:
𝐿𝜃 𝑋1 , … 𝑋𝑛 , 𝜃 = 𝑓 𝑋𝑖 , 𝜃
𝑖=1
2.1. Estimation:
𝑙 𝑋1 , … 𝑋𝑛 , 𝜃 = ln(𝐿 𝑋1 , … 𝑋𝑛 , 𝜃 ) = ln(𝑓 𝑋𝑖 , 𝜃 )
𝑖=1
- Afin de simplifier les calculs, il est parfois plus pratique d’étudier la log-vraisemblance.
- 𝐿 et 𝑙 , considérées comme des fonctions de 𝜃, ont le même sens de variation.
2.1. Estimation:
Score de l’échantillon
𝜕 1 𝜕
𝑆𝑛 𝜃 = 𝑙 𝑋1 , … 𝑋𝑛 , 𝜃 = 𝐿 𝑋1 , … 𝑋𝑛 , 𝜃
𝜕𝜃 𝐿 𝑋1 , … 𝑋𝑛 , 𝜃 𝜕𝜃
2.1. Estimation:
Score de l’échantillon
- Pour une réalisation donnée 𝑥1 , 𝑥2 … 𝑥𝑛 de l’échantillon aléatoire, la valeur du score est une
fonction de 𝜃, réalisation de cette variable aléatoire sur ce jeu de données
𝜕
𝑆𝑛 𝜃 = 𝑙 𝑥 , … 𝑥𝑛 , 𝜃
𝜕𝜃 1
2.1. Estimation:
Score de l’échantillon
La variance du score (si elle existe) s’appelle l’information de Fisher apportée par l’échantillon
sur 𝜃 :
𝐼𝑛 𝜃 = 𝐸 (𝑆𝑛 𝜃 )²
2.1. Estimation:
𝜕 2 𝑙 𝑥1 , … 𝑥𝑛 , 𝜃 𝜕 𝑆𝑛 𝜃
𝐼𝑛 𝜃 = −𝐸 = −𝐸( )
𝜕𝜃 2 𝜕𝜃
Additivité :
Si le domaine de définition de 𝑋 ne dépend pas de 𝜃, chaque observation apporte la même information:
𝐼𝑛 𝜃 = 𝑛 𝐼1 𝜃
2.1. Estimation:
𝜕 𝜕
𝑆𝑛 𝜃 = 𝑙 𝑋1 , … 𝑋𝑛 , 𝜃 , … 𝑙 𝑋1 , … 𝑋𝑛 , 𝜃
𝜕𝜃1 𝜕𝜃𝑝
Il est caractérisé par son vecteur espérance (= 0) et sa matrice de variance covariance appelée matrice
d’information de Fisher, 𝐼𝑛 𝜃 = (𝐼𝑛 𝑖 ,𝑗 )1≤𝑖,𝑗≤𝑝 définie positive de terme général
𝜕 𝜕
𝐼𝑛 𝑖 ,𝑗 = 𝑐𝑜𝑣( 𝑙 𝑋1 , … 𝑋𝑛 , 𝜃 , 𝑙 𝑋1 , … 𝑋𝑛 , 𝜃 )
𝜕𝜃𝑖 𝜕𝜃𝑗
CHERIF Walid – Mathématiques pour l’ingénieur Année Universitaire: 2016/2017
1 - Optimisation numérique 2 - Estimation et analyse des données 3 - Rappels sur l’algèbre matricielle 4 - Détection et estimation
2.1. Estimation:
𝜃𝑛 𝜃𝑛 ∗ < 𝜃𝑛
Une statistique de l’échantillon ne peut Information utile Information inutile pour l’estimation
pas contenir plus d’information sur 𝜃 que pour l’estimation de 𝜃, mais peut être utile pour
l’échantillon. de 𝜃 d’autres applications
𝑋1 , 𝑋2 … 𝑋𝑛
2.1. Estimation:
échantillon information
𝑥 utile inutile
statistique
statistique exhaustive
2.1. Estimation:
2.1. Estimation:
𝑋 𝑋′
𝑥1 𝑡0
𝑥′1
⋮ 𝑇 = 𝑡0 et
⋮
𝑥𝑛 𝐿(𝑋 / 𝑇 = 𝑡0 )
𝑥′𝑛
2.1. Estimation:
Une statistique 𝑇 ne peut nous renseigner sur la valeur d’un paramètre que si sa loi
dépend de ce paramètre. Puisque:
𝐿𝜃 𝑥1 , … 𝑥𝑛 = 𝑘𝜃 𝑥1 , … 𝑥𝑛 / 𝑇 = 𝑡 𝑔𝜃 𝑡
Si la loi conditionnelle de l’échantillon aléatoire sachant la valeur de 𝑇 ne dépend plus du paramètre, cela
veut dire qu’une fois 𝑇 connu, nous n’obtenons plus aucune information sur le paramètre par l’échantillon
et que donc 𝑇 porte toute l’information disponible sur le paramètre.
2.1. Estimation:
2.1. Estimation:
Définition :
∀ 𝑥1 , … 𝑥𝑛 ∈ 𝑅𝑛 , ∀𝜃 ∈ 𝑉 𝐿𝜃 𝑥1 , … 𝑥𝑛 / 𝑇 = 𝑡 = 𝑘 𝑥1 , … 𝑥𝑛 / 𝑇 = 𝑡
Propriété :
Si 𝑇 est exhaustive, alors: 𝐼𝑛 𝜃 = 𝐼𝑇 𝜃
2.1. Estimation:
Une statistique 𝑇 de loi 𝑔𝜃 est dite exhaustive pour le paramètre 𝜃 ssi il existe une
fonction 𝑘 ∶ 𝑅𝑛 → 𝑅 : telle que :
∀ 𝑥1 , … 𝑥𝑛 ∈ 𝑅𝑛 , ∀𝜃 ∈ 𝑉 𝐿𝜃 𝑥1 , … 𝑥𝑛 = 𝑔𝜃 𝑡 ℎ 𝑥1 , … 𝑥𝑛
2.1. Estimation:
2.1.6.6. Exemple
𝑛
Si : 𝑋 suit une loi de poisson de paramètre 𝜃, et 𝑇 = 𝑖=1 𝑋𝑖 une statistique exhaustive pour 𝜃.
𝑇 suit donc une loi de poisson de paramètre n𝜃 :
𝑛
On a : 𝑒 −n𝜃 (n𝜃)𝑡 𝑒 −n𝜃 𝜃 𝑖=1 𝑥𝑖
𝑔𝜃 𝑡, 𝜃 = =
𝑡! ( 𝑛𝑖=1 𝑥𝑖 )!
𝑛 𝑛 𝑛
et : 𝑒 −𝜃 (𝜃)𝑥𝑖 𝑒 −𝑛𝜃 𝜃 𝑖=1 𝑥𝑖
𝐿 𝑥, 𝜃 = 𝑃𝜃 𝑋 = 𝑥𝑖 = = 𝑛
𝑥𝑖 ! 𝑖=1 𝑥𝑖 !
𝑖=1 𝑖=1
donc : 𝐿 ( 𝑛𝑖=1 𝑥𝑖 )! 𝑡!
ℎ 𝑥 = = 𝑛 𝑥 𝑛 =
𝑔 𝑛 𝑖=1 𝑖 𝑖=1 𝑥𝑖 ! 𝑛𝑡 𝑛𝑖=1 𝑥𝑖 ! 𝑛𝑒 𝑑é𝑝𝑒𝑛𝑑 𝑝𝑎𝑠 𝑑𝑒 𝜃
2.1. Estimation:
Exemple :
- L’identification et la qualité d’un estimateur sans biais de variance minimale est liée à l’information
contenue dans l’échantillon sur 𝜃 et à l’existence d’une statistique exhaustive pour 𝜃.
2.1. Estimation:
Unicité : s’il existe un estimateur sans biais de variance minimale de 𝜃, alors, il est unique
Conditions sous lesquelles la borne est atteinte: L’estimateur de variance minimale est
alors celui ayant la variance de la borne de Cramer-Rao, il s’appelle estimateur efficace.
2.1. Estimation:
On ne parle d’inégalité de FDCR et de variance minimale atteinte par un estimateur sans biais, que dans
le cas où l’information de Fisher existe et où l’hypothèse H est vérifiée.
2.1. Estimation:
soit k une fonction et Δ𝑛 un estimateur sans biais de k(𝜃). Si k est une fonction dérivable et que
H est satisfaite:
(k ′(𝜃))²
𝑉(Δ𝑛 ) ≥
𝐼𝑛 (𝜃)
2.1. Estimation:
2.1. Estimation:
Propriétés :
2.1. Estimation:
2.1.7.4. Exemple :
Loi de Poisson de paramètre 𝜃
𝑛
𝑙𝑛 𝑋1 , 𝑋2 … 𝑋𝑛 , 𝜃 = −𝑛𝜃 + 𝑛𝑋 ln 𝜃 − ln( 𝑋𝑖 !)
𝑖=1
𝑛𝑋
𝑆𝑛 𝜃 = −𝑛 +
𝜃
𝜕 𝑛𝐸 𝑋 𝑛
𝐼𝑛 𝜃 = −𝐸 𝑆 𝜃 = =
𝜕𝜃 𝑛 𝜃2 𝜃
𝜃
On estime 𝜃 par 𝑋: on a 𝑉 𝑋 = C’est un estimateur efficace
𝑛
2.1. Estimation:
2.1.7.4. Exemple :
2.1. Estimation:
Elle permet dans ce cas l’existence d’une statistique exhaustive, car l’estimateur efficace est
nécessairement exhaustif pour 𝜃.
Si la loi de 𝑋 est de la forme exponentielle, il n’existe qu’une seule fonction de 𝜃 qui puisse être estimée
efficacement, c’est : − 𝛽 ′(𝜃)
𝑘 𝜃 =
𝛼 ′(𝜃)
2.1. Estimation:
1 𝑛
L’estimateur de 𝑘 𝜃 est alors 𝑇𝑛 = 𝑖=1 𝑎(𝑋𝑖 ) de variance (minimale) :
𝑛
( 𝑘 ′ 𝜃 )² 𝑘′ 𝜃
𝑉 𝑇𝑛 = =
𝐼𝑛 (𝜃) 𝑛𝛼 ′ 𝜃
2.1. Estimation:
𝑛
On a vu que : S= 𝑖=1 𝑋𝑖 est exhaustive.
On a: ln 𝑓(𝑥, 𝜃) = −𝜃 + 𝑥 ln 𝜃 − ln(𝑥!)
𝑛 𝑛
S= 𝑖=1 𝑎(𝑋𝑖 ) = 𝑖=1 𝑋𝑖 est exhaustive
2.1. Estimation:
D’après le théorème de l’efficacité: la seule fonction qui puisse être estimée efficacement est:
− 𝛽 ′(𝜃) 𝑆
𝑘 𝜃 = =𝜃 l’estimateur efficace est
𝛼 ′(𝜃) 𝑛
2.1. Estimation:
2.1.8.2. Remarque :
Il existe au plus une seule fonction k 𝜃 du paramètre 𝜃 qui peut être estimée efficacement. En
conséquence, s'il existe une fonction k vérifiant la relation ci-dessus, et si cette fonction n'est pas
la fonction identité, alors il n'existe pas d'estimateur efficace de 𝜃.
Lorsque 𝑓(𝑥, 𝜃) est une fonction deux fois différentiable en 𝜃, on procède comme suit:
- Identifier les extrema de la vraisemblance (ou log-vraisemblance) en annulant ses dérivées partielles
premières par rapport à 𝜃 (le score) . On résout donc en 𝜃 le système d’équations:
𝑆𝑛 𝜃 = 0
- Retenir parmi ces extrema ceux qui sont des maxima: par exemple en recherchant ceux pour lesquels
la matrice des dérivées partielles secondes de la vraisemblance (ou log-vraisemblance) est négative au
voisinage de 𝜃
- Retenir, de ces différents maxima, celui qui présente la plus grande valeur de la vraisemblance
2.2.1. Exemple :
EMV de l’espérance d’une loi exponentielle de paramètre 𝜃
𝑛 −𝜃𝑋𝑖
𝐿𝑛 𝑋1 , 𝑋2 … 𝑋𝑛 , 𝜃 = 𝑖=1 𝜃𝑒 = 𝜃 𝑛 𝑒 −𝜃𝑛𝑋
𝑙𝑛 𝑋1 , 𝑋2 … 𝑋𝑛 , 𝜃 = 𝑛 ln 𝜃 − 𝜃𝑛𝑋
𝑛 1
𝑆𝑛 𝜃 = − 𝑛𝑋 ⟹ 𝜃𝑛 =
𝜃 𝑋
𝜕 𝑛
𝑆 𝜃 =− <0
𝜕𝜃 𝑛 𝜃2
𝜃
On estime 𝜃 par 𝑋: on a 𝑉 𝑋 =
𝑛
III.2. Applications
III.2. 1. IC pour la moyenne et la variance dans le cas d’un échantillon gaussien
1 𝑛
𝜇 est estimée par la moyenne empirique 𝑋𝑛 = 𝑖=1 𝑋𝑖 qui a pour loi 𝑁 𝜇, 𝜎 2
𝑛
Passage à la centrée réduite:
𝑋𝑛−𝜇
𝑛 ~𝑁 0,1
𝜎
𝑋𝑛 − 𝜇
𝑃 −𝑧1−𝛼 ≤ 𝑛 ≤ 𝑧1−𝛼 = 1 − 𝛼
2 𝜎 2
𝜎 𝜎
𝑃 𝑋𝑛 − 𝑧1−𝛼 . ≤ 𝜇 ≤ 𝑋𝑛 + 𝑧1−𝛼 . =1−𝛼
2 𝑛 2 𝑛
III.2. Applications
III.2. 1. IC pour la moyenne et la variance dans le cas d’un échantillon gaussien
𝜎 𝜎
On obtient donc un IC pour l’espérance 𝜇: [𝑋𝑛 − 𝑧1−𝛼 . , 𝑋𝑛 + 𝑧1−𝛼 . ]
2 𝑛 2 𝑛
𝜎 𝜎
Dans les calculs, l’IC est donné par: 𝐼𝐶1−𝛼 𝜇 = [𝑥𝑛 − 𝑧1−𝛼 . , 𝑥𝑛 + 𝑧1−𝛼 . ]
2 𝑛 2 𝑛
III.2. Applications
III.2. 1. IC pour la moyenne et la variance dans le cas d’un échantillon gaussien
𝑋𝑛−𝜇
𝑛 qui ne suit plus la loi normale mais la loi de Student à (n-1) degrés de liberté 𝑇𝑛−1 .
𝑆𝑛
𝑋𝑛 − 𝜇 𝑋𝑛 − 𝜇
𝑛 ~ 𝑇𝑛−1 𝑃 −𝑡1−𝛼 ≤ 𝑛 ≤ 𝑡1−𝛼 = 1 − 𝛼
𝑆𝑛 2 𝑆𝑛 2
𝑆𝑛 𝑆𝑛
𝜎² inconnue → Intervalle aléatoire 𝑃 𝑋𝑛 − 𝑡1−𝛼 . ≤ 𝜇 ≤ 𝑋𝑛 + 𝑡1−𝛼 . =1−𝛼
2 𝑛 2 𝑛
III.2. Applications
III.2. 1. IC pour la moyenne et la variance dans le cas d’un échantillon gaussien
𝑆𝑛 𝑆𝑛
On obtient donc l’ IC : [𝑋𝑛 − 𝑡1−𝛼 . , 𝑋𝑛 + 𝑡1−𝛼 . ]
2 𝑛 2 𝑛
𝑆𝑛 𝑆𝑛
Dans les calculs, l’IC est donné par: 𝐼𝐶1−𝛼 𝜇 = [𝑥𝑛 − 𝑡1−𝛼 . , 𝑥𝑛 + 𝑡1−𝛼 . ]
2 𝑛 2 𝑛
III.2. Applications
III.2. Applications
III.2. Applications
III.2. Applications
III.2. 4. IC pour la proportion
𝑛
𝑖=1 𝑋𝑖 − 𝑛𝜋
→ Z~𝑁 0,1
𝑛𝜋(1 − 𝜋)
𝑛
𝑖=1 𝑋𝑖 − 𝑛𝜋 𝑛∞
𝑃 −𝑧1−𝛼 ≤ ≤ 𝑧1−𝛼 = 1−𝛼 → 𝑃 −𝑧1−𝛼 ≤ 𝑍 ≤ 𝑧1−𝛼 = 1 − 𝛼
2 𝑛𝜋(1 − 𝜋) 2 2 2
III.2. Applications
III.2. 4. IC pour la proportion
𝜋(1 − 𝜋) 𝜋(1 − 𝜋) 𝑛∞
𝑃 𝑋𝑛 − 𝑧1−𝛼 ≤ 𝜋 ≤ 𝑋𝑛 + 𝑧1−𝛼 → 1−𝛼
2 𝑛 2 𝑛
Ceci ne nous fournit pas d’IC pour 𝜋 car les bornes dépendent de 𝜋.
Mais on le même résultat de convergence en remplaçant 𝜋 dans les bornes de l’intervalle par son
estimateur convergent 𝑋𝑛 .
𝑋𝑛 (1 − 𝑋𝑛 ) 𝑋𝑛 (1 − 𝑋𝑛 ) 𝑛∞
𝑃 𝑋𝑛 − 𝑧1−𝛼 ≤ 𝜋 ≤ 𝑋𝑛 + 𝑧1−𝛼 → 1−𝛼
2 𝑛 2 𝑛
𝑋𝑛 1−𝑋𝑛 𝑋𝑛 (1−𝑋𝑛 )
[𝑋𝑛 − 𝑧1−𝛼 , 𝑋𝑛 + 𝑧1−𝛼 ] est un IC asymptotique pour le paramètre 𝜋.
2 𝑛 2 𝑛
IV.1. Principe
Exemple classique des voitures:
(1) Quelles sont les véhicules qui se ressemblent ? (proximité entre les individus)
(2) Sur quelles variables sont fondées les ressemblances / dissemblances
(3) Quelles sont les relations entre les variables
IV.2. Application
Problème
IV.2. Application
Principe :
Construire un système de représentation de dimension réduite (q << p) qui préserve les distances entre
les individus. On peut la voir comme une compression avec perte (contrôlée) de l’information.
IV.2. Application
IV.2. Application
Régression orthogonale
On doit avoir:
- G situé à l’origine
- les variables comparables (exprimées en unités différentes)
IV.2. Application
IV.2. Application
IV.2. Application
Fin de l’élément
III. TD
Exercice 1
Soit un échantillon de 10000 personnes sur une population, on sait que le taux moyen de personnes à
soigner pour un problème de cholestérol élevé est de 7.5%. Donner un intervalle dans lequel on soit sûr à
95%, de trouver le nombre exact de personnes à soigner sur les 10000.
Un intervalle dans lequel on est sûr à 95% de trouver le nombre exact de personnes à soigner sur les 10000 :
𝑝 1−𝑝 𝑝 1−𝑝
[𝑝 − 𝑦𝛼 , 𝑝 + 𝑦𝛼 ]
𝑛 𝑛
Fréquence entre 65,7% et 94,3%.
Donc entre 698 et 802 personnes sur 10000.
III. TD
Exercice 2
Un vol Marseille - Paris est assuré par un Airbus A310 de 150 places ; pour ce vol des estimations ont
montré que la probabilité pour qu’une personne confirme son billet est p = 0.75. La compagnie vend n
billets, n > 150.
Soit X la variable aléatoire «nombre de personnes parmi les n possibles, ayant confirmé leur réservation
pour ce vol».
1. Quelle est la loi exacte suivie par X ?
2. Quel est le nombre maximum de places que la compagnie peut vendre pour que, à au moins 95%,
elle soit sûre que tout le monde puisse monter dans l’avion, c’est-à-dire n tel que :
p[X > 150]>=0,05 ?
3. Reprendre le même exercice avec un avion de capacité de 300 places ; faites varier le paramètre
p = 0,5 ; p = 0,8.
III. TD
Exercice 2
III. TD
Exercice 3
Une entreprise chimique commercialise un polymère servant à la fabrication de microprocesseurs et stocké dans
une cuve dont la caractéristique à contrôler est la viscosité ; celle-ci doit être comprise entre 75 et 95 pour pouvoir
commercialiser le polymère. Quatre extractions ont été réalisées dans des zones différentes de la cuve et ont
conduit aux valeurs de l’échantillon :
𝑥1 = 78, 𝑥2 = 85, 𝑥3 = 91, 𝑥4 = 76 réalisation des variables aléatoires 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 .
L’entreprise a besoin d’estimer la viscosité et aussi de connaître la précision de cette estimation. Ayant choisi a priori
un seuil de 5%, il s’agit de fournir aux clients des intervalles de confiances à 95% pour 𝜇.
Estimations ponctuelles - Le modèle considère que les variables 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 sont indépendantes selon une
loi 𝑁 𝜇, 𝜎 2 . 𝜇 représente la moyenne de la viscosité dans la cuve et 𝜎 2 prend en
compte la variabilité de la viscosité au sein de la cuve et celle due à l’erreur de
mesure.
- Les paramètres sont la moyenne 𝜇 et la variance 𝜎 2
- Les estimateurs sont 𝑋 de 𝜇 et 𝑆 2 de 𝜎 2
- Les estimations ponctuelles sont 𝑥 = 82,5, 𝜎 = 6,86
III. TD Exercice 4
III. TD Exercice 5
Le staff médical d’une grande entreprise fait ses petites statistiques sur le taux de cholestérol de ses employés ; les
observations sur 100 employés tirés au sort sont les suivantes :
taux de cholestérol en cg (centre de classe) effectif d’employés
120 9
160 22
200 25
240 21
280 16
320 7
1. Calculer la moyenne 𝑚𝑒 et l’écart-type 𝜎𝑒 sur l’échantillon.
2. Estimer la moyenne et l’écart-type pour le taux de cholestérol dans toute l’entreprise.
3. Déterminer un intervalle de confiance pour la moyenne.
4. Déterminer la taille minimale d’échantillon pour que l’amplitude de l’intervalle de confiance soit inférieure à 10
(seuil de confiance 95%).
Données : 𝑆𝑐 : estimateur de l’écart-type 𝜎𝑒 .
𝑚𝑒 − 𝜇
𝜎𝑒 Suit approximativement la loi normale N(0,1)
𝑛
III. TD Exercice 6
On cherche à doser la glycémie: on dispose d’un échantillon de sang. Et on cherche la concentration en glucose.
Si on fait plusieurs dosages, on va obtenir plusieurs résultats. Cela est dû, non à la variabilité de la glycémie, mais
aux erreurs analytiques.
On assimile la glycémie « vraie » à la moyenne « vraie » de la variable aléatoire « résultat du dosage ».
Supposons que l’on connaisse la variance des résultats, car on connaît bien la technique analytique.
Par exemple, σ = 10 mg/l.
On suppose que les résultats expérimentaux sont distribués normalement.
Donner un intervalle
Si on effectue de confiance
un dosage donnant 90 à 95%
mg/l,si on aeffectue:
pour intervalle de confiance approché (σ étant connu) :
- un dosageIC0,95donnant 90;mg/l.
= [90 - 2σ 90 + 2σ] = [70 ; 110] soit un intervalle de longueur 40.
- on
Si deux dosages
effectue donnant
deux dosages 90donnant
et 96 mg/l.
90 et 96 mg/l, on a:
𝜎 𝜎
- trois dosages
IC0,95 = donnant
[93 - 2 90,
; 9396
+ 2et 93] =mg/l.
[78,9 ; 107,1] soit un intervalle de longueur 28,2.
2 2
Si l’on effectue trois dosages donnant 90, 96 et 93 mg/l, on a:
𝜎 𝜎
IC0,95 = [93 - 2 ; 93 + 2 ] = [81,5 ; 104,5] soit un intervalle de longueur 23.
3 3
III. TD Exercice 7
La classe isic 1ère année compte 30 étudiants. Les résultats de l’a.u. 2014 montrent que 20% des étudiants ont
des copies similaires le jour de l’examen.
Soit X la variable aléatoire : «nombre d’étudiants parmi les 30 à avoir triché».
1. Quelle est la loi de X ? Donner son espérance, son écart-type.
2. Donner un intervalle de confiance au seuil 95%, permettant d’estimer le nombre d’étudiants à avoir triché.
Un intervalle de confiance au seuil 95%, permet d’estimer le nombre de personnes ayant triché
La fréquence : 0,657 ; 0,943.
Soit entre 20 et 28 personnes.
Le pourcentage est grand, cela est du à la petite taille de l’échantillon.
III. TD Exercice 8
Les statistiques des notes obtenues en mathématiques au BAC SMA pour l'année 2013 sont :
Moyenne nationale : m =10,44
Écart-type : s = 1,46
Une classe de SMA comporte 35 élèves en 2013/2014 issus d'un BAC SMA en 2013.
Calculer la probabilité que la moyenne de cette classe soit supérieure à 10.
Révision
En préparant son bilan annuel en consommation de charbon, l’ONE s’aperçoit d’une augmentation inquiétante
de 25% par rapport à 2013. Il procède à l’étude de 2 éventuels facteurs:
- Perte dans les tours de production (JLEC)
- Production inexploitée dans le milieu rural
Production dans les tours Perte en charbon
Consommation Semestre 1 Semestre 2 Semestre 3
Zone 1 3T 6T 6T 300 52
Zone 2 5T 5T 15 T 380 62
Zone 3 2T 2T 1T 520 74
260 60
1. Le semestre 1 a subi le changement du fuseau horaire.
500 74
La production durant ce semestre a-t-elle connu un changement
d’un milieu à un autre? 840 80
2. Etudier la corrélation de la perte en charbon en fonction des 390 59
pertes dans les tours.
3. Donner la précision du modèle (en RMSE), ajuster, si cela est
possible par les moindres carrés, et tracer les droites de régression
Révision
Dans sa nouvelle politique d’environnement, l’office souhaite minimiser ces pertes en minimisant sa
production tout en assurant la demande des clients:
Année Semestre Demande en électricité (KW) 1. Donner une prévision quant à la demande prévue
Semestre 1 320 en 2015
2. En parallèle, l’office devra réaliser un bénéfice
2012 Semestre 2 450 minimum de 1000000 dh pour combler ses
Semestre 3 900 charges. L’office facture à 3dh en semestre 1, 12
Semestre 1 300 dh en semestre 2 et 20 dh en semestre 3. Durant
le semestre 2, si la quantité produite dépasse la
2013 Semestre 2 600 demande, on pourra alimenter avec: une turbine
Semestre 3 730 motrice sur le site de JLEC qui pourra assurer 30%
de cette quantité durant le semestre suivant.
Semestre 1 380
Donner le programme à la moindre consommation
2014 Semestre 2 720
Semestre 3 880
III.2. Applications
III.2. 2. Estimation de la variance
III.2. Applications
III.2. 2. Estimation de la variance