Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques

Doc S4 – Echantillonnage & Estimation

Echantillonnage
ou « Comment, à partir d'informations connues sur une population (moyenne & écart-type ou proportion), peut-on prévoir celles d'un échantillon ? » Moyenne d’un échantillon Soit une population sur laquelle est définie une variable aléatoire X dont on connaît l'espérance (ou la moyenne) et l'écart-type . Notons X la variable aléatoire qui, à chaque échantillon de taille n, associe sa moyenne ( X s'appelle encore la distribution des moyennes de l’échantillon). Théorème Central Limite (De Moivre & Laplace) Si la VA X suit une loi normale sur la population, soit si X ~ N( ; ), Alors la moyenne X de l’échantillon de taille n, prélevé au hasard (et assimilé à un tirage avec remise), suit également une loi normale, telle que :
X ~N

,

n

Si la VA X suit une loi quelconque sur la population, avec E(X) = et Var(X) = , Alors la moyenne X de l’échantillon de taille n, avec n ≥ 30, prélevé au hasard (et assimilé à un tirage avec remise), suit approximativement une loi normale, telle que :
X ~N

,

n

Rem : on remarque une atténuation de la dispersion par le processus d'échantillonnage. Proportion dans un échantillon Soit le caractère A, distribué dans la population entière avec une proportion p. Notons F la VA qui, à chaque échantillon de taille n, associe sa proportion du caractère A (F s'appelle distribution des fréquences de l’échantillon). On retiendra le théorème suivant : Soit un caractère A, répandu dans une population avec une fréquence p. Un échantillon de taille n (prélevé avec remise), et tel que n ≥ 30, présente une fréquence F du caractère A telle que la VA F suit approximativement une loi Normale, selon : F ~ N p, p(1 p)
n

Frédéric Quignon

1

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques

Estimation
ou « Comment, à partir d'informations calculées sur un échantillon (moyenne & écart-type ou proportion), estimer celles d'une population entière ? » Estimation d’une moyenne a) Estimation ponctuelle Soit X une VA sur une population de moyenne (ou espérance) µ inconnue et d'écart-type (connu ou non). On suppose que l'on a prélevé un échantillon de taille n (tirage avec remise ou assimilé) sur lequel on a calculé la moyenne µSple et l'écart-type Sple. Une estimation ponctuelle ˆ de la moyenne µ de la population est : ˆ Une estimation ponctuelle ˆ de l'écart-type de la population est : ˆ
Sple

n n 1
Sple

s’appelle le coefficient de biais. Il est voisin de 1 pour n suffisamment grand. n 1 (Ex : pour n = 30, ce coefficient vaut environ 1,017. Dans ce cas, Sple est un estimateur acceptable de .) Exemple : dans une université de 10 000 étudiants, on vérifie la taille de 25 étudiants pris au hasard. La moyenne µSple et l'écart-type Sple pour cet échantillon valent : µSple = 176 cm et Sple = 6 cm Nous pouvons donc estimer les paramètres de la population par : ˆ = 176 cm et ˆ = (25/24) x 6 6.124 cm Ce n’est qu’une estimation de la valeur vraie pour la population entière. Pour apprécier l’imprécision de cette estimation et le risque associé de se tromper en adoptant cette estimation ponctuelle, il est par exemple recours à l’estimation par intervalle de confiance (IC). b) Estimation par intervalle de confiance Nous savons, avec le Théorème Central Limite, que la VA X , correspondant à la moyenne d’un échantillon de taille n pris au hasard dans la population considérée, suit, pour n suffisamment grand, une loi normale selon :
X ~N

n

,

n

Pour un niveau de risque arbitrairement choisi (par exemple, de 5%), nous allons chercher un intervalle autour de µ, de largeur r, tel que : Pr( X r≤

≤ X

r)

0,95

C’est-à-dire que, dans 95% des cas, la moyenne µ de la population tombe effectivement dans l’intervalle X ± r. Frédéric Quignon 2

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques Autrement dit, on a aussi : Pr( µ r≤ X ≤ µ r) 0,95

b.1)

connu

Introduisons maintenant la VA Z. Par définition, Z

(X n

)

suit une loi normale centrée réduite : Z ~ N(0 , 1).

Ainsi, estimer Pr( µ
Pr r n Z r n

r≤ X ≤ µ = 0.95

r)

0,95 revient à estimer :

Or, comme Pr
2 r n

z

Z

z =2

(z) – 1, il vient :1

– 1 = 0.95, ou encore :

r

n

= 0.975.

Dans la table de la loi normale centrée réduite, on peut lire :

z

0.975 .

Cette valeur correspond à z = 1.96. [Dans Excel-FR, la valeur s’obtient avec : « =LOI.NORMALE.STANDARD.INVERSE(0,975) », ou bien « =NORMSINV(0.975) dans XL-UK]] Remarques : de même, pour un IC au seuil de 1% de risque, z = 2.575 une autre appellation courante pour la fonction de répartition d’une loi N(0,1) est z )
(z ) (=

z

0.995 correspond à

Ainsi, le choix d’un niveau de risque décide de la valeur de z, ainsi que de la largeur r de l’IC, puisque :
z r n

ou r

z

n

1

A titre d’exercice, développez ces 3 lignes

Frédéric Quignon

3

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques

Si nous disposons maintenant des valeurs d’un échantillon, alors la moyenne µ de la population entière est estimée par µSple et nous pouvons, au niveau de risque choisi de 5%, déterminer un IC de largeur r

1.96

n

.

Ainsi, l'intervalle obtenu pour cet échantillon s’écrit :
; Sple 1.96 ( connu) n n Il fait partie d'une famille d’intervalles dans laquelle 95 % d’entre eux contiennent la moyenne vraie (inaccessible) de la population. On l'appelle intervalle de confiance à 95 % de l’estimation réalisée.
Sple

1.96

b.2)

inconnu

Enfin, si l’écart-type de la population est inconnu, ce qui est bien souvent le cas, alors deux approches coexistent. La première fournit un IC approché, tandis que la seconde fournit un IC exact. Calcul d’un IC approché L’écart-type de la population étant inconnu, il est remplacé dans la formule de l’IC cin dessus par l’estimateur ˆ fondé sur l’écart-type de l’échantillon : ˆ Sple , pour n 1 donner au final :
Sple

1.96

Sple

n 1

;

Sple

1.96

Sple

n 1

(

inconnu)

Calcul d’un IC exact X Avec Z qui suit une loi N(0 ; 1)

n
n

Xi

X
2

2

et U

i 1

qui suit une loi du

2

à (n-1) ddl,
Z U

les variables U et Z étant de plus indépendantes, nous nous appuyons sur le fait que la variable T

(n 1) suit une loi de Student à (n-1) degrés de liberté. (cf. Doc – Lois de probabilité)

Ainsi, avec Pr X

tn

1

s n

X

tn

1

s n

1 2

et s 2

1 n 1i

n

Xi
1

X ,

2

Frédéric Quignon

4

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques nous retrouvons qu’un intervalle de confiance autour de µ peut être calculé, sans connaître (population), à l’aide de la série d’observations Xi (fournissant ˆ X et ˆ s ) et de la valeur de t n 1 , lue dans la table de Student pour (n-1) ddl et pour un quantile.

Le seuil de confiance (1-α) associé à cet intervalle est ici égal à : 1-2γ ( quantile). Pour n observations et un niveau de risque bilatéral, l’IC s’écrit alors : s s ( inconnu) t n -1 ; Sple t n -1 Sple n n

Le cas qui nous occupe fait appel à une variable de Student à (n-1) degrés de liberté, pour un risque bilatéral (distribution des observations de part et d’autre de la valeur centrale µ) Par exemple, la valeur de t n 1 , pour 10 observations indépendantes et pour un risque = 2 = 5%, vaut : t(0.05, 9) = 2.262. Cette valeur est lue dans la table de la fonction de répartition de la loi de Student (cf. Doc – Lois de probabilité) ou obtenue dans Excel-FR à l’aide de la commande : « =loi.student.inverse(0.05 ; 9) » ou « =TINV(0,05;9) » in XL-UK.

.

Remarques : l’IC est centré sur la valeur µSple car c'est la seule valeur de référence que nous disposons. (Il fluctue avec l’échantillon choisi.) la vraie valeur µ (inaccessible) de la moyenne de la population peut ne pas appartenir à l’IC (déterminé à partir d’un échantillon donné).
r z n ) dépend du niveau de confiance choisi. Le rayon de l’IC (à savoir la quantité Plus le degré de confiance est proche de 100%, et plus la borne z sera élevée et l’IC large. Dans le cas du calcul exact de l’IC, n intervient non seulement sous la racine, mais aussi dans le nombre de ddl de la variable t.

Frédéric Quignon

5

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques

Exemple : dans l’exemple précédent de la taille de 25 étudiants pris au hasard parmi 10 000, nous avons estimé les paramètres de la population par : ˆ = 176 cm et ˆ = (25/24) x 6 6.124 cm Déterminons maintenant un IC à 95% (risque de 5%) autour de ˆ . Notons X la VA correspondant à la moyenne d'un échantillon de taille 25 pris au hasard. Par application du Théorème Central Limite, nous savons que : . 25 Aussi, nous cherchons à déterminer la largeur r de l’IC centrée sur ˆ et tel que : Pr( µ r≤ X ≤ µ r) 0,95 (au risque de 5%),

X ~ N ˆ,

Calcul approché de l’IC : Ou encore, en posant Z
n n

(X n

)

Pr

r

Z

r

= 0.95

L’intervalle correspondant à cette probabilité est borné par la valeur z = 1.96. 6.124 D’où r z = 1.96 2.40 n 25 Pour cet échantillon, l’IC à 95% vaut donc [176 - 2,4 ; 176 + 2,4] = |173.4 ; 178.4] Nous pouvons donc estimer, avec une confiance de 95 %, que la taille moyenne de la population estudiantine est comprise entre 173,4 cm et 178,4 cm. Calcul exact de l’IC : 1 n s 2 Xi X . Ici, r t n 1 avec s 2 n 1i 1 n Au niveau de risque = 5% bilatéral, la valeur de t correspondante est t(0.05 ; 24) = 2.064. Mais, pour calculer s, il nous faudrait les 25 valeurs observées… Frédéric Quignon 6

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques Estimation d’une proportion a) Estimation ponctuelle On considère un caractère A, présent dans une population avec la proportion p, inconnue. On suppose de plus que l'on a prélevé un échantillon de taille n (tirage avec remise ou assimilé) sur lequel on a calculé la proportion pSple d'individus ayant le caractère A. Notons F la VA correspondant à la proportion du caractère A dans un échantillon de taille n pris au hasard. F suit approximativement une loi normale, selon : p(1 p) F ~ N(p, ) avec n
ˆ Une estimation ponctuelle p de la proportion p de l'attribut A dans la population est : ˆ p p Sple

Une estimation ponctuelle ˆ de l'écart-type vaut, selon le cas : p(1 p) ˆ Si n ≥ 30 : n n p(1 p) p(1 p) ˆ Si n < 30 : n 1 n n 1 Exemple : À quelques jours d'une élection, un candidat fait effectuer un sondage. Sur les 150 personnes interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections. Dans l'échantillon des individus sondés, la proportion en faveur de ce candidat est ici de pSple = 45/150 = 0.3 C’est donc cette proportion qui peut être retenue pour estimer la vraie proportion d’individus en faveur du candidat dans la population entière (hélas inaccessible… sauf lors du scrutin) : ˆ p p Sple 0.3 On peut de plus estimer par : p(1 p) 0.3x0.7 ˆ 0.037 n 150 On voudrait en fait plutôt être capable de calculer, pour un niveau de risque choisi, un intervalle de confiance associé à l’estimation ci-dessus. b) Estimation par intervalle de confiance (IC) Nous savons que la VA F, qui est la proportion d’un caractère A dans un échantillon de taille p(1 p) n (n ≥ 30) pris au hasard, suit une loi Normale N(p, ) avec . n Définir un intervalle autour de la proportion p avec un niveau de risque de 10% (par exemple) revient à déterminer r tel que : Frédéric Quignon 7

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques Pr(F - r ≤ p ≤ F + r) = 0.90 ou encore Pr(p - r ≤ F ≤ p + r) = 0.90 Utilisons alors la VA Z
F p

, qui suit une loi Normale centrée réduite N(0, 1).

L’encadrement recherché s’écrit donc : r r Pr Z 0.90 soit
2 r r 1 0.95 0.90

ou enfin

La valeur de z

r

fournissant une aire sous la courbe de densité de probabilité égale à 0.95

se lit dans la table de la loi N(0, 1) : z = 1.645 [Dans Excel, « =LOI.NORMALE.STANDARD.INVERSE(0,95) » ou « =NORMSINV(0.95) » donne : 1.6449.] Ainsi, le choix d’un niveau de risque décide de la valeur de z, ainsi que de la largeur r de l’IC, puisque :

z

r

ou r

z

Si nous disposons maintenant des valeurs d’un échantillon, alors la moyenne µ de la population entière est estimée par µSple et nous pouvons, au niveau de risque choisi de 10%, déterminer un IC de largeur r 1.645 . Ainsi, l'intervalle de confiance à 90% obtenu pour cet échantillon s’écrit :
pSple 1.645 pSple (1 pSple ) n 1 ; pSple 1.645 pSple (1 pSple ) n 1

Si la correction de biais

n n 1

n’est pas effectuée, l’IC s’écrit alors :
pSple (1 pSple ) n ; pSple 1.645 pSple (1 pSple ) n

pSple 1.645

Remarque : y

pSple (1

pSple ) est maximale pour pSple = ½ et vaut alors ¼. C’est pourquoi

certains auteurs préfèrent prendre la valeur

1 comme estimateur de l’écart-type . 4n

Exemple : A quelques jours d'une élection, un candidat fait faire un sondage. Sur les 150 personnes interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections. Frédéric Quignon 8

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques La proportion d'individus prête à voter pour ce candidat dans l'échantillon est ici de : pSple 45 / 150 0.3
ˆ Précédemment, l’estimation ponctuelle avait fourni : p pSple 0.3 et ˆ 0.037 Déterminons maintenant une estimation de p par intervalle de confiance à 80%.

Notons F la VA correspondant à la proportion d'individus prêts à voter pour ce candidat dans un échantillon de taille 150 pris au hasard. p(1 p) Nous avons vu qu'approximativement F ~ N( p, ) où n On cherche en fait un rayon r tel que : Pr(p - r ≤ F ≤ p + r) = 0.80 r r 1 0.80 , ou enfin : 0.90 Soit : 2 Par lecture inverse de la table de la loi normale centrée-réduite, la borne z telle que Π(z) = 0,9 avec z r vaut z = 1,28. D’où r = 1,28 1,28 x 0,037 = 0,047

L’IC à 80% de confiance pour cet échantillon est alors IC = [0,3 - 0,047 ; 0,3 + 0,047] = [0,253 ; 0,347] Nous pouvons donc estimer, avec une confiance de 80 %, que la proportion d'individus dans la population prêts à voter pour le candidat en question est comprise entre 25,3 % et 34,7 %. De l’estimation La pertinence biologique ou clinique d’un résultat dépend de l’importance de l’effet qui est estimé lors du test quantitatif. Cette estimation est constituée d’une valeur centrale (moyenne, médiane…) et de son intervalle de confiance (IC) associé, qui traduit la précision statistique du résultat. Le but de l’estimation est d’approcher, sur la base de l’analyse d’un ou de plusieurs échantillons, la valeur vraie d’un paramètre d’une population entière. Aussi, la valeur estimée dans un échantillon peut être assez loin de la valeur vraie (mais inaccessible), du fait des fluctuations aléatoires d’échantillonnage, c’est-à-dire du fait du hasard. L’intervalle de confiance permet de prendre en compte cette incertitude aléatoire dans la présentation des estimations. L'intervalle de confiance (IC) à 95% est un intervalle de valeurs qui a 95% de chance de contenir la vraie valeur du paramètre estimé. Les bornes supérieures et inférieures de l’IC sont les valeurs les plus éloignées du résultat qui ne lui sont pas statistiquement différentes. Par contre les valeurs situées à l’extérieur de l’intervalle sont statistiquement différentes du résultat observé. Dans l’interprétation d’un test biologique ou d’un essai thérapeutique, la signification statistique est un élément important qui assure que le résultat obtenu a de forte chance d’être Frédéric Quignon 9

Université de Metz IUT Thionville – Yutz S1M1 – Mathématiques ou non le fruit du hasard. Cependant la signification statistique n’est pas synonyme de signification biologique ou de pertinence clinique. En effet, un test statistique ne se prononce que sur l’existence, probable ou non, d’une différence entre deux conditions (e.g. l’effet d’un traitement), et ne donne aucune information directe sur l’importance de cette différence. Le niveau de risque choisi (de première espèce, ou ) ou encore la valeur de probabilité critique (ou p-value) ne représente pas l’intensité de l’effet du traitement. Un traitement n’est pas d’autant plus efficace que le niveau de risque choisi (ou la p-value) est petit. En effet, toute différence entre deux conditions testées, aussi petite soit-elle, peut-être rendue aussi significative que souhaitée en augmentant le nombre d’individus (e.g. colonies, cellules, patients). Ainsi, un test peut être statistiquement significatif avec un effet dont l’amplitude est biologiquement ou cliniquement pertinente, mais aussi bien avec un effet de faible amplitude, sans intérêt pratique ou signification biologique, si un très grand nombre d’individus a été inclus dans l’essai. Une différence statistiquement significative n’est donc pas forcément une différence biologiquement ou cliniquement significative.

Frédéric Quignon

10

Sign up to vote on this title
UsefulNot useful