You are on page 1of 56

Biostatistique

Cours 3
Estimation
Intervalle de confiance
14 octobre 2021
Master 1 Santé Publique

julie.boucquemont@universite-paris-saclay.fr
Rappels
→ A quoi sert un intervalle de fluctuation ?

Biostatistique – M1 SP 2
Fluctuations d’échantillonnage

Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Intervalle de confiance

Biostatistique – M1 SP 3
Estimation
Prédiction
Valeur attendue
Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Estimation
Estimation ponctuelle
Intervalle de confiance

Biostatistique – M1 SP 4
Estimation

Valeur théorique
Observations
(ou vraie)

Population Echantillon
Estimation
µ–σ–π m – s – p0

π = % vrai dans la population p0 = % observé dans l’échantillon

µ = moyenne vraie dans la population m = moyenne observée dans l’échantillon

σ = écart-type vrai dans la population s = écart-type observé dans l’échantillon

σ2 = variance vraie dans la population s2 = variance observée dans l’échantillon

Biostatistique – M1 SP 5
Estimation

Valeur théorique
Observations
(ou vraie)

Population Echantillon
Estimation
µ–σ–π m – s – p0

Estimation ponctuelle : valeur unique calculée à partir des observations faites sur l’échantillon
→ Estimateur = formule ou procédure mathématique utilisée pour l’obtenir

Estimation par intervalle : intervalle dans lequel il est vraisemblable que la vraie valeur se trouve

Biostatistique – M1 SP 6
Qualités d’un estimateur
• Pas de biais
• Variance minimum

Vraie valeur

Estimation

Biostatistique – M1 SP 7
Qualités d’un estimateur
• Pas de biais
• Variance minimum

Vraie valeur
Choix
entre 2 et 3?
Estimation

Biostatistique – M1 SP 8
Biais d’un estimateur
• Formule utilisée pour le calcul
Repose sur des développements mathématiques + ou - complexes
𝑛
1
Exemple de la variance : 2
𝑠 =
𝑛−1
෍ 𝑥𝑖 − 𝑚 2

𝑖=1

Biostatistique – M1 SP 9
Biais d’un estimateur
• Formule utilisée pour le calcul
Repose sur des développements mathématiques + ou - complexes

• Facon dont a été constitué l’échantillon


• Echantillonnage complexe (pondération, grappes, …)
→ Adaptation des formules
• Biais de sélection (non réponses, perdus de vue, …)
→ Problématique +++ car très difficiles à corriger

Biostatistique – M1 SP 10
Estimateurs courants
• Estimation d’un pourcentage π : p0=k/n

• Estimation d’une moyenne μ 𝑛


1
m = ෍ 𝑥𝑖
𝑛
𝑖=1

• Estimation d’une variance σ2


𝑛
1
𝑠2 = ෍ 𝑥𝑖 − 𝑚 2
𝑛−1
𝑖=1

Biostatistique – M1 SP 11
Estimateurs courants
• Estimation d’un pourcentage π : p0=k/n

• Estimation d’une moyenne μ 𝑛


1
m = ෍ 𝑥𝑖
𝑛
𝑖=1

• Estimation d’une variance σ2


1 2
1
𝑛
σ𝑛𝑖=1 𝑥𝑖2− (𝑛𝑚2 ) σ𝑛𝑖=1 𝑥𝑖2 − σ𝑛𝑖=1 𝑥𝑖
𝑛
𝑠2 = ෍ 𝑥𝑖 − 𝑚 2 = =
𝑛−1 𝑛−1 𝑛−1
𝑖=1

Biostatistique – M1 SP 12
Données groupées

Biostatistique – M1 SP 13
Données groupées

𝑛
1 1 1745
m= ෍ 𝑥𝑖 = × 4 × 2 + 6 × 7 + ⋯ + 2 × 37 = = 17,45
100 100 100
𝑖=1

෍ 𝑥 2 = 4 × 22 + 6 × 72 + ⋯ + 2 × 372

Biostatistique – M1 SP 14
Données groupées

m = 17,45
෍ 𝑥 2 = 4 × 22 + 6 × 72 + ⋯ + 2 × 372 = 35 355
1 2 1
σ𝑛𝑖=1 𝑥𝑖2 − σ𝑛𝑖=1 𝑥𝑖 35355 − × 17452
𝑛 100
𝑠2 = = = 49,5
𝑛−1 99

Biostatistique – M1 SP 15
Méthode du maximum de vraisemblance
• Principale méthode d’estimation

• Vraisemblance d’un échantillon = probabilité d’observer cet


échantillon connaissant les vrais paramètres dans la population

Calcul de cette probabilité pour ≠ valeurs des paramètres

Choix des estimateurs qui rendent la vraisemblance maximale

Biostatistique – M1 SP 16
Méthode du maximum de vraisemblance
• Principale méthode d’estimation

• Estimateurs précédents de π et μ : estimateurs du maximum de


vraisemblance
𝑛
1
• Estimateur de σ2 : 𝑛
෍ 𝑥𝑖 − 𝜇 2

𝑖=1

Asymptotiquement sans biais et de distribution normale


De variance minimum parmi tous les estimateurs sans biais

Biostatistique – M1 SP 17
Estimation
Prédiction
Valeur attendue
Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Estimation
Estimation ponctuelle
Intervalle de confiance

Biostatistique – M1 SP 18
Intervalle de confiance
• (1-α)% = niveau de confiance

• Intervalle de confiance à 1-α ou au risque α → niveau de confiance


associé au fait que la vraie valeur (inconnue) du paramètre
appartienne à cet intervalle est de (1-α) chances sur 100

• Autre formulation : si on réitérait l’expérience 100 fois (si on tirait au


sort 100 échantillons), on peut espérer que 95% des intervalles de
confiance contiennent la vraie valeur du paramètre

Biostatistique – M1 SP 19
Intervalle de confiance d’une moyenne
• Grands échantillons (n≥30)
X variable quanti ~ loi de moyenne µ et de variance σ2
n la taille de l’échantillon observé et m la moyenne observée

Si n ≥ 30 : M ~ loi normale de moyenne µ et de variance σ2/n

Intervalle de confiance à 1-α (μ) = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛

Biostatistique – M1 SP 20
Intervalle de confiance d’une moyenne
• Grands échantillons (n≥30)
Exemple : tension artérielle de 41 hommes de plus de 65 ans

- Cas 1 : m = 14,97 et s2 = 85,91


𝐼𝐶95% 𝜇 = ?

- Cas 2 : m = 15,24 et s2 = 78,12


𝐼𝐶95% 𝜇 = ?

Biostatistique – M1 SP 21
Intervalle de confiance d’une moyenne
• Grands échantillons (n≥30)
Exemple : tension artérielle de 41 hommes de plus de 65 ans

- Cas 1 : m = 14,97 et s2 = 85,91


𝐼𝐶95% 𝜇 = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 = 14,97 ± 1,96 85,91/41 = [12,13; 17,81]

- Cas 2 : m = 15,24 et s2 = 78,12


𝐼𝐶95% 𝜇 = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 = 15,24 ± 1,96 78,12/41 = [12,53; 17,95]

Biostatistique – M1 SP 22
Intervalle de confiance d’une moyenne
• Petits échantillons (n<30)
X variable quanti ~ loi normale de moyenne µ et de variance σ2
n la taille de l’échantillon observé et m la moyenne observée

Si n < 30 : M ~ ?

Biostatistique – M1 SP 23
Intervalle de confiance d’une moyenne
• Petits échantillons (n<30)
X variable quanti ~ loi normale de moyenne µ et de variance σ2
n la taille de l’échantillon observé et m la moyenne observée

𝑀−𝜇
Si n < 30 : M ~ ? mais ~𝑇(𝑛−1)𝑑𝑑𝑙
𝜎 2 /𝑛

Intervalle de confiance à 1-α (μ) = 𝑚 ± 𝑡𝑛−1,𝛼/2 𝑠 2 /𝑛

Biostatistique – M1 SP 24
Loi de Student
• Z une variable ~ loi normale centrée réduite

• Y une variable ~ loi du χ2 à k degrés de liberté (ddl), indépendante de Z


𝑍
𝑇= ~loi de Student à k ddl
𝑌/𝑘

→ Loi centrée autour de 0

Biostatistique – M1 SP 25
Loi de Student
• Z une variable ~ loi normale centrée réduite

• Y une variable ~ loi du χ2 à k degrés de liberté (ddl), indépendante de Z


𝑍
𝑇= ~loi de Student à k ddl
𝑌/𝑘

→ Loi centrée autour de 0

• P(T2>22,327) = 0,001
• P(T60>a)=0,01 a=2,390

Biostatistique – M1 SP 26
Loi de Student
• Z une variable ~ loi normale centrée réduite

• Y une variable ~ loi du χ2 à k degrés de liberté (ddl), indépendante de Z


𝑍
𝑇= ~loi de Student à k ddl
𝑌/𝑘

→ Loi centrée autour de 0

• P(T2>22,327) = 0,001
• P(T60>a)=0,01 a=2,390

Si k grand : T≈N(0,1)
Biostatistique – M1 SP 27
Intervalle de confiance d’une moyenne
• Exemple 1 : tension artérielle de 12 hommes de plus de 65 ans
m = 12,58 et s2 = 60,08

Intervalle de confiance à 95% (μ) = ?

Biostatistique – M1 SP 28
Intervalle de confiance d’une moyenne
• Exemple 1 : tension arterielle de 12 hommes de plus de 65 ans
m = 12,58 et s2 = 60,08

60,08
Intervalle de confiance à 95% (μ) = 12,58 ± 2,201 = [7,66 ; 17,52]
12
Conditions d’application : distribution de la tension artérielle normale chez les
hommes de plus de 65 ans

Biostatistique – M1 SP 29
Intervalle de confiance d’une moyenne
• Exemple 2 : tension artérielle de 41 hommes de plus de 65 ans
m = 14,97 et s2 = 85,91

Intervalle de confiance à 95% (μ) = ?

Biostatistique – M1 SP 30
Intervalle de confiance d’une moyenne
• Exemple 2 : tension artérielle de 41 hommes de plus de 65 ans
m = 14,97 et s2 = 85,91
Intervalle de confiance à 95% (μ) = ?

- Avec la loi de Student


H de distribution de la tension artérielle normale chez les hommes de plus de 65 ans
𝐼𝐶95% 𝜇 = 𝑚 ± 𝑡40,𝛼/2 𝑠 2 /𝑛 = 14,97 ± 2,021 85,91/41 = [12,06; 17,88]

- Avec approximation par la loi normale


𝐼𝐶95% 𝜇 = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 = 14,97 ± 1,96 85,91/41 = [12,13; 17,81]

Biostatistique – M1 SP 31
Intervalle de confiance d’un pourcentage
• Grands échantillons (n𝜋 et n(1-𝜋)≥ 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋,
𝑛

𝑝0 (1−𝑝0 )
Intervalle de confiance à 95% (π) = 𝑝0 ± 𝑧𝛼/2 = [𝑝𝑖 ; 𝑝𝑠 ]
𝑛

Conditions d’application → 𝑛𝜋 et 𝑛(1 − 𝜋) ≥ 5


En pratique npi, n(1-pi), nps, n(1-ps) ≥ 5

Biostatistique – M1 SP 32
Intervalle de confiance d’un pourcentage
• Exemple 1 : n=60 sujets, 18 malades
IC95%(π) = ?
• Exemple 2 : n=40 sujets, 8 malades
IC95%(π) = ?

Biostatistique – M1 SP 33
Intervalle de confiance d’un pourcentage
• Exemple 1 : n=60 sujets, 18 malades
0,3×0,7
IC95%(π) = 0,30 ± 1,96 = [0,18 ; 0,42]
60

npi=60x0,18=10,8 ; n(1-pi)=60x0,82=49,2 ; nps=25,2 ; n(1-ps)=34,8 ≥ 5

• Exemple 2 : n=40 sujets, 8 malades


0,2×0,8
IC95%(π) = 0,20 ± 1,96 = [0,08 ; 0,32]
40
npi=40x0,08=3,2 → conditions non respectées : intervalle non valide

Biostatistique – M1 SP 34
Intervalle de confiance d’un pourcentage
• Petits échantillons (n𝜋 ou n(1-𝜋)< 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋, → utilisation de la loi binomiale
𝑛

Pour chaque valeur du nombre de sujets N, les colonnes


de la table donnent successivement le nombre
d’évènements, le % correspondant (x100) et les deux
bornes de l’intervalle de confiance à 95% (x100)

Biostatistique – M1 SP 35
Intervalle de confiance d’un pourcentage
• Petits échantillons (n𝜋 ou n(1-𝜋)< 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋, → utilisation de la loi binomiale
𝑛

Pour chaque valeur du nombre de sujets N, les colonnes


de la table donnent successivement le nombre
d’évènements, le % correspondant (x100) et les deux
bornes de l’intervalle de confiance à 95% (x100)

n=40 sujets, 8 malades


IC95%(π) = [9,05 ; 35,65]

Biostatistique – M1 SP 36
Intervalle de confiance d’un pourcentage
• Petits échantillons (n𝜋 ou n(1-𝜋)< 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋, → utilisation de la loi binomiale
𝑛

Pour chaque valeur du nombre de sujets N, les colonnes de la table


donnent successivement le nombre d’évènements, le % correspondant
(x100) et les deux bornes de l’intervalle de confiance à 95% (x100)

n=60 sujets, 18 malades


IC95%(π) = [0,18 ; 0,42]
IC95%(π) = [18,85 ; 43,21]

Biostatistique – M1 SP 37
Intervalle de confiance d’une variance

Intervalle de confiance à 95% (σ2) = ?

Biostatistique – M1 SP 38
Intervalle de confiance d’une variance

𝑛−1 2 𝑛−1 2
Intervalle de confiance à 1-α (σ2) = 𝑠 ; 𝑠
𝑏 𝑎

Biostatistique – M1 SP 39
Intervalle de confiance d’une variance
• Si grand échantillon (n≥30) et X ~ loi normale
→ approximation par la loi normale

2𝑠4
Intervalle de confiance à 1-α (σ2) = 𝑠2 ± 𝑧𝛼/2
𝑛−1

Biostatistique – M1 SP 40
Intervalle de confiance d’une variance
• Exemple : tension artérielle de 41 hommes de plus de 65 ans
𝑛−1 2 𝑛−1 2
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) =
𝑏
𝑠 ;
𝑎
𝑠

Pour 40 ddl : a = ? et b = ?

Biostatistique – M1 SP 41
Intervalle de confiance d’une variance
• Exemple : tension arterielle de 41 hommes de plus de 65 ans
𝑛−1 2 𝑛−1 2
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) =
𝑏
𝑠 ;
𝑎
𝑠

Pour 40 ddl : a = 24,43 (pour α=0,975) et b = 59,34 (pour α=0,025)

Biostatistique – M1 SP 42
Intervalle de confiance d’une variance
• Exemple : tension arterielle de 41 hommes de plus de 65 ans
𝑛−1 2 𝑛−1 2
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) =
𝑏
𝑠 ;
𝑎
𝑠

Pour 40 ddl : a = 24,43 (pour α=0,975) et b = 59,34 (pour α=0,025)

41−1 41−1
Intervalle de confiance à 95% (σ2) = × 85,91; × 85,91
59,34 24,43

= [57,91 ; 140,66]
Conditions d’application : distribution de la TA normale chez les hommes de plus de 65 ans

Biostatistique – M1 SP 43
Intervalle de confiance d’une variance
• Exemple : tension arterielle de 41 hommes de plus de 65 ans
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) = 𝑠 2 ± 𝑧𝛼/2
2𝑠 4
𝑛−1

Approximation par la loi normale

2×85,912
Intervalle de confiance à 95% (σ2) = 85,91 ± 1,96
40

= [48,26 ; 123,56]
Conditions d’application : distribution de la TA normale chez les hommes de plus de 65 ans et n≥30

Biostatistique – M1 SP 44
Résumé
Grands échantillons Petits échantillons

𝑝0 (1 − 𝑝0 )
Pourcentage 𝑝0 ± 𝑧𝛼/2 Tables
𝑛
npi, nqi, nps, nqs ≥ 5

Moyenne 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 𝑚 ± 𝑡𝑛−1,𝛼/2 𝑠 2 /𝑛


n≥30 X ~ loi normale

2𝑠 4 𝑛−1 2 𝑛−1 2
𝑠 2 ± 𝑧𝛼/2 𝑠 ; 𝑠
Variance 𝑛−1 𝑏 𝑎
n≥30 X ~ loi normale
X ~ loi normale

Biostatistique – M1 SP 45
Résumé
• Intervalle de fluctuation et intervalle de confiance
→ Formules semblables mais fondamentalement ≠

Intervalle de fluctuation Intervalle de confiance


• Calcul à partir des valeurs vraies • Calcul à partir des valeurs observées
• Fixe • Aléatoire
• IF du paramètre observé • IC du paramètre vrai

Biostatistique – M1 SP 46
Nombre de sujets nécessaires et précision
↘ longueur IC

↗ précision ↗n

Précision = demi-longueur de l’intervalle de confiance

Biostatistique – M1 SP 47
Nombre de sujets nécessaires et précision
↘ longueur IC

↗ précision ↗n

(Im-)précision = demi-longueur de l’intervalle de confiance


• Dépend du choix du risque d’erreur α (α ↘ : zα/2 ↗ : imprécision ↗)
• Dépend de la valeur du paramètre
• Dépend de la taille de l’échantillon

Biostatistique – M1 SP 48
Nombre de sujets nécessaires et précision
Pourcentage Moyenne
i i
𝑝0 𝑞0
𝐼𝐶 = 𝑝0 ± 𝑧𝛼/2 𝑠2
𝑛 𝐼𝐶 = 𝑚 ± 𝑧𝛼/2
𝑛
2
𝑧𝛼/2 𝑝0 𝑞0
𝑛= 2
𝑧𝛼/2 𝑠2
𝑖2 𝑛=
𝑖2

Conditions d’application du calcul de l’IC doivent être respectées

Biostatistique – M1 SP 49
Nombre de sujets nécessaires et précision
Estimation de la prévalence de l’insuffisance rénale chez les hommes
• Autour de 10%
• Précision souhaitée de 0,01
2
𝑧𝛼/2 𝑝0 𝑞0 1,962 × 0,10 × 0,90
𝑛= = = 3457
𝑖2 0,01 2

• Autour de 12%
2
𝑧𝛼/2 𝑝0 𝑞0 1,962 × 0,12 × 0,88
𝑛= = = 4057
𝑖2 0,01 2

• Si on ne réussit à recruter que 3457 sujets avec p0=12% : i devient 0,011

Conditions d’application du calcul de l’IC doivent être respectées

Biostatistique – M1 SP 50
Intervalle de confiance d’une différence
• 2 populations : mesure de la même variable X
• X1 dans la population 1, moyenne μ1
• X2 dans la population 2, moyenne μ2
→ D = X1 - X2, moyenne μD

Biostatistique – M1 SP 51
Intervalle de confiance d’une différence
• 2 populations : mesure de la même variable X
• X1 dans la population 1, moyenne μ1
• X2 dans la population 2, moyenne μ2 Echantillon 1 de taille n1
m1, 𝑠12
→ D = X1 - X2, moyenne μD Echantillon 2 de taille n2
m2, 𝑠22

Si n1 et n2 ≥ 30 : distribution de M1 et M2 normales
𝐼𝐶 1−𝛼 𝜇𝐷 = (𝑚1 − 𝑚2 ) ± 𝑧𝛼/2 𝑣𝑎𝑟 𝑚1 − 𝑚2
Echantillons indépendants

𝑠12 𝑠22
𝐼𝐶 1−𝛼 𝜇𝐷 = (𝑚1 − 𝑚2 ) ± 𝑧𝛼/2 𝑣𝑎𝑟 𝑚1 + 𝑣𝑎𝑟(𝑚2 ) = (𝑚1 − 𝑚2 ) ± 𝑧𝛼/2 +
𝑛1 𝑛2

Biostatistique – M1 SP 52
Intervalle de confiance d’une différence
• Exemple : 100 sujets hypertendus répartis en 2 groupes de 50 par
tirage au sort
• Groupe 1 : médicament de référence, m1=14,0 et 𝑠12 = 1,5
• Groupe 2 : nouveau médicament, m2=13,2 et 𝑠22 = 0,8
• Pas de lien entre les sujets : données indépendantes

𝐼𝐶95% 𝜇𝐷 = ?
Conclusion ?

Biostatistique – M1 SP 53
Intervalle de confiance d’une différence
• Exemple : 100 sujets hypertendus répartis en 2 groupes de 50 par
tirage au sort
• Groupe 1 : médicament de référence, m1=14,0 et 𝑠12 = 1,5
• Groupe 2 : nouveau médicament, m2=13,2 et 𝑠22 = 0,8
• Pas de lien entre les sujets : données indépendantes
• n1 et n2 ≥ 30
1,5 0,8
𝐼𝐶95% 𝜇𝐷 = 0,8 ± 1,96 + = [0,38 ; 1,22]
50 50
Conclusion ?

Biostatistique – M1 SP 54
Intervalle de confiance d’une différence
• Exemple : 100 sujets hypertendus répartis en 2 groupes de 50 par
tirage au sort
• Groupe 1 : médicament de référence, m1=14,0 et 𝑠12 = 1,5
• Groupe 2 : nouveau médicament, m2=13,2 et 𝑠22 = 0,8
• Pas de lien entre les sujets : données indépendantes
• n1 et n2 ≥ 30
1,5 0,8
𝐼𝐶95% 𝜇𝐷 = 0,8 ± 1,96 + = [0,38 ; 1,22]
50 50
0 n’appartient pas à l’intervalle de confiance
0 = valeur non vraisemblable de la différence vraie
Egalité entre les traitements = non compatible avec observations
Biostatistique – M1 SP 55
Récap

Biostatistique – M1 SP 56

You might also like