You are on page 1of 159

Année universitaire 2022-2023

P.A.S.S

UE 4
Evaluation des méthodes d’analyses
Appliquées aux sciences de la vie et
de la santé

Prs Responsables : Pr GIORGI - Dr DEVRED

Tome 1 / 2

Pr R. Giorgi

Office de Polycopie de la Faculté des sciences médicales et paramédicales de Marseille

Les reproductions d’œuvres contenues dans ce document sont réalisées avec l’autorisation de CFC
(20 rue des Grands Augustins – 75006 Paris)
UE4 : Evaluation des méthodes d’analyses appliquées aux
sciences de la vie et de la santé

Biostatistique
en PArcours Spécifique accès Santé
(PASS)

Support de cours des enseignants de la Faculté de


Médecine de Marseille

R. Giorgi
Coordonnateur

M. Fieschi, H. Chaudet, J. Gaudart,


B. Giusiano, J. Gouvernet, J. Mancini
ont collaboré à l’élaboration de ce document

2022 - 2023
Table des matières
Avant-propos ............................................................................................................... vii
Objectifs du cours de statistiques en PASS .......................................................... vii
Objectifs généraux ............................................................................................ vii
Objectifs spécifiques ......................................................................................... vii
Bibliographie ......................................................................................................... ix
Notations et typographie ........................................................................................ ix
Chapitre 1 Introduction générale aux statistiques .................................................... 1
Généralités .............................................................................................................. 1
Population, échantillon ....................................................................................... 1
Échantillonnage .................................................................................................. 1
Tirage au hasard .............................................................................................. 2
Stratification.................................................................................................... 2
Problème de l’estimation ........................................................................................ 3
Les tests statistiques ................................................................................................ 3
Chapitre 2 Statistique descriptive .............................................................................. 5
Buts de la statistique descriptive ............................................................................. 5
Les différents types de données .............................................................................. 5
Données de type qualitatif .................................................................................. 5
Données de type ordinal ..................................................................................... 5
Données de type quantitatif ................................................................................ 6
Caractérisation des données qualitatives et ordinales unidimensionnelles ............. 6
Fréquence absolue et tableau des effectifs ......................................................... 6
Fréquences relatives ........................................................................................... 7
Fréquences cumulées (relatives et absolues)...................................................... 7
Diagramme « camembert »................................................................................. 8
Diagramme en bâtons, mode .............................................................................. 8
Diagramme en bâtons ..................................................................................... 8
Mode ............................................................................................................... 9
Caractérisation des données qualitatives à deux dimensions .................................. 9
Caractérisation des données quantitatives à une dimension ................................. 10
Généralités ........................................................................................................ 10
Histogramme ..................................................................................................... 10
Paramètres statistiques décrivant un ensemble de mesures quantitatives ....... 12
Paramètres de tendance centrale ou de position .............................................. 12
La moyenne ................................................................................................... 12
La médiane .................................................................................................... 13
Le mode ........................................................................................................ 13
Les quantiles ................................................................................................. 15
Paramètres de dispersion ................................................................................. 15
Variance et écart-type ................................................................................... 16
Autres paramètres de dispersion. .................................................................. 17
Caractérisation des données quantitatives à deux dimensions.............................. 17
Introduction ...................................................................................................... 17
Représentation dans le plan .............................................................................. 17
Coefficient de corrélation ................................................................................. 18
Ce qu’il faut savoir absolument ............................................................................ 19
Question à choix multiples ................................................................................... 20
Chapitre 3 Notions de probabilité ............................................................................ 21
Introduction ........................................................................................................... 21
Evènements ........................................................................................................... 21
Définitions ......................................................................................................... 21
Ensemble fondamental .................................................................................. 21
Evènements ................................................................................................... 22
Opérations sur les évènements ......................................................................... 22
Union ............................................................................................................ 22
Intersection .................................................................................................... 22
Complémentarité ........................................................................................... 22
Evènements incompatibles ou disjoints ........................................................ 23
Partition ......................................................................................................... 23
Probabilités ........................................................................................................... 23
Probabilités élémentaires ................................................................................. 23
Probabilités conditionnelles ............................................................................. 25
Indépendance en probabilité ............................................................................ 26
Théorème de Bayes ........................................................................................... 27
Ce qu’il faut savoir absolument ............................................................................ 30
Question à choix multiples ................................................................................... 30
Chapitre 4 Variables aléatoires, lois de distribution .............................................. 31
Exemple introductif .............................................................................................. 31
Variables aléatoires discontinues ou discrètes ...................................................... 32
Définitions ......................................................................................................... 32
Espérance mathématique ou moyenne d’une v.a. discrète ............................... 32
Variance et écart-type d’une v.a. discrète ........................................................ 33
Variables aléatoires conjointes ou variable aléatoire à 2 dimensions ................... 34
Variables aléatoires indépendantes .................................................................. 35
Covariance, coefficient de corrélation ............................................................. 36
Variables aléatoires continues............................................................................... 37
Lois de distribution ............................................................................................... 39
Loi Normale ...................................................................................................... 39
Loi de Student ................................................................................................... 40
Loi du Chi-deux (2) ......................................................................................... 41
Ce qu’il faut savoir absolument ............................................................................ 42
Question à choix multiples ................................................................................... 43
Chapitre 5 Estimation ponctuelle et intervalle de confiance ................................. 45
Introduction ........................................................................................................... 45
Échantillon, estimateur et estimation .................................................................... 46
Propriétés d’un « bon » estimateur ....................................................................... 46
Biais .................................................................................................................. 46
Variance ............................................................................................................ 47
Estimation ponctuelle ........................................................................................... 47
Estimation de la moyenne et de la variance d’une population ......................... 47
Estimation de la moyenne d’une population ................................................. 47
Estimation de la variance d’une population .................................................. 50

iv
Estimation d’une proportion et de la variance d’une proportion (échantillon au
hasard) .............................................................................................................. 51
Estimation d’une proportion ......................................................................... 51
Estimation de la variance d’une proportion .................................................. 51
Estimation par intervalle ....................................................................................... 52
Définition .......................................................................................................... 52
Intervalle de confiance d’une moyenne (échantillon au hasard)...................... 53
Cas des grands échantillons (n  30) ............................................................ 54
Cas des petits échantillons (n < 30) .............................................................. 54
Intervalle de confiance d’une proportion (échantillon au hasard) .................. 55
Ce qu’il faut savoir absolument ............................................................................ 57
Questions à choix multiples .................................................................................. 59
Chapitre 6 Indicateurs et courbes de survie : définitions et estimations .............. 61
Introduction ........................................................................................................... 61
Indicateurs de morbidité ....................................................................................... 61
Prévalence ........................................................................................................ 61
Incidence ........................................................................................................... 62
Indicateurs de la valeur informationnelle d’un signe médical .............................. 62
Sensibilité .......................................................................................................... 64
Spécificité .......................................................................................................... 65
Indicateurs de l’effet d’un facteur : risque relatif ................................................. 66
Etablissement des courbes de survie ..................................................................... 71
Généralités ........................................................................................................ 71
Définitions ......................................................................................................... 71
Estimation des courbes de survie : méthode de Kaplan-Meier ........................ 74
Estimation de la médiane de survie .................................................................. 76
Ce qu’il faut savoir absolument ............................................................................ 78
Questions à choix multiples .................................................................................. 81
Chapitre 7 Principes généraux des tests statistiques .............................................. 83
Position du problème (exemple) ........................................................................... 83
Méthode « classique » d’un test statistique........................................................... 84
Notion de risque .................................................................................................... 85
Degré de signification d’un test statistique ........................................................... 87
Variations de β ...................................................................................................... 88
Variation de β en fonction de  ........................................................................ 88
Variation de β en fonction de la taille de l’échantillon .................................... 88
Variation de β en fonction de l’écart H0 - HA ................................................... 89
Récapitulatif ...................................................................................................... 90
Choix d’un test statistique..................................................................................... 90
Les étapes d’un test statistique.............................................................................. 91
Ce qu’il faut savoir absolument ............................................................................ 91
Question à choix multiples ................................................................................... 92
Chapitre 8 Etude de la liaison entre deux variables : tests de comparaison et tests
d’indépendance ....................................................................................... 93
Introduction ........................................................................................................... 93
Etude de la liaison entre une variable quantitative et une variable qualitative ..... 93
Comparaison des moyennes de deux sous-populations .................................... 93

v
Cas des grands échantillons (n1 et n2  30) ................................................... 94
Cas des petits échantillons (n1 ou n2 < 30).................................................... 96
Comparaison d’une moyenne observée à une constante .................................. 98
Cas d’un grand échantillon (n  30) ............................................................. 98
Cas d’un petit échantillon (n < 30) ............................................................. 100
Séries appariées .............................................................................................. 102
Principe général .......................................................................................... 102
Cas des grands échantillons (n  30) .......................................................... 103
Cas des petits échantillons (n < 30) ............................................................ 104
Etude de la liaison entre deux variables qualitatives .......................................... 106
Introduction .................................................................................................... 106
Principe général ............................................................................................. 106
Comparaison d’une répartition observée à une répartition théorique........... 107
Comparaison de plusieurs répartitions observées.......................................... 109
Indépendance entre deux variables qualitatives ............................................. 112
Etude de la liaison entre deux variables quantitatives ........................................ 118
Indépendance : test du coefficient de corrélation ........................................... 118
Coefficient de corrélation ........................................................................... 118
Test du coefficient de corrélation ............................................................... 119
Ce qu’il faut savoir absolument .......................................................................... 122
Questions à choix multiples ................................................................................ 124
Chapitre 9 Exercices et corrections des QCM ...................................................... 125
Exercices sur les probabilités (Chapitre 3) ......................................................... 125
Exercice sur la loi Normale (chapitre 4) ............................................................. 126
Exercice sur l’estimation de la valeur informationnelle d’un signe (chapitre 5) 127
Exercices sur les test statistiques (chapitres 7 et 8) ............................................ 128
Exercice sur la comparaison de 2 distributions (chapitres 2, 6, 7, 8) ................. 130
Exercice de synthèse : le diagnostic de l’embolie pulmonaire (chapitres 1, 2, 5, 6,
7, 8) ......................................................................................................................... 131
Exercice de synthèse : le dépistage de la trisomie 21 (chapitres 3, 4, 5) ............ 136
Corrections des QCM ......................................................................................... 140
Bibliographie ............................................................................................................. 141
Annexe : Tables utiles............................................................................................... 143
Index 146

vi
Avant-propos

Objectifs du cours de statistiques en PASS

Objectifs généraux
L’introduction des biostatistiques en PASS est une initiation méthodologique à
l’analyse et au traitement des données en biologie et en médecine. Elle présente les
concepts de base de la décision statistique : observation sur échantillon, problème de la
représentativité des échantillons, modélisation de la variabilité et de l’incertitude,
principe de l’estimation statistique et principe d’un test statistique. Elle doit fournir aux
étudiants une connaissance de base et une initiation aux méthodes d’analyses
couramment mises en œuvre dans la recherche clinique, les études épidémiologiques.
Elle doit enfin expliciter les concepts fondamentaux permettant de lire avec profit des
articles scientifiques médicaux, base de la formation médicale continue. En cela, elle
prépare la décision médicale basée sur les données établies par la science.
On préférera dans la présentation des concepts, l’éclairage méthodologique à
l’éclairage « mathématique », « formel » ou « calculatoire ».

Objectifs spécifiques
L’étudiant doit savoir :
Reconnaître le type d’une variable observée (quantitative, ordinale, qualitative) ;
 Choisir une représentation pour décrire une variable observée sur un échantillon
suivant son type :
 caractéristiques de tendance centrale : moyenne, fréquence, mode, médiane,
quantiles
 caractéristiques de dispersion : variance, écart-type, étendue, intervalle inter-
quartile
 caractéristiques de distribution : tableau de fréquences
 représentations graphiques : diagramme en bâtons, histogramme, camembert
 Définir un évènement élémentaire et la notion de probabilité qui lui est attachée ;
 Définir deux évènements indépendants, deux évènements incompatibles ;
 Préciser clairement les évènements auxquels on s’intéresse dans un problème
donné, formuler en termes de probabilité les données d’un problème ;
 Définir une probabilité conditionnelle et une probabilité composée :
 Application : définir la notion de taux de survie, de son estimation, méthode
de calcul d’une courbe de survie
 Énoncer le théorème de Bayes ;
 Définir les indicateurs de la valeur informationnelle d’un signe : sensibilité,
spécificité, valeur prédictive positive, valeur prédictive négative ;
 Définir une variable aléatoire (v.a.) ;
 Définir une loi de distribution d’une v.a., l’espérance mathématique et la
variance d’une v.a. ;
 Énoncer les propriétés remarquables de la loi Normale (symétrie, centrée,
réduite), les applications pratiques qui en découlent (table), l’utilisation pratique
de la table ;
 Définir la loi de distribution d’une v.a. à deux dimensions ;
 Définir la notion de corrélation et d’indépendance entre deux variables
aléatoires ;
 Définir une population, un échantillon et un échantillon représentatif d’une
population ;
 Définir le problème de l’estimation d’un paramètre d’une variable aléatoire :
 estimation ponctuelle (moyenne et fréquence)
 connaître les définitions et savoir estimer une prévalence, une incidence, la
sensibilité et la spécificité d’un signe pour un diagnostic donné, estimation du
risque relatif
 estimation par intervalle (intervalle de confiance)
 calculer le nombre de sujets pour obtenir une certaine précision de
l’estimation
 Définir le principe d’un test statistique, test d’hypothèses ;
 Connaître les tests à appliquer et leurs conditions d’applications dans les
situations suivantes :
 tests de comparaison d’une moyenne à une constante, test de comparaison de
moyennes
 test pour séries quantitatives appariées
 test de comparaison d’une répartition à une répartition théorique, 2
 test de même répartition d’un caractère qualitatif dans 2 populations,
exemple : test du risque relatif égal à 1
 Énumérer les différentes étapes de réalisation d’un test statistique ;
 Formuler les hypothèses nulle (H0) et alternative (HA) ;

viii
 Définir et choisir le risque de première espèce () définir le risque de deuxième
espèce () ;
 Choisir un test en fonction des données du problème (conditions de validité du
test) ;
 Calculer la valeur observée de la statistique du test ;
 Conclure (rejet ou non de l’hypothèse nulle au risque  choisi), donner le degré
de signification ;
 Connaître la notion de puissance du test (1 - ) sous l’hypothèse alternative ;
 Définir et réaliser le test d’indépendance (pour variable quantitative et variable
qualitative).

Bibliographie
Dans le cadre de la préparation du concours de PASS, l’assiduité aux cours et ce
polycopié doivent permettre de donner à l’étudiant(e) les connaissances suffisantes. Ce
document a été élaboré pour lui éviter de consulter d’autres ouvrages où, en particulier,
 les notations utilisées peuvent varier et constituer une gêne importante ;
 les questions traitées ne sont pas toutes au programme du PASS dans notre
Faculté.
Toutefois, nous recommandons l’ouvrage « Biostatistique. Beuscart R. et al. Paris :
Omniscience, 2009 » réalisé par le Collège des enseignants d'informatique médicale,
biomathématiques, méthodes en épidémiologie et statistique (CIMES).
Nous fournissons également à la fin du document quelques références d’ouvrages
pour pouvoir aller plus loin...

Notations et typographie
Les traits verticaux que l’on retrouve dans la marge signalent des définitions
importantes.
Les mots en caractères gras soulignent des notions importantes que l’on retrouve
le plus souvent dans l’index à la fin de l’ouvrage.
Les paragraphes en italiques présentent les exemples.

ix
Chapitre 1 Introduction générale aux
statistiques

Généralités

Population, échantillon
La méthode statistique, en général, a pour but de dégager certaines propriétés d’un
ensemble de mesures (ou d’observations) ou de décrire cet ensemble (appelé
population pour des raisons historiques).
Une population peut être tout aussi bien un groupe d’êtres humains, un ensemble
d’objets ; tous ces éléments ayant en commun un attribut ou une propriété qui
caractérise cet ensemble d’éléments (exemple : les individus de sexe masculin).
Généralement, le statisticien n’étudie pas le caractère sur l’ensemble de la
population mais sur un échantillon extrait de la population, pour plusieurs raisons,
entre autres :
 La taille de la population peut être très importante et le coût de l’enquête serait
trop important ;
 L’accès à tous les individus de la population est matériellement impossible ;
 L’étude du caractère peut détruire les éléments de la population.
Le nombre d’éléments constituant l’échantillon est appelé l’effectif ou la taille de
l’échantillon.
Un bon échantillon doit constituer une image réduite de l’ensemble de la population
dont on veut étudier un caractère bien défini. Dans le cas contraire, on dit que
l’échantillon est biaisé.
Le choix de l’échantillon, le recueil des données nécessaires à l’étude que l’on se
propose de conduire, constituent la partie fondamentale, la plus longue, de l’étude.
Afin de généraliser les résultats obtenus sur l’échantillon, on désire que celui-ci
représente le mieux possible la population cible c’est à dire celle sur laquelle porte
l’étude.

Échantillonnage
Comment choisir un échantillon pour qu’il soit représentatif ?
Généralités

Il existe plusieurs techniques d’échantillonnage :

Tirage au hasard
Un échantillon ne doit en aucun cas être choisi par commodité. Afin de disposer
d’un échantillon représentatif, il faut le constituer d’une manière « aléatoire » : on
peut pour cela procéder à un véritable tirage au sort ou bien utiliser des tables de
nombres aléatoires qui ont été construites à cet effet.
On peut constituer un échantillon par un tirage au hasard dans toute la population ou
bien par des procédés plus complexes comme la stratification.

Stratification
On subdivise la population en sous-groupes (ou strates) et on choisit ensuite
l’échantillon en tirant au sort dans chacune des strates. Chaque strate peut être
représentée en fonction de son importance dans la population.
Exemples :
1. Si l’on veut faire une enquête épidémiologique sur l’hypertension
artérielle, on pourra constituer un échantillon qui sera un modèle réduit de
la population étudiée. En stratifiant de telle sorte qu’il respecte les mêmes
proportions que la composition de la population quant aux catégories
socioprofessionnelles, aux tranches d’âges, au sexe …
2. Dans un essai thérapeutique d’un traitement anticancéreux, on pourra
définir les strates en tenant compte des facteurs pronostiques tels que :
taille de la tumeur, extension loco-régionale, métastase à distance, …
Il faut remarquer qu’il n’est pas toujours facile de prélever un bon échantillon. Le
prélèvement de l’échantillon doit être fait au hasard. Nous allons voir sur un exemple
les difficultés qui peuvent être rencontrées dans le choix des échantillons :
Exemple :
On se propose d’étudier le pourcentage de décès dans la population
française des sujets atteints d’un infarctus du myocarde.
On peut constituer un échantillon en observant les décès des malades qui
ont été hospitalisés dans un service hospitalier donné. Le biais introduit, si
la population « cible » est la population de tous les français, est évident.
En effet, le service hospitalier a un recrutement particulier et une
renommée telle qu’il hérite, peut-être, de malades plus graves, ou d’une
catégorie sociale dont le genre de vie, l’alimentation, l’âge, …, sont des
facteurs pronostiques qui peuvent modifier l’issue de la phase aiguë.
Un échantillon représentatif de la population française atteinte d’un
infarctus du myocarde pourrait être obtenu par tirage au sort sur tous les
cas d’infarctus du myocarde recensés en France. Toutefois on ne les
connaît pas tous et il est toujours possible d’introduire un biais.

2
Problème de l’estimation

Problème de l’estimation
Il s’agit d’évaluer un paramètre (une caractéristique) sur un échantillon pour pouvoir
estimer ce paramètre pour la population entière. Le problème de l’estimation est
développé plus loin.
Exemple :
Évaluation, à partir de la mesure de la glycémie pratiquée sur un
échantillon de sujets sains ayant entre 20 et 40 ans, de la valeur moyenne
de la glycémie pour tous les sujets sains de cette tranche d’âge.
Si l’on veut que cette estimation soit aussi précise que possible, il est
nécessaire que l’échantillon soit aussi représentatif que possible de la
population.

Les tests statistiques


Il s’agit de tirer des conclusions sur la population à partir de l’étude d’un ou
plusieurs caractères observés sur les individus d’un ou de plusieurs échantillons issus
de cette population.
Ce problème inclut celui de la comparaison de caractéristiques (une ou plusieurs)
issues de 2 ou plusieurs populations (comparer la glycémie moyenne des sujets urbains
et des sujets ruraux). Il trouve sa solution dans les tests statistiques qui sont des tests
d’hypothèses. Ils permettent de faire des inférences statistiques.
Les hypothèses que l’on veut tester sont imposées par construction du test
(développé plus loin).

3
Chapitre 2 Statistique descriptive

Buts de la statistique descriptive


Toute série d’observations comporte un certain nombre de données relatives à un ou
plusieurs caractères ou encore variables. Le but des statistiques descriptives est de
décrire un ensemble d’observations à l’aide de quelques éléments caractéristiques.
Exemple : la taille des français adultes.
Dans ce cas, les mesures seront nombreuses, le tableau des données, c’est-
à-dire la liste des tailles de tous les sujets, ne donnera, au premier abord,
aucun renseignement clair. Grâce aux statistiques descriptives, on
caractérisera cet ensemble d’individus par un moyen simple qui réduira le
nombre de données. Par exemple, si on s’intéresse à la taille, on procédera
au calcul de la valeur moyenne de la taille. De cette façon, il est certain
que l’on perd de l’information, mais on gagne en commodité de
présentation des données.
Pour présenter les données, le premier travail consiste donc à rassembler et à
présenter clairement les observations. Plusieurs cas sont à envisager suivant le type des
données recueillies.

Les différents types de données

Données de type qualitatif


Un caractère est qualitatif s’il peut se présenter sous plusieurs aspects ou suivant
plusieurs modalités. Ces données donnent lieu à des dénombrements.
Exemples :
Le sexe, la couleur des yeux, l’efficacité ou la non efficacité d’un
traitement, la nature des cellules d’un tissu, le groupe sanguin, …
On est amené à définir des catégories ou classes exclusives correspondant aux
différentes modalités du caractère observé, puis à déterminer à quelle classe appartient
chaque individu. Un individu appartient à une classe et une seule.

Données de type ordinal


Il est possible qu’il existe entre les diverses classes une relation d’ordre, telle que par
Caractérisation des données qualitatives et ordinales unidimensionnelles

exemple : plus grave que …, de meilleur pronostic que …


Le caractère observé est alors de type ordinal.
Exemple :
Classification en stades 1, 2, 3, 4 des patients atteints de la maladie de
Hodgkin.
Les malades au stade 2 sont plus gravement atteints que ceux qui sont
classés au stade 1, …
Le mécanisme de base reste le même : on affecte chaque individu à une classe et une
seule. Toutefois, notons qu’il existe un ordre sur les classes.

Données de type quantitatif


Une variable quantitative prend pour valeur un nombre résultant de la mesure, avec
une unité, du caractère chez chaque individu. La mesure est telle qu’une même
différence entre des valeurs observées a toujours la même signification.
Exemple de la mesure de la taille :
Soit 4 individus A, B, C, D dont les tailles sont exprimées en centimètres :
A = 175 cm ; B = 180 cm ; C = 165 cm ; D = 170 cm.
(On peut dire que 180 - 175 = 170 - 165 = 5 cm).
Un caractère quantitatif est discret ou continu suivant qu’il est susceptible de
prendre des valeurs isolées ou bien toutes les valeurs de son intervalle de variation.
Exemples de caractères quantitatifs discontinus (ou discrets) : nombre
d’enfants dans une fratrie, nombre de cellules par mm3, …
Exemples de caractères quantitatifs continus : tension artérielle,
glycémie, …

Caractérisation des données qualitatives et ordinales


unidimensionnelles

Fréquence absolue et tableau des effectifs


La fréquence absolue est le nombre d’individus par classe. Ce dénombrement
donne lieu à une représentation des données sous forme de tableau.
Exemple :
On a dénombré sur un ensemble de 180 sujets, les individus qui
appartenaient aux différents groupes sanguins (Tableau 2.1).

A+ A- B+ B- AB+ AB- O+ O-
80 10 20 5 5 2 50 8
Tableau 2.1 : Description de l’échantillon des groupes sanguins.

6
Caractérisation des données qualitatives et ordinales unidimensionnelles

Sur les classes ainsi formées, seules les opérations suivantes sont permises : réaliser
des classes disjointes à partir d’une seule classe, ou bien regrouper certaines classes.
La seule relation qui puisse être utilisée sur ces données est la relation d’appartenance
à une même classe.
Exemple (suite) :
Sur l’exemple ci-dessus, on pourrait regrouper les classes correspondant
aux rhésus + ou -, ou ignorer le rhésus pour former les groupes A, B, AB,
O (Tableau 2.2).

A B AB O
90 25 7 58
Tableau 2.2 : Description de l’échantillon des groupes sanguins sans facteur rhésus.

Fréquences relatives
On peut définir les fréquences relatives qui sont, pour chaque classe, le rapport de
son effectif au nombre total d’individus de la série des mesures.
La somme des fréquences relatives est égale à 1.
Parfois, les résultats sont exprimés en pourcentage, chacune des fréquences relatives
étant multipliée par 100 (Tableau 2.3).

A B AB O
50 14 4 32
Tableau 2.3 : Fréquences relatives (exprimées en pourcentage et arrondies à l’unité).

Fréquences cumulées (relatives et absolues)


Les fréquences cumulées sont utilisées pour les données ordinales qui présentent
des classes ordonnées.
Exemple :
Sur un échantillon de 500 malades cancéreux, on a noté le stade de la
maladie. On peut résumer ou présenter ces données par des fréquences
relatives. Les résultats obtenus sont présentés par la figure 2.4.

7
Caractérisation des données qualitatives et ordinales unidimensionnelles

Nombre de Fréquence relative Fréquence relative


Stade
malades (%) cumulée (%)
1 350 70 70
2 110 22 92
3 30 6 98
4 10 2 100
Tableau 2.4 : Répartition du stade de la maladie.

Cette présentation permet de dire, par exemple, que 92% des sujets
examinés ont un stade inférieur ou égal à 2.

Diagramme « camembert »
On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de
cercle dont la surface est proportionnelle à l’effectif.
Le diagramme « camembert » ainsi construit est bien adapté à la représentation des
données qualitatives « pures » (exemple Tableau 2.5 et Figure 2.1).

Yeux Marron Vert Bleu Noir


Effectif 50 10 28 12
Tableau 2.5 : Couleur des yeux dans un échantillon de 100 sujets.

Figure 2.1 : Diagramme en camembert.

Diagramme en bâtons, mode

Diagramme en bâtons
Pour les données ordinales, on peut également représenter les fréquences absolues,
relatives ou cumulées par un diagramme en bâtons.
Exemple :
L’exemple de l’échantillon des 500 cancéreux dont on a noté le stade est
représenté sur la Figure 2.2.

8
Caractérisation des données qualitatives à deux dimensions

Figure 2.2 : Diagramme en bâtons des stades de la maladie.

Mode
Sur l’exemple de la Figure 2.2, la classe caractérisée par le stade 1 est la classe qui
contient le plus grand nombre de sujets ; c’est le mode ou classe modale. Le mode est
la classe (catégorie) qui offre la plus grande fréquence
Dans le cas de variables ordinales, si les données montrent plusieurs classes
d’effectifs supérieurs aux effectifs des classes adjacentes, on dit que le diagramme
représente une distribution multimodale : bi-modale, tri-modale, … Dans le cas
contraire, on dit que la distribution est uni-modale.

Caractérisation des données qualitatives à deux dimensions


Les modalités de deux variables qualitatives permettent de constituer des classes
exclusives, auxquelles nous affectons chaque observation, classiquement représentées
sous la forme d’un tableau appelé tableau de contingence.
Exemple :
Dans un échantillon de 200 sujets on a relevé la présence ou l’absence
d’un signe clinique S et d’une maladie M (Tableau 2.6).

M+ M- Total
S+ 90 30 120
S- 30 50 80
Total 120 80 200
Tableau 2.6 : Tableau de contingence (les malades présentant la maladie sont dénombrés dans
la colonne M+, les autres dans la colonne M-).

Ce tableau comporte deux parties :


 Les effectifs dénombrés pour chacune des modalités, pour chacun des deux
caractères étudiés ;

9
Caractérisation des données quantitatives à une dimension

 Les effectifs de chaque modalité d’un caractère, quelles que soient les modalités
de l’autre caractère. Ces effectifs sont situés dans la dernière colonne et la
dernière ligne.
La dernière ligne et la dernière colonne sont appelées : les « marginales », (marge
ligne et marge colonne) ou encore « distributions marginales ».

Caractérisation des données quantitatives à une dimension

Généralités
Nous avons déjà vu que les variables quantitatives peuvent être de deux types :
variables discontinues (ou discrètes) et variables continues.
Dans le cas des variables discontinues, il est possible de représenter les données par
un diagramme en bâtons, comme dans le cas de données ordinales.
Dans tous les cas, on peut diviser l’intervalle de variation de la variable en un certain
nombre de classes et l’on dénombre toutes les mesures à l’intérieur de chaque classe.
Exemple :
Soit la série de mesures représentant les âges de 20 individus, rangées par
ordre croissant :
3, 5, 6, 7, 8, 11, 15, 20, 21, 22, 23, 23, 23, 30, 31, 32, 35, 36, 40, 45.
On peut décider de déterminer des classes d’âge de 10 ans en 10 ans1 : 0 -
10 ans, 10 - 20 ans, 20 - 30 ans, 30 - 40 ans, 40 - 50 ans. On transforme
ainsi la série qui peut se représenter dans le tableau des fréquences
(Tableau 2.7).
Classe Effectif / classe
0 - 10 ans 5
10 - 20 ans 2
20 - 30 ans 6
30 - 40 ans 5
40 - 50 ans 2
Tableau 2.7 : Effectifs par classe.

Histogramme
Les données quantitatives continues peuvent être représentées par un
histogramme.

1
Nous adoptons la convention suivante : la borne supérieure de l’intervalle est
exclue.

10
Caractérisation des données quantitatives à une dimension

Dans un système d’axes on se propose de représenter le Tableau 2.7. On porte sur


l’axe des abscisses les extrémités de chaque classe et pour chacune d’elles on construit
un rectangle dont la base est le segment limité aux extrémités de la classe et la surface
est proportionnelle à l’effectif de la classe. La surface limitée par la ligne polygonale
obtenue en bordant la partie supérieure de l’ensemble des rectangles s’appelle
l’histogramme (Figure 2.3).

Figure 2.3 : Histogramme.

Un tel histogramme est tracé en respectant deux règles :


 L’échelle sur l’axe des abscisses est identique pour tous les intervalles de
classes ;
 La surface de chacun des rectangles est proportionnelle au nombre d’individus
de la classe.
La deuxième règle se simplifie si les intervalles de classe ont tous la même largeur.
Cette simplification est très souvent utilisée. En effet quand les intervalles de classe
sont de même largeur, la hauteur du rectangle est proportionnelle à l’effectif, ce qui
facilite la lecture de l’histogramme.
Le contour polygonal joignant les milieux des bases supérieures des rectangles
s’appelle le polygone des fréquences (Figure 2.4).

Figure 2.4 : Histogramme et polygone des fréquences.

Si on augmente le nombre des classes, de même largeur, recouvrant l’étendue de


l’échantillon, l’intervalle de chaque classe devenant très petit, on peut admettre, à
condition que la population soit « infinie », que l’histogramme et le polygone des
fréquences se « rapprochent », et que leur limite commune est une courbe continue
(Figure 2.5).

11
Caractérisation des données quantitatives à une dimension

Figure 2.5 : Courbe de fréquences et distribution de fréquences.

Cette courbe est dite « courbe des fréquences ». Si l’on rapporte la fréquence
absolue de chaque classe à l’effectif total de l’échantillon, on obtient la fréquence
relative par classe.
L’ensemble des classes affectées de leur fréquence constitue une distribution de
fréquences.
Quand le nombre de classes tend vers l’infini, le polygone des fréquences devient
une ligne continue : la courbe des fréquences.

Paramètres statistiques décrivant un ensemble de mesures quantitatives


En général, il est intéressant de présenter de façon simple et abrégée les
caractéristiques principales de l’ensemble des mesures qui ont été effectuées sur un
échantillon ou une population.
On utilise dans ce but quelques grandeurs numériques appelées paramètres de la
distribution qui peuvent être réparties en deux catégories.
On distingue :
 Les paramètres de position : moyenne, médiane, mode, quantiles ;
 Les paramètres de dispersion : variance, écart-type, intervalle inter-
quartile.
Ces paramètres font partie des grandeurs statistiques que l’on nomme parfois
« statistiques ». On dira par exemple que le calcul de la moyenne est le calcul d’une
statistique.

Paramètres de tendance centrale ou de position


Ces paramètres définissent l’ordre de grandeur des mesures effectuées, c’est-à-dire
de l’ensemble des mesures de la distribution. Ce sont les valeurs autour desquelles se
groupent les différentes mesures effectuées sur l’échantillon.

La moyenne
La valeur centrale la plus utilisée est la moyenne arithmétique des mesures, c’est-à-
dire le rapport de la somme des mesures au nombre de mesures effectuées.
On peut caractériser la tendance centrale par la moyenne notée

12
Caractérisation des données quantitatives à une dimension

1 n n
x 
x   xi    i 
n i 1 i 1  n 

La moyenne s’exprime dans les mêmes unités que les valeurs observées.
Usuellement on note {x1, x2, …, xn} la série de mesures, x la moyenne et n
l’effectif.
Exemple :
Considérons la série de mesures constituée par les poids de 5 individus
(poids exprimés en kilogrammes) : 70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0. La
moyenne est égale à 72 kg.

La médiane
La médiane est la valeur qui laisse de part et d’autre un nombre égal d’observations.
C’est donc un nombre de même nature et de même unité que les valeurs observées.
Pour déterminer la médiane d’une série de nombres, il est nécessaire d’ordonner
cette série de mesures.
Exemple (suite) :
Dans l’exemple précédent, il faut ordonner les poids : 68,5 ; 70 ; 72,5 ;
73,0 ; 76,0.
La médiane est égale à 72,5 Kg car il y a autant de mesures inférieures à
72,5 que de mesures supérieurs à 72,5.
Deux cas peuvent se présenter :
 Si n est impair (n = 2k + 1), la médiane est la valeur de la mesure qui se situe au
milieu de la série de mesures ordonnées : c’est xk + 1.
 Si n est pair (n = 2k), on appelle médiane toute valeur comprise entre xk et xk + 1.
En effet, il n’y a pas de valeur observée qui soit au milieu de la série de mesures.
En général, on prend pour valeur de la médiane (xk + 1 + xk)/2.
Remarques :
1. La médiane est moins influencée que la moyenne arithmétique par les valeurs
extrêmes.
En effet, si dans la série précédente, le plus petit des poids, c’est-à-dire
68,5 kg est remplacé par 55 kg, la moyenne est influencée alors que la
médiane reste identique.
2. La médiane peut aussi être utilisée dans le cas des données ordinales, puisque sa
détermination se base sur l’ordre des données.

Le mode
Le mode, encore appelé valeur dominante, est la valeur de la variable dont la
fréquence est maximale.
Si les données sont affectées à des classes, on parle de classe modale. La classe
modale est celle dont la fréquence est maximale. C’est, dans le cas d’une courbe

13
Caractérisation des données quantitatives à une dimension

continue des fréquences, l’abscisse du point d’ordonnée maximale.


Si la distribution de fréquences est symétrique et unimodale (Figure 2.6), moyenne,
médiane et mode sont confondus.

Figure 2.6 : Distributions symétrique et dissymétrique.

Dans certaines distributions, il peut n’y avoir qu’un petit nombre d’observations
dans le voisinage de la moyenne ou de la médiane (Figure 2.7).

Figure 2.7 : Moyenne et dispersion.

On remarque, sur la Figure 2.7 qu’aucune valeur de X ne se trouve près de la


moyenne et de la médiane.
Une distribution peut avoir plusieurs classes modales, elle est dite alors : bimodale,
trimodale, …, plurimodale (plusieurs classes dont les effectifs sont grands, séparées
par des classe à effectifs faibles). Une telle distribution traduit généralement un
échantillon d’individus hétérogènes.
Remarque
Propriété de la moyenne :
Soit la série {x1, x2, …, xn} de moyenne x et deux constantes a et b.
Considérons la série : {y1, …, yn} telle que :
y1 = ax1 + b, y2 = ax2 + b, …, yn = axn + b,
soit : {ax1 + b ; … ; axn + b}.
La moyenne de cette nouvelle série y est égale à : y  ax  b .

14
Caractérisation des données quantitatives à une dimension

Les quantiles
Les quantiles sont les valeurs de la variable qui divisent l’échantillon ordonné en
groupes d’effectifs égaux.
Les quantiles portent des noms différents selon le nombre de groupes souhaités :
quartiles pour 4 groupes, déciles pour 10 groupes, percentiles pour cent groupes.
Les quartiles : Pour séparer les valeurs de la variable en quatre groupes d’effectifs
égaux, il faut trois valeurs appelées quartiles. Les quartiles sont les valeurs Q1, Q2 et
Q3 de la série X qui partagent l’effectif total, après l’avoir ordonné, en 4 classes de
même effectif.
Entre la valeur minimum de la série et le premier quartile Q1, on retrouve un quart
des observations. Un autre quart des observations se retrouve entre le premier quartile
Q1 et le deuxième quartile Q2. Entre Q2 et Q3 on retrouve également un quart des
valeurs, de même entre Q3 et la valeur maximum. Comme nous le verrons dans la
partie « Paramètres de dispersion », les valeurs des quantiles sont utilisées pour définir
des intervalles.
Notons que le deuxième quartile n’est autre que la médiane.
Exemple :
Soit une série des âges de n = 20 individus : 3, 5, 6, 7, 8, 11, 15, 20, 21, 22,
23, 23, 23, 30, 31, 32, 35, 36, 40, 45.
L’effectif de chaque quartile est donc de 5.
La valeur qui sépare le 1er groupe du 2ème est donc située entre 8 et 11.
Toute valeur comprise entre 8 et 11 peut être retenue comme premier
quartile, toute valeur entre 22 et 23 comme deuxième quartile et toute
valeur comprise entre 31 et 32 comme troisième quartile.
Les percentiles : Les percentiles définissent 100 groupes d’effectifs correspondants
chacun à 1 % de l’effectif de l’échantillon. Le 50ème percentile est à la médiane.

Paramètres de dispersion
La moyenne ne suffit pas pour caractériser un ensemble de données.
Exemple :
La valeur moyenne de la série suivante : 1, 8, 9, 10, 11, 12, 19 est égale à
10.
La valeur moyenne de la série 8, 8, 9, 10, 11, 12, 12, est aussi égale à 10.
Dans le deuxième cas, la dispersion des mesures autour de la moyenne 10
est beaucoup moins importante que dans le premier cas.
Ces situations correspondent aux schémas de droite de la Figure 2.8.

15
Caractérisation des données quantitatives à une dimension

Figure 2.8 : Paramètres de dispersion et de position.

Variance et écart-type
Le paramètre le plus efficace pour rendre compte de la dispersion d’une série de
mesures est la variance, ou sa racine carrée : l’écart-type.
Variance : La variance est définie comme la moyenne arithmétique des carrés des
écarts à la moyenne de l’échantillon.
Cette définition répond à la formule :
n
 x i  x 2
Var  X   
i 1 n
où x est la moyenne de la série de mesures et n l’effectif.
Attention : Var(X) est la variance de l’échantillon, ce n’est ni la variance de la
population dont est issu l’échantillon, ni l’estimation de la variance de la population
(cf. chapitre « Estimation ponctuelle et intervalle de confiance »).
Ecart-type : afin de disposer d’un indice de dispersion qui s’exprime dans la même
unité que la grandeur mesurée, on considère, en général, la racine carrée de la
variance : l’écart-type.

Ecart-type  X   Var  X 

Exemple :
Calcul de la variance et de l’écart-type de la mesure des poids de 5
individus dans un échantillon de moyenne 72 kg (Tableau 2.8) :

Individus 1 2 3 4 5 total
xi 70 68,5 72,5 73 76
xi  x  -2 -3,5 +0,5 +1 +4 0

 x i  x 2 4 12,25 0,25 1 16 33,5

Tableau 2.8 : Disposition des calculs pour la variance.

D’où la variance : 33,5 / 5 = 6,7 Kg2 et l’écart-type : 2,59 Kg.

16
Caractérisation des données quantitatives à deux dimensions

Propriété de la variance :
Soit la série {x1, x2, …, xn} de moyenne x , de variance Var(X) et deux
constantes a et b.
Considérons la série {y1, …, yn} sachant que yi = axi + b
soit {y1 = ax1 + b, y2 = ax2 + b, …, yn = axn + b}.
Le calcul montre que la variance de cette nouvelle série (que nous noterons
Var(Y) est égal à :
Var(Y) = a2Var(X)

Ecart-type Y  | a |  Var  X  | a | Ecart-type  X 

Autres paramètres de dispersion.


Etendue : On définit l’étendue e d’une série de mesures comme la différence entre
la plus grande et la plus petite valeur de la série :
e = xmax - xmin
L’intervalle inter-quartile représente 50 % des observations centrées en probabilité
sur la médiane. Ses bornes sont Q1 et Q3. La largeur de cet intervalle, égale à Q3 - Q1,
donne une idée de la dispersion des données : plus cette largeur est faible, plus les
données sont groupées.
Remarque
Mode, médiane, quantiles peuvent être utilisés dans le cas de données ordinales.

Caractérisation des données quantitatives à deux dimensions

Introduction
Considérons des mesures X et Y effectuées sur un échantillon d’effectif n. Deux
mesures sont effectuées sur le même individu « i » : xi et yi.
Exemple :
On peut mesurer chez n individus la concentration sanguine du potassium
et du chlore. Nous obtenons pour chaque individu i le couple de mesures
(xi , yi).

Représentation dans le plan


En reportant ces valeurs sur deux axes, on peut construire le point du plan
correspondant aux coordonnées xi et yi. L’ensemble des points constitue « un nuage de
points ». L’aspect de ce nuage est important à observer.
Caractérisation des couples (xi , yi)
Chacune des observations (xi , yi) est représentée par un point.
Le point ayant pour coordonnées x , y  représente le point « moyen » (Figure 2.9).

17
Caractérisation des données quantitatives à deux dimensions

Ce point, noté G, dont les coordonnées sont les moyennes des deux séries
d’observations, s’appelle : « centre de gravité ».

Y G

0 X x

Figure 2.9 : Nuage de points.

Nous avions caractérisé la dispersion d’une donnée quantitative par la variance.


D’une manière analogue, nous caractériserons la dispersion des points de coordonnées
(xi , yi) par la moyenne du produit des écarts, pour chaque point, entre ses coordonnées
et leurs valeurs moyennes. Nous définissons ainsi une nouvelle grandeur appelée
covariance.
1 n
Covar  X , Y     xi  x    y i  y 
n i 1

Coefficient de corrélation
Le coefficient de corrélation, noté r, est une grandeur qui reflète la dispersion des
couples (xi , yi) en fonction de la dispersion observée pour chacune des deux séries de
mesures X et Y.
Covar  X , Y 
r
Var  X   Var Y 
Remarque
Le coefficient de corrélation r est un nombre sans dimension. On montre qu’il est
compris entre -1 et 1.

18
Ce qu’il faut savoir absolument

Ce qu’il faut savoir absolument


Représentation des différents types de données
Type de Représentation
Présentation des données Données à 2 dimensions
données graphique
Dénombrement par classes
Tableau de contingence
Qualitatif Fréquences absolues Camembert
Regroupement libre
Fréquences relatives
Dénombrement par classes
ordonnées
Tableau de contingence
Ordinal Fréquences absolues Diagramme en bâton Regroupement des classes
Fréquences relatives contiguës
Fréquences cumulées
Tableau des mesures
Nuage de points
Paramètres de tendance
Quantitatif centrale (ex : moyenne) Histogramme Covariance
Paramètres de dispersion Coefficient de corrélation
(ex : variance, écart-type)

Paramètres de tendance centrale d’une série d’observations


Paramètre
Type de données Calcul Unité
central
1 n
Quantitatif Moyenne x   xi Celle des xi
n i 1
Valeur(s) qui sépare(nt) l’ensemble des
Médiane données ordonnées en deux sous- Celle des xi
Quantitatif ensembles de même effectif
ou Mode Classe de plus grand effectif Celle des xi
Ordinal Valeur de la variable divisant l’ensemble
Quantiles ordonné des données en sous-ensembles Celle des xi
d’effectifs égaux

19
Question à choix multiples

Paramètres de dispersion d’une série d’observation


Paramètre de
Type de données Calcul Unité
dispersion
n
 x i  x 2
Variance Var  X    Celle des xi au carré
Quantitatif i 1 n

Ecart-type Var  X  Celle des xi

Quantitatif Différence entre les valeurs du


Intervalle
ou troisième et du premier Celle des xi
inter-quartile
Ordinal quartiles : Q3 – Q1

Question à choix multiples


QCM 1 : Concernant le calcul des valeurs des quartiles :
A. Le deuxième quartile (Q2) correspond à la médiane.
B. L’intervalle inter-quartile est l’intervalle entre deux quartiles (Q3 - Q2 par
exemple).
C. 50 % des mesures sont comprises entre le premier et le troisième quartile.
D. Le calcul des quartiles est possible quel que soit le type des données (qualitatif,
ordinal, quantitatif).
E. Pour calculer les quartiles, il est nécessaire d'ordonner au préalable la série de
mesures.

20
Chapitre 3 Notions de probabilité

Introduction
Le calcul de probabilité permet de modéliser des phénomènes aléatoires, c’est-à-
dire des phénomènes pour lesquels les issues sont connues mais dont on ne peut en
prédire la valeur car leur réalisation est incertaine.
Exemple :
Concernant le sexe, les seules issues possibles, et connues, sont
« masculin » et « féminin ». Cependant, pour un couple qui le désire, il
n’est pas possible de prédire de manière certaine quel sera le sexe d’un
enfant.
L’observation des issues d’un phénomène sur des séries suffisamment grandes
permet d’en déterminer leurs fréquences et par suite de connaître la loi qui le dirige (cf.
section « Probabilités élémentaires »). Le calcul des probabilités permet de modéliser
ces phénomènes aléatoires en attribuant à chacune de ses issues possibles une
vraisemblance plus ou moins grande.
Exemple (suite) :
On considère généralement que la probabilité d’être de sexe masculin est
la même que la probabilité d’être de sexe féminin, soit 0,5.

Evènements

Définitions

Ensemble fondamental
C’est l’ensemble des issues possibles d’un phénomène aléatoire, c’est-à-dire d’une
expérience que l’on appelle généralement une épreuve.
Exemple :
Le système ABO comporte 3 allèles : A, B et o. A et B sont co-dominants et
dominent o. {AA, Ao, AB, BB, Bo, oo} est l’ensemble fondamental
concernant le génotype d’un individu.
L’épreuve est la détermination du groupe sanguin d’un individu tiré au
sort.
Evènements

Evènements
Un événement correspond à un sous-ensemble d’un ensemble fondamental. On
considère deux types d’évènements :
 Un évènement élémentaire correspond à une seule éventualité. L’ensemble des
événements élémentaires constitue l’ensemble fondamental ;
 Un évènement composé correspond à la réunion (un regroupement)
d’évènements élémentaires.
Par exemple, AA, AB et Ao sont des événements élémentaires alors que le
groupe sanguin A (individus AA ou Ao) est un événement composé.
L’ensemble fondamental est constitué des événements élémentaires AA, Ao,
AB, BB, Bo et oo.

Opérations sur les évènements


Il est possible de combiner des événements entre eux pour former de nouveaux
événements. Soient E1 et E2 deux événements, on peut alors définir les opérations
suivantes :

Union
C = E1  E2 : l’événement C est réalisé si et seulement si E1 est réalisé OU E2 est
réalisé OU les deux sont réalisés.
Exemple :
BB  Bo = Groupe sanguin B.
L’opération union permet donc de déterminer un événement composé.

Intersection
C = E1  E2 : l’événement C est réalisé si et seulement si E1 ET E2 sont réalisés tous
les deux.
Exemple :
Allèle o  homozygote = Groupe sanguin o.

Complémentarité
C = non E1 : l’événement C est réalisé si et seulement si E1 n’est pas réalisé.
Exemple :
Non allèle A est réalisé si le groupe sanguin est B ou o.
Remarque : On distingue 2 évènements particuliers :
 L’événement toujours réalisé ou évènement certain contenant tous les résultats
possibles est noté  : E1  non E1 = .
 L’événement jamais réalisé ou événement impossible qui ne contient aucun des
résultats possible est noté  : E1  non E1 = .

22
Probabilités

Evènements incompatibles ou disjoints


Deux événements sont incompatibles ou disjoints s’ils ne peuvent pas être réalisés
simultanément, c’est-à-dire que leur intersection est l’événement impossible :
E1  E2 = .
Exemple :
Groupe sanguin A et B sont disjoints car aucun individu n’est à la fois du
groupe sanguin A et du groupe sanguin B.
Remarque 1 : deux événements élémentaires distincts sont disjoints.
Remarque 2 : un ensemble d’événements correspond à des événements
élémentaires munis des opérations union, intersection et complémentarité.
Exemple :
Considérons un gène ayant 2 allèles A et a (A dominant) et la descendance
de 2 hétérozygotes (Tableau 3.1) :

A a
A AA Aa
a aA aa
Tableau 3.1 : Evènements possibles pour un gène et deux allèles.

 = {AA, Aa, aA, aa}


ξ (ensemble d’événements) = AA, Aa, aA, aa, hétérozygote (Aa  aA),
homozygote (AA  aa), phénotype A (AA  Aa  aA), …

Partition
Soit ξ un ensemble d’évènements et E1, E2, …, Ek des évènements appartenant à ξ,
avec Ei   (i = 1, …, k). E1, E2, …, Ek forment une partition de  si et seulement si :
 Leur réunion est l’ensemble fondamental : E1  E2  …  Ek =  ;
 Les évènements sont deux à deux disjoints :  (i  j), (Ei  Ej) = .
Exemple :
Les groupes sanguins A, B, AB et o forment une partition.

Probabilités

Probabilités élémentaires
Soit le phénomène aléatoire « détermination du groupe sanguin dans le système
ABO » dont l’ensemble fondamental est  = {AA, Ao, BB, Bo, AB, oo}.
La répétition n fois de cette épreuve (c’est-à-dire qu’on recueille l’information
concernant le génotype sur n individus différents) permet de construire le Tableau 3.2 :

23
Probabilités

AA Ao BB Bo AB oo Total
Fréquences absolues n1 n2 n3 n4 n5 n6 n
Fréquences relatives n1/n n2/n n3/n n4/n n5/n n6/n 1
Tableau 3.2 : Fréquences observées et relatives lors de la répétition de n épreuves.

Propriétés :
 Si E est un événement quelconque et freq(E) sa fréquence relative, alors :
freq(E)  0.
 Si  est l’événement certain, alors : freq() = n/n = 1.
Par ailleurs, considérons les événements :
E1 = groupe sanguin A = AA  Ao
E2 = groupe sanguin B = BB  Bo
E3 = allèle o = Ao  Bo  oo
dont les fréquences relatives sont :
freq(E1) = (n1 + n2)/n
freq(E2) = (n3 + n4)/n
freq(E3) = (n2 + n4 + n6)/n
Considérons les événements E1 et E2 :
E1  E2 = AA  Ao  BB  Bo
E1  E2 = 
freq(E1  E2) = (n1 + n2)/n + (n3 + n4)/n = freq(E1) + freq(E2)
Considérons les événements E2 et E3 :
E2  E3 = BB  Bo  Ao  Bo  oo
E2  E3 = Bo  
freq(E2  E3) = (n2 + n3 + n4 + n6)/n
freq(E2  E3)  (n3 + n4)/n + (n2 + n4 + n6)/n = freq(E2) + freq(E3)
Ceci se généralise pour donner la propriété suivante :
 Si E1 et E2 sont 2 événements disjoints, alors : freq(E1  E2) = freq(E1) +
freq(E2).
Si le phénomène aléatoire est observé un très grand nombre de fois (n  ) nous
admettrons que la fréquence relative d’un événement tend vers une limite que l’on
appelle la probabilité de l’événement.
Exemple :
Fréquence relative du groupe sanguin AB = freq(AB)  2/100
Fréquence relative du groupe sanguin A = freq(AA) + freq(Ao)  48/100

24
Probabilités

On va alors définir une probabilité en lui attribuant les mêmes propriétés que celles
définies précédemment pour les fréquences.
Définitions
Soit ξ un ensemble d’évènements défini sur l’ensemble fondamental . On appelle
probabilité une application P qui à tout événement E associe un nombre réel telle que :
1. P(E)  0,  E  ξ
2. P() = 1
3. Si E1 et E2 sont des événements disjoints (E1  E2 = ) alors
P(E1  E2) = P(E1) + P(E2)
Remarques :
 La propriété 3 se généralise : si E1, E2, …, En sont des événements disjoints 2 à
2, alors P(E1  E2  …  En) = P(E1) + P(E2) + … +P(En)
 0  P(E)  1
 P(E) = 1 - P(nonE), puisque E  nonE =  et E  nonE = 
 P() = 0, puisque non = 
 P(E1  E2) = P(E1) +P(E2) - P(E1  E2)
Exemple :
Soit une famille dans laquelle le groupe sanguin de la mère est A (de
génotype Ao) et celui du père est AB. Quelle est la probabilité pour qu’un
enfant soit du groupe sanguin A ? (on admettra que les événements
élémentaires ont tous la même probabilité notée p).
Les événements élémentaires sont :  = {AA, AB, Ao, Bo}.
Calculons d’abord la probabilité d’un événement élémentaire :
P() = 1 = P(AA  AB  Ao  Bo)
Les événements élémentaires étant disjoints, on a :
P() = 1 = P(AA) + P(AB) + P(Ao) + P(Bo)
et puisqu’il y a 4 événements élémentaires de même probabilité, on a :
P() = 1 = 4.p et donc p = 1/4.
P(groupe A) = P(AA  Ao)
comme AA et Ao sont disjoints :
P(groupe A) = P(AA) + P(Ao) = 2/4.

Probabilités conditionnelles
Soient A et B deux événements quelconques. Dans certains cas, P(A) peut être
différente si l’événement B est déjà réalisé. Pour définir cette probabilité (probabilité
de A sachant que B est réalisé), il faut se restreindre au sous-ensemble des résultats

25
Probabilités

possibles de (A  B) au sein des résultats possibles de B. On parle alors de


probabilité conditionnelle.
Définition
Soit ξ un ensemble d’évènements définis sur l’ensemble fondamental , P une
probabilité sur ξ, A et B deux événements appartenant à ξ, avec P(B) > 0. La
probabilité conditionnelle de A par rapport à B (probabilité de A sachant B) est définie
par :
P A  B 
P A / B  
P B 
On obtient ainsi une relation très utilisée :
P(A  B) = P(A / B)·P(B) = P(B / A)·P(A)
Une probabilité conditionnelle est une probabilité, c’est-à-dire qu’elle satisfait aux 3
axiomes de la définition d’une probabilité.
Exemple :
Dans une population donnée, chaque individu est soit porteur d’une
maladie M (P(M)=0,1), soit non porteur de M. Il existe un test permettant
d’établir le diagnostic de M ; ce test est positif dans 13,5 % des cas. Par
ailleurs, la probabilité d’être porteur de la maladie et d’avoir un test
positif est de 4 %. Si le test est positif, qu’elle est la probabilité d’être
porteur de M ?
P(M  T+) = 0,04 et P(T+) = 0,135. On recherche la probabilité
P(M / T+).
Par définition de la probabilité conditionnelle, on a :
P(M / T+) = P(M  T+) / P(T+) = 0,04 / 0,135  0,3.
Dans cet exemple, on voit bien que la probabilité d’être porteur de M est
fortement modifiée quand l’information concernant le test est connue.

Indépendance en probabilité
Quels que soient A et B, A et B sont indépendants si et seulement si :
P  A  B   P  A  P  B 
Remarques :
 Si A et B sont indépendants et P(A) > 0, P(B) > 0, alors :
P(A / B) = P(A  B) / P(B) = P(A)·P(B) / P(B) = P(A).
De même, P(B / A) = P(B).
C’est-à-dire que deux événements A et B sont indépendants si la réalisation de B ne
change pas la probabilité de A (autrement dit, la probabilité pour que A soit réalisé est
la même que B se soit produit ou non).

26
Probabilités

 Il ne faut pas confondre événements indépendants et événements disjoints. Si A


et B sont disjoints on ne peut pas avoir P(A  B) = P(A)·P(B) si P(A) > 0 et
P(B) > 0 puisque P(A  B) = 0. Donc, 2 événements disjoints et de probabilités
non nulles ne peuvent pas être réalisés en même temps ; ils ne sont jamais
indépendants.

Théorème de Bayes
La formule P(A  B) = P(A / B)·P(B) = P(B / A)·P(A), nous donne :
PB / AP A
P A / B  
P B 
Le développement de cette formule va conduire à une formulation développée du
théorème de Bayes. Ce développement requiert l’utilisation de la formule des
probabilités totales :
Soient ξ un ensemble d’évènements, P une probabilité définie sur ξ. Considérons les
événements A1, A2, …, Ak formant une partition et B appartenant à ξ. On définit la
formule des probabilités totales par :
PB  PB  A1   PB  A2   ...  PB  Ak 
Exemple :
Dans une population donnée, chaque individu est soit porteur d’une
maladie M, soit non porteur de M, et la proportion des M est 0,05. Par
ailleurs, on sait qu’un test T est positif chez 80 % des porteurs de M et
10 % des non porteurs.
Question 1. Quelle est la probabilité qu’un individu pris au hasard soit
positif pour T ?
On recherche P(T+). Sachant que P(M) = 0,05, P(T+/M) = 0,8 et que
P(T+ / nonM) = 0,1 on en déduit que : P(nonM) = 1 - P(M) = 0,95
M et nonM forment une partition :
M  nonM = 
M  nonM = 
Par application de la formule des probabilités totales :
P(T+) = P(T+  M) + P(T+  nonM)
et par application de P(A  B) = P(A / B).P(B), on a :
P(T+) = P(T+ / M).P(M) + P(T+ / nonM).P(nonM)
P(T+) = 0,8.0,05 + 0,1.0,95 = 0,04 + 0,095 = 0,135
Remarquons que l’apport des T+ par les nonM est majoritaire (95 pour
135).
Question 2. Quelle est la probabilité des M parmi les T+ ?

27
Probabilités

On recherche P(M / T+).


P(M / T+) = P(M  T+) / P(T+), par définition de la probabilité
conditionnelle.
et comme P(M  T+) = P(T+ / M).P(M) on a finalement :
P(M / T+) = (P(T+ / M).P(M)) / P(T+), qui correspond à la formule
présentée au début du paragraphe « Théorème de Bayes ».
P(M / T+) = (0,8.0,05) / (0,135) = 40 / 135  0,3.
De même : P(nonM / T+) = 95 / 135  0,7.
Remarquons que bien que T soit beaucoup plus souvent positif chez les M
que les nonM, la proportion des nonM parmi les T+ est bien supérieure à
celle des M.
Soient ξ un ensemble d’événements, P une probabilité définie sur ξ, A1, A2, …, Ak
une partition et B appartenant à ξ. Le théorème de Bayes est :
PB / Ai   P Ai 
P Ai / B  
PB / A1   P A1   ...  PB / Ak   P Ak 
En effet, sachant que :
 P(A / B) = P(B / A).P(A) / P(B)
 P(B) = P(B  A1) + … + P(B  Ak)
Comme P(B  Ai) = P(B / Ai)·P(Ai), i = 1, …, k
on a P(B) = P(B / A1).P(A1) + … + P(B / Ak).P(Ak)
et donc
PB / Ai   P Ai  PB / Ai   P Ai 
P Ai / B   
P B  PB / A1   P A1   ...  PB / Ak   P Ak 
Classiquement, on appelle Ai les causes, P(Ai) les probabilité « a priori », P(Ai / B)
les probabilités « a posteriori » et P(B / Ai) les probabilités conditionnelles.
Exemple : groupes sanguins et filiation.
Le système ABO comporte 3 allèles A, B et o ; A et B sont co-dominants et
dominent o.
La mère d’un enfant est de phénotype AB. Sachant que cet enfant est de
phénotype B quelle est la probabilité que son père soit de phénotype A ?
Notons [B] l’événement « mère AB et enfant B ». Nous avons à déterminer
les probabilités du phénotype du père sachant [B] : P(ph / [B]). Les
phénotypes étant des réunions de génotypes, il est plus simple de calculer
les probabilités du génotype du père sachant [B] puis de les regrouper.
Les probabilités de chaque génotype sont connues par ailleurs. Elles sont
reportées dans la 3ème colonne du Tableau 3.3.
Puisque la mère est de phénotype AB et l’enfant de phénotype B, la mère a

28
forcement donné un gène B. Donc pour que l’enfant soit B, le père a donné
un gène B ou o. Par suite, P(ph / [B]) = P(ph / père donne B ou o).
Les probabilités de donner un gène B ou o sachant le génotype sont
données dans la 4ème colonne du Tableau 3.3. On peut ainsi calculer pour
chaque génotype la probabilité d’avoir le génotype en question et de
donner B ou o sachant ce génotype (5ème colonne du Tableau 3.3).
Les divers génotypes formant une partition, nous pouvons appliquer le
théorème de Bayes pour calculer P(génotype / [B]) (4ème colonne du
Tableau 3.4).
Par suite, on a :
P(père A / [B]) = 0,195 / 0,705 = 0,277.

Phénotype Génotype P(génotype) P(B ou o / génotype) P(génotype) .


P(B ou o / génotype)
A AA 0,09 0 0
A Ao 0,39 0,5 0,195
AB AB 0,02 0,5 0,01
B BB 0,02 1 0,02
B Bo 0,06 1 0,06
O oo 0,42 1 0,42
Total 0,705
Tableau 3.3 : Probabilités et génotypes.

P(génotype) .
Phénotype Génotype P(génotype / [B]) P(ph / [B])
P([B] / génotype)
A AA 0 0 / 0,705
(0 + 0,195) / 0,705
A Ao 0,195 0,195 / 0,705
AB AB 0,01 0,01 / 0,705 0,01 / 0,705
B BB 0,02 0,02 / 0,705
(0,02 + 0,06) / 0,705
B Bo 0,06 0,06 / 0,705
O oo 0,42 0,42 / 0,705 0,42 / 0,705
Total 0,705 1 1
Tableau 3.4 : Probabilités et groupes ABO. Les probabilités P(ph/[B]) s’obtiennent par
addition des P(génotype/[B]) puisque les divers génotypes sont disjoints.

29
Ce qu’il faut savoir absolument

Ce qu’il faut savoir absolument


Probabilités :
Il faut définir précisément les évènements auxquels on s’intéresse avant de faire un
calcul de probabilité.
La probabilité d’un événement est toujours comprise entre 0 et 1.

Probabilités complémentaires P(nonA) = 1 - P(A)


P(A  B) = P(A) + P(B) - P(A  B)
Propriété d’additivité
P(A  B) = P(A) + P(B), si A et B sont disjoints
Probabilité conditionnelle P(A / B) = P(A  B) / P(B), si P(B)  0
Indépendance en probabilité A et B sont indépendants ssi P(A  B) = P(A).P(B)
P(A  B) = P(A / B). P(B) = P(B / A).P(A), si P(A)  0
Probabilités composées
et P(B)  0.
P(B) = P(B  A1) + P(B  A2 ) + … +P(B  Ak), où A1,
Probabilités totales A2, …, Ak forment une partition et B appartient à
l’ensemble des évènements
PB / Ai   P Ai 
P Ai / B  
PB / A1   P A1   ...  PB / Ak   P Ak 
Théorème de Bayes
PB  Ai 
P Ai / B  
PB  A1   ...  PB  Ak 

Question à choix multiples


QCM 2 : Dans une population d’un million d’individus, 50 000 ont la maladie A,
60 000 ont la maladie B et 20 000 individus ont à la fois la maladie A et la maladie B.
La maladie A peut être diagnostiquée par un test T. La probabilité pour qu'un individu
pris au hasard ait un résultat positif au test T et qu'il ait la maladie A est de 1,5 %.
Parmi les assertions suivantes, lesquelles sont vraies :
A. Pr(A) = 0,05
B. Pr(A/B) = 0,02
C. Pr(A et B) = 0,02
D. Pr(A ou B) = 0,09
E. Pr(T+/A) = 0,30

30
Chapitre 4 Variables aléatoires, lois
de distribution

Exemple introductif
Un couple souhaitant avoir 2 enfants s’intéresse au nombre de garçons
qu’il pourrait avoir. On admet que la naissance d’un garçon est aussi
probable que celle d’une fille (P(G) = P(F) = 1/2) et que les naissances
sont indépendantes. Le nombre de garçons dans cette fratrie ne peut pas
être choisi par les parents ; il est régi par un phénomène aléatoire.
Notons X = nombre de garçons. Les valeurs possibles de X sont 0, 1 ou 2
avec des probabilités différentes. Le Tableau 4.1 donne la probabilité
associée, c’est-à-dire celle de l’évènement correspondant, pour chaque
valeur possible x de X. L’ensemble des valeurs possibles et leurs
probabilités associées définissent la loi (ou distribution) de X.

Evènements Valeur de X Probabilité associée


F puis F 0 1/2.1/2 = 1/4
F puis G ou G puis F 1 1/2.1/2 + 1/2.1/2 = 1/2
G puis G 2 1/2.1/2 = 1/4
Tableau 4.1 : Probabilités associées à chaque valeurs possibles de X.

Ainsi, la probabilité de n’avoir aucun garçons est de 0,25, celle de ne pas


avoir plus de 1 garçon est de 0,75 (P(FF  FG  GF) = 0,75 car les
évènements élémentaires sont disjoints).
Il est possible de représenter graphiquement les probabilités associées aux
valeurs possibles de X par un diagramme en bâton (Figure 4.1).

Figure 4.1 : Diagramme en bâtons de la distribution de probabilité d’avoir un garçon dans une
fratrie de 2 enfants.
Variables aléatoires discontinues ou discrètes

Variables aléatoires discontinues ou discrètes

Définitions
Une variable aléatoire (v.a.) discontinue X prend différentes valeurs x avec des
probabilités définies par sa distribution de probabilité p(x) (ou distribution de X).
La distribution de X est définie par l’ensemble des valeurs possibles x et de leurs
probabilités associées {(x1, P(X = x1)), …, (xk, P(X = xk))}.
Soient x1  x2  …  xk les valeurs possibles prises par la v.a. X, on note
pi = P(X = xi) la probabilité pour que X prenne la valeur xi, avec p1 + p2 + … +pk = 1.
Exemple (suite) :
Dans cet exemple, le nombre de garçon est une variable aléatoire pouvant
prendre les valeurs x = 0, 1 ou 2.
Les probabilités associées sont p0 = P(X = 0) = 1/4, p1 = P(X = 1) = 1/2 et
p2 = P(X = 2) = 1/4.
La distribution du nombre de garçons dans une fratrie de 2 enfants
correspond à l’ensemble {(x0, p0), (x1, p1), (x2, p2)}. Elle peut être
représentée par un tableau (Tableau 4.1) ou par un diagramme en bâtons
(Figure 4.1).
Propriété :
Nous admettrons que si X est une v.a. et si f est une fonction qui à tout nombre réel
associe un nombre réel, alors f(X) est (en général) une v.a. de distribution {(f(x i), pi),
i = 1, 2, …, k}. Par exemple, Y = aX + b (où a et b sont des constantes), X2 sont des
v.a.

Espérance mathématique ou moyenne d’une v.a. discrète


Soit X une v.a. de distribution {(xi, pi), i = 1, 2, …, k}. L’espérance mathématique
de X, ou moyenne théorique, est :
k
E  X   x1 p1  x 2 p 2  ...  x k p k   xi pi
i 1

Généralement l’espérance est notée .


Remarque :
Supposons qu’on répète un grand nombre N de fois une épreuve. On observe alors
n1 fois la valeur x1, …, nk fois la valeur xk. La moyenne arithmétique de la variable
mesurée serait (cf. chapitre « Statistique descriptive ») :
n1 x1  ...  nk x k n n
x  x1 1  ...  x k k
N N N
Or nous avons vu (cf. chapitre « Notion de probabilité ») que si un phénomène
aléatoire est observé un très grand nombre de fois (N  ) la fréquence relative de cet

32
Variables aléatoires discontinues ou discrètes

événement (ni / N) tend vers la probabilité de réalisation de cet événement (pi). Donc
x tend vers .

Variance et écart-type d’une v.a. discrète


Soit X une v.a. de distribution {(xi, pi), i = 1, 2, …, k} et de moyenne . La variance
de X, notée 2, est :
 2  x1   2 p1  x2   2 p 2  ...  xk   2 p k
  
 E  X     E  X  E  X 
2 2

L’écart-type de X est égal à la racine carrée de la variance de X, soit . C’est une
quantité positive.
Remarque : E(X), 2 et  sont des constantes.
Propriétés concernant l’espérance mathématique et la variance d’une v.a. :
Soit X une v.a. de distribution {(xi, pi), i = 1, …, k}, de moyenne  et de variance 2.
Soit Y la v.a. définie par Y = aX + b (où a et b sont des constantes).
On démontre que (cf. infra) :
E(Y) = a.E(X) + b = a. + b
Var(Y) = a2.Var(X) = a2. 2, et donc que l’écart-type de Y = | a |.
En effet : Y a pour distribution {(a.xi + b, pi), i = 1, 2, …, k}.
E(Y) = (a.xi + b)pi = axipi + bpi = a. + b
Var(Y) = E[(Y - (a + b))2] = (a.xi - a -b + b)2pi = a2(xi - )2pi = a2. 2
Un cas particulier sera utile par la suite : si on choisit Y = (X - ) / , on a alors
E(Y) = 0 et Var(Y) = 1. On dit que Y est la v.a. centrée réduite.
Exemple :
Dans une population donnée, chaque individu est soit porteur d’une
maladie M, soit non porteur de M, et la proportion des M est 0,05. Par
ailleurs, on sait qu’un test T a, vis-à-vis de M, une sensibilité
Se = P(T+ / M) = 0,8 et une spécificité Sp = P(T - / nonM) = 0,9.
On a créé une v.a. X indicatrice de l’erreur commise par le test, c’est-à-
dire les faux positifs ou les faux négatifs (Tableau 4.2).

Patient M Patient nonM


T+ 0 +1
T- +1 0
Tableau 4.2 : Indicatrice de l’erreur du test.

33
Variables aléatoires conjointes ou variable aléatoire à 2 dimensions

Les probabilités associées à la v.a. X sont données dans le Tableau 4.3.

Patient M Patient nonM


T+ Se.p = 0,8.0,05 = 0,04 (1 - Sp).(1 - p) = 0,1.0,95 = 0,095
T- (1 - Se).p = 0,2.0,05 = 0,01 Sp.(1 - p) = 0,9.0,95 = 0,855
Tableau 4.3 : Probabilités associées aux valeurs possibles de la v.a. X.

La distribution de la v.a. X est donc : {(0, (0,04 + 0,855)), (+1,


(0,095 + 0,01))} = {(0, 0,895), (+1, 0,105)}.
La moyenne de X est : E(X) = 0.0,895 + 1.0,105 = 0,105.
E(X) peut être interprétée comme la moyenne du nombre d’erreurs sur un
grand nombre de tests, ou bien comme la proportion d’erreurs, puisque X
prend la valeur +1 si T conduit à faux positif et 0 sinon. Si on effectue ce
test sur 1000 individus on peut s’attendre à commettre 0,105.1000 = 105
erreurs.

Variables aléatoires conjointes ou variable aléatoire à 2 dimensions


Exemple :
Considérons le sexe et le groupe sanguin d’un enfant à naître et de parents
tous deux Ao. On définit 2 v.a. :
 S : sexe, qui prendra la valeur 1 si c’est un « garçon » et 2 si c’est une
« fille » ;
 Ph : phénotype du groupe sanguin, qui prendra la valeur 1 si c’est
« A » et 0 sinon
Le Tableau 4.4 représente les distributions conjointes de ces 2 v.a. où à
chaque possibilité correspond un couple de valeur pour la v.a. « sexe » et
pour la v.a « phénotype » ainsi que la probabilité associée. Les marginales
du tableau correspondent aux distributions des v.a. « sexe » et
« phénotype » considérées isolement.

Phénotype Marginale
A Non A
[S = 1, Ph = 1] [S = 1, Ph = 0]
Garçon S = 1 (0,5)
(0,375) (0,125)
Sexe (S)
[S = 2,Ph = 1] [S = 2, Ph = 0]
Fille S = 2 (0,5)
(0,375) (0,125)
Marginale Ph = 1 (0,75) Ph = 0 (0,25)
Tableau 4.4 : Variables aléatoires conjointes indépendantes (les probabilités associées sont
données entre parenthèses).

34
Variables aléatoires conjointes ou variable aléatoire à 2 dimensions

La distribution de la v.a. « sexe » est {(1, 0,5), (2, 0,5)}.


La distribution de la v.a. « phénotype » est {(1, 0,75), (0, 0,25)}.
La distribution du couple de v.a. « sexe » et « phénotype » est : {((1 , 1),
0,375), ((2 , 1), 0,375), ((1 , 0), 0,125), ((2 , 0), 0,125)}.

Variables aléatoires indépendantes


Soient X, une v.a. de distribution {(xi, pi), i = 1, 2, …, nx}, et Y, une autre v.a. de
distribution {(yj, pj), j = 1, 2, …, ny}, c’est-à-dire que X et Y sont des v.a. conjointes.
La distribution du couple de v.a. X et Y est notée : {(xi, yj), rij = P(X = xi ET Y = yj),
i = 1, …, nx et j = 1, …, ny}.
X et Y sont indépendantes si et seulement si :
rij = P(X = xi ET Y = yj) = P(X = xi).P(Y = yj) = pi.qj, pour tout i et tout j.
Dans l’exemple précédent, le sexe est le phénotype du groupe sanguin sont
indépendants puisque le contenu rij de chaque case du Tableau 4.4 est le produit des
probabilités marginales correspondantes (P[S = 1, Ph = 1] = 0,375 = P(G).P(A)
= 0,5.0,75).
Propriétés
 Soient X1, X2, …, Xn des v.a. conjointes, alors :
E(X1 + X2 + … + Xn) = E(X1) + E(X2) + … + E(Xn)
 Si X1, X2, …, Xn sont indépendantes 2 à 2, alors :
Var(X1 + X2 + … + Xn) = Var(X1) + Var(X2) + … + Var(Xn)
E(X1.X2) = E(X1).E(X2)
 En particulier, si X1 et X2 sont indépendantes alors,
Var(X1 - X2) = Var(X1) + (-1)2Var(X2) = Var(X1) + Var(X2)
Exemple :
L’hémophilie est une maladie héréditaire récessive liée au chromosome X.
Considérons un couple dans lequel la mère est porteuse saine de
l’anomalie chromosomique et le père est sain et désirant avoir un enfant.
Dans cette situation, la prévalence de l’hémophilie exprimée est alors de
0,25.
Définissons une première v.a. « sexe » qui prendra la valeur 1 si c’est un
« garçon » et 2 si c’est une « fille » et une deuxième v.a. « hémophilie » qui
prendra la valeur 1 en « présence » d’hémophilie exprimée et 0 sinon. Le
Tableau 4.5 représente les distributions conjointes de ces 2 v.a.

35
Variables aléatoires conjointes ou variable aléatoire à 2 dimensions

Hémophilie Marginale
Présence Absence
[S = 1, Hémo. = 1] [S = 1, Hémo. = 0] Sexe = 1
Garçon
(0,25) (0,25) (0,5)
Sexe
[S = 2, Hémo. = 1] [S = 2, Hémo. = 0] Sexe = 2
Fille
(0) (0,5) (0,5)

Marginale Hémophilie = 1 Hémophilie = 0


(0,25) (0,75)
Tableau 4.5 : Variables aléatoires conjointes non indépendantes (les probabilités associées
sont données entre parenthèses).

Dans cet exemple, le sexe et l’hémophilie ne sont pas indépendants puisque


P[S = 1, Hémo. = 1] = 0,25  P[S = 1].P[Hémo. = 1] = 0,5.0,25.
Deux v.a qui ne sont pas indépendantes sont liées entre elles. On définit alors une
distribution conditionnelle :
Soient X et Y des v.a. conjointes de distribution {(xi, yj), rij = P(X = xi ET Y = yj),
i = 1, …, nx et j = 1, …, ny}.
La distribution de Y lorsque X = xi (notée Y / X = xi) est définie par :
{(xi, yj), rj/i = P(X = xi ET Y = yj) / P(X = xi), j = 1, …, ny}.

Covariance, coefficient de corrélation


Soient X et Y des v.a conjointes de distribution {(xi, yj), rij = P(X = xi ET Y = yj),
i = 1, …, nx et j = 1, …, ny}. Soient X la moyenne et  X2 la variance de X, Y la
moyenne et  Y2 la variance de Y.
La covariance de X et Y est :

. Y   Y     x i   X . y j   Y .rij
nX nY
Covar  X , Y   E  X   X 
i 1 j 1

Le coefficient de corrélation est :


Covar  X , Y 
 XY 
 X . Y
Propriétés
  XY est un nombre sans dimensions tel que -1   XY  +1
 Si X et Y sont indépendantes alors  XY  0 (la réciproque est en général fausse)
 On peut démontrer que lorsque Y = aX + b, alors  XY  1 avec le signe de a
(a  0)
Exemple sur le sexe et le phénotype du groupe sanguin (suite)
Utilisons une v.a. S indicatrice du sexe telle que s = 1 pour les garçons et

36
Variables aléatoires continues

s = 0 pour les filles ainsi qu’une v.a. Ph indicatrice du phénotype telle que
ph = 1 pour les phénotypes A et ph = 0 les phénotypes non A.
La distribution du couple de v.a. S et Ph est notée : {((1 1), 0,375), ((0 1),
0,375), ((1 0), 0,125), ((0 0), 0,125)}.
On a pour la v.a. S :
E(S) = 1.0,5 + 0.0,5= 0,5
Var(S) = (1 - 0,5)2.0,5 + (0 - 0,5)2.0,5 = (0,5)2
S = 0,5
et pour la v.a. Ph :
E(Ph) = 1.0,75 + 0.0,25 = 0,75
Var(Ph) = (1 - 0,75)2.0,75 + (0 - 0,75)2.0,25 = 0,19
Ph = 0,43
Covar(S, Ph) = (1 - 0,5).(1 - 0,75).0,375 + (1 - 0,5).(0 - 0,75).0,125
+ (0 - 0,5).(1 - 0,75).0,375 + (0 - 0,5).(0 - 0,75).0,125 = 0
 S , Ph  0

Exemple sur le sexe et l’hémophilie (suite)


Utilisons à nouveau la v.a. S indicatrice du sexe telle que s = 1 pour les
garçons et s = 0 pour les filles et une v.a. H indicatrice de l’hémophilie
telle que h = 1 pour hémophilie = oui et h = 0 pour hémophilie = non.
La distribution du couple de v.a. S et H est notée : {((1 1), 0,25), ((0 1), 0),
((1 0), 0,25), ((0 0), 0,5)}.
On a pour la v.a. S :
E(S) = 0,5 ; Var(S) = (0,5)2 ; S = 0,5
et pour la v.a. H :
E(H) = 1.0,25 + 0.0,75 = 0,25
Var(H) = (1 - 0,25)2.0,25 + (0 - 0,25)2.0,75 = 0,19
H = 0,43
Covar(S, H) = (1 - 0,5).(1 - 0,25).0,25 + (1 - 0,5).(0 - 0,25).0,25
+ (0 - 0,5).(1 - 0,25).0 + (0 - 0,5).(0 - 0,25).0,5 = 0,13
 S , H  0,13 0,5.0,43  0,58

Variables aléatoires continues


Les v.a. étudiées précédemment étaient définies sur un ensemble d’évènements en
nombre fini (nombre de garçons dans une fratrie de 2 enfants, phénotype du groupe
sanguin A ou non A en fonction du sexe, …). On peut également définir des v.a.

37
Variables aléatoires continues

lorsque l’ensemble d’évènements est infini, c’est-à-dire lorsque l’on s’intéresse à une
variable continue.
La généralisation du cas des v.a. discontinues au cas de v.a. continues peut être
abordée de manière intuitive à partir de l’histogramme du polygone des fréquences (cf.
chapitre « Statistique descriptive ») : lorsque la taille de l’échantillon devient infinie et
la largeur des classes tend vers 0, alors la limite du polygone des fréquences tend vers
la densité de probabilité d’une v.a. continue (Figure 4.2).
Une densité de probabilité f(X) est positive ou nulle.
La probabilité pour qu’une réalisation au hasard de la v.a. soit comprise entre deux
valeurs x1 et x2 correspond à la surface comprise entre la courbe de densité et l’axe des
X limité par les 2 verticales passant par x1 et x2 (Figure 4.2).
Remarque :
 Il en résulte que P(x1  X  x1) = 0, c’est-à-dire que P(X = x1) = 0.
 La surface délimitée par la courbe de densité et l’axe des X sans bornes vaut 1

(la somme de toutes les probabilités élémentaires vaut 1 :  f x dx  1 .


Figure 4.2 : Approche d’une densité de probabilité à partir d’un histogramme. (a)
Histogramme des fréquences. L’augmentation de la taille de l’échantillon et la réduction de la
largeur des classes tend vers (b) la densité de probabilité f(X) d’une v.a continue.

Le passage du cas discontinu au cas continu revient à considérer la probabilité de


trouver une variable X dans un intervalle donné ce qui transforme les sommes  en
intégrales  et les pi en f(x)dx.
L’espérance mathématique est donc :

E  X    x  f x dx


La moyenne de X a la même signification que dans le cas discontinu : c’est la limite


de la moyenne arithmétique d’un échantillon lorsque la taille tend vers l’infini.
La variance est toujours définie par :

 2  E  X  E  X 2 

38
Lois de distribution

Lois de distribution
Nous présentons ici trois lois de distribution utilisées dans la suite de ce cours.

Loi Normale
La distribution Normale, ou de Laplace Gauss, ne dépend que de 2 paramètres : la
moyenne, , et l’écart-type, . Nous noterons N(, ) une v.a. Normale de moyenne 
et d’écart-type  :
Propriétés de la loi Normale
 f(x) est totalement déterminée par sa moyenne et son écart-type ;
 La fonction de densité est (Figure 4.3) :
- continue ;
- symétrique par rapport à la moyenne  ;
- passe par un maximum pour x =  (c’est-à-dire que le mode = ) ;
- a une médiane égale à  ;
 Si X1, X2, …, Xn sont Normales et indépendantes alors Y = X1 + X2 + … + Xn
est Normale ;
 Si X est N(, ) alors Y = aX + b (a et b sont des constantes) est N(a + b,
| a |.). Cette propriété permet d’établir un cas particulièrement utile par la suite en
définissant une nouvelle v.a. Z telle que Z = (X - ) / . Dans ce cas la loi de
distribution de Z est N(0, 1), appelée loi Normale centrée réduite (la distribution est
centrée sur 0 avec un écart-type égal à 1).

Figure 4.3 : Loi Normale de moyenne  et d’écart-type .

Table de la loi Normale (cf. annexe)


Cette table concerne la loi N(0, 1). Elle permet de déterminer la probabilité  pour
que Z dépasse une certaine valeur N. Autrement dit, elle donne pour certaines valeurs
de  la valeur N telle que :
1    Proba N   Z   N    Proba Z  N  

soit
  ProbaZ   N   ou Z   N    Proba Z  N  

39
Lois de distribution

Toute v.a. Normale peut être rendue Normale centrée réduite ce qui autorise
l’utilisation de la table. En effet, si Y est N(, ) alors Z = (Y - ,) /  est N(0, 1) et
donc (Figure 4.4) :
1    Proba  N     Y    N   
et
  ProbaY    N    ou Y    N   

Figure 4.4 : Variable Normale et variable Normale centrée réduite.

Par ailleurs, les propriétés de la loi Normale impliquent que si :


1 < 2 alors N1 > N2
Certaines valeurs sont souvent utilisées dans la table de la loi Normale centrée
réduite :
N0,10 = 1,645 N0,05 = 1,96 N0,01 = 2,576

Loi de Student
La loi de Student dépend d’un seul paramètre : son nombre de degré de liberté (ddl).
Le nombre de degré de liberté  est une quantité exprimant le nombre de données
indépendantes. Il n’y a pas une distribution de Student mais une famille de
distributions de Student, une par ddl (Figure 4.5).
Propriétés de la loi de Student à  ddl (Figure 4.5)
 Elle est symétrique par rapport à 0 ;
 Elle passe par un maximum pour 0 (le mode = 0) ;
 Elle est d’autant plus aplatie que  est petit ;
 Elle tend vers la loi N(0, 1) lorsque  tend vers l’infini.

40
Lois de distribution

Figure 4.5 : Loi de Student pour certains degrés de liberté.

Figure 4.6 : Loi de Student à  degrés de liberté et bornes au risque .

Table de la loi de Student (cf. annexe)


Elle donne pour certaines valeurs de  la valeur T, telle que (Figure 4.6) :
  ProbaT  T ,  ou T  T ,   ProbaT  T , 
Exemple :
si  = 5 % et  = 10 alors T0,05 ; 10 = 2,228
si  = 10 % et  = 8 alors T0,10 ; 8 = 1,860
Pour  supérieur ou égal à 30, T, est arrondi à N.

Loi du Chi-deux (2)


La loi du Chi-deux ne dépend également que de son nombre de degrés de liberté. Il y
a donc une famille de distribution de probabilité du 2 (Figure 4.7).
Propriétés de la loi du Chi-deux à  ddl (Figure 4.7)
 La loi du 2 est asymétrique pour des « petites » valeurs de  ;
Table de la loi du Chi-deux (cf. annexe)
Elle donne la probabilité  que 2 soit supérieur ou égal à une valeur donnée
(Proba(  2   2 , )) pour chaque degré de liberté.

41
Ce qu’il faut savoir absolument

Par exemple (cf. Figure 4.7),


si  = 5 % et  = 1 alors  02, 05,1  3,84
si  = 5 % et  = 5 alors  0,05,5
2
 11, 07

Figure 4.7 : La loi du 2.

Ce qu’il faut savoir absolument


Variable aléatoire discrète
k
Espérance mathématique
E  X     x1 p1  ...  x k p k   xi p i
i 1

Variance Var  X    2  x1    p1  ...  x k    p k


2 2

  
 E  X     E  X  E  X 
2 2

Variable aléatoire continue


Espérance mathématique E  X    x  f x dx
 

Variance 
Var  X    2  E  X  E  X 
2

Propriétés
 Espérance (somme de v.a. ) = somme des espérances
 Variance (somme de v.a. indépendantes) = somme des variances

42
Question à choix multiples

Variables aléatoires conjointes


Soient X et Y des v.a. conjointes de distribution {(xi, yj), rij = P(X = xi ET Y = yi),
i = 1, …, nx et j = 1, …, ny} où X a pour moyenne X et pour variance  X2 et Y a pour
moyenne Y et pour variance  Y2 :

. Y   Y     x i   X . y j   Y .rij
nX nY
Covariance
Covar  X , Y   E  X   X 
i 1 j 1

Coefficient de corrélation Covar  X , Y 


 XY 
 X . Y

Propriétés du coefficient de corrélation :


  XY est un nombre sans dimensions tel que -1   XY  +1
 Si X et Y sont indépendantes alors  XY  0 (la réciproque est en général fausse)

Loi de distribution Normale :


Pour utiliser la table de la loi Normale, il faut transformer la variable X qui suit une
loi Normale N(, ) en une variable centrée réduite N(0, 1).

Question à choix multiples


QCM 3 : Soient X et Y deux variables aléatoires indépendantes. La distribution de
X est :
xi 0 1 2
pi 0,3 0,4 0,3

et la distribution de Y est :
yi 0 2
pi 0,5 0,5

Quelles sont les propositions qui sont vraies ?


A. X a pour moyenne 1.
B. Y a pour moyenne 1.
C. X a pour variance 0,6.
D. Var(X - Y) = 0,4.
E. X,Y > 0.

43
Chapitre 5 Estimation ponctuelle et
intervalle de confiance

Introduction
Il est peu fréquent d’étudier un caractère sur l’ensemble de la population. On
travaille donc sur un échantillon extrait de la population.
Etant donné un résultat obtenu à partir d’un échantillon, que peut-on déduire sur la
population dont il est issu, quelle inférence statistique peut-on faire ?2 Par exemple, si
le paramètre étudié est la moyenne, quelle est la valeur que l’on doit admettre pour la
population à partir de la valeur calculée sur l’échantillon (Figure 5.1) ? Nous sommes
ici dans un problème d’estimation ponctuelle.
Il n’y a pas forcement une estimation ponctuelle unique et il existe un ensemble de
valeurs possibles, compatibles avec les observations, dans lequel on peut penser qu’est
réellement située la valeur du paramètre de la population ; on parle alors d’intervalle
de confiance. Il importe alors de fournir l’estimation la plus « vraisemblable » et de
connaître la « précision » de cette estimation.

Figure 5.1 : Estimation des paramètres d’une population à partir d’un échantillon tiré au sort et
inférence.

2
La vraie valeur de la caractéristique dans la population est inconnue. On cherche à l’approcher à
partir de calculs réalisés sur un échantillon.
Échantillon, estimateur et estimation

Échantillon, estimateur et estimation


Un échantillon est une partie de la population cible. Un « bon » échantillon est un
échantillon représentatif de la population cible, c’est-à-dire que les proportions des
caractéristiques des éléments de l’échantillon sont très proches de celles de la
population.
Une méthode d’échantillonnage par tirage au sort offre le maximum de garanties
pour obtenir un échantillon représentatif. Ainsi, chaque élément de la population a la
même probabilité de faire partie de l’échantillon.
On mesure ensuite sur chaque élément constituant l’échantillon la caractéristique
faisant l’objet de l’étude. On considère que la caractéristique est une variable aléatoire
pour laquelle on veut connaître la distribution dans la population (par exemple, à
travers sa moyenne et sa variance). Pour cela, on peut réaliser une estimation
ponctuelle qui revient à attribuer une valeur, l’estimation, au paramètre de la
population à partir des données provenant de l’échantillon. On est ainsi amené à
construire un estimateur qui est une fonction qui associe l’estimation à l’échantillon.
Exemple :
On s’intéresse au nombre de caries dentaires chez les enfants scolarisés
dans le primaire à Marseille. Le rectorat de l’académie possède une liste
exhaustive des enfants scolarisés dans le primaire à Marseille.
On réalise, à partir de cette liste, un tirage au sort afin de constituer un
échantillon représentatif de 300 enfants. Un examen dentaire est réalisé
pour chacun d’eux afin de compter le nombre de caries par enfants.
A partir de cet échantillon on obtient une estimation du nombre moyen de
caries dentaires par enfants qui est une valeur approchée du nombre
moyen de caries dentaires chez les enfants scolarisés dans le primaire à
Marseille.
Cette estimation est obtenue par la formule classique du calcul d’une
moyenne. On montre que ce calcul fournit un « bon » estimateur (cette
notion est définie dans le paragraphe suivant).
Notons déjà que, d’un échantillon à un autre, l’estimateur est le même mais on peut
avoir des estimations différentes (cela est dû aux fluctuations d’échantillonnage, c’est-
à-dire au hasard du tirage).

Propriétés d’un « bon » estimateur

Biais
Un bon estimateur doit être sans biais. Soit  un paramètre quelconque de la
population et U un estimateur de  :
 U est un estimateur sans biais de  si E(U) = 
 U est un estimateur biaisé de  si E(U)   ; le biais vaut : E(U) - 
Ces notions sont illustrées sur la Figure 5.2.

46
Estimation ponctuelle

Figure 5.2 : Biais et variance pour 3 estimateurs d’un paramètre  : U1 et U2 sont 2 estimateurs
sans biais avec Var(U1) < Var(U2) ; U3 est un estimateur biaisé.

Variance
Un bon estimateur doit avoir une faible variance.
On dira d’un estimateur qu’il est convergent lorsqu’il est sans biais et que sa
variance tend vers 0 quand l’effectif de l’échantillon observé tend vers l’infini.
Si deux estimateurs sont sans biais, le plus efficace est celui dont la variance est la
plus petite puisque ses valeurs sont en moyenne plus proches du paramètre estimé (cf.
Figure 5.2).

Estimation ponctuelle

Estimation de la moyenne et de la variance d’une population

Estimation de la moyenne d’une population


Soient  et 2 la moyenne et la variance (inconnues), obtenues à partir d’un
échantillon pris au hasard, d’une v.a. que l’on cherche à estimer. Supposons que l’on
effectue p échantillonnages (tirages au sort), tous d’effectif n, dans cette population et
que l’on obtienne les résultats suivants :
x1, x2, …, xn : premier échantillon d’effectif n
y1, y2, …, yn : deuxième échantillon d’effectif n

z1, z2, …, zn : pième échantillon d’effectif n

47
Estimation ponctuelle

On peut, pour chacun des échantillons, calculer leur moyenne :


n

x  x 2  ...  x n x i
x 1  i 1

n n
n

y i
y i 1

n

n

z i
z i 1

n
Il est alors naturel de penser :
 Que chacune des moyennes x , y , …, z est une estimation de la moyenne de la
population ;
 Qu’il n’est pas étonnant, par ailleurs, de trouver x  y  ...  z .
Exemple :
On s’intéresse à la taille du nourrisson de sexe masculin, normal, à l’âge
de trois mois. Soient  et 2 la moyenne et la variance de cette v.a.,
paramètres que l’on cherche à estimer. On effectue p échantillonnages,
tous d’effectifs n = 8, dans cette population. Les résultats obtenus sont
donnés dans le Tableau 5.1. Chacune des moyennes est une estimation de
la moyenne de la population et chaque moyenne est différente d’un
échantillon à l’autre.

Echantillon 1 Echantillon 2 … Echantillon p


62,8 58,6 … 55,4
54,4 58,6 … 67,5
56,9 58,6 … 59,3
62,6 58,3 … 61,1
58,5 58,5 … 65,2
60,5 64,4 … 58,3
66,3 59,2 … 63,0
64,0 57,6 … 59,6
Moyenne 60,8  59,2  …  61,2
Tableau 5.1 : Valeurs moyennes de la taille (en cm) de p échantillons d’effectif n = 8 tirés au
sort dans une population de nourrissons de sexe masculin, normaux, âgés de 3 mois.

48
Estimation ponctuelle

L’ensemble des valeurs x , y , …, z constitue des observations d’une variable


aléatoire X dont la loi de distribution est appelée loi de distribution
d’échantillonnage de la moyenne. On démontre que cette loi a pour
 moyenne 
 écart-type  m   n

La v.a. X est l’estimateur de .


C’est un estimateur sans biais puisque EX    .

C’est un estimateur convergent puisqu’il est sans biais et que Var X    2 n tend
vers 0 lorsque n tend vers l’infini.
L’observation x est une bonne estimation de la moyenne  de la population.
Exemple (suite) :
Considérons une population de N = 200 nourrissons de sexe masculin,
normaux, à l’âge de trois mois. La moyenne et l’écart-type de la taille sont
respectivement  = 59,7 et  = 3,2. On va échantillonner p = 30
échantillons d’effectifs croissants (n = 8, 15, 20 puis 80) à partir de cette
population (les résultats du premier échantillon sont ceux du Tableau 5.1).
On a ainsi 4 distributions d’échantillonnage de la moyenne (Figure 5.3).
On voit que (Figure 5.3 et Tableau 5.2) quand n augmente, la moyenne de
la distribution d’échantillonnage se rapproche de  avec de moins en
moins de variabilité (m tend vers 0).

Figure 5.3 : Distributions d’échantillonnage de la moyenne pour p = 30 échantillons d’effectif


(a) n = 8, (b) n = 15, (c) n = 20 et (d) n = 80.

49
Estimation ponctuelle

Population
n 8 15 20 80 …  N = 200
m 59,8 59,6 59,6 59,7 … 59,7  = 59,7
m 1,1 0,8 0,7 0,4 … 0  = 3,2
Tableau 5.2 : Evolution de m et de m en fonction de n.

Estimation de la variance d’une population


Soit x1, x2, …, xn un échantillon tiré au hasard, d’effectif n et de moyenne
n
x   xi n . L’estimation de la variance de la population est donnée par :
i 1

 x  x
2
i
s x2  i 1

n 1
et sx est une bonne estimation de l’écart-type de la population.
On peut démontrer que S x2 est un estimateur sans biais convergent de  2 .

L’estimation de la variance de la v.a. X , dont la loi de distribution est la loi de


distribution d’échantillonnage de la moyenne, est donnée par :
s x2
s 
2
m
n
Une relation très utile permet de passer de la variance de l’échantillon x 1, x2, …, xn
(Var(X)) à l’estimation de la variance de la population s x2 :  
 Var  X 
n
s x2 
n 1
Exemple :
Supposons que l’on ait noté chez 11 individus normaux, pris au hasard, la
valeur du rythme cardiaque. On a : 64, 80, 72, 88, 78, 88, 78, 88, 88, 72,
60.
On veut estimer la moyenne et la variance du rythme cardiaque chez les
individus normaux (population cible). On a alors :
Estimation de la moyenne de la population (= moyenne de l’échantillon) :
64  80  72  88  78  88  78  88  88  72  60
x  77,82
11
Variance de l’échantillon :

Var  X  
64  77,822  ...  60  77,822  90,51
11

50
Estimation de la variance de la population :

s x2 
64  77,822  ...  60  77,822  99,56
11  1
ou
11
s x2   90,51  99,56
11  1
Estimation de l’écart-type de la population :
s x  99,56  9,98

Estimation d’une proportion et de la variance d’une proportion


(échantillon au hasard)
Exemple :
On applique un traitement à un groupe de 100 malades pris au hasard
parmi tous les individus présentant la même affection. On observe 40
guérisons sur ce groupe. Le pourcentage de guérison observé pour cet
échantillon de malades est de 40 %.

Estimation d’une proportion


Soit k le nombre de fois où un caractère donné est présent dans un échantillon tiré au
hasard d’effectif n et soit p la proportion inconnue du caractère étudié dans la
population.
La fréquence du caractère étudié dans l’échantillon vaut f  k n , avec f qui est un
observation de la v.a. F. On montre que :
EF  p
La fréquence d’un caractère étudié dans un échantillon tiré au hasard est une bonne
estimation de la fréquence de ce caractère dans la population (F est sans biais).

Estimation de la variance d’une proportion


Par ailleurs :
p  1  p 
Var F 
n
F est un estimateur convergent de p.
On estime la variance p  1  p  n par f  1  f  n .

51
Estimation par intervalle

Estimation par intervalle

Définition
Nous avons vu, dans la partie « Estimation ponctuelle », que chacune des moyennes
de p échantillons tirés au hasard xi , i  1,..., p  est une estimation de la moyenne  de
la population et que chaque moyenne est différente d’un échantillon à l’autre. Ceci se
généralise à la situation de l’estimation d’une proportion d’une population.
Notons  un paramètre inconnu (une moyenne ou une proportion) d’une population.
Si l’on souhaite que l’inférence réalisée à partir de ˆ (estimation de  obtenue sur un
échantillon) présente un degré de confiance acceptable il faut construire un intervalle
d’estimation (appelé intervalle de confiance), c’est-à-dire un intervalle, déterminé à
partir des données d’un échantillon, dans lequel on peut parier, avec un risque de se
tromper qui soit acceptable, que se situe réellement  dans la population cible.
Ce risque, noté , est généralement pris à 5 % et correspond aux erreurs
d’échantillonnages jugées acceptables.
L’intervalle de confiance de  est de la forme :
ˆ  erreur d’échantillonnage ; ˆ  erreur d’échantillonnage

Interprétation d’un intervalle de confiance :


On accepte qu’il y ait .100 chances sur cent de se tromper en disant que 
appartient à l’intervalle.
On accepte qu’il y ait (1 - ).100 chances sur cent de ne pas se tromper en disant
que  appartient à l’intervalle.

Propriétés d’un intervalle de confiance :


 Toutes choses égales par ailleurs il est d’autant plus large que  est petit ;
 Toutes choses égales par ailleurs il est d’autant plus étroit que n est grand.
Exemple :
On dispose de 100 échantillons tirés au hasard. Pour chacun, on calcule la
moyenne et l’intervalle de confiance de la moyenne. En prenant un risque
d’erreur de 5 %, 95 intervalles de confiance contiendront la vraie valeur
moyenne de la population et 5 ne la contiendront pas (Figure 5.4).

52
Estimation par intervalle

Figure 5.4 : Construction de 100 estimations d’intervalle. La vraie valeur  est correctement
encadrée dans 95 % des situations3.

Intervalle de confiance d’une moyenne (échantillon au hasard)


Nous nous placerons dans le cas où  est inconnu, ce qui est généralement le cas.
On estimera alors  par sx.
Pour calculer l’intervalle de confiance d’une moyenne il est nécessaire de connaître
la loi de distribution des moyennes des échantillons ou plus exactement loi de
distribution de la quantité :
X  X 

sx sm
n
Nous pouvons alors distinguer quatre situations selon que la variable d’origine suit
ou non une loi Normale et selon la taille de l’échantillon étudié (grand, n  30, ou petit,
n < 30). Les résultats mathématiques sur les lois de distributions dans ces quatre
situations sont donnés dans le Tableau 5.3.
Les bornes de l’intervalle de confiance seront calculées pour chacune des situations
en fonction de la loi de distribution des moyennes et du risque  choisi.
Ainsi, la forme générale de l’intervalle de confiance de la moyenne, calculé à partir
de x , estimation de la moyenne, de sm , estimation de l’écart-type de la distribution
des moyenne, et de la valeur L lue dans la table de la loi de distribution appropriée,
est :
x  L  sm ; x  L  sm 

3
Adapté de Wannacott & Wannacott. L’estimation par intervalle (chap. 8) in : Statistique :
Economie, Gestion, Sciences, Médecine. Ed Economica, 1991.

53
Estimation par intervalle

Cas des grands échantillons (n  30)


Loi de distribution de la moyenne des échantillons : loi Normale (cf. Tableau 5.3).
Les bornes de l’intervalle de confiance, pour un risque  choisi, sont calculées par la
formule :
x   N  s m 
où N est la valeur lue dans la table de la loi Normale au risque  choisi.

Cas des petits échantillons (n < 30)


 Si la loi de distribution de la variable dans la population est Normale alors, la loi
de distribution de la moyenne des échantillons est la loi de Student à  = (n - 1)
degrés de liberté (cf. Tableau 5.3).

Les bornes de l’intervalle de confiance, pour un risque  choisi, sont calculées


par la formule :
x  T ,  s m 

où T, est la valeur lue dans la table de la loi de Student au risque  choisi et
avec  = (n - 1) degrés de liberté.
 Si la loi de distribution de la variable dans la population n’est pas Normale alors
on ne peut pas calculer l’intervalle de confiance des paramètres de la population
cible.

Hypothèse sur la loi de distribution de la variable dans la


population
Suit une loi Normale N(, ) Ne suit pas une loi Normale
X 
sx
Petits échantillons
n On ne peut rien dire
(n < 30)
est une observation d’une loi
de Student
X 
X 
sx
Grands sx
échantillons n
n
(n  30) est une observation d’une loi
est approximativement une
de Student qui est proche de la
observation d’une loi N(0, 1)
loi N(0, 1)
Tableau 5.3 : Détermination des lois de la v.a. étudiée en fonction des hypothèses de normalité
et de la taille des échantillons. La case « On ne peut rien dire » correspond à une situation où
l’on ne peut rien dire sur la loi de distribution.

54
Estimation par intervalle

Exemple :
Sur un échantillon d’effectif n = 10 représentatif d’une population la
moyenne x = 14 et l’estimation de l’écart-type de la population sx = 2.
Trouver l’intervalle de confiance, au risque de 5 % de la moyenne  de la
population cible. On suppose que la variable suit une loi Normale.
Il s’agit d’un petit échantillon (n < 30). La condition de Normalité étant
remplie la loi de distribution de la moyenne des échantillons est la loi de
Student à  degrés de liberté.
n = 10, x  14 , s x  2 , donc s m  2 10  0,63 .

Au risque  = 5 % et pour  = 10 - 1 = 9 degrés de liberté, T0,05, 9 = 2,26


(valeur lue dans la table de Student).
L’intervalle de confiance à 95 % de  est [14 - 2,26·0,63 ; 14 + 2,26·0,63]
= [12,57 ; 15,43]. Autrement dit, on a 5 % de risque de se tromper en
affirmant que l’intervalle [12,57 ; 15,43] recouvre .

Intervalle de confiance d’une proportion (échantillon au hasard)


Si n est suffisamment grand et si f = k / n n’est pas voisin de 1 ou de 0, k étant le
nombre de fois où le caractère donné est présent dans l’échantillon, on peut considérer
que la distribution des fréquences F a une distribution Normale de moyenne p et
d’écart-type sf, avec :
f  1  f 
sf 
n
Ainsi, l’intervalle de confiance du pourcentage, pour un risque  choisi, calculé à
partir de f, l’estimation de la fréquence, de sf, l’écart-type de la distribution des
fréquences, et de la valeur N lue dans la table de la loi Normale, est :
f  N   s f ; f  N  s f 
Exemple :
Supposons que nous souhaitions estimer la fréquence d’une maladie que
nous savons être comprise entre 20 % et 30 %.
Nous observons 12 malades sur un échantillon tiré au hasard de taille
n = 48. L’intervalle de confiance à 95 % est (la table de la loi Normale
nous donne N0,05 = 1,96) :
  12 36    1 3 
 12         

  1,96  48 48  
  0,25  1,96  4 4   0,25  1,96  3

  
 48  48    48    16  16  3 
       
     

55
Estimation par intervalle

soit,

 0,25  0,125  12,5% ; 37,5%


2
0,25 
16
ce qui n’apporte aucune information (l’échantillon est de trop petite
taille).
Supposons que nous souhaitions obtenir un intervalle de confiance à 95 %
de demi largeur (précision) 2 %.
On peut penser que la fréquence observée sera comprise entre 0,2 et 0,3 ;
on peut par exemple supposer que cette fréquence sera de 0,2.
  0,2  0,8 
L’intervalle de confiance sera donc : 0,2  1,96  

  n 

 0,2  0,8  2 
Or on veut que 1,96   
 n  100 

Soit, en arrondissant 1,96 à 2 :


0,2  0,8 2 4  0,2  0,8
2   n  1002  1600
n 100 4
Il faut donc pour espérer obtenir un intervalle informatif (étroit) prendre
un échantillon tiré au hasard de taille supérieure ou égale à 1600.
Supposons que nous observions 400 malades sur 1600 ; l’intervalle de
confiance à 95 % est :
  1 3 
   
0,25  1,96  4 4   0,25  0,021  22,9% ; 27,1%
  1600 
  
  
Remarque :
Exprimer les résultats d’un échantillon en indiquant uniquement sa moyenne, ou la
fréquence du caractère étudié, est sans valeur. Elle ne suffit pas à caractériser
l’ensemble des mesures effectuées. Il manque une information sur la dispersion des
mesures observées et le nombre de mesures sur lequel ces calculs ont été effectués. Il
faut donc exprimer les résultats d’une série de mesures en indiquant son paramètre de
position et un paramètre de dispersion (cf. Tableau 5.4).

Situation d’estimation d’une


Moyenne Proportion
La moyenne x La proportion f
La variance estimée (ou l’écart-type) : s x La variance estimée (ou l’écart-type) : s 2f
2

nombre de mesures effectuées : n nombre de mesures effectuées : n


Tableau 5.4 : Expression des résultats relatifs à un échantillon.

56
Ce qu’il faut savoir absolument

Ce qu’il faut savoir absolument


Les caractéristiques de la population cible sont généralement inconnues. Un
échantillonnage par tirage au sort aléatoire permet de constituer un échantillon
représentatif de la population cible. On obtient à partir des données provenant de
l’échantillon une estimation d’une caractéristique inconnue de la population.

Qualité d’un estimateur : un bon estimateur est sans biais avec une variance qui
tend vers 0 quand l’effectif de l’échantillon observé tend vers l’infini (il est alors
convergent).

Estimation de la moyenne et de la variance d’une population :


Soit x1, x2, …, xn un échantillon tiré au hasard d’effectif n et de moyenne
n

x  x 2  ...  x n x i
x 1  i 1

n n
alors l’observation x de X est une bonne estimation de la moyenne  de la
population cible et
n

 x  x
2
i
s x2  i 1

n 1
est une bonne estimation de la variance de la population et sa racine carrée, sx, est
une bonne estimation de l’écart-type de la population.
La formule suivante permet d’avoir une estimation de la variance de la population à
partir de la variance de l’échantillon :

 Var  X 
n
s x2 
n 1

Estimation d’une proportion et de la variance d’une proportion :


La fréquence du caractère étudié dans l’échantillon tiré au hasard, f  k n , est une
bonne estimation de la fréquence de ce caractère dans la population et
f  1  f  n est une bonne estimation de la variance de la fréquence de ce caractère
dans un échantillon de taille n.

57
Ce qu’il faut savoir absolument

Intervalle de confiance d’une moyenne


Hypothèse sur la loi de distribution de la variable dans la
population
Suit une loi Normale Ne suit pas une loi Normale
Petits échantillons
x  T  ,  s m ; x  T ,  s m  On ne peut rien dire
(n < 30)
Grands
échantillons x  N  sm ; x  N  sm 
(n  30)
sx
avec sm 
n

Intervalle de confiance d’une proportion


f  N   s f ; f  N  s f 
f  1  f 
avec s f 
n
Interprétation d’un intervalle de confiance :
Soit  le paramètre inconnu (une moyenne ou une proportion) d’une population que
l’on cherche à estimer.
On dira qu’il y a .100 chances sur cent de se tromper en disant que  appartient à
l’intervalle.
On dira qu’il y a (1 - ).100 chances sur cent de ne pas se tromper en disant que 
appartient à l’intervalle.

Propriétés d’un intervalle de confiance :


 Il est centré sur l’estimation du paramètre ;
 Toutes choses égales par ailleurs il est d’autant plus large que  est petit ;
 Toutes choses égales par ailleurs il est d’autant plus étroit que n est grand.

58
Questions à choix multiples

Questions à choix multiples


QCM 4 : Sur 125 patients présentant une dyspnée, pris au hasard parmi les urgences
d’un hôpital, on a dosé le peptide cérébral natriurétique (BNP). Après explorations
complémentaires, le diagnostic d’insuffisance cardiaque a été confirmé ou infirmé pour
chaque patient (cf. le tableau suivant) :
Insuffisance cardiaque Dyspnée d’autre origine
BNP > 300 pg/mL 90 5 95
BNP  300 pg/mL 10 20 30
100 25 125

A. Pour une valeur seuil de 300 pg/mL, la sensibilité estimée du BNP pour le
diagnostic d’insuffisance cardiaque est de 0,94.
B. Pour une valeur seuil de 300 pg/mL, la sensibilité estimée du BNP pour le
diagnostic d’insuffisance cardiaque est de 0,90.
C. Pour une valeur seuil de 300 pg/mL, la spécificité estimée du BNP pour le
diagnostic d’insuffisance cardiaque est de 0,80.
D. La probabilité estimée de l’erreur commise en utilisant un seuil de 300 pg/mL est
égale à 0,24.
E. La probabilité estimée de l’erreur commise en utilisant un seuil de 300 pg/mL est
égale à 0,12.

QCM 5 : Soit p la proportion de patients présentant une dissection de l’aorte


thoracique estimée à partir d’un échantillon, pris au hasard, de taille n. Quelles sont les
assertions qui sont vraies :
A. La fréquence relative est une bonne estimation de p.
B. L’intervalle de confiance est, toutes choses égales par ailleurs, d’autant plus
étroit que n est petit.
C. L’intervalle de confiance est, toutes choses égales par ailleurs, d’autant plus
large que  est petit.
D. L’intervalle de confiance à 95 % de p est plus étroit que l’intervalle de confiance
à 99 %.
E. On ne peut pas calculer un intervalle de confiance à 100(1-) % car l’échantillon
est pris au hasard.

59
Chapitre 6 Indicateurs et courbes de
survie : définitions et
estimations

Introduction
Dans cette partie, nous nous intéresserons plus particulièrement à certains
indicateurs permettant de décrire un état de santé, de rendre compte de la valeur
informationnelle d’un signe médical, de quantifier le risque de morbidité (risque
relatif) ou le risque de mortalité (établissement des courbes de survie) d’un facteur
pronostic.

Indicateurs de morbidité

Prévalence
Le taux de prévalence ou prévalence est la proportion des cas (individus porteurs
de la maladie M ou de tout autre caractéristique) existants dans une population P à une
certaine date. La prévalence est un nombre sans dimension. On peut assimiler la
prévalence à la probabilité qu’un individu pris au hasard dans la population soit porteur
de M4. La prévalence s’exprime comme une probabilité ou en « pour N », comme par
exemple pour 10 000.
nombre de cas existant
Prévalence 
effectif de la population
L’estimation de la prévalence repose sur une enquête transversale : observation de la
population ou d’un échantillon à une date fixée. Cette enquête peut être réalisée par le
prélèvement d’un échantillon au hasard dans la population à une certaine date, et pour
chaque individu on détermine si la maladie M est présente ou absente. Toutefois ce
procédé peut être inapproprié s’il n’est pas possible de pratiquer les tests permettant de
déterminer la présence ou l’absence de M chez des individus pris au hasard ; il peut
être inefficace si la maladie M est rare car dans ce cas, pour une taille d’échantillon

4
Afin de modéliser le problème, on suppose que ce patient est pris au hasard dans une population P et
que l’on connaît la proportion p des personnes atteintes par M dans P. Puisque le patient est pris au
hasard dans la population, la probabilité qu’il soit un des porteurs de M est la prévalence p = P(M).
Indicateurs de la valeur informationnelle d’un signe médical

raisonnable, l’estimation sera peu précise.


Exemple :
On s’intéresse à la prévalence du phénotype A dans le système ABO, dans
une population P. Sur un échantillon pris au hasard de 1 000 individus 460
sont de phénotype A.
L’estimation de la prévalence du phénotype A est 46 %.
L’intervalle de confiance à 95% de la prévalence est :
  0,46  0,54 
0,46  1,96    43 % ; 49 %

  1000 

Incidence
Le taux d’incidence ou incidence est le nombre de nouveaux cas dans un certain
intervalle de temps T dans une population P. L’incidence est un nombre sans
dimension par unité de temps. On peut assimiler l’incidence à la probabilité qu’un
individu pris au hasard contracte la maladie pendant une unité de temps. L’incidence
s’exprime en « pour N par T ». Par exemple, l’incidence du cancer bronchique est
de 15 / 100 000 par an.
nombre de nouveaux cas dans la période
Incidence par unité de temps 
effectif de la population   période en unité de temps 

L’estimation de l’incidence nécessite d’observer la population ou un échantillon


pendant une période. On peut donc prélever un échantillon au hasard dans P et le
surveiller pendant la période. Toutefois, pour les mêmes raisons que ci-dessus pour la
prévalence, ceci peut être irréaliste. Les enquêtes exhaustives, c’est-à-dire surveillant
toute une population (permanente ou non), sont plus adaptées à l’estimation de
l’incidence.
Remarque :
Sous des hypothèses extrêmement simplificatrices (incidence stable, durée D de la
maladie stable), la prévalence (P) et l’incidence (I) sont liées :
P  ID

Indicateurs de la valeur informationnelle d’un signe médical


Soit T un test diagnostique, ou un signe clinique, pouvant être soit positif (T+) soit
négatif (T-). Ce test est utilisé pour discriminer les malades des non malades, c’est-à-
dire à évoquer la présence (M+) ou l’absence (M-) d’une maladie M.
Le test T peut être caractérisé par :
 Sa sensibilité vis-à-vis de M : elle correspond à la proportion des T+ chez les M+
Se = P(T+ / M+)

62
Indicateurs de la valeur informationnelle d’un signe médical

 Sa spécificité vis-à-vis de M : elle correspond à la proportion des T- chez les M-


Sp = P(T- / M-)
 Sa valeur prédictive positive : elle correspond à la proportion des M+ étant T+
VPP = P(M+ / T+)
 Sa valeur prédictive négative : elle correspond à la proportion des M- étant T-
VPN = P(M- / T-)
Remarque 1 :
Le test T serait parfait s’il était positif chez tous les malades (Se = 1) et négatif chez
tous les non malades (Sp = 1) puisqu’il permettrait de discriminer les M+ des M- sans
erreur.
Ceci est rarement le cas, aussi lorsque nous utilisons le résultat de T pour décider si
le patient est M+ parce que T+, ou M- parce que T-, nous pouvons commettre deux
types d’erreurs :
 Déclarer M+ un patient M- : on dit que c’est un faux positif ;
 Déclarer M- un patient M+ : on dit que c’est un faux négatif.
Cette relation maladie - résultat de T est résumée dans le Tableau 6.1 :

Patient M+ Patient M-
T+  déclaré M+ vrai positif (VP) faux positif (FP)
T-  déclaré M- faux négatif (FN) vrai négatif (VN)
Tableau 6.1 : Relation maladie - résultat du test.

La formule d’une probabilité conditionnelle nous permet de déterminer les


probabilités associées à chacune des possibilités (cf. ci-dessous et le Tableau 6.2) :
P(vrai positif) = P(M+  T+) = P(T+ / M+).P(M+) = Se.p
P(faux négatif) = P(M+  T-) = P(T- / M+).P(M+) = (1 - Se).p
P(faux positif) = P(M-  T+) = (1 - Sp).(1 - p)
P(vrai négatif) = P(M-  T-) = Sp. (1 - p)

Patient M+ Patient M-
T+  déclaré M+ P(M+  T+) = Se.p M-  T+) = (1 - Sp).(1 - p)
T-  déclaré M- P(M+  T-) = (1 - Se).p P(M-  T-) = Sp. (1 - p)
Tableau 6.2 : Relation maladie - résultat au test, sensibilité et spécificité.

La probabilité de commettre une erreur, P(FP  FN), est donc :


P(erreur) = (1 - Se).p + (1 - Sp).(1 - p)

63
Indicateurs de la valeur informationnelle d’un signe médical

Le taux d’erreur dépend donc de la prévalence et de la qualité de T (sensibilité,


spécificité).
Remarque 2 :
La prévalence de la maladie dans la population P peut être interprétée comme la
« crédibilité » que nous avons dans le fait qu’un patient, pris au hasard, soit porteur de
M. On parlera de probabilité de la maladie a priori, ou probabilité pré-test.
Le résultat du test T a pour but de faire évoluer cette probabilité de M a priori vers
une probabilité de M a posteriori si le test est positif, P(M+ / T+), ou si le test est
négatif, P(M- / T-), définissant les valeurs prédictives d’un test.
Par application du théorème de Bayes, on obtient :

La valeur prédictive positive est la probabilité que le patient offre M (M +) après


observation de T et un résultat positif (T+, Figure 6.1 : Probabilité de M a priori et
probabilité de M a posteriori.). La valeur prédictive négative est la probabilité que le
patient n’offre pas M (M-) après observation de T et un résultat négatif (T-).

Figure 6.1 : Probabilité de M a priori et probabilité de M a posteriori.

Remarque :
 Si un test a une Sp = 1 alors VPP = 1 (signe pathognomonique). Plus
généralement si un test a une Sp très élevée, un résultat positif est fortement
en faveur du diagnostic (VPP haute) ;
 Si un test a une Se = 1 alors VPN = 1. Plus généralement si un test a une Se
très élevée, un résultat négatif élimine le diagnostic (VPN haute).

Sensibilité
On peut estimer la sensibilité Se de T vis-à-vis de M au vu d’un échantillon au
hasard pris parmi les malades (Tableau 6.3) :

64
Indicateurs de la valeur informationnelle d’un signe médical

T+ T- total
M+ a c nM+
Tableau 6.3 : Estimation de la sensibilité à partir d’un échantillon de malades tiré au hasard.

Se = P(T+ / M+) est une probabilité on peut donc l’estimer par se = a / nM+ et
l’intervalle de confiance, si nM+ est assez grand, est
 se  1  se 
se   N  
 nM  

Spécificité
On peut estimer la spécificité Sp de T vis-à-vis de M au vu d’un échantillon pris au
hasard parmi les non malades (Tableau 6.4) :

T+ T- total
M- b d nM-
Tableau 6.4 : Estimation de la spécificité à partir d’un échantillon de non malades tiré au
hasard.

Sp = P(T- / M-) est une probabilité on peut donc l’estimer par sp = d / nM- et
l’intervalle de confiance, si nM- est assez grand, est
 sp  1  sp  
sp   N  
 nM  
Remarque :
Nous venons de voir qu’il faut 2 échantillons au hasard : l’un de malades, pour
estimer la sensibilité, et l’autre de non malades, pour estimer la spécificité. Dans
certains cas nous ne disposons que d’un seul échantillon dans la population pour lequel
on note, pour chacun des individus, les résultats T et M comme le montre le Tableau
6.5 :

M+ M- Total
T+ a b a+b
T- c d c+d
a+c b+d n
Tableau 6.5 : Résultat d’un test sur un échantillon.

Dans ce cas, se = a / (a + c) et sp = d / (b + d) sont de bonnes estimations de Se et Sp


respectivement. En revanche, on ne peut pas calculer les intervalles de confiances par

65
Indicateurs de l’effet d’un facteur : risque relatif

la méthode donnée ci-dessus. En effet, les totaux colonnes, a + c et b + d, sont


aléatoires (non déterminés par l’expérimentateur).
Il est également possible d’estimer les valeurs prédictives par :
vpp = a / (a + b)
vpn = d / (c + d)
Exemple :
On s’intéresse à la biopsie de l’artère temporale dans la maladie de
Horton. La biopsie peut être positive (présence de cellules géantes) ou
négative. On a prélevé un échantillon de taille 100 parmi des personnes
porteuses de la maladie et un échantillon de taille 100 parmi des
personnes non porteuses de la maladie. Les observations sont résumées
dans le Tableau 6.6 et le Tableau 6.7 :

biopsie+ biopsie- total


Horton+ 80 20 100
Tableau 6.6 : Résultats de la biopsie chez les malades.

biopsie+ biopsie- total


Horton- 1 99 100
Tableau 6.7 : Résultats de la biopsie chez les non malades.

On peut estimer la Se par :


se = 80 / 100 = 0,80 avec un intervalle de confiance à 95%
  0,8  0,2   2  4
0,8  1,96    0,8 
  0,8  0,08  0,72 ; 0,88
 

100   100 

On peut estimer Sp5 par sp = 99 / 100 = 0,99.


On en conclut que la biopsie a une sensibilité bonne ou moyenne et une
excellente spécificité.
La précision de l’intervalle de Se peut paraître mauvaise, la seule solution
est de prendre un échantillon de plus grande taille.

Indicateurs de l’effet d’un facteur : risque relatif


On définit le risque comme l’incidence : c’est la probabilité de développer une
maladie M (par exemple : risque d’infarctus du myocarde) ou bien la probabilité de

5
On ne peut pas estimer l’intervalle de confiance de Sp avec la formule du cours car l’estimation de
Sp est proche de 1.

66
Indicateurs de l’effet d’un facteur : risque relatif

développer un état (par exemple : risque de récidive d’un cancer après rémission).
On s’intéresse souvent à la modification du risque par la présence ou l’absence de
certains facteurs, autrement dit on s’intéresse au risque dans des sous populations
définies par la présence ou l’absence de certains facteurs. Par exemple, on peut
s’intéresser à la trisomie 21 et considérer la sous population des mères âgées de plus de
38 ans ou apparentées à un trisomique 21 et celle des mères ni âgées de plus de 38 ans
ni apparentées à un trisomique 21.
Nous considèrerons les cas où la maladie est présente (M+) ou absente (M-) et où il
y a un seul facteur F qui peut être présent (F+) ou absent (F-).
On définit alors 2 risques :
 Le risque chez les exposés au facteur F : P(M+/F+),
 Le risque chez les non exposés au facteur F : P(M+/F-).
Un indicateur de l’influence du facteur est le risque relatif : risque de M+ chez les
exposés à F par rapport au risque de M+ chez les non exposés à F.
PM  / F  
RR 
PM  / F  
Le RR (risque relatif) varie de 0 à l’infini.
Interprétation du RR :
 Si RR > 1 ( P(M+ / F+) > P(M+ / F-)), alors la présence du facteur F
« favorise la maladie ». On dit que F est un facteur de risque.
 Si RR < 1 ( P(M+ / F+) < P(M+ / F-)), alors la présence du facteur F
« favorise la non maladie ». On dit que F est un facteur protecteur.
 Si RR = 1 ( P(M+ / F+) = P(M+ / F-)), alors le facteur F n’a pas d’effet sur la
maladie.
Remarque :
Le risque relatif mesure le rapport des risques et non pas la variation absolue des
risques.
Sur le Tableau 6.8, le RR est égal à 3 dans les 2 cas alors que la différence absolue
des risques (ou réduction absolue des risques) est de 20 % dans le premier cas et 2 %
dans le second. C’est-à-dire, toutes choses égales par ailleurs, qu’une éradication du
facteur pourrait avoir un effet quantitativement plus grand dans le premier cas.

P(M+ / F+) P(M+ / F-) P(M+ / F+) - P(M+ / F-) RR


0,30 0,10 0,20 3
0,03 0,01 0,02 3
Tableau 6.8 : Risque relatif et différence absolue des risques.

Exemple :

67
Indicateurs de l’effet d’un facteur : risque relatif

On s’intéresse au poids de naissance et à l’âge de la mère. On a défini le


caractère poids faible par poids à la naissance < 2500 g et le caractère
mère jeune par âge < 20 ans. On désire savoir si le facteur mère jeune est
associé à poids faible.
Une première enquête (Tableau 6.9) est réalisée par le tirage d’un
échantillon au hasard parmi les naissances :

Poids faible Poids non faible Total


Mère jeune 10 40 50
Mère non jeune 15 135 150
Total 25 175 200
Tableau 6.9 : Résultats de la première enquête : enquête simple.

On peut estimer P(poids faible / mère jeune) par 10 / 50 et P(poids


faible / mère non jeune) par 15 / 150 et le RR par :
rr = (10 / 50) / (15 / 150) = (10 x 150) / (50 x 15) = 2
Une deuxième enquête (Tableau 6.10) est réalisée par le tirage au hasard
d’un échantillon parmi les naissances d’enfants de mère jeune (exposées)
et d’un échantillon au hasard parmi les naissances d’enfants de mère non
jeune (non exposées) :

Poids faible Poids non faible Total


Mère jeune 20 80 100
Mère non jeune 10 90 100
Tableau 6.10 : Résultats de la deuxième enquête : enquête exposés / non exposés.

On peut estimer P(poids faible / mère jeune) par 20 / 100 et P(poids


faible / mère non jeune) par 10 / 100 et le RR par :
rr = (20 / 100) / (10 / 100) = 2
Une troisième enquête (Tableau 6.11) est réalisée par le tirage au hasard
d’un échantillon parmi les naissances de faible poids (cas) et d’un
échantillon parmi les naissances de poids non faible (témoins) :

Poids faible Poids non faible


Mère jeune 40 23
Mère non jeune 60 77
Total 100 100
Tableau 6.11 : Résultats de la troisième enquête : enquête cas / témoins.

68
Indicateurs de l’effet d’un facteur : risque relatif

On ne peut pas estimer P(poids faible / mère jeune) par 40 / (40 + 23) car
40 et 23 sont issus de 2 échantillons indépendants.
40 / (40 + 60) n’estime pas P(poids faible / mère jeune) mais P(mère
jeune / poids faible) puisque l’échantillon est pris parmi les poids faibles.
On ne peut donc pas estimer le risque relatif dans ce type d’enquête
(cas / témoins) sauf si la maladie M est rare (cf. plus loin).
Pour estimer le risque relatif on peut soit :
 Conduire une enquête simple : on prend un seul échantillon de personnes dans
la population cible et on détermine par interrogatoire ou par consultation de
dossiers leur statut (M+ ou M-) et leur exposition passée (F+ ou F-) (Tableau
6.12) :

M+ M-
F+ a b
F- c d
Tableau 6.12 : Enquête simple.

RR est estimé par :


a
rr  a  b
c
cd
 Conduire une enquête de type « exposés / non exposés » : on prend deux
échantillons de personnes indemnes, un échantillon au hasard parmi les F+
(exposés) et un échantillon au hasard parmi les F- (non exposés) que l’on suit
pendant une période déterminée (Tableau 6.13) :

M+ M-
F+ a b
F- c d
Tableau 6.13 : Enquête exposés / non exposés.

RR est également estimé par :


a
rr  a  b
c
cd
 Conduire une enquête du type « cas / témoins » : on prend deux échantillons,
un échantillon au hasard parmi les M+ (cas) et un échantillon au hasard parmi les
M- (témoins) et on détermine par interrogatoire ou par consultation de dossiers
leur exposition passée (Tableau 6.14) :

69
Indicateurs de l’effet d’un facteur : risque relatif

M+ M-
F+ a b
F- c d
Tableau 6.14 : Enquête cas / témoins.

Comme nous l’avons vu dans l’exemple précédent, une enquête de type


cas / témoins ne permet pas d’estimer le RR. Toutefois on peut estimer le Risque
Relatif Approché (ou odd ratio, OR). L’OR s’interprète qualitativement comme le RR
(OR < 1, OR = 1, OR > 1). De plus, si la fréquence d’apparition de la maladie
(incidence) est faible, l’OR est une bonne approximation du RR.
Le risque relatif approché est estimé par :
ad
rra 
bc
Nous ne donnons pas l’expression de l’intervalle de confiance de RR ou du OR mais
il est d’autant moins précis que a ou b ou c ou d sont petits. Il en résulte que pour
obtenir une estimation assez précise :
 Si M et/ou F est (sont) rare(s) l’enquête simple nécessite une taille d’échantillon
très grande.
 Si l’incidence de M est faible l’enquête exposés/non exposés nécessite des tailles
d’échantillon très grandes.
La qualité de l’enquête dépend de la qualité de la mesure de M et de la mesure de F.
De ce point de vue l’enquête cas / témoins, où la mesure de l’exposition est souvent
rétrospective (mesurée par interrogatoire ou consultation de dossiers), est la plus
délicate.
Enfin pour déclarer le facteur « facteur de risque » (ou protecteur) il convient de
tester RR = 1 contre RR  1 ce qui est présenté dans le chapitre « Etude de la liaison
entre deux variables : tests de comparaison et tests d’indépendance ».
Il est à noter que le fait qu’un facteur soit facteur de risque (ou protecteur) dans une
enquête d’observation (où ni le facteur ni le caractère ne sont contrôlés par
l’expérimentateur) ne permet pas de conclure que le facteur entraîne le caractère
(causalité). On observe simplement un lien entre le facteur et le caractère et on chiffre
la force de ce lien par l’estimation du RR.
Dans l’exemple ci-dessus sur l’âge de la mère et le poids des enfants à la naissance,
si on conclut que « mère jeune » est un facteur de risque on ne peut pas conclure à la
causalité puisque c’est une enquête d’observation. En effet, il faut remarquer que l’âge
de la mère peut être lié à bien d’autres facteurs (parité, niveau social, …) et donc peut
lui même refléter l’effet d’un autre facteur. Considérons un exemple dans lequel on
découpe un pays en régions. On constate un lien entre le nombre de lits d’hôpital et le
nombre de spectateurs des matchs de football. Il est clair que les deux sont des effets
du nombre d’habitants par région et donc ce lien n’est pas direct.

70
Etablissement des courbes de survie

Exemple :
On s’intéresse à la bronchite chronique et au tabagisme défini par :
tabac+ = plus de 20 cigarettes par jour.
Une enquête exposés / non exposés donne l’observation du Tableau 6.15.
Le RR est estimé par rr = (50 / 100) / (10 / 100) = 5.

Bronchite+ Bronchite-
Tabac+ 50 50
Tabac- 10 90
Tableau 6.15 : Observation de la bronchite chronique dans une enquête exposés / non exposés.

Etablissement des courbes de survie

Généralités
On est parfois conduit à s’intéresser au délai séparant le début d’une expérience et la
survenue d’un certain événement.
Exemples :
Délai entre le diagnostic d’une maladie et la survenue du décès par cette
maladie, délai entre un premier épisode d’infarctus du myocarde et la
récidive, délai entre la mise en œuvre d’un traitement et la disparition des
symptômes, …
Pour cela il faut estimer au vu d’un échantillon des caractéristiques de la variable
aléatoire « délai dans la population » telles que, par exemple : taux de survie à 5 ans,
médiane de survie, …
Ces estimations, ou inférences, ne nécessiteraient pas de méthode particulière si les
observations étaient complètes, c’est-à-dire si on observait l’événement pour tous les
éléments de l’échantillon. Or ceci n’est en général pas le cas parce que l’on ne peut pas
attendre que tous les individus aient produits l’événement (délai trop long) ou bien
parce que l’on peut ne pas observer l’événement chez certains individus (par exemple,
alors qu’elle aurait pu se produire, on n’observera pas la récidive d’un infarctus du
myocarde chez les individus décédés). Ces observations incomplètes sont dites
censurées à droite et l’on considérera qu’elles sont dues au hasard.
Par la suite l’événement d’intérêt sera dénommé « décès ».

Définitions
Le délai T entre l’entrée dans l’expérience et le décès est une variable aléatoire
pouvant être caractérisée par sa fonction de survie : S t   PT  t  , avec S 0  1 ,
S t  est décroissante et S t  tend vers 0 quand t tend vers l’infini (cf. Figure 6.2).

71
Etablissement des courbes de survie

Figure 6.2 : Fonction de survie.

On décide de débuter une expérience à une date fixée et de la terminer à une date
également fixée. Cette date de fin de l’expérience est la date de point. Les individus
sont recrutés pendant la durée de l’expérience (ou au début) au fur et à mesure de leur
éligibilité.
On doit connaître pour chacun des individus :
 La date d’entrée dans l’étude ;
 La date des dernières nouvelles (DN) : date à laquelle on a observé l’individu
pour la dernière fois. En cas de décès, la date de DN est celle du décès ;
 L’état aux DN : vivant ou décédé ;
Si la date des DN est postérieure à la date de point, on « tronque » l’observation qui
est analysée comme « vivant à la date de point ».
Si la date des DN est antérieure à la date de point, l’observation est analysée comme
l’indique l’état aux DN.
On appelle (cf. Figure 6.3) :
 Observations complètes : les individus décédés avant la date de point (ou à la
date de point).
 Exclus vivants : les individus vivants à la date de point.
 Perdus de vue : les individus vivants aux dernières nouvelles et dont la date des
DN est antérieure à la date de point.
 Censures : les exclus vivants et les perdus de vue.
 Recul : le délai entre la date d’entrée et la date de point.
 Temps de participation : le délai entre la date d’entrée et la date des DN si
celle-ci est antérieure à la date de point, sinon le délai entre la date d’entrée et la
date de point.

72
Etablissement des courbes de survie

Figure 6.3 : Schématisations de quelques définitions.

Exemple :
On s’intéresse au délai séparant un 1er infarctus du myocarde (IDM) et sa
récidive.
L’observation porte sur 6 patients (Tableau 6.16). La date de début est le
1/1/86, la date de point est le 1/6/87.

Patient Date 1er IDM Date DN (ou récidive) Etat aux DN


1 1/1/86 1/7/87 Pas de récidive
2 1/6/86 1/6/87 Pas de récidive
3 1/10/86 1/4/87 Récidive
4 1/11/86 1/4/87 Pas de récidive
5 1/1/87 1/5/87 Récidive
6 1/3/87 1/7/87 Récidive
Tableau 6.16 : Résultats de l’observation.

En terme de données de survie l’observation est donnée par le Tableau


6.17 (unité de temps = mois).

73
Etablissement des courbes de survie

État en fin
Temps de Etat à la
Patient Recul État aux DN de
participation date de point
participation
1 17 17 Vivant Vivant Vivant
2 12 12 Vivant Vivant Vivant
3 8 6 Décédé Décédé Décédé
4 7 5 Vivant ? Perdu de vue Vivant
5 5 4 Décédé Décédé Décédé
6 3 3 Décédé Vivant Vivant
Tableau 6.17 : Données de survie6.

Il y a :
1 perdu de vue, le patient 4 ;
3 exclus vivants, les patients 1, 2, 6 ;
4 données censurées, les patients 1, 2, 4, 6.

Estimation des courbes de survie : méthode de Kaplan-Meier


Si toutes les observations étaient complètes l’estimation du taux de survie au temps t
serait tout simplement le rapport entre le nombre d’individus encore en vie au temps t
et le nombre d’individus exposés au risque de décès en début d’étude. Le fait qu’il y ait
des données incomplètes (censures) a pour effet de modifier le nombre d’individus
vivants et exposés au risque de décès au cours du temps, ce qui doit être pris en compte
dans le calcul du taux de survie.
Dans la méthode de Kaplan-Meier le délai de participation maximal est découpé en
intervalles déterminés par les temps de participations des individus décédés. Soient
t1 < t2 < … < ti < … < tn les temps de participations ordonnés des n individus décédés
de l’échantillon d’effectif N (on suppose les ti tous différents). Il y a N individus
exposés au risque de décès au début de l’expérience. Supposons qu’il n’y ait pas
d’observations incomplètes avant t1, le nombre d’individus encore en vie et exposés au
risque de décès à t1 est e1 = N. Supposons qu’un individu soit censuré entre t1 et t2, le
nombre d’individus encore en vie et exposés au risque de décès à t2 est e2 = e1 - 1 - 1 (1
décès et 1 censure). Par généralisation, le nombre d’individus encore en vie et exposés
au risque de décès entre ti et ti + 1 est : ei = ei - 1 - ci - 1 - di - 1.
Les informations contenues sur un intervalle étant conditionnelles aux événements
précédemment survenus ont doit estimer une probabilité conditionnelle de survie pour
chacun des intervalles de temps. Celle-ci correspond alors au rapport suivant :

6
En accord avec la terminologie utilisée dans le texte, on assimile à vivant les individus ne présentant
pas de récidive et à décédés les individus présentant une récidive.

74
Etablissement des courbes de survie

ei  d i
S t i 1 / t i  
ei
En faisant l’hypothèse que la survie (T) et le temps de censure sont indépendants7 on
estime la fonction de survie ou le taux de survie par :
S t   1 S t 2 / t1   ...  S t k 1 / t k  pour tk  t  tk + 1
Exemple :
Reprenons les données sur l’IDM du Tableau 6.17 pour construire le
Tableau 6.18 :

Patient ti = temps de Etat ei di S(ti+1 / ti) S(t)


participation
6 3 Vivant 6 0 1 1
5 4 Décédé 5 1 4 / 5 = 0,8 0,8
4 5 Vivant 4 0 1 0,8
3 6 Décédé 3 1 2 / 3 = 0,66 0,80·0,66 = 0,53
2 12 Vivant 2 0 1 0,53
1 17 Vivant 1 0 1 0,53
Tableau 6.18 : Calcul de S(t).

La fonction de survie S(t) peut être représentée graphiquement (Figure


6.4). Il s’agit d’une courbe discontinue en « marches d’escaliers ». Les
sauts correspondent aux décès (leur position n’est donc pas fixée a priori).

Figure 6.4 : Courbe de survie.

Remarques :
1. Dans le calcul d’une probabilité conditionnelle de survie, le nombre de censures

7
Par exemple, le temps de survie et le temps de censure ne sont pas indépendants si ont sait, dans le
contexte de l’étude, que les perdus de vue sont ceux qui vivent le plus longtemps.

75
Etablissement des courbes de survie

n’intervient que dans le nombre d’exposés au risque de décès (ei). La probabilité


conditionnelle de survie est donc de 1 lorsque l’on a affaire à une censure.
2. Dans le calcul du taux de survie, le rôle des censures n’est pas apparent puisque
S(t) reste inchangée, mais en réalité ei dépend des censures. Nous ne donnons pas
l’estimation de la variance de S(t) dans laquelle le rôle des censures est plus
apparent. L’estimation de S(t) est d’autant plus « fiable » que le nombre
d’observations non censurées à t est grand.
3. Cas de ex æquo : Nous avons supposé que les ti étaient tous différents ce qui est
légitime puisque le temps est une mesure continue. Cependant, il se peut que la
mesure du temps soit grossière et qu’il existe des ex æquo.
S’il y a plusieurs décès au temps ti, S(ti + 1 / ti) vaut (ei - di) / ei où di est le nombre
de décès en ti ;
S’il y a simultanément di décès et ci censures au temps ti, les censures en ti seront
prises en compte pour le calcul du nombre d’individus encore en vie et exposés au
risque de décès sur l’intervalle de temps suivant.

Estimation de la médiane de survie


La médiane de survie est le temps  tel que S    0,5 , c’est-à-dire tel qu’on a 1
chance sur 2 de vivre au delà.
On estime la médiane de survie par

  mint / S t   0,5

Exemple :
On s’intéresse au devenir des patients ayant subi 2 angioplasties et plus
particulièrement à la survenue après la 2ème dilatation soit d’un IDM soit
d’un pontage soit d’un décès d’origine cardiaque (Tableau 6.19). Les
dates sont exprimées en mois. La date de point est le 1/1/98.

76
Etablissement des courbes de survie

Date Temps de
Patient Date DN Etat aux DN Etat
d’entrée participation
1 10/93 2/94 Pontage 5 Décédé
2 4/94 5/94 Vivant 2 Vivant
3 9/94 12/94 Décédé 4 Décédé
4 1/95 4/95 Pontage 4 Décédé
5 3/95 7/95 IDM 5 Décédé
6 7/95 7/95 IDM 1 Décédé
7 10/95 3/96 Pontage 6 Décédé
8 11/95 12/95 Vivant 2 Vivant
9 4/97 10/97 Pontage 7 Décédé
10 6/97 2/98 Vivant 7 Vivant
Tableau 6.19 : Données de survie.

Le calcul des taux de survie est donné dans le Tableau 6.20. La


représentation graphique de S(t) est donnée Figure 6.5 . On peut voir que
la hauteur des sauts n’est pas fixe ; elle dépend du nombre de décès ex
æquo. L’estimation de la médiane de la survie est de 5 mois.

Patient ti ei di Censures S(ti+1 / ti) S(t)


10 1
6 1 10 1 0 9 / 10 = 0,9 0,9
2, 8 2 9 0 2 1 0,9
3, 4 4 7 2 0 5 / 7 = 0,71 0,64
1, 5 5 5 2 0 3 / 5 = 0,6 0,39
7 6 3 1 0 2 / 3 = 0,66 0,26
9, 10 7 2 1 1 1 / 2 = 0,5 0,13
Tableau 6.20 : Calcul de S(t).

77
Ce qu’il faut savoir absolument

Figure 6.5 : Courbe de survie.

Ce qu’il faut savoir absolument


Indicateur de morbidité
Le taux de prévalence ou prévalence est la proportion des cas (individus porteurs
de la maladie M ou de tout autre caractéristique) existants dans une population P à une
certaine date.
nombre de cas existant
Prévalence 
effectif de la population
Le taux d’incidence ou incidence est le nombre de nouveaux cas dans un certain
intervalle de temps T dans une population P.
nombre de nouveaux cas dans la période
Incidence par unité de temps 
effectif de la population   période en unité de temps 

Sous des hypothèses extrêmement simplificatrices (incidence stable, durée D de la


maladie stable), la prévalence (P) et l’incidence (I) sont liées :
P  ID
Indicateurs de la valeur informationnelle d’un signe médical
On peut estimer la sensibilité Se de T vis-à-vis de M au vu d’un échantillon au
hasard pris parmi les malades
T+ T- total
M+ a c nM+

Se = P(T+ / M+) est une probabilité on peut donc l’estimer par se = a / nM+ et

78
Ce qu’il faut savoir absolument

l’intervalle de confiance, si nM+ est assez grand, est


 se  1  se 
se   N  
 nM  
On peut estimer la spécificité Sp de T vis-à-vis de M au vu d’un échantillon au
hasard pris parmi les non malades
T+ T- total
M- b d nM-

Sp = P(T- / M-) est une probabilité on peut donc l’estimer par sp = d / nM- et
l’intervalle de confiance, si n M- est assez grand, est
 sp  1  sp  
sp   N  
 nM  

Valeur prédictive positive de T VPP = P(M / T+)

Valeur prédictive négative de VPN = P(nonM / T-)


T

Dans certains cas nous ne disposons que d’un seul échantillon tiré au hasard :
M+ M- Total
T+ a b a+b
T- c d c+d
a+c b+d n

On a alors :
se = a / (a + c)
sp = d / (b + d)
vpp = a / (a + b)
vpn = d / (c + d)

Indicateurs de l’effet d’un facteur : risque relatif


On définit le risque comme l’incidence : c’est la probabilité de développer une

79
Ce qu’il faut savoir absolument

maladie M ou bien la probabilité de développer un état.


On définit le risque relatif (de M par F) comme suit :
PM  / F  
RR 
PM  / F  
 Si RR > 1, F est un facteur de risque ;
 Si RR < 1, F est un facteur protecteur ;
 Si RR = 1, F n’a pas d’effet sur M.
Le RR mesure le rapport des risques et non pas la variation absolue des risques.
 Dans une enquête de type « exposés / non exposés » : on prend deux
échantillons de personnes indemnes, un échantillon au hasard parmi les F+
(exposés) et un échantillon au hasard parmi les F- (non exposés) que l’on suit
pendant une période déterminée (Tableau 6.21) :
M+ M-
F+ a b
F- c d
Tableau 6.21 : Enquête exposés / non exposés.

Le RR est estimé par :


 a   c 
rr     
a b c  d 
 Dans une enquête du type « cas / témoins » : on prend deux échantillons, un
échantillon au hasard parmi les M+ (cas) et un échantillon au hasard parmi les
M- (témoins) et on détermine par interrogatoire ou par consultation de dossiers
leur exposition passée (Tableau 6.22) :

M+ M-
F+ a b
F- c d
Tableau 6.22 : Enquête cas / témoins.

Une enquête de type cas / témoins ne permet pas d’estimer le RR.


Toutefois on peut dans ce cas estimer le Risque Relatif Approché (ou odd ratio) qui
est, si l’incidence de la maladie est faible, une bonne approximation du RR.
Le risque relatif approché est estimé par :
ad
rra 
bc
Pour déclarer un facteur « facteur de risque » (ou protecteur) il convient de tester
RR = 1 contre RR  1.

80
Questions à choix multiples

Définitions à connaître pour l’étude de la survie :


 Date des dernières nouvelles (DN) : date à laquelle on a observé l’individu
pour la dernière fois. En cas de décès la date de DN est celle du décès.
 Observations complètes : les individus décédés avant la date de point (ou à la
date de point).
 Exclus vivants : les individus vivants à la date de point.
 Perdus de vue : les individus vivants aux dernières nouvelles et dont la date des
DN est antérieure à la date de point.
 Censures : les exclus vivants et les perdus de vue.
 Recul : délai entre la date d’entrée et la date de point.
 Temps de participation : délai entre la date d’entrée et la date des DN si celle-
ci est antérieure à la date de point, sinon le délai entre la date d’entrée et la date
de point.
Estimations des courbes de survie : méthode de Kaplan-Meier
Cette méthode est valable si la survie (T) et le temps de censure sont indépendants.
Probabilité conditionnelle de survie :
ei  d i
S t i 1 / t i  
ei
Probabilité (ou taux) de survie à t :
S t   1 S t 2 / t1   ...  S t k 1 / t k  pour tk  t  tk + 1
Estimation de la médiane de survie
La médiane de survie est le temps  tel que S    0,5 , c’est-à-dire tel qu’on a 1
chance sur 2 de vivre au delà.

Questions à choix multiples


QCM 6 : Parmi les assertions suivantes, quelles sont celles qui sont vraies :
A. La prévalence correspond au nombre de nouveaux cas d’une maladie M dans une
population P à un certain intervalle de temps T.
B. L’estimation de la prévalence d’une maladie M repose sur une enquête
transversale.
C. Le risque relatif est un indicateur de la variation absolue des risques.
D. On ne peut pas estimer le risque relatif dans une étude exposés / non exposés.
E. A taille d’échantillon égal, l’intervalle de confiance du risque relatif est d’autant
plus large que la maladie est peu fréquente.

81
Questions à choix multiples

QCM 7 : Concernant l’estimation de la survie, quelles sont les assertions qui sont
vraies :
A. Les exclus vivants correspondent à des sujets qui sont exclus des calculs car ils
ne sont pas morts.
B. Le temps de participation correspond toujours au délai entre la date d’entrée et la
date de point.
C. Le calcul du nombre d’individus encore en vie et exposés au risque de décès sur
un intervalle tient compte, entre autre, du nombre d’individus décédés et
censurés dans l’intervalle précédent.
D. L’estimation de la probabilité de survie au temps t n’est pas modifiée lorsque
l’on a affaire à une censure.
E. L’estimation de la probabilité de survie au temps t est d’autant moins fiable que
le nombre d’observations censurées avant t est grand.

82
Chapitre 7 Principes généraux des
tests statistiques

Position du problème (exemple)


Dans une industrie pharmaceutique, une machine fabrique des gélules.
Elle est réglée de telle sorte que chaque gélule contienne une quantité  de
produit actif. En réalité la quantité de produit actif dans une gélule est
aléatoire et nous admettrons que cette quantité suit une loi N(,),  étant
connu. On voudrait savoir si la machine est réglée correctement et délivre
bien la quantité ‘a’ de produit actif. Pour cela, on prélève un échantillon
au hasard de taille n et pour chacune des gélules on mesure (sans erreur)
la quantité de produit actif. Il s’agira, au vu de la quantité moyenne de
produit actif observée, x , de dire si le réglage est bon ou mauvais. Si le
réglage est bon, la quantité moyenne de produit actif est toujours  = a. Si
le réglage est mauvais, la quantité moyenne de produit actif est ,
différente de ‘a’. On doit donc réaliser un test de comparaison pour
comparer une moyenne observée à une constante.
Cependant, pour chacune de ces situations, la quantité moyenne de produit
actif observée sur un échantillon tiré au hasard pourra prendre une valeur
différente de la valeur théorique (Tableau 7.1). En effet, toute mesure
effectuée sur un échantillon est soumise aux fluctuations
d’échantillonnage, dues au hasard du tirage.

Réglage bon Réglage mauvais


Quantité moyenne de produit
=a ≠a
actif théorique
Quantité moyenne de produit
x a x ≠a
actif observée sur échantillon
Valeurs possibles de x
0  infini 0  infini
observées sur échantillon
Tableau 7.1 : Effets des fluctuations d’échantillonnage.

On ne peut donc dire avec certitude si le réglage est bon ou mauvais. On


répondra alors à cette question en acceptant un certain risque d’erreur.
Méthode « classique » d’un test statistique

Intuitivement, on dira que le réglage est mauvais si l’écart entre x et ‘a’


est « grand ». Un test de comparaison permet d’associer au qualificatif
subjectif « grand » un risque d’erreur connu et accepté.

Méthode « classique » d’un test statistique


Au cours d’une expérience, on a prélevé un échantillon au hasard de 100 gélules. On
a observé une quantité moyenne de produit actif, mesurée sans erreur, x . Rappelons
que la machine est supposée être réglée de telle sorte que la quantité de produit actif
dans une gélule vaut ‘a’. Pour savoir si le réglage est bon ou mauvais on réalise un test
de comparaison. Pour cela, plusieurs étapes sont nécessaires :
1. Définir l’hypothèse H0 que l’on cherche à tester, classiquement appelée
hypothèse nulle. Dans ce cas, on veut tester si la quantité moyenne de produit
actif théorique, , est égale à la quantité ordonnée ‘a’, ou plus simplement, si
leur différence est nulle : H0 :  - a = 0, c’est-à-dire que le réglage est bon. Par la
suite, nous noterons D la variable aléatoire correspondant à cette différence et
d  x  a sa valeur observée.
2. Fixer le risque d’erreur global acceptable du test dans l’hypothèse où H0 est
vraie. Ce risque, dorénavant noté , est usuellement fixé à 5 %.
3. Supposons que l’hypothèse nulle soit vraie ; alors la distribution de la différence
théorique D est connue (Figure 7.1). Le mauvais réglage de la machine pouvant
modifier la quantité moyenne de produit actif en l’augmentant ou en la
diminuant, le risque d’erreur ( = 5 %) se décompose en 2 (zones grisées Figure
7.1). Ce risque d’erreur ainsi que les propriétés de la loi de la statistique D
lorsque H0 est vraie déterminent une valeur seuil |Vs| telle que les valeurs
supérieures à |Vs| seront jugées trop éloignées de 0 (d est « grand ») avec un
risque d’erreur global consenti de .
4. Calculer la statistique du test de comparaison d’une moyenne observée à une
constante. Si cette valeur appartient à une des régions de rejet, alors on considère
que cette valeur est suffisamment en désaccord avec H0 pour rejeter cette
dernière ; sinon, H0 n’est pas rejetée.

Figure 7.1 : Représentation d’un test statistique.

84
Notion de risque

Dans la méthode classique, la conclusion au test statistique repose sur la


comparaison entre la valeur du résultat de la statistique du test et la valeur seuil :
Rejet de H0 si : |résultat de la statistique du test|  |valeur seuil|
Conservation de H0 si : |résultat de la statistique du test| < |valeur seuil|

Notion de risque
Nous avons vu que la réalisation d’un test implique de définir une hypothèse nulle
H0 que l’on veut tester. La Figure 7.2 (a) représente ce que l’on observe réellement, si
H0 est vraie. On appelle seuil de signification la valeur Vs correspondant au risque de
rejeter H0 alors que celle-ci est vraie. Ce type d’erreur s’appelle également erreur de
1ère espèce et correspond au risque d’erreur  ou risque de 1ère espèce,.
Le rejet de l’hypothèse H0 se fait au bénéfice d’une autre hypothèse, dite hypothèse
alternative (HA). Comme sous H0, D suit sous HA une loi de distribution dont les
caractéristiques peuvent être étudiées. Une erreur peut être commise si le résultat de la
statistique du test de comparaison tombe dans la zone d’acceptation de H0, alors que
HA est vraie. On appelle erreur de 2ème espèce l’erreur consistant à accepter H0 alors
que celle-ci est fausse. Sa probabilité  est le risque de 2ème espèce, représentée par la
zone rayée sur la Figure 7.2 (b).

Figure 7.2 : Types d’erreurs possibles dans un test. (a)  = probabilité de rejeter H0 alors
qu’elle est vraie (b)  = probabilité d’accepter H0 alors qu’elle est fausse. δ est le résultat de la
statistique.

Une décision de rejet ou d’acceptation d’une hypothèse est toujours prise avec
incertitude (la réalité est inconnue). Le Tableau 7.2 représente ces différentes situations
décisionnelles.
Réalité (inconnue)
H0 vraie HA vraie
Décision retenue au vue H0 vraie Pas d’erreur Risque 
du résultat de la statistique HA vraie Risque  Pas d’erreur

Tableau 7.2 : Risques de première espèce () et de deuxième espèce ().

85
Notion de risque

A côté de ces situations décisionnelles d’erreurs, une situation décisionnelle correcte


est particulièrement intéressante : la puissance d’un test (1 -  ) est la capacité de ce
test à montrer une différence si elle existe (représentée par la zone à pois sur la Figure
7.2 (b)).
D’une manière générale, pour la même hypothèse nulle d’égalité des moyennes, il
est possible de considérer 2 types d’hypothèse alternative :
 Test bilatéral (Figure 7.3) : soit une situation consistant à comparer 2 moyennes
0 et A et où le sens de la différence importe peu. H0 correspond à 0 = A et HA
admet alors aussi bien 0 > A que 0 < A. On veut savoir si les deux moyennes
sont statistiquement significativement différentes ou non, sans s’occuper de
savoir laquelle est supérieure à l’autre (HA : 0  A).

Figure 7.3 : Test bilatéral.

 Test unilatéral (Figure 7.4) : une autre situation consiste à introduire une notion
d’ordre dans la définition de HA : la moyenne 0 est inférieure à la moyenne A
(ou l’inverse, HA : 0 > A). Si HA : A > 0, seules les valeurs du résultat de la
statistique supérieures à +Vs sont en faveur de HA et la région de rejet n’a qu’un
seul côté. D’une manière similaire à la situation bilatérale, Vs est déterminé par :
Proba( D  +Vs ) = .

Figure 7.4 : Test unilatéral.

86
Degré de signification d’un test statistique

Degré de signification d’un test statistique


Nous avons vu comment conclure à un test en comparant le résultat de la statistique
avec la valeur seuil, déterminée par  et la loi de la statistique lorsque l’hypothèse
nulle est vraie. Le résultat de cette procédure (rejet de H0 ou acceptation de H0)
s’exprime avec un risque d’erreur  fixé a priori et arbitrairement. Il existe une autre
approche qui permet de quantifier la crédibilité de H0 au vue des données observées.
Elle repose sur le calcul du degré de signification, noté p, qui est la probabilité
d’observer une différence au moins aussi importante que celle observée, sous
l’hypothèse nulle :
p = Proba(valeur de la statistique  valeur calculée de la statistique si H0 est vraie)
Comme nous le verrons, il suffit d’utiliser les tables habituelles des lois de
distributions pour obtenir une valeur approchée de p.

Figure 7.5 : Représentation du risque d’erreur  et du degré de signification (p) sous H0.

La Figure 7.5 représente, sous H0, le risque d’erreur  et le degré de signification


pour une valeur calculée  de la statistique.
Dans la méthode basée sur le degré de signification, la conclusion au test
statistique repose sur la comparaison entre la valeur du degré de signification et
la valeur de  :
Rejet de H0 si : p ≤ 
Conservation de H0 si : p > 
Habituellement, on conclut selon la méthode classique, avec en général un risque
d’erreur  = 5%, et on donne le degré de signification p.
Remarques 1 :
 p ≤   valeur calculée de la statistique ≥ valeur seuil ;
 valeur calculée de la statistique    p
Remarques 2 : Interprétations erronées de p :
 Il est faux de dire que « p est le risque ou la probabilité de rejeter à tort
l’hypothèse nulle ».
En effet p est la traduction en terme de probabilité de la valeur observée de la
statistique, et est donc une valeur observée ; p traduit simplement en terme de

87
Variations de β

probabilité l’éloignement entre la valeur observée de la statistique et la valeur


attendue sous l’hypothèse nulle.
 Interpréter p en terme de « force de la différence » est abusif.
Une conclusion du type : « les durées moyennes de séjour diffèrent fortement
(p = 0,0001) » est abusive. Pour apprécier l’écart entre les durées de séjour il
convient de donner un intervalle de confiance de la différence des durées moyennes.
En effet p peut être petit parce que l’écart entre la réalité et l’hypothèse nulle est
grand, parce que la puissance est élevée, ou les deux, il se peut aussi que p soit petit
« par hasard » et même par erreur de 1ère espèce.

Variations de β

Variation de β en fonction de 
Supposons que le même test soit réalisé d’une part au risque 1 et d’autre part au
risque 2, avec 2 < 1. Comme le montre de manière intuitive la Figure 7.6, une
diminution du risque  augmente la valeur seuil (Vs2 > Vs1) entraînant de ce fait une
augmentation du risque  (2 > 1).
Toute chose égale par ailleurs,  et  varient en sens inverse.

Figure 7.6 : Variation de  en fonction de  (toute chose égale par ailleurs). (a) Situation pour
un risque 1 fixé. (b) Situation pour un risque 2 < 1 (Vs correspond à la valeur seuil et 
correspond au résultat de la statistique).

Variation de β en fonction de la taille de l’échantillon


La précision d’une estimation augmente avec la taille de l’échantillon (cf. le chapitre
« Estimation »), ce qui se traduit graphiquement par un resserrement de la courbe de
distribution autour de la valeur estimée. Ainsi, sous H0, la courbe de la distribution de
la différence théorique des moyennes d’un échantillon de taille n2 > n1 se resserre
autour de 0 et, pour conserver un risque  = 5 %, la valeur seuil du test diminue
(Figure 7.7). La courbe de la distribution sous HA se resserrant également du fait de
l’augmentation de n, il s’en suit une diminution de .

88
Variations de β

Toute chose égale par ailleurs,  et n varient en sens inverse.

Figure 7.7 : Variation de  en fonction de la taille de l’échantillon (toute chose égale par
ailleurs). (a) Situation pour un effectif n1 fixé. (b) Situation pour un effectif n2 > n1 (Vs
correspond à la valeur seuil et  correspond au résultat de la statistique).

Variation de β en fonction de l’écart H0 - HA


Supposons que 2 tests aient été réalisés et que l’écart entre H0 et HA pour le 2ème test
soit supérieur à l’écart entre H0 et HA pour le 1er test. Alors, toute chose égale par
ailleurs, le risque  du 2ème test sera inférieur au risque  du 1er test.
Raisonner à partir de l’écart entre le résultat de la statistique du test, noté , et 0 (test
de comparaisons d’une moyenne théorique à une moyenne observée, comme nous
l’avons vu) est équivalent au raisonnement à partir de l’écart H0 - HA. Comme le
montre la Figure 7.8, l’accroissement de la valeur  éloigne la distribution sous HA de
la distribution sous H0 et, toute chose égale par ailleurs, conduit à une diminution de .
Toute chose égale par ailleurs,  et l’écart H0 - HA varient en sens inverse.

Figure 7.8 : Variation de  en fonction de l’écart H0 - HA (toute chose égale par ailleurs). (a)
Situation pour un résultat de la statistique 1 fixé. (b) Situation pour un résultat 2 > 1 (Vs
correspond à la valeur seuil).

89
Choix d’un test statistique

Récapitulatif
Le Tableau 7.3 récapitule l’interdépendance entre , et donc entre la puissance d’un
test (1 - ), et certains paramètres statistiques. Ces propriétés sont vraies pour tous les
tests statistiques.

Si  augmente
Puissance augmente ( diminue) Si n augmente
Si  (écart H0 - HA) augmente
Tableau 7.3 : Variation de la puissance d’un test statistique.

Choix d’un test statistique


Pour choisir le « bon » test statistique il est nécessaire de porter une réflexion sur les
données du problème à analyser. Il existe différents points, communs à tous les tests
statistiques présentés par la suite dans ce polycopié, qu’il convient de relever :
1. Types de variables mises en relation :
S’agit-il d’étudier le lien entre deux variables de type quantitatif ?
Est-ce que l’on a à comparer entre elles deux variables de type qualitatif ?
Compare t-on une variable de type quantitatif à une variable de type qualitatif ?
Le type des variables déterminera le test statistique, ou un ensemble de tests
statistiques, qui pourront être utilisables (sous certaines conditions qui leur sont
propres).
2. Taille de l’échantillon :
L’échantillon est-il de taille < 30 ou  30 ? Cette limite permet alors dans la
deuxième situation d’utiliser une statistique de test fondée sur une distribution
Normale.
3. Conditions d’applications des tests choisis :
Les tests statistiques sont utilisables dans certaines conditions bien définies et
souvent spécifiques (par exemple, distribution Normale dans la population). Ces
conditions seront spécifiées lors de la présentation de chaque test.
4. Séries non appariées ou appariées :
Dans les séries non appariées les comparaisons portent sur des observations
provenant d’individus différents pris au hasard indépendamment. Ces observations
sont alors indépendantes entre elles.
Dans les séries appariées les comparaisons portent sur des observations qui ne sont
pas indépendantes. C’est le cas, par exemple, des expériences du type « mesure avant -
mesure après » qui intéressent les mêmes individus dans les deux échantillons.

90
Les étapes d’un test statistique

Exemple :
On a mesuré la fibrinémie avant un traitement A et après ce même
traitement. On dispose donc pour chaque individu du dosage de la fibrine
à deux instants donnés, avant et après le traitement. On a donc à comparer
une variable de type quantitatif (dosage de la fibrine) à une variable de
type qualitatif (dont les modalités sont « avant » et « après ») et l’on
pourrait alors penser traiter ce problème en faisant un test de
comparaison des moyennes de l’échantillon de mesures « avant » et de
l’échantillon de mesures « après ». Mais cette solution ne serait pas
exacte. En effet, on suppose dans un tel test que les deux échantillons sont
indépendants. Or, dans notre exemple, les résultats des fibrinémies des
deux séries se correspondent deux à deux, c’est-à-dire que chacun des
nombres de la première série de mesures doit être comparé au nombre
correspondant de la deuxième série de mesures et non à tous les autres.
Ici, on veut connaître l’effet d’un changement de situation sur une variable
mesurée chez les mêmes individus.

Les étapes d’un test statistique


1. Choix des hypothèses à tester :
 Choix d’une hypothèse nulle H0 ;
 Choix d’une hypothèse alternative HA (acceptée si H0 est rejetée).
2. Fixer une règle (choix du risque , habituellement 5 %) pour décider
l’acceptation ou le rejet de H0 ;
3. Vérification des conditions d’application :
 Choix des échantillons au hasard dans les populations ;
 Taille des échantillons et autres conditions spécifiées dans le chapitre
suivant.
4. Calcul de la statistique appropriée ;
5. Décision en comparant la valeur de la statistique calculée au seuil de
signification correspondant au risque  choisi ;
6. Calcul du degré de signification du test.

Ce qu’il faut savoir absolument


La conclusion d’un test statistique est soit la conservation de l’hypothèse nulle soit
l’acceptation de l’hypothèse alternative selon le résultat de la comparaison de la
valeur calculée de la statistique avec la valeur seuil. Cette conclusion s’accompagne du
degré de signification du test qui est la probabilité d’observer une différence au moins
aussi importante que celle observée, sous l’hypothèse nulle.

91
Question à choix multiples

Notion de risque
On appelle seuil de signification la valeur Vs correspondant au risque de rejeter
l’hypothèse nulle alors que celle-ci est vraie. Ce type d’erreur s’appelle également
risque d’erreur  ou risque de 1ère espèce. Il y a une autre façon de se tromper : on
peut accepter l’hypothèse nulle alors que l’hypothèse alternative est vraie. Ce risque
est appelé risque de 2ème espèce ou risque d’erreur .
 Une erreur de première espèce est commise si on rejette H0 alors que celle-ci est
vraie (rejet de H0 à tort).
 Une erreur de deuxième espèce est commise si on accepte H0 alors que celle-ci
est fausse (acceptation de H0 à tort).

Réalité (inconnue)
H0 vraie HA vraie

Décision retenue au vue H0 vraie Pas d’erreur Risque 


du résultat de la statistique HA vraie Risque  Pas d’erreur

Figure 7.9 : Risques de première () et de deuxième espèce ().

Puissance et tests statistiques

Si  augmente
Puissance augmente ( diminue) Si n augmente
Si  (écart H0 - HA) augmente
Figure 7.10 : Variation de la puissance d’un test statistique.

Question à choix multiples


QCM 8 : Parmi les assertions suivantes, lesquelles sont vraies :
A. La puissance d’un test statistique est la probabilité que la valeur calculée de la
statistique appartienne à H0.
B. La puissance d’un test statistique est la probabilité que la valeur calculée de la
statistique appartienne à HA.
C. La conclusion à un test statistique repose sur la comparaison entre la valeur du
degré de signification et le risque de 2ème espèce.
D. Toutes choses égales par ailleurs, la puissance d’un test statistique augmente
avec le risque de 1ère espèce.
E.  est la capacité d’un test à montrer une différence si elle existe.

92
Chapitre 8 Etude de la liaison entre
deux variables : tests de
comparaison et tests
d’indépendance

Introduction

Il est possible de considérer deux types de tests : les tests de comparaison et les tests
d’indépendance.
Exemple :
1. Test de comparaison : considérons deux échantillons pris au hasard :
l’échantillon 1 correspond à des patients ayant eu une thrombose veineuse
et l’échantillon 2 correspond à des patients ayant eu une thrombose
artérielle. Le sexe de chaque individu étant connu, il peut être intéressant
de savoir si la proportion d’homme et de femme (répartition du sexe) dans
l’échantillon 1 est différente de celle obtenue dans l’échantillon 2.
Autrement dit, la variable sexe dépend-elle statistiquement de la variable
type de thrombose. On porte alors un jugement de comparaison entre deux
variables sur des populations différentes.
2. Test d’indépendance : si nous disposons d’un seul échantillon pris au
hasard sur lequel on observe conjointement le type de thrombose
(artérielle ou veineuse) et le sexe (homme ou femme) des individus. Il peut
être intéressant de savoir si les femmes sont prédisposées à la survenue
d’une thrombose veineuse. Autrement dit, le type de thrombose dépend t-il
du sexe d’un individu. Ces deux variables jouent maintenant des rôles
symétriques dont il convient d’apprécier leur dépendance.

Etude de la liaison entre une variable quantitative et une variable


qualitative

Comparaison des moyennes de deux sous-populations


Exemple :
La durée moyenne vraie de séjour en réanimation après une chirurgie
Etude de la liaison entre une variable quantitative et une variable qualitative

abdominale est-elle différente de la durée moyenne vraie de séjour en


réanimation après une chirurgie vasculaire. Les durées moyennes vraies
n’étant pas connues, on réalise une étude portant sur deux échantillons
pris au hasard, de taille n1 et n2, parmi ces deux populations. Si la
différence observée entre les deux moyennes des échantillons est peu
différente de 0 on dira qu’elle est due aux seules fluctuations lors de la
constitution des échantillons à partir des deux populations et donc que les
durées moyennes vraies sont les mêmes dans les deux populations ; sinon,
on considérera que la différence est trop importante pour être due aux
seules fluctuations d’échantillonnage et donc que les durées moyennes
vraies sont différentes dans les deux populations (au risque bilatéral
choisi).

Cas des grands échantillons (n1 et n2  30)


1. Hypothèses à tester :
H0 : les moyennes dans les deux populations sont « identiques » 1 = 2
HA : les moyennes dans les deux populations sont « différentes » 1  2
2. Choix du risque 
3. Conditions d’application :
 Echantillons pris au hasard ;
 Echantillons indépendants ;
 n1 et n2  30.
4. Statistique du test :

Soit X la variable aléatoire de la moyenne d’un échantillon. On montre que


l’écart X 1  X 2  suit une loi Normale de moyenne 0 si 1 = 2. Les deux
échantillons étant pris au hasard et de manière indépendante, X 1 et X 2 sont
indépendantes et donc :
 12  22
Var X 1  X 2   Var X 1   Var X 2      D2
n1 n2

Donc en exprimant l’écart X 1  X 2  en unité d’écart-type, la variable aléatoire


E suit une loi Normale N(0, 1) sous H0 avec :
X1  X 2
E
 D2

Les vraies variances  12 et  22 sont peu souvent connues. Elles seront estimées
respectivement par :
 n1   n2 
   x1i  x1 2    x 2i  x 2 2 
s x21    et s 2   i 1 
i 1

n1  1 n2  1
x2

94
Etude de la liaison entre une variable quantitative et une variable qualitative

La variance de la différence,  D2 , peut donc être estimée par :


s x21 s x22
s 
2
D 
n1 n2

La statistique du test, notée e, correspond alors à la différence des moyennes


exprimée en unité d’écart-type estimé et suit une loi Normale N(0, 1) si H0 est
vraie et n1 et n2  30 :
x1  x2
e
sD
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil N dans la table numérique
bilatérale de la loi Normale.
 Si e < N, alors on conserve H0 ;

 Si e  N, alors on rejette H0 pour accepter HA au risque  (avec 100. %


de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale de la loi Normale la valeur p telle que
e = Np (ou la valeur la plus proche de p).
Exemple :
Reprenons l’exemple introductif dans lequel on se demandait si la durée
moyenne vraie de séjour en réanimation après une chirurgie abdominale
était différente de la durée moyenne vraie de séjour en réanimation après
une chirurgie vasculaire. Pour répondre à cette question on a prélevé au
hasard parmi les dossiers d’un service de réanimation, n1 = 100 dossiers
de malades réanimés après une chirurgie abdominale et n2 = 90 dossiers
de malades réanimés après une chirurgie vasculaire. La durée moyenne du
séjour en réanimation a été respectivement de x1 = 9 jours, variance de
l’échantillon Var(X1) = 8,8, et de x 2 = 7,9 jours, variance de l’échantillon
Var(X2) = 8,5.
1. Hypothèses à tester : la différence de durée moyenne de réanimation est
due aux fluctuations d’échantillonnages (H0 : 1 = 2). Cette différence
D = 9 - 7,9 = 1,1 jours va être comparée à 0. Et HA : les moyennes vraies
dans les deux populations sont « différentes » 1  2.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : Echantillons indépendants, pris au hasard,
de taille  30.
4. Statistique du test : connaissant la variance de l’échantillon,
l’estimation de la variance de la population est : s x2 = Var(X).(n/(n - 1)).
Donc,

95
Etude de la liaison entre une variable quantitative et une variable qualitative

s x21 = Var(X1).(n1/(n1 - 1)) = 8,8.(100/99) = 8,89

s x22 = Var(X2).(n2/(n2 - 1)) = 8,5.(90/89) = 8,59

d’où
1,1
e  2,56
8,89 8,59

100 90
5. Conclusion du test : pour un risque de 5 %, la valeur seuil N0,05 dans la
table numérique bilatérale de la loi Normale est 1,96. Comme 2,56 > 1,96,
on rejette H0 au risque de 5 %. Autrement dit, au risque de 5 % on affirme
que la différence des durées moyennes d’hospitalisation est statistiquement
significative.
6. Détermination du degré de signification : dans la table numérique
bilatérale de la loi Normale, on trouve N0,01 = 2,58 et N0,02 = 2,33. La
valeur exacte ne se trouve pas dans la table (0,01  p  0,02). On dira que
le degré de signification du test est p < 0,02.

Cas des petits échantillons (n1 ou n2 < 30)


1. Hypothèses à tester :
H0 : les moyennes dans les deux populations sont « identiques » 1 = 2
HA : les moyennes dans les deux populations sont « différentes » 1  2
2. Choix du risque d’erreur 
3. Conditions d’application :
 Echantillons pris au hasard ;
 Echantillons indépendants ;
 La variable quantitative étudiée est distribuée, dans chacune des deux
populations d’où proviennent les échantillons, selon des lois Normales de
même variance.
4. Statistique du test :
Dans le cas des petits échantillons, afin de simplifier les calculs, on suppose que
les échantillons sont issus de populations dont les moyennes peuvent être
différentes mais de variances égales (cf. ci-dessus) :  12   22   2 .

Sachant que s x21 est une bonne estimation de  12 et que s x22 est une bonne
estimation de  22 , alors  2 peut-être estimé à partir des deux échantillons à la
fois (moyenne pondérée) par :
n1 n2

 x  x1    x 2i  x 2 
2 2
n1  1.s x2  n2  1.s x2 1i
s2  1 2
 i 1 i 1

n1  n2  2 n1  n2  2

96
Etude de la liaison entre une variable quantitative et une variable qualitative

et la variance de la différence,  D2 , peut donc être estimée par :


s2 s2 1 1
s D2    s 2    
n1 n2  n1 n2 
La statistique du test, notée t, correspond alors à la différence des moyennes
exprimées en unité d’écart-type estimé. Cette statistique ne suit pas la même loi
que dans le cas précédent ; t suit une loi de Student à  = n1 +n2 - 2 ddl si H0 est
vraie :
x1  x2
t
sD
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil T, dans la table numérique
bilatérale de la loi de Student.
 Si t < T ,n1 n2 2 , alors on conserve H0 ;

 Si t  T ,n1 n2 2 , alors on rejette H0 pour accepter HA au risque  (avec


100. % de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale de la loi de Student la valeur p telle que
t = T p ,n1 n2 2 (ou la valeur la plus proche de p).
Exemple :
On souhaite savoir si le rythme cardiaque moyen des individus
hyperthyroïdiens est différent du rythme cardiaque moyen des individus
non-hyperthyroïdiens (normaux). On a observé sur deux échantillons pris
au hasard :
- pour les n1 = 12 hyperthyroïdiens une moyenne x1 = 102,9 et une
variance estimée de la population d’origine s x21 = 251,1 ;

- pour les n2 = 11 normaux une moyenne x 2 = 77,8 et une variance


estimée de la population d’origine s x22 = 99,5.
Nous supposerons par la suite que le rythme cardiaque suit une loi
Normale et que les variances sont les mêmes dans les deux populations.
1. Hypothèses à tester : les deux échantillons « hyperthyroïdiens » et
« normaux » sont issus de deux populations caractérisées par un même
rythme cardiaque (H0 : 1 = 2). La différence observée D = 102,9 -
77,8 = 25,1 va être comparée à 0. Et HA : les moyennes vraies dans les
deux populations sont « différentes » 1  2.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : Echantillons indépendants, pris au hasard,

97
Etude de la liaison entre une variable quantitative et une variable qualitative

de taille < 30, et le rythme cardiaque est distribué normalement avec des
variances identiques dans les deux populations.
4. Statistique du test : les conditions d’application étant vérifiées, nous
pouvons utiliser le test t :

t
102,9  77,8 
1
 4,49
11 251,1  10  99,5 1 1

12  11  2 12 11
5. Conclusion du test : il y a 12 + 11 - 2 = 21 ddl. Pour un risque de 5 %,
la valeur seuil T0,05,21 lue dans la table numérique bilatérale de la loi de
Student est 2,08. Comme 4,49 > 2,08, nous acceptons l’hypothèse
alternative selon laquelle la moyenne de la fréquence cardiaque chez les
hyperthyroïdiens est statistiquement différente de la moyenne de la
fréquence cardiaque chez les normaux, et cela avec un risque d’erreurs de
5 %.
6. Détermination du degré de signification : dans la table numérique
bilatérale de la lois de Student, la valeur  la plus proche de 4,49, pour 21
ddl, est 0,01. On dira que le degré de signification du test est p < 0,01.

Comparaison d’une moyenne observée à une constante


Exemple :
Cette situation a été décrite au chapitre « Principes généraux des tests
statistiques » où l’on voulait comparer la quantité moyenne de produit
actif d’un échantillon au hasard de gélules à une certaine constante ‘a’
fixée. Si la différence entre la quantité moyenne de produit actif observée
sur l’échantillon et la constante ‘a’ est peu différente de 0 on dira qu’elle
est due aux seules fluctuations d’échantillonnage et donc qu’elle ne
préjuge pas d’un mauvais réglage ; sinon, on considérera que la différence
est trop importante pour être due aux seules fluctuations d’échantillonnage
et que le réglage est mauvais (au risque bilatéral choisi).

Cas d’un grand échantillon (n  30)


1. Hypothèses à tester :
H0 : la moyenne est « égale » à la constante  = a
HA : la moyenne est « différente » de la constante   a
2. Choix du risque d’erreur 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 n  30.
4. Statistique du test :

Soit X la variable aléatoire de la moyenne d’un échantillon de taille n tiré au

98
Etude de la liaison entre une variable quantitative et une variable qualitative

hasard dans la population cible. On montre que l’écart X  a  suit une loi
Normale de moyenne 0 et Var X  a  Var X    2 n si H0 est vraie.
La statistique du test, notée e, correspond à la différence, exprimée en unité
d’écart-type, entre la moyenne observée et la constante. Lorsque la variance de
la population théorique est connue et que n  30 :
x a
e
2
n

Lorsque la variance de la population théorique n’est pas connue et que n  30


il est possible d’estimer 2 à partir de s2 où :
 n 2
   xi  x  
s 2   i 1 
n 1
La statistique du test devient alors :
x a
e
s2
n
Que la variance de la population soit connue ou estimée, la statistique e suit une
loi Normale N(0, 1) si H0 est vraie.
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil N dans la table numérique
bilatérale de la loi Normale.
 Si e < N, alors on conserve H0 ;

 Si e  N, alors on rejette H0 pour accepter HA au risque  (avec 100. %


de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale de la loi Normale la valeur p telle que
e = Np (ou la valeur la plus proche de p).
Exemple :
On a pris au hasard un échantillon de 100 gélules. La quantité moyenne de
produit actif observée est de 103. La machine est réglée pour que le vrai
réglage soit 100 avec  = 10.
1. Hypothèses à tester : la différence entre la quantité moyenne de produit
actif observée et celle théorique (constante) est due aux fluctuations
d’échantillonnages (H0 :  = 100). Et, HA : le réglage est mauvais   100.
2. Choix du risque d’erreur  :  = 5 %.

99
Etude de la liaison entre une variable quantitative et une variable qualitative

3. Conditions d’applications : échantillon pris au hasard, de taille > 30.


4. Statistique du test : l’écart-type de la population est connu (10). Donc,
103  100
e 3
10
100
5. Conclusion du test : pour un risque de 5 %, la valeur seuil N0,05 dans la
table numérique bilatérale de la loi Normale est 1,96. Comme 3 > 1,96, on
conclu que le réglage est mauvais avec un risque d’erreur de 5 %.
6. Détermination du degré de signification : dans la table numérique
bilatérale de la loi Normale, on trouve N0,01 = 2,58. Le réglage de la
machine est statistiquement mauvais avec un degré de signification
p < 0,01.

Cas d’un petit échantillon (n < 30)


Dans une telle situation, il est nécessaire de considérer deux cas :
Cas où la variance de la population théorique est connue :
1. Hypothèses à tester :
Ce sont les mêmes que précédemment, à savoir :
H0 : la moyenne est « égale » à la constante  = a
HA : la moyenne est « différente » de la constante   a
2. Choix du risque d’erreur 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 La variable quantitative étudiée a une distribution Normale.
4. Statistique du test :
Dans ces conditions d’application, la statistique du test est la même que celle
utilisée dans la situation où n  30 :
x a
e
2
n
qui suit si H0 est vraie une loi Normale N(0, 1).
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil N dans la table numérique
bilatérale de la loi Normale.
 Si e < N, alors on conserve H0 ;

 Si e  N, alors on rejette H0 pour accepter HA au risque  (avec 100. %

100
Etude de la liaison entre une variable quantitative et une variable qualitative

de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale de la loi Normale la valeur p telle que
e = Np (ou la valeur la plus proche de p).

Cas où la variance de la population théorique est inconnue :


1. Hypothèses à tester :
Ce sont les mêmes que précédemment, à savoir :
H0 : la moyenne vraie est « identique » à la constante  = a
HA : la moyenne vraie est « différente » de la constante   a
2. Choix du risque d’erreur 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 La variable quantitative étudiée a une distribution Normale.
4. Statistique du test :
La statistique du test repose également sur la différence, exprimée en unité
d’écart-type, entre la moyenne observée et la constante. Mais ici, cette statistique
suit une loi de Student à  = n - 1 ddl, où n est l’effectif de l’échantillon. On a,
en estimant 2 à partir de s2 :
xa
t
s2
n
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil T, dans la table numérique
bilatérale de la loi de Student.
 Si t < T,n-1, alors on conserve H0 ;

 Si t  T,n-1, alors on rejette H0 pour accepter HA au risque  (avec 100. %


de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale de la loi de Student la valeur p telle que
t = Tp,n-1 (ou la valeur la plus proche de p).
Exemple :
Reprenons l’exemple précédent avec un échantillon de 15 gélules, un
réglage à 100, une quantité moyenne de produit actif observée de 116 et
une estimation de l’écart-type de la population de 40. On admet que la

101
Etude de la liaison entre une variable quantitative et une variable qualitative

quantité de produit actif des gélules suit une loi Normale.


1. Hypothèses à tester : la différence entre la quantité moyenne de produit
actif observée et celle théorique (constante) est due aux fluctuations
d’échantillonnages (H0 :  = 100). Et, HA : le réglage est mauvais   100.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : échantillon pris au hasard, de taille < 30, et
la distribution de la quantité de produit actif des gélules suit une loi
Normale.
4. Statistique du test : l’écart-type de la population n’est pas connu. On en
a une estimation s = 40. Donc,
116  100
t  1,55
40
15
5. Conclusion du test : pour un risque de 5 %, la valeur seuil T0,05,14 lue
dans la table numérique bilatérale de la loi de Student est 2,14. Comme
1,55 < 2,14, on conserve l’hypothèse selon laquelle le réglage est bon. La
différence observée est due aux fluctuations d’échantillonnage.
6. Détermination du degré de signification : dans la table numérique
bilatérale de la loi de Student à 14 ddl, on a une valeur de 1,34 pour
 = 0,20 et une valeur de 1,76 pour  = 0,10. Le degré de signification du
test est donc p > 0,10.

Séries appariées

Principe général
Dans les tests précédents, étudiant la liaison entre une variable quantitative et une
variable qualitative, nous avons supposé que la constitution de chacun des échantillons
était indépendante l’une de l’autre. Il n’en est pas toujours ainsi. Il arrive que l’on
s’intéresse à des situations où le recueil de données ne peut pas suivre cette contrainte
d’indépendance.
Par exemple, pour comparer deux méthodes de dosage de la fibrinèmie on
a dosé 100 prélèvements de sang par la méthode A et on a dosé ces mêmes
100 prélèvements de sang par la machine B. On souhaite ensuite comparer
les valeurs moyennes observées.
Une autre situation concerne les expériences du type « mesure avant -
mesure après » dans lesquelles on veut connaître l’effet d’un changement
de situation sur une variable mesurée chez les mêmes individus (cf.
exemple du chapitre « Principes généraux des test statistiques »).
On a affaire à deux échantillons indépendants quand les mesures sont effectuées
sur des individus différents. Dans ce cas, la variabilité des mesures prend en compte la
variabilité entre les individus. Par contre, quand les deux échantillons proviennent de
mesures effectuées chez les mêmes individus (échantillons dépendants ou séries

102
Etude de la liaison entre une variable quantitative et une variable qualitative

appariées), la différence entre deux mesures chez le même individu est amputée de la
variabilité inter-individuelle. Pour tenir compte de ce phénomène on ne va plus étudier
la différence des moyennes obtenues sur chacun des échantillons. On va travailler sur
les différences obtenues sur chaque observation (différence de la fibrinèmie avant -
après traitement chez le même patient) pour étudier la nullité de la moyenne de ces
différences. On retrouve ainsi la situation de la comparaison d’une moyenne (moyenne
des différences) à une constante (zéro) dont le principe a déjà été présenté.

Cas des grands échantillons (n  30)


1. Hypothèses à tester :
H0 : la moyenne des différences entre les résultats pour un même sujet, notée D,
est nulle, soit  = 0
HA : la moyenne de D n’est pas nulle, soit   0
2. Choix du risque 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 n  30.
4. Statistique du test :
D’après la formule utilisée pour comparer une moyenne observée à une
constante et en travaillant sur les différences, la statistique du test est :
d
e
s D2
n

où d correspond à la moyenne des différences obtenues sur chaque observation,


s D2 est une estimation de la variance de la population théorique des différences et
n est la taille de l’échantillon, avec :

d d 
n 2
i
sD2  i 1

n 1
Cette statistique e suit une loi Normale N(0, 1).
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil N dans la table numérique
bilatérale de la loi Normale.
 Si e < N, alors on conserve H0 ;

 Si e  N, alors on rejette H0 pour accepter HA au risque  (avec 100. %


de chance de se tromper).
6. Détermination du degré de signification :

103
Etude de la liaison entre une variable quantitative et une variable qualitative

Lire dans la table numérique bilatérale de la loi Normale la valeur p telle que
e = Np (ou la valeur la plus proche de p).

Cas des petits échantillons (n < 30)


1. Hypothèses à tester :
Ce sont les mêmes que précédemment, à savoir :
H0 : la moyenne vraie de D est nulle, soit  = 0
HA : la moyenne vraie de D n’est pas nulle,   0
2. Choix du risque 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 La différence étudiée suit une loi Normale dans la population.
4. Statistique du test :
La variable aléatoire étudiée ayant une distribution Normale, la statistique du test
suit une loi de Student à  = n - 1 ddl.
On a la même formule que précédemment :
d
t
s D2
n
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil T, dans la table numérique
bilatérale de la loi de Student.
 Si t < T,n-1, alors on conserve H0 ;

 Si t  T,n-1, alors on rejette H0 pour accepter HA au risque  (avec 100. %


de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale de la loi de Student la valeur p telle que
t = Tp,n-1 (ou la valeur la plus proche de p).
Exemple :
Chez 16 malades atteints d’une tumeur du même type on a mesuré la
surface de la tumeur avant et après un traitement par radiothérapie. La
moyenne des différences après - avant traitement pour chaque individus est
-2,37 et la variance estimée de la population théorique des différences est
de 28,25. On suppose que la loi de distribution de la différence est une loi
Normale.

104
Etude de la liaison entre une variable quantitative et une variable qualitative

Les résultats des observations individuelles et le détail de certains calculs


sont donnés dans le Tableau 8.1.

Surface Surface
d - d
2
Individu di i
avant TRT après TRT
1 24 30 +6 70,14
2 6 3 -3 0,39
3 9 1 -8 31,64
4 12 17 +5 54,39
5 7 3 -4 2,64
6 6 9 +3 28,89
7 25 18 -7 21,39
8 12 3 -9 43,89
9 24 16 -8 31,64
10 10 6 -4 2,64
11 12 18 +6 70,14
12 7 5 -2 0,14
13 2 0 -2 0,14
14 25 25 0 5,64
15 24 23 -1 1,89
16 48 38 -10 58,14
d  d  = 423,75
2
d = -2,37 i

423, 75
sD2   28, 25
15
Tableau 8.1 : Mesures des tailles des n = 16 tumeurs avant et après traitement et détails des
calculs.

1. Hypothèses à tester : la radiothérapie ne change pas en moyenne la


taille de la tumeur ; l’écart observé est dû aux fluctuations
d’échantillonnages (H0 :  = 0). Et, HA : la radiothérapie change en
moyenne la taille de la tumeur   0.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : un échantillon pris au hasard, de taille
< 30, et la distribution de la différence de la surface de la tumeur suit une
loi Normale.
4. Statistique du test : l’hypothèse de la normalité des différences étant
admise, on peut calculer la statistique t :
 2,37
t  1,78
28,25
16
5. Conclusion du test : seule la valeur absolue de t nous intéresse : 1,78.

105
Etude de la liaison entre deux variables qualitatives

Pour un risque de 5 %, la valeur seuil T0,05,15 lue dans la table numérique


bilatérale de la loi de Student est 2,13. Comme 1,78 < 2,13, on ne rejette
pas l’hypothèse selon laquelle la radiothérapie est inactive.
6. Détermination du degré de signification : dans la table numérique
bilatérale de la loi de Student à 15 ddl, on a une valeur de 1,75 pour
 = 0,10. Le degré de signification du test est donc p > 0,05.

Etude de la liaison entre deux variables qualitatives

Introduction
Considérons une variable qualitative A comportant respectivement nA modalités.
Nous avons vu que cette variable qualitative A peut être caractérisée par les fréquences
absolues et par les fréquences relatives, exprimées en pourcentages, des nA modalités.
Cette notion de fréquences relatives détermine l’ensemble des probabilités pour que
chaque modalité se réalise, autrement dit elle permet d’estimer la distribution de A
dans son ensemble. Dans le cas d’une variable quantitative nous disposions
d’indicateurs, la moyenne et la variance, permettant de résumer sa distribution et
d’étudier la liaison de cette variable avec une variable qualitative. La liaison entre deux
variables qualitatives, représentée dans un tableau de contingence, sera étudiée à partir
de la distribution de leurs fréquences relatives respectives.

Principe général
Le principe calculatoire général de l’étude de la liaison entre deux variables
qualitatives est le même quels que soient les problèmes de comparaisons envisagés :
comparaison d’une répartition observée à une répartition théorique, comparaison de
plusieurs répartitions observées ou étude de l’indépendance entre deux variables
qualitatives8.
Supposons une population théorique dans laquelle un caractère qualitatif C peut
prendre ses valeurs parmi k modalités c1, c2, …, ck en proportions p1, p2, …, pk (avec
p1 + p2 + … + pk = 1).
On tire au hasard n individus à partir de cette population et on note o1, o2, …, ok les
effectifs observés pour les k modalités. Si la distribution des fréquences relatives
observées de l’échantillon était la même que celle de la population, nous aurions les
effectifs théoriques suivants : t1 = np1, t2 = np2, … tk = npk (cf. Tableau 8.2)9.
On retrouve donc une situation bien connue maintenant consistant à savoir si l’écart
entre deux quantités, dans ce cas les effectifs observés (o1, o2, …, ok) et les effectifs
théoriques (t1, t2, …, tk), est dû aux fluctuations d’échantillonnage (hypothèse nulle) ou

8
Remarque : il s’agit là de problèmes respectivement homologues à la comparaison d’une moyenne
observée à une constante, à la comparaison de deux moyennes.
9
Par construction, la somme des effectifs théoriques vaut n (np1 +…+ npk = n.( p1 +…+ pk) =n).

106
Etude de la liaison entre deux variables qualitatives

Modalités c1 c2 … ck
Proportions
théoriques
p1 p2 … pk p i 1

Effectifs
observés
o1 o2 … ok o i n

Effectifs
théoriques
t1 = np1 t2 = np2 … tk = npk t i n

o1  t1 2 o2  t 2 2 o k  t k 2 k
oi  t i 2
2 … 
t1 t2 tk i 1 ti

Tableau 8.2 : Principe du test du chi-deux (valide si tous les ti sont  5).

s’il est suffisamment grand pour ne pas être dû à ces fluctuations d’échantillonnage
(hypothèse alternative). Le paramètre statistique utilisé pour cela est le chi-deux (noté
2) dont la formule est la suivante :
k
oi  ti 2
2  
i 1 ti
Si H0 est vraie et si tous les effectifs théoriques sont assez grands (ti  5), ce
paramètre suit une loi de probabilité particulière, la loi du 2 (cf. chapitre « Variables
aléatoires, lois de distribution ») qui ne dépend que de son nombre de degrés de liberté.
Celui-ci exprime, pour un caractère qualitatif comportant k modalités, le nombre de
modalités indépendantes de ce caractère qualitatif. Du fait de la relation de contrainte
t1 + t2 + …+ tk = n, le nombre de degré de liberté est, dans cette situation, le nombre
de modalité du caractère étudié moins 1 ( = k - 1)10.
Donc pour conclure à un test utilisant la statistique du 2 :
 Si  2 <  2 , k 1 , alors on conservera H0 (l’écart entre les effectifs observés et les
effectifs théoriques est dû aux fluctuations d’échantillonnage) ;
 Si  2   2 , k 1 , alors on rejette H0 pour accepter HA au risque  (avec 100. % de
chance de se tromper).

Comparaison d’une répartition observée à une répartition théorique


Exemple :
Dans un centre hospitalier A on a observé 440 décès : 110 par cancers,
130 par pathologies cardio-vasculaires et 200 par une autre cause (la
variable qualitative « décès » a donc trois modalités). On souhaite savoir
si cette répartition des décès coïncide avec la répartition des décès dans la
région d’appartenance de ce centre hospitalier. La répartition des décès

10
Si les k - 1 premiers effectifs théoriques sont libres le dernier effectif théorique est fixé par la
contrainte  t i  n .

107
Etude de la liaison entre deux variables qualitatives

dans cette région est connue et vaut respectivement 15 %, 20 % et 65 %


pour les cancers, les pathologies cardio-vasculaires et les autres causes.
1. Hypothèses à tester :
H0 : la répartition de la variable dans la population étudiée est « identique » à la
répartition théorique
HA : la répartition de la variable dans la population étudiée est « différente » de
la répartition théorique
2. Choix du risque 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 Effectifs théoriques  5.
4. Statistique du test :
Soient oi les effectifs observés pour chaque modalité i du caractère qualitatif
étudié comportant k modalités (i varie de 1 à k) sur un échantillon de taille n.
Soient pi les proportions théoriques du caractère étudié. Il est alors possible de
calculé les effectifs théoriques pour un échantillon « idéal » d’effectif n :
ti = npi.
L’écart entre la distribution observée et la distribution théorique est caractérisé
par la quantité :
k
oi  ti 2
 
2

i 1 ti

qui suit une loi du 2 à  = k - 1 degrés de liberté si H0 est vraie et à condition


que tous les ti  5.
5. Conclusion du test :

Pour le risque  choisi, on lit la valeur seuil  2 , dans la table numérique


unilatérale de la loi du 2.
 Si  2 <  2 , k 1 , alors on conserve H0 ;

 Si  2   2 , k 1 , alors on rejette H0 pour accepter HA au risque  (avec


100. % de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique unilatérale de la loi du 2 la valeur p telle que
 2 =  p2 , k 1 (ou la valeur la plus proche de p).

Exemple (suite) :
1. Hypothèses à tester : la répartition des décès dans le centre hospitalier
est identique à celle de la région (H0) et HA : la répartition des décès dans

108
Etude de la liaison entre deux variables qualitatives

le centre hospitalier est différente de celle de la région.


2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : un échantillon pris au hasard.
Calculons, à partir de la répartition théorique des décès, les effectifs
théoriques pour les k = 3 modalités de la variable « décès » sur
l’échantillon de 440 décès :
Décès par cancer : t1 = 440.0,15 = 66
Décès par pathologies cardio-vasculaires : t2 = 440.0,20 = 88
Décès pour autres causes : t3 = 440.0,65 = 286
4. Statistique du test : tous les effectifs théoriques étant supérieurs à 5,
nous pouvons calculer la statistique du 2 qui vaut :

 2

110  66
2

130  88
2

200  286
2
 75,24
66 88 286
avec  = 3 - 1 = 2 degrés de liberté.
5. Conclusion du test : pour un risque de 5 % et pour  = 2 degrés de
liberté, la valeur seuil  02, 05, 2 lue dans la table numérique unilatérale de la
loi du 2 est 5,99. Comme 75,24 > 5,99, on conclut, au risque de 5 %, que
la répartition observée des décès dans le centre hospitalier est
statistiquement différentes de la répartition théorique de la région.
6. Détermination du degré de signification : dans la table numérique
unilatérale de la loi du 2 à 2 ddl, on a une valeur de 13,81 pour
 = 0,001. Le degré de signification du test est donc p < 0,001
(75,24 > 13,81).

Comparaison de plusieurs répartitions observées


Exemple :
On dispose de 3 échantillons de patients tirés dans 3 populations
(hyperthyroïdiens, euthyroïdiens, hypothyroïdiens). Dans chacun de ces
échantillons on observe le caractère « tremblement au niveau des mains ».
Ce caractère qualitatif peut prendre 4 modalités : « absence de
tremblements », « tremblements légers », « tremblements nets »,
« tremblement majeurs ».
On se demande si la répartition des différentes modalités de tremblement
est la même dans toutes les populations. Par extension, on formule une
autre hypothèse nulle : peut-on considérer que les échantillons sont tirés
d’une seule population théorique présentant cette répartition des
différentes modalités ?
1. Hypothèses à tester :
H0 : les répartitions de la variable sont « identiques » dans les différentes

109
Etude de la liaison entre deux variables qualitatives

populations
HA : les répartitions de la variable sont « différentes »
2. Choix du risque 
3. Conditions d’application :
 Echantillons indépendants ;
 Echantillons pris au hasard ;
 Effectifs théoriques  5.
4. Statistique du test :
Les observations de données qualitatives à deux dimensions sont représentées
par un tableau de contingence (Tableau 8.3).

Modalité 1 … i … k Total ligne


Echantillon 1 o1,1 oi,1 ok,1 N.,1

Echantillon j o1,j oi,j ok,j N.,j


Echantillon m o1,m oi,m ok,m N.,m


Total colonne N1,. Ni,. Nk,. N
Tableau 8.3 : Tableau de contingence pour m échantillons et k modalités.

Soit oi,j l’effectif observé pour la ième modalité du caractère qualitatif étudié dans
le jème échantillon.
Si H0 est vraie, on peut estimer la probabilité commune à toutes les populations
par pi  N i ,. N . Par suite l’effectif théorique pour la ième modalité du jème
échantillon est :
N i ,.
t i , j  N ., j 
N
A condition que tous les ti,j  5, alors l’écart entre les distributions observées,
oi,j, et les distributions théoriques, ti,j, est caractérisé par le 2 étendu à m
échantillons :
k m o  ti, j 
2

  
2 i, j

i 1 j 1 ti, j

Pour une variable qualitative à k modalités, nous avions vu que le degré de


liberté correspondait au nombre de modalités indépendantes, soit  = k - 1. Nous
avons ici deux variables qualitatives croisées dans un tableau de contingence. Le
degré de liberté représente alors le nombre de « cases » indépendantes de ce
tableau et se calcule par :
  m  1  k  1

110
Etude de la liaison entre deux variables qualitatives

5. Conclusion du test :

Pour le risque  choisi, on lit la valeur seuil  2 , dans la table numérique


unilatérale de la loi du 2.
 Si  2 <  2 ,m 1k 1 , alors on conserve H0 ;

 Si  2   2 ,m 1k 1 , alors on rejette H0 pour accepter HA au risque  (avec


100. % de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique unilatérale de la loi du 2 la valeur p telle que
 2 =  p2 ,m 1k 1 (ou la valeur la plus proche de p).
Exemple (suite) :
1. Hypothèses à tester : la répartition du caractère « tremblement au
niveau des mains » est la même que l’on soit hyper, hypo ou euthyroïdien
(H0) et HA : l’intensité du tremblement au niveau des mains est différente
selon l’état de la thyroïde.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : Echantillon indépendants et pris au hasard.
Les effectifs observés et les effectifs théoriques sont donnés dans les
Tableau 8.4 et Tableau 8.5 respectivement11.
4. Statistique du test : tous les effectifs théoriques étant supérieurs à 5 nous
pouvons calculer la statistique du 2 qui vaut :

 2

4  13,1
2

17  13,6
2

12  15,7 
2
 24,19
13,1 13,6 15,7
avec  = (3 - 1).(4 - 1) = 6 degrés de liberté.
5. Conclusion du test : pour un risque de 5 % et pour  = 6 degrés de
liberté, la valeur seuil  02, 05, 6 lue dans la table numérique unilatérale de la
loi du 2 est 12,59. Comme 24,19 > 12,59, on conclut, au risque de 5 %,
que selon l’état de la thyroïde, l’intensité du tremblement des mains est
statistiquement différente.
6. Détermination du degré de signification : dans la table numérique
unilatérale de la loi du 2 à 6 ddl, on a une valeur de 22,46 pour
 = 0,001. Le degré de signification du test est donc p < 0,001
(24,19 > 22,46).

11
Remarque : là encore, nous pouvons remarquer que, par construction, les effectifs marginaux
théoriques sont identiques aux effectifs marginaux observés.

111
Etude de la liaison entre deux variables qualitatives

Tremblements
Absent Légers Nets Majeurs Total
Hyperthyroïdiens 4 8 22 24 58
Euthyroïdiens 17 19 13 11 60
Hypothyroïdiens 19 14 14 12 59
Total 40 41 49 47 177
Tableau 8.4 : Effectifs observés.

Tremblements
Absent Légers Nets Majeurs Total
4058/177 4158/177 4958/177 4758/177
Hyperthyroïdiens 58
=13,1 =13,4 =16,1 =15,4
4060/177 4160/177 4960/177 4760/177
Euthyroïdiens 60
=13,6 =13,9 =16,6 =15,9
4059/177 4159/177 4959/177 4759/177
Hypothyroïdiens 59
=13,3 =13,7 =16,3 =15,7
Total 40 41 49 47 177
Tableau 8.5 : Effectifs théoriques.

Indépendance entre deux variables qualitatives


Exemple :
Supposons que dans une population de patients ayant eu une thrombose on
s’intéresse d’une part au type de thrombose, veineuse ou artériel, et
d’autre part au sexe, féminin ou masculin. Sur un échantillon pris au
hasard de N = 123 patients on a observé les résultats du Tableau 8.6 .
Nous cherchons donc à étudier la liaison entre deux caractères qualitatifs
observés conjointement dans une même population. Ces deux variables
jouent des rôles symétriques. Il s’agit alors de tester leur indépendance.

Masculin Féminin Total


Thrombose veineuse 30 52 82
Thrombose artérielle 21 20 41
Total 51 72 123
Tableau 8.6 : Fréquence absolue du type de thrombose suivant le sexe dans l’échantillon.

Si l’indépendance était vérifiée la probabilité des thromboses veineuses


serait la même chez les hommes et chez les femmes (elle serait alors
estimée par 82 / 123).

112
Etude de la liaison entre deux variables qualitatives

De même : P(masculin) est estimée par 51 / 123 et P(thrombose veineuse


ET masculin) = (82 / 123).(51 / 123).
Par suite, le nombre d’hommes AVEC une thrombose veineuse sur un
échantillon de 123 individus devrait être voisin de :
123.(82 / 123).(51 / 123) = (82.51 / 123)
ce qui correspond plus généralement à la formule déjà présentée de
l’estimation d’un effectif théorique :
N i ,.
t i , j  N ., j 
N
1. Hypothèses à tester :
H0 : les deux caractères sont indépendants
HA : les deux caractères sont liés
2. Choix du risque 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 Effectifs théoriques  5.
4. Statistique du test :
Les observations de deux données qualitatives A et B ayant respectivement m et
k modalités sont représentées par un tableau de contingence classique (Tableau
8.7).

B1 … Bi … Bk Total ligne
A1 o1,1 oi,1 ok,1 N.,1

Aj o1,j oi,j ok,j N.,j


Am o1,m oi,m ok,m N.,m


Total colonne N1,. Ni,. Nk,. N
Tableau 8.7 : Effectifs observés.

Soit oi,j l’effectif observé pour la ième modalité du caractère qualitatif B dans la
jème modalité du caractère qualitatif A.
Si les deux caractères sont indépendants, on peut estimer les probabilités de
chaque modalités du caractère B par pBi  N i ,. N et les probabilités de chaque
modalités du caractère A par pA j  N ., j N .
Par suite l’effectif théorique12 pour la ième modalité du caractère qualitatif B

12
Remarque : là encore, nous pourrions remarquer que, par construction, les effectifs marginaux

113
Etude de la liaison entre deux variables qualitatives

dans la jème modalité du caractère qualitatif A est :


N i ,.
t i , j  N ., j 
N
A condition que tous les ti,j  5, alors l’écart entre les distributions observées,
oi,j, et les distributions théoriques, ti,j, est caractérisé par la statistique :
k m o  ti, j 
2

  
2 i, j

i 1 j 1 ti, j

qui suit une loi du 2 à   m  1  k  1 degrés de liberté.


5. Conclusion du test :

Pour le risque  choisi, on lit la valeur seuil  2 ,m 1k 1 dans la table numérique
unilatérale de la loi du 2.
 Si  2 <  2 ,m 1k 1 , alors on conserve H0 ;

 Si  2   2 ,m 1k 1 , alors on rejette H0 pour accepter HA au risque  (avec


100. % de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique unilatérale de la loi du 2 la valeur p telle que
 2 =  p2 ,m 1k 1 (ou la valeur la plus proche de p).
Exemple (suite) :
1. Hypothèses à tester : le type de thrombose, veineuse ou artérielle, est
indépendant du sexe de l’individu (H0) et HA : le type de thrombose dépend
du sexe.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : un échantillon pris au hasard.
Les effectifs théoriques sont donnés dans le Tableau 8.8.

Masculin Féminin Total


Thrombose veineuse 8251/123=34 8272/123=48 82
Thrombose artérielle 4151/123=17 4172/123=24 41
Total 51 72 123
Tableau 8.8 : Effectifs théoriques.

4. Statistique du test : tous les effectifs théoriques étant supérieurs à 5,


nous pouvons calculer la statistique du 2 qui vaut :

théoriques seront identiques aux effectifs marginaux observés.

114
Etude de la liaison entre deux variables qualitatives

2 
30  342  52  482  21  172  20  242  2,41
34 48 17 24
avec  = (2 - 1).(2 - 1) = 1 degré de liberté.
5. Conclusion du test : pour un risque de 5 % et pour  = 1 degré de
liberté, la valeur seuil  02, 05,1 lue dans la table numérique unilatérale de la
loi du 2 est 3,84. Comme 2,41 < 3,84, on conclut que le fait d’avoir une
thrombose veineuse ou artérielle ne dépend pas du sexe.
6. Détermination du degré de signification : dans la table numérique
unilatérale de la loi du 2 à 1 ddl, on a une valeur de 1,64 pour  = 0,20 et
une valeur de 2,71 pour  = 0,10. Le degré de signification du test est
donc p > 0,10 (1,64 < 2,41 < 2,71).
Remarque 1 : Le test du 2 d’indépendance peut paraître analogue au test du 2 de
comparaison de deux distributions observées. Il en diffère cependant car il ne porte que
sur un seul échantillon. De ce fait, seul l’effectif total est contrôlé et les totaux lignes
et colonnes sont aléatoires. Ceci peut agir, en particulier, sur la puissance du test :
Exemple :
Soit une population comportant 20 % de femmes et 80 % d’hommes. Par
ailleurs 50 % des femmes et 30 % des hommes ont un signe S.
Un investigateur, ne connaissant pas ces répartitions, désire tester
l’indépendance entre S et le sexe. Pour cela il prend un échantillon au
hasard de 100 individus et observe les résultats donnés dans le Tableau
8.9 :

S Non S Total
Femmes 10 (6,8) 10 (13,2) 20
Hommes 24 (27,2) 56 (52,8) 80
Total 34 66 100

Tableau 8.9 : Effectifs observés sur un échantillon. Les effectifs théoriques associés sont
donnés entre parenthèses.

Tous les effectifs théoriques étant supérieurs à 5, nous pouvons calculer le


2 :
10  6,8 10  13, 2   24  27, 2  56  52,8 
2 2 2 2

 
2
    2,85
6,8 13, 2 27, 2 52,8
Pour  = 5 % et  = 1, on a 2,85 < 3,84. On conserve donc l’hypothèse
d’indépendance entre S et le sexe.
Une autre observation a été faite en considérant 2 populations, une
population d’hommes et une population de femmes, puis en prenant 1
échantillons de taille 50 parmi les femmes et 1 échantillon de taille 50

115
Etude de la liaison entre deux variables qualitatives

parmi les hommes. On test l’hypothèse d’égalité des répartitions de S chez


les hommes et chez les femmes. On a obtenu les résultats suivants :

S Non S Total
Femmes 25 (20) 25 (30) 50
Hommes 15 (20) 35 (30) 50
Total 40 60 100
Tableau 8.10 : Effectifs observés sur deux échantillons. Les effectifs théoriques associés sont
donnés entre parenthèses.

Tous les effectifs théoriques sont supérieurs à 5.

 25  20   25  30  15  20   35  30 
2 2 2 2

 
2
    4,17
20 30 20 30
Pour  = 5 % et  = 1, on a 4,17 > 3,84. On rejette l’hypothèse de même
répartition pour retenir celle de répartitions différentes de S en fonction du
sexe. Cette conclusion peut être assimilée à non indépendance de S et du
sexe dans la population « hommes  femmes » puisque la distribution de S
diffère selon le sexe.
Bien que l’effectif total soit le même dans ces deux situations (N = 100), le
premier test est moins puissant car les effectifs des hommes et des femmes
ne sont pas équilibrés.

Remarque 2 : test du chi-deux et risque relatif 13


Dans le cas d’une enquête visant à évaluer les effets de l’exposition à un facteur de
risque dans une population (on nomme cette enquête « enquête exposés/non
exposés »), on définit le risque relatif (RR) par :
PM  / exposé
RR 
PM  / non exposé
Les données d’une telle étude peuvent être représentées dans le tableau de
contingence suivant (Tableau 8.11) :
M+ M-
Exposé au facteur (E+) a b
Non exposé au facteur (E-) c d
Tableau 8.11 : Présence de la maladie et exposition à un facteur de risque.

13
Cette notion de risque relatif est présentée plus amplement dans le chapitre « Indicateurs,
estimations ».

116
Etude de la liaison entre deux variables qualitatives

Le test de comparaison de ces proportions est le test du 2 qui revient à tester


l’hypothèse nulle RR = 1 contre RR  1.
H0 : P(M+/E+) = P(M+/E-)  RR = 1
HA : P(M+/E+)  P(M+/E-)  RR  1
Dans le cas d’une enquête cas-témoins, le 2 revient à tester l’hypothèse nulle Odd
Ratio = 1 contre Odd Ratio  1.
Exemple :
On a traité par angioplastie 90 patients atteints d’une sténose
coronarienne > 70 % : 48 d’entre eux ont une angioplastie simple, 42 une
angioplastie avec pose d’un Stent (endoprothèse coronaire).
Leur état est évalué à 6 mois : une sténose > 50 % est considérée comme
une resténose de l’artère incriminée. On a observé les résultats du Tableau
8.12 :
Artère Artère
resténosée non resténosée
Angioplastie 24 (16) 24 (32) 48
Angioplastie + Stent 6 (14) 36 (28) 42
30 60 90
Tableau 8.12 : Thérapeutique et risque de resténose. Les effectifs théoriques associés sont
donnés entre parenthèses

Par un test du 2 on teste l’hypothèse nulle


H0 : P(resténose / angioplastie) = P(resténose / angioplastie+Stent)
contre l’hypothèse alternative
HA : P(resténose / angioplastie)  P(resténose / angioplastie+Stent)
On a :

 24  16   24  32   6  14   36  28
2 2 2 2

 
2
    12,86
16 32 14 28
Le test est applicable puisque tous les effectifs théoriques sont > 5 et il est
statistiquement significatif puisque 12,86 > 3,84 (pour  = 5 % et  = 1)
avec p < 0,001.
Il est normal de compléter ce résultat par les estimations de resténose, qui
sont :
24/48 = 0,5 sous angioplastie et 6/42 = 0,14 sous angioplastie + Stent.
On peut aussi estimer le risque relatif de resténose sous angioplastie par
rapport à angioplastie + Stent :
rr = (24/48)/(6/42) = (24.42)/(6.48) = 21/6 = 3,5, qui indique que l’on a
3,5 fois plus de risque de resténoser sous angioplastie seule qu’avec la

117
Etude de la liaison entre deux variables quantitatives

pose d’un Stent.


Les hypothèses du test sont équivalentes à : H0 : RR = 1 et HA : RR  1
Donc, le test du 2 nous indique que le RR diffère de 1 significativement.
Remarque 3 : La valeur du 2 reflète la probabilité que le RR = 1 si H0 est vraie ;
elle ne donne pas d’indication sur la valeur du RR.
En effet, supposons que nous ayons effectué la même expérience sur 10 fois
plus de patients et que nous observions les mêmes proportions (Tableau
8.13) :
Artère Artère
resténosée non resténosée
Angioplastie 240 240 480
Angioplastie + Stent 60 360 420
300 600 900
Tableau 8.13 : Echantillon 10 fois plus grand.

On obtient :

 240  160   240  320   60  140  360  280 


2 2 2 2

 
2
    128, 6
160 320 140 280
mais on a toujours rr = 3,5. Dans cette situation, l’intervalle de confiance
de RR sera plus étroit.
Le test du 2 peut être significatif alors que le RR est voisin 1 si les effectifs
sont grands.

Etude de la liaison entre deux variables quantitatives

Indépendance : test du coefficient de corrélation


Exemple :
On voudrait savoir si la taille et l’âge avant 16 ans sont liés. Pour cela,
sur un échantillon tiré au hasard, on a noté l’âge (exprimé en années) et la
taille (exprimée en cm) de tous les individus. Il s’agit donc de quantifier et
de tester la dépendance entre deux variables quantitatives mesurées
conjointement.

Coefficient de corrélation
Nous avons déjà défini dans le chapitre « Variables aléatoires, lois de distribution »
un indicateur permettant de quantifier l’intensité de la liaison entre deux variables
quantitatives : le coefficient de corrélation de Pearson ou coefficient de corrélation
linéaire. C’est ce coefficient qui va être utilisé.
Rappels : soit  le coefficient de corrélation de Pearson (-1    1). Si X et Y, 2
variables aléatoires continues, sont indépendantes alors  = 0 et si Y = aX + b alors
 = 1.

118
Etude de la liaison entre deux variables quantitatives

Le coefficient de corrélation  est estimé par :

 x i  x    yi  y 
r i

 x  x  y  y
2 2
i i
i i

Figure 8.1 : Nuages de points représentant (a) l’absence de corrélation r=0, (b) une corrélation
positive r>0 et voisin de 1, (c) une corrélation négative r<0 et voisin de -1 et (d) une relation
non linéaire (r<0 jusqu’à une certaine valeur de x, puis r>0).

Pour étudier la dépendance de 2 caractères quantitatifs il est toujours utile de tracer


le nuage de points correspondant à l’échantillon (cf. Figure 8.1), c’est-à-dire de
représenter les mesures conjointes des n individus {(xi, yi), i = 1,…, n}.
Remarque : Le coefficient de corrélation de Pearson est un bon indicateur pour
quantifier l’intensité de la liaison entre deux variables quantitatives ayant une relation
linéaire (Figure 8.1a, b et c). En revanche il sera biaisé si la relation entre les deux
variables n’est pas linéaire (Figure 8.1d).

Test du coefficient de corrélation


1. Hypothèses à tester :
H0 : les deux caractères quantitatifs sont indépendants
HA : les deux caractères quantitatifs sont liés
2. Choix du risque 
3. Conditions d’application :
 Un échantillon pris au hasard ;
 Le couple (X, Y) suit une loi Normale bidimensionnelle.
4. Statistique du test :
Le test d’indépendance repose sur les propriétés de la loi Normale à 2 dimensions.
Si le couple (X, Y) suit une loi Normale bidimensionnelle, la statistique du test vaut

119
Etude de la liaison entre deux variables quantitatives

 x i  x    yi  y 
s xy
r i

 x  x  y  y sx  s y
2 2
i i
i i

La table du coefficient de corrélation donne la probabilité  que r soit supérieur ou


égal à une valeur donnée si X et Y sont indépendantes (Proba( |r| R, /=0) en
fonction du nombre de degrés de liberté ( = n-2). Il s’agit d’une table bilatérale.
5. Conclusion du test :
Pour le risque  choisi, on lit la valeur seuil R,n-2 dans la table numérique
bilatérale du coefficient de corrélation.
 Si |r| < R,n-2, alors on conserve H0 ;
 Si |r|  R,n-2, alors on rejette H0 pour accepter HA au risque  (avec 100. %
de chance de se tromper).
6. Détermination du degré de signification :
Lire dans la table numérique bilatérale du coefficient de corrélation la valeur p
telle que |r| = Rp,n-2 (ou la valeur la plus proche de p).
Exemple (suite) :
Dans une population de personnes âgées de 20 à 30 ans on a pris un
échantillon au hasard de 20 personnes. On obtient :
x  24,5 ans, s x  8 ans, y  168 cm, s y  20 cm et s xy  20
On suppose que l’âge et la taille suivent toutes deux une loi Normale.
1. Hypothèses à tester : la taille des individus âgés de 20 à 30 est
indépendante de leur âge (H0) et HA : la taille de ces individus dépend de
leur âge.
2. Choix du risque d’erreur  :  = 5 %.
3. Conditions d’applications : un échantillon pris au hasard, l’âge et la
taille suivent toutes deux une loi Normale.
4. Statistique du test : l’hypothèse de Normalité étant admise on peut
réaliser le test : r = -20/(8.20) = -0,125
5. Conclusion du test : pour un risque de 5 % et pour  = 20 - 2 = 18
degrés de liberté, la valeur seuil R0,05,18 lue dans la table numérique
bilatérale du coefficient de corrélation est 0,444. Comme 0,125 < 0,444,
on conclu que dans une population d’adultes de 20 à 30 ans la taille et
l’âge sont indépendants.
6. Détermination du degré de signification : dans la table numérique
bilatérale du coefficient de corrélation à 18 ddl, on a une valeur de 0,378
pour  = 0,10. Le degré de signification du test est donc p > 0,10.
Dans une population de garçons âgés de 5 à 10 ans on a pris un
échantillon au hasard de 20 personnes. On obtient :

120
Etude de la liaison entre deux variables quantitatives

x  7 ans, s x  3 ans, y  130 cm, s y  22 cm et s xy  60


Avec les mêmes hypothèses, les mêmes conditions de validité et le même
risque d’erreur, on obtient : r = 60/(3.22) = 0,91 > 0,444. On conclut à
l’existence d’un lien entre âge et taille chez les garçons âgés de 5 à 10 ans
(degré de signification < 0,01).
Remarque 1 : Si le test d’indépendance est significatif cela n’implique pas un lien
« fort » entre X et Y mais simplement que X et Y ne sont pas indépendantes.
Remarque 2 : Comme pour tout test statistique, ce test peut être significatif pour
des valeurs de  faibles si n est grand.

121
Ce qu’il faut savoir absolument

Ce qu’il faut savoir absolument


Choix d’une méthode de comparaison :

Conditions
Type de variables Méthode
d’application

2 variables qualitatives Test du 2 Effectifs théorique  5

1 variable qualitative (à 2 Test de comparaison de 2 moyennes


modalités) ou test de comparaison d’une Population Normale
1 variable quantitative moyenne à une constante
Les 2 variables suivent
2 variables quantitatives Test du coefficient de corrélation
une loi Normale

Etude de la liaison entre une variable quantitative et une variable qualitative :


Taille Conditions Distribution
Comparaison Situation Statistique
d’échantillon d’application théorique
x1  x 2
e
Loi
n1 et n2  30 s x21 s x22
 Normale
Echantillons n1 n2
indépendants
x1  x2 Loi de
Moyenne t
 1 1  n1  1.s  n2  1.s
Population 2 2
 Student à
n1 ou n2 < 30
Normale    x1 x2
  =n1+n2-2
 n1  n2  2 
vs  n1 n2   ddl
Moyenne d
n  30 e Loi
2 Normale
s D n
Séries
appariées Loi de
d
n < 30
Population t Student à
Normale
s D2 n =n-1
ddl
Variance Population x a
théorique Normale ou e Loi
connue n > 30  n 2 Normale
Moyenne
x a
vs n  30 e Loi
2 Normale
Variance s n
Constante théorique
inconnue x a Loi de
n < 30
Population t Student à
Normale
s2 n =n-1
ddl

122
Ce qu’il faut savoir absolument

Etude de la liaison entre deux variables qualitatives :


Conditions
Comparaison Situation Statistique Distribution théorique
d’application
Répartition observée k
oi  ti 2
vs
Effectifs
théoriques  5
2   Loi du 2 à
 = k - 1 ddl
Répartition théorique i 1 ti
k m o  ti, j 
2
Echantillons Effectifs
   Loi du 2 à
2 i, j
indépendants théoriques  5 ti, j  = (m - 1)(k - 1) ddl
Plusieurs répartitions i 1 j 1
observées p m o  ti, j 
2
Echantillons Effectifs
   Loi du 2 à
2 i, j
dépendants théoriques  5 ti, j  = (m - 1)(p - 1) ddl
i 1 j 1

Etude de la liaison entre deux variables quantitatives :


Conditions
Comparaison Situation Statistique Distribution théorique
d’application
s xy Table du coefficient de
Dépendance de 2 Echantillons (X, Y) suit une loi
r corrélation à  = n-2
caractères quantitatifs dépendants Normale
sx  s y ddl

123
Questions à choix multiples

Questions à choix multiples


QCM 9 : Quelles sont les propositions vraies concernant le test du CHI2.
A. Il permet de tester l'indépendance entre deux variables quantitatives.
B. Il n'est réalisable que si tous les effectifs observés sont  5.
C. Il sera d'autant moins puissant que le nombre d'observations sera élevé.
D. Il permet de comparer la répartition observée d'une variable qualitative à une
répartition théorique.
E. Il permet de comparer les répartitions d’une variable qualitative dans
plusieurs populations.

QCM 10 : On s'intéresse à la proportion p des personnes vaccinées contre l'hépatite


A dans une population P. On désire tester l'hypothèse nulle : p = 20 % contre
l'alternative p  20% au risque de 1 %.
Sur un échantillon de taille 100 pris au hasard dans P on observe que 20 personnes
sont vaccinées. Concernant le test et votre conclusion au risque de 1 % quelles sont les
assertions vraies :
A. Le test est applicable car 100 > 30.
B. Le test est applicable car le plus petit effectif théorique 20 est supérieur à 5.
12%,1 ddl .
C. Il est certain que p = 20% car 0 <
On conserve l'hypothèse p = 20 % car 0 < 1%,1 ddl .
2
D.
E. On est certain que p = 20 % car la fréquence observée f = 20/100 = 20%.

QCM 11 : Parmi les propositions suivantes lesquelles sont vraies ?


A. On utilisera un test pour séries appariées lors de la comparaison de deux
échantillons de mesures non indépendants.
B. On utilisera le test du coefficient de corrélation pour tester l’indépendance entre
deux variables qualitatives.
C. Lors d’un test du coefficient de corrélation l’hypothèse nulle est que les deux
caractères étudiés sont indépendants.
D. La statistique utilisée pour comparer une répartition observée à une répartition
théorique suit une loi du CHI2 si l’échantillon observé est supérieur à 30.
E. Le test de comparaison des moyennes de 2 échantillons indépendants fait
obligatoirement appel à loi de Student.

124
Chapitre 9 Exercices14 et corrections
des QCM

Exercices sur les probabilités (Chapitre 3)

Exercice 1
Un patient reçoit consécutivement 3 injections d'une substance S. Cette substance est
responsable d’effets secondaires locaux dans 10 % des cas. On admet que l’apparition
de l’effet secondaire est indépendant d’une administration antérieure de S.
Question
Quelle est la probabilité pour ce patient d’avoir des effets secondaires ?
Réponse
P(Effets secondaires +) = 1 - (0,90)3 = 0,271
Exercice 2
Un patient présente 2 obstructions au niveau du territoire artériel coronaire. Le
chirurgien cardio-vasculaire titulaire décide que la désobstruction des artères doit être
réalisée à l’aide d’une sonde intra-vasculaire. Le geste technique est laissé à l’interne
du service qui n’a droit qu’à 3 essais avant que le chirurgien titulaire n’intervienne.
On admet que la probabilité qu’un interne peu expérimenté a de désobstruer une
artère est constante et égale à 0,7.
Question
Quelle est la probabilité pour que l’interne désobstrue les 2 artères ?
Réponse
Désobstruer les 2 = (réussiréussi)  (réussiratéréussi)  (raté réussiréussi)
ces évènements sont disjoints donc la probabilité est la somme des probabilités :
P(Désobstruer les 2) = P(réussiréussi) + P (réussiratéréussi)
+ P(raté réussiréussi)
Et puisque la probabilité est constante :

14
La (Les) partie(s) du cours concernée(s) par l’exercice est (sont) donnée(s) entre parenthèses.
Exercice sur la loi Normale (chapitre 4)

P(réussiréussi) = P(réussi/réussi)*P(réussi) = 0.7*0.7 ….


P(Désobstruer les 2) = 0,7*0,7 + 0,7*0,3*0,7 + 0,3*0,7*0,7
= 0,7*0,7*(1+2*0,3) = 0,784
Exercice 3
A l’université de Duke 2 étudiants ont eu un A en chimie. Mais la veille du contrôle
final ils sont allés dans un autre état et ne sont pas revenus à temps pour le contrôle. Ils
s’excusèrent en disant qu’un pneu de leur voiture avait crevé et demandèrent à passer
un autre contrôle. Ceci leur fût accordé. La 1ère question facile était sur 5 points, la
seconde sur 95 points était : Quel pneu ?
Question
Quelle est la probabilité que les 2 étudiants répondent la même chose ?
Réponse
En supposant l’équiprobabilité de réponse entre les 4 possibilités (pneu avant droit,
… , pneu arrière gauche) et l’indépendance entre les réponses des 2 étudiants (en
particulier pas d’entente préalable), on a :
Etudiant 1
Avant droit Arrière gauche

(1/4) (1/4)
Avant droit 1/16 … 1/16
(1/4)
Etudiant 2 … … … …
Arrière gauche
1/16 … 1/16
(1/4)

Proba(mêmes réponses) = 4*(1/4*1/4 ) = 1/4

Exercice sur la loi Normale (chapitre 4)


Questions
Dans une population P un test biologique X est normalement distribué de moyenne
150 UI et d'écart type 50 UI.
1. Quelle est la valeur BS telle que 5% des sujets de la population aient une valeur
≥ BS ?
2. Quelle est la valeur BI telle que 2,5% des sujets de la population aient une valeur
≤ BI ?
3. L’intervalle des résultats considérés comme normaux est [52, 232]. Quelle est la
probabilité qu’un individu ait un résultat normal ?
Réponses
1. On recherche BS tel que P(X  BS) = 0,05.
X est N(150,50), donc Z = (X-150) / 50 est N(0,1) et X = 150 + 50Z.

126
Exercice sur l’estimation de la valeur informationnelle d’un signe (chapitre 5)

On recherche dans la table de la loi Normale centrée réduite la valeur N ’ tel que
P(Z  N’) = 0,05.
On sait que /2 = P(Z  N), donc  = 2P(Z  N) et ’ = 2*0,05 = 0,1 et
N’ = 1,64.
P(Z  1,64) = 0,05 donc (X  [150+(50*1,64)]) = 0,05
D’où P(X232) = 0,05.
La borne supérieure des résultats normaux est à 232 UI.
2. Par un raisonnement similaire à celui de la question 1, on trouve que la borne
inférieure des résultats normaux est à 52 UI.
3. On cherche la probabilité : P(normal) = P(52  X  232).
On a : P(Normal) = 1 - P(Anormal)
et P(Anormal) = P(X  52 Ou X  232) = P(X  52) + P(X  232).
D’où, P(Normal) = 1 - P(X  52) - P(X  232)
P(X  52) = P(Z  [(52-150)/50]) = P(Z  -1,96)
Dans la table, quand N = 1,96 alors  = 0,05 et donc /2 = P(Z  -1,96) = 0,025.
P(X  232) = P(Z  [(232-150)/50]) = P(Z  1,64)
Dans la table, quand N = 1,64 alors  = 0,10 et donc /2 = P(Z  -1,96) = 0,05
D’où, P(Normal) = 1 - 0,025 - 0,05 = 0,925.

Exercice sur l’estimation de la valeur informationnelle d’un signe


(chapitre 5)

Exercice 1
La mammographie a vis-à-vis du cancer du sein, chez la femme de 50 à 59 ans, une
sensibilité de 0,9 et une spécificité de 0,95. On admet que la Se et la Sp demeurent les
mêmes lorsque l’on effectue plusieurs mammographies chez la même femme et qu’il y
a indépendance entre les mammographies effectuées chez une même femme saine.
Question
Quelle est la probabilité pour qu’une femme ne présentant pas de cancer du sein et
passant 4 mammographies soit dépistée positive au moins une fois ?
Réponse
Dépistée positive au moins une fois = contraire de jamais dépistée positive.
P(jamais dépistée positive/femme indemne)=P(1ère mammo négative  2ème mammo
négative 3ème négative4ème négative/femme indemne).
Puisqu’il y a indépendance :
P(jamais dépistée positive/femme indemne)=P(1ère négative/femme indemne)*P(2ème
négative/femme indemne)*…
La Sp demeurant constante :
P(jamais dépistée positive/femme indemne)=0.95*0.95*0.95*0.95=0.81
P(dépistée au moins une fois positive/femme indemne)=1-0.81=0.19
C'est à dire que sur un dépistage avec mammographie tous les 2,5 ans une femme
indemne entrant dans le programme à 50 ans a environ une « chance » sur 5 d'être
inquiétée au moins une fois avant 60 ans.

127
Exercices sur les test statistiques (chapitres 7 et 8)

Exercice 2
La prévalence du cancer du sein chez les femmes de 50 à 59 ans est de 200/100 000.
La mammographie a une sensibilité de 0,9 et une spécificité de 0,95.
Questions
1. Quelle est la probabilité qu'une femme de 55 ans ayant une mammographie
positive soit atteinte ? Comment s'appelle cette probabilité ?
2. Quelle est la probabilité qu'une femme de 55 ans ayant une mammographie
négative soit indemne ? Comment s'appelle cette probabilité ?
Réponses
1. Proba(Cancer du sein / mammographie positive) = p.Se/(p.Se+(1-p).(1-Sp))
= (2/1000)*0,9/((2/1000)*0,9+(998/1000)*(0,05)
=2*90/(2*90+998*5)=180/(180+4990)  0,035
Proba(Cancer du sein / mammographie positive)=VPP
2.
Proba(Pas de cancer du sein/mammographie négative)=(1-p).Sp/((1-p).Sp+p.(1-Se))
= (998/1000)*0,95/((998/1000)*0,95+(2/1000)*0,1)
= 998*95/(998*95+2*10)= (95.000-190)/((95.000-190)+20)=94.810/94.830
 0,9998
Proba(Pas de cancer du sein/mammographie négative) = VPN
Exercice 3
Un signe S a vis-à-vis d'une maladie M une sensibilité de 0,90 et une spécificité de
0,90.
Question
Calculer la VPP de S vis à vis de M pour les valeurs suivante de prévalence : 0,50 ;
0,10 ; 0,05. Commentez.
Réponse
P = 0,50  VPP = 0,90
p = 0,10  VPP = 0,50
p = 0,05  VPP = 0,32
La VPP décroît très vite lorsque la prévalence devient « petite ».

Exercices sur les test statistiques (chapitres 7 et 8)

Exercice 1
Afin de comparer l’efficacité de 2 traitements A et B sur une maladie M, on a traité
10 malades pris au hasard par A et 10 malades pris au hasard par B. Les résultats sont :
Succès Echec
Traitement A 5 5

128
Exercices sur les test statistiques (chapitres 7 et 8)

Traitement B 3 7
La conclusion est : 2 = 0,83 (p = 0,36) les traitements ne diffèrent pas.
Question
Qu’en pensez-vous (choix du test, résultats) ?
Réponse
Il s’agit de comparer les distributions d’une variable qualitative dans 2 populations
au vu de 2 échantillons au hasard ; le test du CHI2 est donc adéquat (H0 :
P(succès)=P(échec), Ha : P(succès)P(échec)). De plus les traitements étant attribués
au hasard on pourra invoquer la causalité.
Succès Echec Total
Traitement A 5 (4) 5 (6) 10
Traitement B 3 (4) 7 (7) 10
Total 8 12 20
2 effectifs théoriques sont égaux à 4 donc < 5 ; le test du CHI2 est invalide.
La conclusion des auteurs est donc invalide.
De plus même si le résultat statistique (p=0,36) était valide on ne doit pas conclure
« les traitements ne diffèrent pas » mais « nous conservons H0 » ou bien « nous
n’avons pas mis en évidence une différence significative entre A et B ». Remarquons
par ailleurs que les effectifs (10) sont petits et que par suite même si la vraie différence
entre A et B est intéressante la puissance du test est faible.
Exercice 2
Une étude porte sur le stress au travail. Sur un échantillon de 22 employés pris au
hasard les auteurs ont mesuré : la proportion par employé de postes informatiques
(nombre de postes/nombre d’employés dans l’entreprise) et une échelle de stress. Une
valeur élevée sur l’échelle de stress est en faveur d’un stress élevé. On admettra que
stress et proportion de postes informatiques suivent une loi Normale à 2 dimensions.
L’estimation du coefficient de corrélation de Pearson est r=0,66.
Question
1. Quelle est votre conclusion ?
2. La conclusion des auteurs est : « une forte proportion de postes informatiques dans
une entreprise augmente le stress r=0,66 (p<0,01) ».
Réponse
1. Les conditions d’application du test du coefficient de corrélation sont satisfaites :
échantillon au hasard et normalité du couple (stress, proportion de postes
informatiques). Les hypothèses du test sont : H0 : stress et proportion de postes
indépendantes, Ha : stress et proportion liées.
0,66 > R 5%, 20ddl =0,360 donc on rejette H0 pour Ha, et 0,66>0,537= R 0,01, 20ddl donc
p<0,01.

129
Exercice sur la comparaison de 2 distributions (chapitres 2, 6, 7, 8)

La conclusion est : la proportion de postes informatique et le stress sont liés r=0,66


(p<0,01).
2. La conclusion des auteurs invoque la causalité alors que leur enquête est une
enquête d’observation, leur conclusion est donc très contestable. On peut en effet
penser que les métiers nécessitant un poste informatique sont plus stressants que
d’autres, …
Exercice 3
Lors d’une enquête transversale portant sur 1000 personnes actives âgées de 20 à 30
ans on a observé pour chaque individu son âge et son salaire mensuel. On a montré que
le salaire mensuel est corrélé à l’âge : r=0,45 (p<0,001). Les auteurs en concluent que
le salaire d’une personne active croît assez rapidement avec l’âge de cette personne.
Question
Qu’en pensez-vous ?
Réponse
L’énoncé suggère que les conditions d’application du test portant sur le coefficient
de corrélation (échantillon au hasard et normalité du couple (âge, salaire)) sont
remplies.
La corrélation est entre l’âge d’une personne lors de l’enquête et son salaire lors de
l’enquête, la conclusion correcte est donc que le salaire est d’autant plus élevé qu’une
personne est âgée (entre 20 et 30 ans). Ce qui est différent de : le salaire d’une
personne active croît assez rapidement avec l’âge de cette personne ou bien le salaire
est d’autant plus élevé que l’ancienneté dans la vie active est élevée. En effet un contre
exemple facile est : toutes les personnes débutent leur vie active à 20 ans et ont un
salaire qui demeure le même jusqu’à 30 ans, par ailleurs chaque année les salaires des
nouveaux embauchés diminuent de 5%, il en résulte que lors d’une enquête
transversale les personnes plus âgées ont un salaire plus élevé. Mais la réalité est sans
doute plutôt liée au fait que le salaire est corrélé au niveau d’étude, que l’entrée dans la
vie active est d’autant plus tardive que le niveau d’étude est élevé, …

Exercice sur la comparaison de 2 distributions (chapitres 2, 6, 7, 8)


On s’intéresse au sexe ratio (sexe ratio=Proba(mâle)/Proba(femelle)) à la naissance
d’une espèce ovipare. On sait que le sexe ratio est égal à 1 si la température
d’incubation est 28 °C. On désire savoir si le sexe ratio est différent de 1 lorsque la
température d’incubation est de 27°C. Pour cela on décide d’incuber à 27°C un
échantillon d’œufs pris au hasard et de tester l’hypothèse nulle : sexe ratio=1 c’est à
dire Proba(sexe=mâle)=Proba(sexe=femelle)=0,5 contre l’alternative sexe ratio1.
Questions
1. Quelle est la nature (qualitative, ordinale, quantitative) de la variable sexe ? Quel
test est adéquat ? (Chap. 2,9)
2. Une expérimentation conduite par X donne pour résultat : 120 mâles et 80
femelles. Quelle est votre conclusion ? (Chap. 9)
3. La conclusion de X est : la proportion de mâles diffère fortement de 0,5 p=0,005

130
Exercice de synthèse : le diagnostic de l’embolie pulmonaire (chapitres 1, 2, 5, 6, 7,
8)

(2=8). Qu’en pensez-vous, ajouteriez-vous une information complémentaire et


laquelle ? (Chap. 7,8,9)
Réponses
1. Sexe est une variable qualitative. Il s’agit de comparer une distribution observée
d’un caractère qualitatif à une distribution théorique, plus précisément de tester
l’hypothèse nulle H0 : sexe ratio=1 contre l’alternative Ha : sexe ratio1 (ou bien
H0 : Proba(sexe=male)=0,5 contre Proba(sexe=male)0,5) au vu d’un échantillon
au hasard : le test du CHI2 est adéquat.
2. Calcul :
male femelle total
Effectifs observés 120 80 200
Effectifs théoriques 200x0,5=100 200x0,5=100 200
Les effectifs théoriques sont tous  5 le test est donc valable.
(120  100) 2 (80  100) 2 202
2   2  8.
100 100 100

On compare cette valeur au  52%,1ddl =3,84 et puisque 8>3,84 on rejette H0 pour


Ha. La table nous montre que 0,001<p<0,01 puisque 12%,1ddl =6,635<8<10,827=
 02, 001,1ddl .
La conclusion est : le sexe ratio est différent de 1 lorsque la température
d’incubation est de 27°C (p<0,01).
3. Le terme « fortement » est à bannir au vu du « p » seul.
Un IC à 95% de la proportion des mâles donnerait une bonne indication de l’écart
avec 0,5. On peut calculer l’IC à 95% de Proba(sexe=male) car cette probabilité
n’est pas voisine de 0 ou de 1 et l’échantillon est de taille élevée :
 0,6  0,4 
0,6  1,96   0,6  0,07  53% ; 67% .
 100 

L’écart peut donc être considérable +17% ou faible +3%.

Exercice de synthèse : le diagnostic de l’embolie pulmonaire


(chapitres 1, 2, 5, 6, 7, 8)
Une enquête porte sur le diagnostic de l’embolie pulmonaire (EP)15 chez les patients
admis en urgence pour suspicion d’EP. Le but est d’établir un score clinique
permettant de classer la suspicion d’EP en faible, intermédiaire, haute. L’intérêt d’une

L’EP est d’évolution rapide et est mortelle dans plus de 30% des cas en absence de traitement. On
15

ne peut donc l’exclure que si la suspicion est très faible.

131
Exercice de synthèse : le diagnostic de l’embolie pulmonaire (chapitres 1, 2, 5, 6, 7,
8)

telle classification est d’améliorer le processus de décision. En particulier on peut


exclure le diagnostic d’EP dans le cas d’une suspicion clinique faible et un taux de D
Dimères faible (DD par méthode ELISA < 500g/l) et donc éviter des investigations
plus lourdes. En effet le taux de DD dosés par la méthode ELISA  500g/l a vis-à-vis
de l’EP une très bonne sensibilité (Se = 0,97) et une spécificité médiocre (Sp = 0,50).
1000 patients admis consécutivement aux urgences du CHU X pour suspicion d’EP
constituent l’échantillon. Pour chacun on a relevé l’âge, le sexe, la présence
d’antécédents de EP, … Par ailleurs on a établi la présence ou l’absence de EP.
L’analyse statistique débute par une étude qui recherche pour chacune des
caractéristiques une association significative avec l’EP (les résultats sont présentés
tableau I). Puis un score clinique est calculé et les valeurs observées du score sont
présentées au tableau II. Ce score est ensuite utilisé pour prédire la présence d’une EP
(suspicion faible, intermédiaire ou élevée). Le tableau III indique les résultats observés
concernant le score et l’EP.
Tableau I :
Caractéristique Nb de patients Nb de EP (%) RR p
Age <0,001
< 60 450 75 (17)
60 - 79 400 150 (37) 2,25
 80 150 75 (50) 3
Sexe 0,16
Masculin 400 130 (32) 1,15
Féminin 600 170 (28)
Douleur thoracique
Oui 800 200 (25) 0,5 <0,001
Non 200 100 (50)
ATCD d’EP
Oui 100 50 (50) 1,80 <0,001
Non 900 250 (28)
… … … … …

Tableau II :
Score Non EP EP (%) total
0 95 5 (5) 100
1 90 8 (8) 100
2 92 10 (10) 100
3 88 12 (12) 100
4 85 15 (15) 100
5 90 30 (25) 120
6 70 40 (36,4) 110
7 45 45 (50) 90
8 35 45 (56,2) 80
9 10 30 (75) 40
10 0 25 (83,3) 30
11 0 20 (100) 20
12 0 10 (100) 10

132
Exercice de synthèse : le diagnostic de l’embolie pulmonaire (chapitres 1, 2, 5, 6, 7,
8)

>12 0 5 (100) 0
700 300 1000
Tableau III :
suspicion Non EP(%) EP(%) total
Faible (score 4) 450(90) 50(10) 500
Intermédiaire (score 5-8) 240(60) 160(40) 400
Elevée(score 9) 10(10) 90(90) 100
Total 700 300 1000

Questions
1. Quelle est la nature de chaque variable sexe, âge et score clinique ? (chap. 1, 2)
2. Comment représentez-vous graphiquement les données concernant le sexe, le score
clinique ? (chap. 1, 2)
3. Quelle est la médiane, le 3ème quartile du score, la moyenne du score ? (chap. 1, 2)
4. Que pensez-vous de cet échantillon ? (chap. 1, 2)

Par la suite on fera comme si l’échantillon était pris au hasard dans la population des
suspicions d’EP aux urgences.
5. Que pouvez-vous dire de la prévalence de l’EP ? (chap. 6, 7)
6. Justifier la phrase « En particulier on peut exclure le diagnostic d’EP en cas de
suspicion clinique faible et un taux de DD faible ». (chap. 5)
On souhaite étudier la valeur informationnelle du score en prenant un résultat  9
comme valeur seuil. A partir des données du tableau II on obtient alors le tableau de
contingence suivant :
EP Non EP
Score  9 90 10 100
Score < 9 210 690 900
300 700 1000
7. Quelles sont les estimations de la sensibilité et la spécificité du signe score  9
(suspicion élevée) ? Pouvez vous en donner un intervalle de confiance à 95 % ?
(chap. 7)
8. Pouvez vous estimer la VPP de score  9 ? (chap. 7)
9. Quelle est la signification de la colonne « RR » tableau I ? (chap. 7)
10. Quelle est la signification de la colonne « p » tableau I ? (chap. 8, 9)
11. Justifier les résultats concernant la douleur thoracique. (chap. 8, 9)
12. Au vu du tableau III pouvez-vous tester si le score est « prédictif de l’EP » ? (chap.
8, 9)
Réponses

133
Exercice de synthèse : le diagnostic de l’embolie pulmonaire (chapitres 1, 2, 5, 6, 7,
8)

1. Sexe : qualitative ; âge quantitative continue ; le score est l’addition de « points »


attribués en fonction de la présence de signes de telle sorte que l’ordre induit par le
total points corresponde à une probabilité d’EP croissante (ce qui est en accord
avec les % d’EP tableau II). C’est une donnée ordinale.
2. Sexe : camembert ; score : diagramme en bâtons.
140

120

100
fréquence absolue

80

60

40

20

0
0 1 2 3 4 5 6 7 8 9 10 11 12 >12

SCORE

3. Le score est une donnée ordinale, les quartiles peuvent être utilisés.
Médiane : 500 individus ont un score  4, 500 ont un score  5. La médiane est
donc n’importe quelle valeur entre 4 et 5. On donne comme valeur de la médiane
4,5.
730 individus ont un score  6, 820  7. Le troisième quartile est donc 7 car
1000*0,75=750.
Le score est une donnée ordinale la moyenne est donc un mauvais indicateur.
4. Cet échantillon est pris dans la population des suspicions d’EP aux urgences du
CHU X. Il ne permet donc pas d’étendre les éventuelles inférences à une
population plus générale sans réserve. Il paraît difficile, par exemple, de les étendre
en dehors des urgences. De plus il n’est pas pris au hasard car constitué par 1000
patients consécutifs. Toutefois on peut, sous certaines conditions (durée de
recrutement ni trop courte ni trop longue, moyens d’investigation stables, …),
admettre que 1000 patients consécutifs sont pris « au hasard ».
5. On ne peut pas estimer la prévalence de l’EP car l’enquête n’est pas transversale
dans la population. Par contre on peut estimer la proportion, p, des EP parmi les
entrants en urgence pour suspicion d’EP dans le CHU X puisque nous disposons
d’un échantillon au hasard dans cette population. Nous savons que la fréquence
relative est une bonne estimation de p : f=300/1000=0,30. p étant
vraisemblablement ni voisin de 0 ni voisin de1 et la taille de l’échantillon étant
1000 on peut donner un intervalle de confiance de p à 95% :
 0,3  0,7 
0,30  1,96   0,30  0,028  0,27 0,33
 1000 
6. Le signe DD  500 g ayant une très forte sensibilité son absence conduit à une
VPN élevée ( VPN  VN VN  FN  et le terme FN=p(1-Se) est faible car la Se est
élevée) et permet donc d’éliminer le diagnostic d’EP. Toutefois l’EP étant

134
Exercice de synthèse : le diagnostic de l’embolie pulmonaire (chapitres 1, 2, 5, 6, 7,
8)

« grave » il convient de préciser ceci par une estimation de la VPN pour « faible
suspicion clinique ET DD < 500 g/l » :
La probabilité pré-test est la probabilité de l’EP chez un individu avec une faible
suspicion clinique. On peut d’après le tableau III lui donner une valeur de l’ordre
de 10%.
Par suite on a pour la probabilité post test (après observation de DD < 500 g /l) :
Sp (1  p) 0,50  0,90
P(nonEP / DD )  VPN  
Sp (1  p)  (1  Se )p 0,50  0,90  0,03  0,10
50  90 4500
VPN    0,993
50  90  3  10 4500  30
Par suite :
P(EP/faible suspicion ET DD-)=0,007, donc une suspicion d’EP très faible, il est
donc possible d’écarter l’EP.
Remarquons que sans l’utilisation du score la probabilité pré-test est d’environ
0,30 et que la VPN de DD  500 g/l serait de :
0,50  0,70 3500
VPN    0,975 ce qui est élevé mais pas
0,50  0,70  0,03  0,30 3500  90
assez pour éliminer une maladie aussi grave.
7. On dispose d’un échantillon au hasard sur lequel on a mesuré le signe score et
l’EP, on peut donc estimer la sensibilité par 90/300 = 0,30 et la spécificité par
690/700 = 0,985. 300 et 700 sont des observations de nombres aléatoires on ne
peut donc pas utiliser la méthode du cours pour estimer des intervalles de
confiance.
8. VPP(score  9) = 90/100 = 0,90.
Pour la même raison que ci dessus on ne peut pas utiliser la méthode du cours pour
estimer des intervalles de confiance.
Les estimations obtenues en 8. et 9. sont extrapolables à une population
comparable d’entrants en urgence pour suspicion d’EP, elles ne sont pas
extrapolables à, par exemple, la population générale.
9. RR est l’estimation du risque relatif. Cette estimation est possible puisque
l’échantillon est un échantillon au hasard dans la population des entrants en
urgence pour suspicion d’EP.
10. p est le degré de signification du test du CHI2 ayant pour hypothèse nulle : EP et
caractéristique indépendantes, et pour alternative EP et caractéristique liées.
Rappelons que le degré de signification est la probabilité que, sous l’hypothèse
nulle, la valeur de la statistique soit « aussi éloignée de l’hypothèse nulle que celle
observée ».
11. L’estimation du RR est :

135
Exercice de synthèse : le dépistage de la trisomie 21 (chapitres 3, 4, 5)

200
rr  800  200  200  0,50
100 100  800
200

Le test du CHI2 :
EP Non EP Total
Douleur oui 200 (240) 600 (560) 800
Douleur non 100 (60) 100 (140) 200
300 700 1000
Les effectifs théoriques indiqués entre parenthèse sont tous  5.
40 2 40 2 40 2 40 2
 47,62 ; 47,62>  5%,1ddl =3,84 donc H0 est rejetée
2
 2
  
240 560 60 140
pour Ha.

47,62 > 10,83=  0, 001,1ddl donc p<0,001.


2

12. Le score est prédictif de l’EP si la proportion des EP varie avec la valeur du score,
ce qui peut être traduit par score et EP non indépendantes. On peut donc tester cette
hypothèse comme alternative de l’hypothèse score et EP indépendantes par un test
du CHI2 puisque nous disposons d’un échantillon au hasard, EP est une variable
qualitative et le score (faible, intermédiaire, élevée) peut être considéré comme
qualitatif (on n’utilise pas l’ordre).

Non EP EP Total
Faible 450 (350) 50 (150) 500
Intermédiaire 240 (280) 160 (120) 400
élevée 10 (70) 90 (30) 100
total 700 300 1000
Les effectifs théoriques (entre parenthèses) sont tous  5.
1002 1002 402 402 60 2 602
 
2
      285,7
350 150 280 160 70 30
On rejette l’hypothèse nulle pour l’alternative : EP et score non indépendantes
puisque 285,7>  5%, 2 ddl =5,99. Puisque 285,7>13,81=  0, 001, 2 ddl on a p<0,001.
2 2

Mais cette conclusion ne nous dit rien sur la force du lien. On peut apprécier cette
dernière par les estimations du RR de EP de suspicion élevée et de suspicion
intermédiaire par rapport à suspicion faible qui sont de 4 et 9 respectivement.

Exercice de synthèse : le dépistage de la trisomie 21 (chapitres 3, 4, 5)

136
Exercice de synthèse : le dépistage de la trisomie 21 (chapitres 3, 4, 5)

Objectif
Cet exercice vise à identifier et à mettre en œuvre les outils probabilistes et statistiques
appropriés, présentés dans le cours, pour répondre à un problème de santé publique : la
stratégie de dépistage de la trisomie 21.
I. Naissance d’un enfant trisomique et âge de la mère
La trisomie 21 est la principale cause de retard mental. Il y a un cas de trisomie 21
pour 700 naissances, le risque de trisomie 21 est fortement lié à l’âge de la mère. Le
diagnostic anténatal de la trisomie 21 est possible par le caryotype fœtal, différentes
politiques de dépistage sont donc possibles.
NB : Afin de simplifier, nous avons supposé dans cet exemple :
 Que seule la trisomie 21 est prise en considération ;
 L’échographie n’est pas prise en compte ;
 L’âge de la mère est découpé en 3 classes plutôt que considéré par année.
Ces hypothèses simplifient les calculs et ne changent que numériquement les
résultats.
Ampleur du problème
Le risque qu’une grossesse à terme donne lieu à la naissance d’un enfant trisomique
21 (T21) dépend fortement de l’âge de la mère. Par la suite nous considérerons l’âge
de la mère découpé en trois classes comme le montre le Tableau 9.1.

Age de la mère < 35 ans 35 - 37 ans > 37 ans


Risque = P(T21 / âge) 8 / 10 000 45 / 10 000 60 / 10 000
Nombre de naissances par an 650 000 50 000 50 000
Tableau 9.1 : Données du problème.

Questions
1. Quel est le nombre moyen de naissances de T21 par an (sans action de
prévention) ?
2. Parmi les T21 : quelle est la proportion de ceux dont la mère est âgée de 35 ans
et plus ? Quelle est la proportion de ceux dont la mère est âgée de 38 ans et
plus ?
Réponses
1. Le découpage des âges réalisé est une partition (on peut utiliser les probabilités
totales).
P(T21) = (8 / 10 000)x(650 000 / 750 000)+(45 000 / 10000)x(50 000 / 750 000)
+(60 000 / 10000)x(50 000 / 750 000)
P(T21) = 1045 / 750 000
Cette probabilité est peu différente de 0,001393 ce qui correspond à environ une

137
Exercice de synthèse : le dépistage de la trisomie 21 (chapitres 3, 4, 5)

naissance T21 pour 700 naissances.


Le nombre moyen annuel de T21 est donc :
750 000 x P(T21) = (8/ 10 000) x 650 000 + ( 45 /10 000) x 50 000
+ (60 / 10 000) x 50 000 = 1045
2.
Pâge  35 et T21 45  5  60  5
Pâge  35 / T21 
520
   0,5
PT21 8  65  45  5  60  5 525  520
Pâge  38 et T21 60  5
Pâge  38 / T21 
300
   0,29
PT21 8  65  45  5  60  5 525  520
II. Dépistage basé sur le seul âge de la mère
Il a été décidé de proposer aux femmes enceintes de 38 ans et plus, une
amniocentèse afin de diagnostiquer cette anomalie chromosomique avant la naissance.
Le caryotype fœtal apporte un diagnostic certain mais l’amniocentèse comporte un
risque d’avortement induit de 0,5 % à 1 % (par la suite on prendra 1 %). Si le résultat
de l’amniocentèse est positif (noté A+) une interruption de grossesse est proposée
(IMG).
Afin de simplifier nous admettrons que : toute grossesse va à terme sauf si un
avortement est induit par l’amniocentèse (en réalité, 20 à 30 % des fœtus trisomiques
21 et 2 à 3 % des fœtus normaux à 16 semaines donnent lieu à une fausse couche). Si
l’amniocentèse induit une fausse couche, l’IMG intervient avant cette fausse couche.
Questions
3. Pour les grossesses de femmes de 38 ans et plus qui acceptent l’amniocentèse et
l’IMG quelles sont les issues possibles et leurs probabilités ?
4. Pour 10 000 femmes de 38 ans et plus qui acceptent l’amniocentèse et l’IMG
quel est le nombre moyen de naissances de T21 évitées et le nombre moyen de
fausses couches ?
Réponses
3.
P(fœtus T21 et (A+ et IMG proposée)) = P(A+ et T21) = P(A+ / T21) x P(T21)
P(fœtus T21 et (A+ et IMG proposée)) = 1 x P(T21) = 60 / 10 000
P(f. non T21 et (A- et Gross. à terme))=P(Gross. à terme/non T21 et A-)xP(non
T21 et A-)
En admettant l’indépendance de l’induction d’une fausse couche et T21 :

P(f. non T21 et (A- et Gross. à terme))= 1  0,01  1  1  PT 21 


99 9940

100 10000
P(f. non T21 et (A- et fausse couche))=P(fausse couche/non T21 et A-)
1 9940
=  1
100 10000

138
Exercice de synthèse : le dépistage de la trisomie 21 (chapitres 3, 4, 5)

4. Nombre de naissances T21 évitées :


60
 10000  60
10000

Nombre de fausses couches :


9940 1
  10000  99
10000 100
Soit grossièrement 2 fausses couches pour une naissance T21 évitée.
On peut représenter ce raisonnement sous forme d’un arbre probabilisé (arbre
probabilisé = arbre de décision sans les utilités) comme le montre la Figure 9.1 :

Figure 9.1 : Arbre de probabilité représentant le problème.

139
Corrections des QCM

Corrections des QCM


QCM 1 : A, C, E
QCM 2 : A, C, D, E
QCM 3 : A, B, C
QCM 4 : B, C, E
QCM 5 : A, C, D
QCM 6 : B, E
QCM 7 : C, D, E
QCM 8 : B, D
QCM 9 : D, E
QCM 10 : B, D
QCM 11 : A, C

140
Bibliographie
Beuscart R. et al. Biostatistique. Paris : Omniscience, 2009.
Bouyer J. Méthodes statistiques. Médecine-biologie. Paris : ESTEM éditions
INSERM 1996.
Daurès JP. Probabilités et statistiques en médecine. Montpellier : Sauramps médical,
1993.
Goldberg M. L’épidémiologie sans peine. Paris : Frison-Roche, 1990.
Mercier M. Biostatistique et probabilités. Exercices, problèmes et épreuves corrigés.
Paris : Ellipses, 1996.
Salamon R. Statistique médicale. Paris : Masson, 1988.
Schwartz D. Méthodes statistiques à l’usage des médecins et des biologistes. 4ème
édition. Paris : Flammarion, 1996.
Annexe : Tables utiles
Table de la loi Normale

 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00  2,58 2,33 2,17 2,05 1,96 1,88 1,81 1,75 1,69
0,10 1,64 1,60 1,55 1,51 1,48 1,44 1,40 1,37 1,34 1,31
0,20 1,28 1,25 1,23 1,20 1,17 1,15 1,13 1,10 1,08 1,06
0,30 1,04 1,01 0,99 0,97 0,95 0,93 0,91 0,90 0,88 0,86
0,40 0,84 0,82 0,81 0,79 0,77 0,75 0,74 0,72 0,71 0,69
0,50 0,67 0,66 0,64 0,63 0,61 0,60 0,58 0,57 0,55 0,54
0,60 0,52 0,51 0,50 0,48 0,47 0,45 0,44 0,43 0,41 0,40
0,70 0,38 0,37 0,36 0,34 0,33 0,32 0,30 0,29 0,28 0,27
0,80 0,25 0,24 0,23 0,21 0,20 0,19 0,18 0,16 0,15 0,14
0,90 0,13 0,11 0,10 0,09 0,07 0,06 0,05 0,04 0,02 0,01
Annexe : Tables utiles

Table de la loi de Student

Nombre de
 = 0,20  = 0,10  = 0,05  = 0,02  = 0,01
d.d.l.
1 3,078 6,314 12,706 31,821 63,66
2 1,886 2,920 4,303 6,965 9,925
3 1,638 2,353 3,182 4,541 5,841
4 1,533 2,132 2,776 3,747 4,604
5 1,476 2,015 2,571 3,365 4,032
6 1,440 1,943 2,447 3,143 3,707
7 1,415 1,895 2,365 2,998 3,499
8 1,397 1,860 2,306 2,896 3,355
9 1,383 1,833 2,262 2,821 3,250
10 1,372 1,812 2,228 2,764 3,169
11 1,363 1,796 2,201 2,718 3,106
12 1,356 1,782 2,179 2,681 3,055
13 1,350 1,771 2,160 2,650 3,012
14 1,345 1,761 2,145 2,624 2,977
15 1,341 1,753 2,131 2,602 2,947
16 1,337 1,746 2,120 2,583 2,921
17 1,333 1,740 2,110 2,567 2,898
18 1,330 1,734 2,101 2,552 2,878
19 1,328 1,729 2,093 2,539 2,861
20 1,325 1,725 2,086 2,528 2,845
21 1,323 1,721 2,080 2,518 2,831
22 1,321 1,717 2,074 2,508 2,819
23 1,319 1,714 2,069 2,500 2,807
24 1,318 1,711 2,064 2,492 2,797
25 1,316 1,708 2,060 2,485 2,787
26 1,315 1,706 2,056 2,479 2,779
27 1,314 1,703 2,052 2,473 2,771
28 1,313 1,701 2,048 2,467 2,763
29 1,311 1,699 2,045 2,462 2,756
 30 1,28 1,64 1,96 2,33 2,58

144
Annexe : Tables utiles

Table de la loi du Chi2

nombre de d.d.l.  = 0,30  = 0,20  = 0,10  = 0,05  = 0,01  = 0,001


1 1,07 1,64 2,71 3,84 6,63 10,83
2 2,41 3,22 4,60 5,99 9,21 13,81
3 3,66 4,64 6,25 7,81 11,34 16,27
4 4,88 5,99 7,78 9,49 13,28 18,47
5 6,06 7,29 9,24 11,07 15,09 20,51
6 7,23 8,56 10,64 12,59 16,81 22,46
7 8,38 9,80 12,02 14,07 18,47 24,32
8 9,52 11,03 13,36 15,51 20,09 26,12
9 10,66 12,24 14,68 16,92 21,67 27,88
10 11,78 13,44 15,99 18,31 23,21 29,59

Table du coefficient de corrélation

nombre de d.d.l.  = 0,10  = 0,05  = 0,01


1 0,988 0,997 0,999
2 0,900 0,950 0,990
3 0,805 0,878 0,959
4 0,729 0,811 0,917
5 0,669 0,754 0,874
6 0,621 0,707 0,834
7 0,582 0,666 0,798
8 0,549 0,632 0,765
9 0,521 0,602 0,735
10 0,497 0,576 0,708
11 0,476 0,553 0,683
12 0,457 0,532 0,661
13 0,441 0,514 0,641
14 0,426 0,497 0,623
15 0,412 0,482 0,605
16 0,400 0,468 0,590
17 0,389 0,455 0,575
18 0,378 0,444 0,561
19 0,369 0,433 0,549
20 0,360 0,423 0,537

145
Index

C E
Caractère Ecart-type .............................. 12, 16, 33
ordinal ..............................................5 Echantillon .......................................... 1
qualitatif ...........................................5 Echantillon représentatif ..................... 2
quantitatif .........................................6 Effectifs théoriques ................. 108, 109
Catégorie ..............................................9 Epreuve ............................................. 21
Censures .................................74, 76, 77 Espérance .......................................... 32
Chi-deux ..........................................109 Estimateur
Classe modale ................................9, 13 convergent ..................................... 49
Coefficient de corrélation ..........18, 120 sans biais ....................................... 48
Complémentarité................................22 Estimation ......................... 3, 47, 49, 54
Courbe Estimation
de survie ...................................63, 76 de la sensibilité ............................. 66
des fréquences ................................12 Estimation
Covariance ...................................18, 36 de la spécificité ............................. 67
Etendue ............................................. 17
D Evènement
Date certain ........................................... 24
d’entrée dans l’étude ......................74 composé ........................................ 22
de point ..........................................74 impossible ............................... 22, 23
des dernière nouvelles....................74 incompatible ................................. 23
Degré de liberté............40, 41, 109, 112 indépendants ................................. 26
Degré de signification (test statistique) Exclus vivants ................................... 74
.......................................................89
Densité de probabilité ........................38 F
Diagramme Facteur
bâtons .........................................8, 10 de risque ........................................ 69
camembert........................................8 protecteur ...................................... 69
Distribution ........................................32 Faux
Distribution négatif ........................................... 65
de fréquences ...........................12, 14 positif ............................................ 65
Distribution Fonction de survie....................... 73, 76
conditionnelle ................................36 Fréquence
Données de survie ..............................73 absolue ............................................ 6
cumulée ........................................... 7
marginale ...................................... 10
relative ............................................ 7
Index

H Puissance d’un test ...................... 88, 92


Histogramme......................................10
Q
Hypothèse
alternative ..............................87, 119 Quantile....................................... 15, 17
nulle ...............................................86 Quartile ............................................. 15

I R
Incidence ............................................64 Recul ................................................. 74
Intersection ........................................22 Risque ............................................... 68
Intervalle Risque
de confiance ...................................54 relatif ............................................. 68
inter-quartile ............................12, 17 Risque
relatif approché ............................. 72
L Risque
de première espèce ........................ 87
Loi
Risque
de Student ..............................40, 124
de deuxième espèce ...................... 87
du Chi-deux ...................................41
Risque
Normale (loi de Laplace Gauss) ....39
relatif ........................................... 118
Normale centrée réduite .................39
S
M
Sensibilité ......................................... 64
Médiane .................................13, 15, 17
Spécificité ......................................... 65
Médiane de survie ..............................78
Statistique descriptive ......................... 5
Méthode de Kaplan-Meier .................76
Strates ................................................. 2
Mode ........................................9, 13, 17
Stratification ....................................... 2
Moyenne ................................12, 13, 15
Multimodale.........................................9
T
O Tableau de contingence ...................... 9
Taux
Odd ratio ....................................72, 119
d’incidence .................................... 64
de prévalence ................................ 63
P
de survie ........................................ 76
Paramètre Temps de participation ..................... 74
de dispersion ............................12, 15 Test
de position......................................12 bilatéral ......................................... 88
de tendance centrale .......................12 unilatéral ....................................... 88
Partition..............................................23 Tests statistiques ..................... 3, 85, 95
Percentile ...........................................15 Théorème de Bayes ............... 27, 28, 66
Perdus de vue .....................................74 Tirage au hasard .................................. 2
Polygone des fréquences........11, 12, 38 Tirage au sort ...................................... 2
Population ............................................1
Population cible .............................1, 48 U
Prévalence ..........................................63
Uni-modale ......................................... 9
Probabilité
Union ................................................ 22
conditionnelle ................................25
de l’évènement ...............................24

147
Index

V discontinue .................................... 32
Variable aléatoire
Valeur
centrée réduite ............................... 33
dominante ..................................9, 13
Variable aléatoire
Valeur prédictive
à deux dimensions......................... 34
négative ..........................................65
Variables aléatoires
positive...........................................65
conjointes ...................................... 34
Variable................................................5
indépendantes ............................... 35
Variable aléatoire ...............................31
Variance .......................... 12, 16, 33, 49
Variable aléatoire
Vrai
discrète ...........................................32
négatif ........................................... 65
Variable aléatoire
positif ............................................ 65

148

You might also like