Statistiques 2: Pierre-Olivier Robert, PHD

Statistiques 2
Pierre-Olivier Robert, PhD
Bloc2 en Kinésithérapie
Année académique 2023-2024
Organisation pratique
• Fiche ECTS
• Examen écrit en Janvier
• 9 séances de théorie
• Application sur SPSS (1 mois gratuit/an) et PSPP
– pour windows :
https://www.gnu.org/software/pspp/get.html
– pour Mac : https://www.hs-
augsburg.de/~beckmanf/pspp/
Table des matières
• Rappel : Statistiques descriptives et intervalle
de confiance.
• Echantillonnage et inférence.
• De l’inférence au test d’hypothèse.
• Quelques analyses bivariées : le test de
moyenne.
Table des matières
• Test d’hypothèse pour variables discrètes.
• Tests non-paramétriques.
• La corrélation entre deux variables et La
régression linéaire simple et multiple.
Echantillonnage et inférence
Précédé de quelques autres rappels

vraiment gentils & basiques
1. Description des observations
• Rappels :
– question/réponses -> variable/modalités
– variables nominales, ordinales, numériques
(quantitatives, soit discrètes, soit continues)
• Les individus répondants (composant ensemble
l’échantillon) vont se répartir dans les différentes
modalités
– Rappel : NR vs NSP, pas d’avis,…
– La notion de constante
• Décrire une variable = décrire cette répartition :
la distribution
Vidéo sur les types des variables:
https://www.youtube.com/watch?v=99jDA-hN3P8
a. Terminologie générale
• Deux façons d’exprimer la distribution
– Les effectifs :
• La quantité d’individus qui se trouvent dans une situation
particulière (p.ex. avoir répondu « 1 » à la question « Q1 »)
• S’expriment en nombres entiers positifs
• Calcul? Aucun
– Les fréquences
• la proportion d’individus qui se trouvent dans une situation
particulière (p.ex. avoir répondu « 1 » à la question « Q1 »)
• S’expriment en pourcentages
• Calcul? Diviser le nombre d’individus dans une situation
particulière par le nombre total des individus de l’échantillon
a. Terminologie générale: quelques notations
statistiques
• L’ensemble des individus observés (l’échantillon) = n
• L’ensemble des individus de la population= N
• Notation d’une variable = X, Y, Z,…
• Notation des modalités en particulier : n1 n2 n3 … ni
• Réaliser une somme : ∑
a. Terminologie générale: quelques notations
statistiques
• La notation statistique
– Des effectifs :
• n1 n2 n3 … ni
N
=> å n = n
i =1
i
– Des fréquences :
ni
• f1 f2 f3 … f i = n
=> å f
i =1
i =1
Nicolas Marquis MQ1

b. Distributions statistiques à un caractère:
présentation en tableau d’une distribution
Dans les tableaux SPSS (cf.
commande « freq var »)
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
Les mesures de tendance

centrale
◦ La moyenne
◦ Le mode
◦ La médiane
Les mesures de dispersion

◦ Variance
◦ Ecart-type
Indiquer concomitamment
tendance centrale & dispersion
Petit rappel de statistiques descriptives:
◦ Le mode d’un ensemble de valeurs de la variable est la valeur ou la

modalité de la variable qui présente le plus grand nombre d’effectifs.
◦ Autrement dit, le Mode est la valeur la plus fréquente (=le plus grand
effectif) dans une distribution.
◦ Distribution unimodale vs bimodale
◦ Absence de mode : 𝑴𝟎
◦ Une mesure de tendance centrale : la moyenne

n
c’est-à-dire  ni
m= i =1
n
Distribution Bimodale
Source : http://www.astro.ulg.ac.be/cours/magain/STAT/Stat_Main_Fr/Chapitre3.html
Le mode
𝑴𝟎
Source : http://ftp.ulb.ac.be
• Mesures de dispersion autour de la médiane
– Diagramme en boite à moustaches
Source : http://www.itse.be/statistique2010/co/233_Cours_boxplot.html
Construction d’un Box-plot
• https://www.youtube.com/watch?v=SARU5IsXv2k
• Axe gradué (observations rangées dans un ordre croissant)
• Calcul des positions charnières
– Médiane : Q2
– 1er quartile : Q1
– 3ème quartile : Q3
• Calcul des barrières
– Calculer espace interquartile (EIQ) (dispersion des charnières) : EIQ=Q3 – Q1
– Barrière inférieure : Q1 – (1,5xEIQ)
– Barrière supérieure : Q3 + (1,5xEIQ)
• Recherche des valeurs adjacentes
– Valeur adjacente inférieure : VAI=plus petite valeur réelle > ou = barrière
inférieure.
– Valeur adjacente supérieure : VAS=plus grande valeur réelle < ou = barrière
supérieure.
• Outliers (valeur aberrante)?
Construction d’un Box-plot
1. Calcul des positions charnières

• 1er quartile : Q1/4
• Médiane : Q1/2
• 3ème quartile : Q3/4
2. Calcul des barrières VAI P25 Me P75 VAS
d
• Calculer l’espace interquartile (EIQ) (dispersion des charnières) : Q3/4 – Q1/4
• Barrière inférieure : Q1/4 – 1,5.EIQ
• Barrière supérieure : Q3/4 + 1,5.EIQ
3. Recherche des valeurs adjacentes

• Val adj inf : + petite valeur réelle > ou = barrière inf
• Val adj sup : + grande valeur réelle < ou = barrière supérieure
4. Recherche d’outliers
15
https://www.youtube.com/watch?v=iOo_n-gBALI
Remarques
• La boîte du box-plot est toujours délimitée par Q1 et Q3

• Mais les moustaches peuvent représenter plusieurs choses
selon les auteurs/les programmes
– Le minimum et le maximum
– Les valeurs adjacentes inférieures et supérieures
– Une déviation standard au-dessus et en-dessous de la moyenne
• Intérêts du Boxplot
– Examen de la symétrie de la distribution
– Visualisation de valeurs aberrantes
Dans ce cours : moustaches = valeurs adjacentes

Petit rappel de statistiques descriptives:
◦ Une mesure de tendance centrale : la moyenne
n
c’est-à-dire  ni
m= i =1
◦ Mesures de dispersion autour de la moyenne

◦ Variance (https://www.youtube.com/watch?v=CiFoBkipJQk)
C’est-à-dire :
2 =  ( x i −  )2
ni
N Ou (n-1)
◦ Ecart type
C’est-à-dire:  =  ( x i −  )2
ni
N Ou (n-1)
◦ Score Z (https://www.youtube.com/watch?v=kIDWQRzfsNs)
– Les caractéristiques des variables (voir supra)
• Pour la statistique descriptive
Type de variable
Instruments de descriptions Nominales Ordinales Numériques
Tri-à-plat (nombre et %) XXX XXX X
Le mode XXX XXX XX
La médiane 0 XX XXX
La moyenne 0 X (!) XXX
La variance 0 X( !) XXX
L’écart-type 0 X (!) XXX
– Exemple d’une variable ordinale… et discussion!
– Règles primordiales pour la présentation de
tableaux et graphes !
• Mentionner un titre clair et concis

• Indiquer la source des données et du tableau
• Indiquer la date de collecte des données et de leur
publication
• Préciser l’unité de valeur utilisée
• Indiquer le nombre de valeurs manquantes est toujours
intéressant, surtout s’il y en a beaucoup (>10%).
• Bon graphique = informatif !
3. Echantillonnage
• Mais est-ce que décrire nous suffit? De qui veut-on parler?
Population, échantillon et unité statistique:
(https://www.youtube.com/watch?v=pZwKbr6XJcE&feature=y
outu.be)
3. Echantillonnage
▪ échantillon aléatoire simple ou

représentativité importante de
systématique
▪ échantillon aléatoire stratifié
▪ échantillon avec constitution de

grappes
la population visée
▪ Echantillon par quotas

Probabilité d’une
▪ Echantillon accidentel ou
boule de neige
▪ Echantillon volontaire ou
spontané
Facilité de constitution
Nicolas Marquis MQ1

3. Echantillonnage
• La question de la représentativité
– Evidemment, un idéal vers lequel tendre
– La représentativité détermine la portée des résultats (de qui
puis-je parler?)
– Echantillon représentatif… de quoi? En fonction de quoi?
– Les possibilités de redressement
• La pondération (poids réel/poids dans l’échantillon)
• Le « propensity score »
– Dans la réalité, peu d’échantillons sont non-biaisés

– la nécessité de « montrer sa cuisine » : la rédaction d’une fiche
technique
➢ Attention! Les techniques inférentielles qui suivent

présupposent un échantillon aléatoire
3. Echantillonnage et inférence
• La question de la précision des sondages
probabilistes
- Différence entre « biais » et « erreur statistique »
- Jamais de certitude qu’une valeur obtenue dans
l’échantillon soit effectivement celle de la
population (= effet du hasard)
- Trois notions importantes :
- La distribution (d’une variable) dans la population
- La distribution (d’une variable) dans l’échantillon
- La distribution des échantillons issus de la population
3. Echantillonnage et inférence
Pour bien comprendre la logique des méthodes d’estimation, partons d’un exemple
concret:
Prenons le temps de comparer les différentes moyennes obtenues
grâce aux 10 échantillons sélectionnés:
- ത 2,7
Ech 1 : 𝑋=
- ത 3,1
Ech 2 : 𝑋=
- ത 3,7
Ech 3 : 𝑋=
- ത 2,15
Ech 4 : 𝑋=
- ത 2,05
Ech 5 : 𝑋=
- ത 3
Ech 6 : 𝑋=
- ത 3,5
Ech 7 : 𝑋=
- ത 3,5
Ech 8 : 𝑋=
- ത 5,5
Ech 9 : 𝑋=
- ത 3,65
Ech 10 : 𝑋=
Le nombre moyen de visite chez le kinésithérapeute calculé sur un échantillon varie en fonction de la composition de
l’échantillon. (On a en fait autant de moyenne possible qu’on a d’échantillon possible)
→ Le nombre moyen de visite chez le kinésithérapeute est une variable aléatoire… qui a elle-même sa moyenne
→ Son comportement peut donc être décrit à l’aide d’une loi de probabilité
4. La loi normale: la probabilité d’une
VARIABLE DISCRETE
Si ce diagramme en bâtons représente celui d’une population de ménage;
quelle est la probabilité qu’un ménage tiré au hasard ait 4 enfants ?
Probabilité = Fréquence relative = 10,1 %
42
VARIABLE DISCRETE
Si ce diagramme en bâtons représente celui d’une population; quelle est la
probabilité qu’un ménage ait plus de 4 enfants? Somme des probabilités =
P(5) + P(6) + P(7) + P(8) = 12,5% + 10,5% + 11,7% + 10,6% = 45,3%
43
VARIABLE CONTINUE … ça se complique
Si cet histogramme représente celui d’une population fictive; quelle est la
probabilité qu’un individu pèse 22,32kg? Ou alors pèse entre 91,3 kg et 107,1
kg?
C’est trop compliqué

d’additionner la surface
de chaque petit
rectangle. Pour nous
faciliter la vie, les
probabilités vont se
calculer à l’aide d’une
fonction de densité
c’est à dire sous forme
d’intégrales, en
calculant la surface
sous la courbe entre
deux points.
44
VARIABLE CONTINUE … ça se complique
➢Probabilité = surface sous la courbe (à calculer

par intégrales…)
➢Densité = f(x) = hauteur de la courbe → décrite
par une fonction mathématique
… nous allons l’illustrer avec la loi normale…
45
4. Distribution normale : caractéristiques
1. Symétrique
2. Médiane = Moyenne = Mode
3. Unimodale
4.
− ;+
Etendue infinie de la variable aléatoire càd
domaine =
5. En forme de cloche
fréquence
Densité de
Carl F. Gauss, (1777-

1855), « prince des
f(X) mathématiciens » (et des
astronomes) (et des
physiciens)
X
Moyenne = Médiane = Mode
4. La loi normale
• La question de la précision des sondages probabilistes
- Une supposition qui vaut de l’or : la distribution « normale »
(de Laplace-Gauss)
- La loi normale est un exemple de loi continue, càd
qu’uniquement les variables continues peuvent suivre une loi
normale.
- Une variable ‘ X ’ suit une loi normale de moyenne µ et de
variance σ² si et seulement si :
 1 ( x −  )2 
−  
1  2  2 
f ( x) = e
2 2
Il y en a d’autres : Loi de student, loi de Poisson, Loi binomiale,…

4. D’autres distributions (ex. loi binomiale)
• f(x) dépend de µ
• Si µ varie → Déplacement horizontal
52
• f(x) dépend de σ
• Si σ varie → Courbe plus condensée ou plus dispersée
53
4. Distribution normale
-3  -2  -1   + 1 + 2  +3 
68% des ind.

95% des ind.
99% des ind.
Aire totale sous la courbe est de 100% ou 1
54
Probabilité de se trouver entre 2 valeurs = aire sous la courbe !
Quelle est la probabilité qu’une personne prise au hasard soit

située entre c et d ?
55
Il faut additionner l’aire de chaque petit rectangle…

(hauteur x largeur de chaque classe)
Pour une variable continue, cela se fait par un calcul d’intégrale.
56
d

c
f ( x)dx
Les calculs de toutes ces
surfaces ont déjà été effectués
et les réponses ont été
classées dans des tables
statistiques.
57
+
−
f ( x)dx = 1 ou 100%
58
Les distributions normales Chaque distribution

diffèrent en moyennes et en nécessiterait sa propre
écart-types table.
Infini !
59
Une petite astuce : standardiser la distribution
normale
Distribution X − Distribution normale

Z=
normale  standardisée
  =1
Z
X
 =0
N ( , ) UNE table !
Écart type de la population N (0,1)
Gaussien/Normal
Moyenne de la population
60
4. La loi normale : score Z
• https://www.youtube.com/watch?v=kIDWQRzfsNs
• Mesure relative
• Le score Z (ou la cote Z) est utilisé pour situer une donnée par rapport
aux autres données d’une série.
• Elle permet de mesurer à combien d’écarts-types de la moyenne se
situe un score donné.
• Une valeur positive signifie que le score est supérieur à la moyenne ;
une valeur négative signifie que le score est inférieur à la moyenne.
𝑿𝒊 − 𝝁
𝒁𝒊 =
𝝈
Exemple 1 (centrer) : Distribution normale : moyenne=15 et variance=1
( )
0.4
X ~ N  = 15,  2 = 1
0.3
Densité
0.2
0.1
0.0
10 12 14 16 18 20
x
Courbe de densité de la variable 'X'
62
Exemple 1 (centrer) :
( )
Transformation de 'X' en 'Z'
X ~ N  = 15,  = 1 2
0.5
Z = X − 15
0.4
centrer
0.3
Densité
Centrer : soustraire la
0.2
moyenne de chaque
observation (on
0.1
obtient des écarts par
0.0
rapport à la moyenne
centrée = 0) -5 0 5 10 15 20
Valeurs prises par 'X'et 'Z'

Courbes de densité
Rappelons que soustraire une constante de chaque score dans un ensemble de scores a
pour effet de réduire de cette constante la moyenne de l’ensemble. Donc si nous enlevons 15
(la moyenne) de toutes les valeurs de X, la nouvelle moyenne sera égale à 15-15=0. On «
centre » donc la distribution sur une moyenne de 0.
63
Exemple 2 (réduire) : Transformation de 'X' en 'Z'
( )
0.5
X ~ N  = 0,  2 = 4
0.4
X
0.3
Z=
Densité
4
0.2
0.1
réduire
0.0
-5 0 5

Courbes de densité
Rappelons que multiplier ou diviser toutes les valeurs d’une distribution par une
constante revient à multiplier ou diviser l’ET par cette constante. Donc si nous
divisons toutes les valeurs par 2, l’ET sera à présent égal à 2/2=1. On « réduit » la
distribution à un ET de 1.
64
Transformation de 'X' en 'Z'
centrer
0.5
X − 15
Z=
0.4
4
0.3
Densité
réduire 0.2
0.1
0.0
-5 0 5

Courbes de densité
65
Exemple de transformation Z
66
4. La loi normale : la table des probabilités
= une table des surfaces
Surfaces
67
4. La loi normale : la table des probabilités
= une table des surfaces

Deuxième décimale du score z
Scores z avec une seule décimale 68

Z =0 Distribution normale centrée réduite
0.4
Surface = 0,5
0.3
Densité
0.2
0.1
0.0
Surface = 0,5
-4 -2 0 2 4
Scores z négatifs Scores z positifs

69
Z =1 Distribution normale centrée réduite
0.4
Aire cumulée
à partir de la 1-0,8413
gauche pour = 0,1587
0.3
un score z de OU aire cumulée
1,00 = 0,8413 à p. de la gauche
Densité pour un score z de
0.2
0.1
0.0
-1,00 (car symétrie)
La surface totale -4 -2 0 2 4
sous la courbe
vaut 1 z
Z = 1,96 Distribution normale centrée réduite
0.4
Aire cumulée à p. de la
0.3
gauche pour 1-0,975 = 0,025
z = 1,96 = 0,975 ou aire cumulée
à p. de la gauche
Densité
pour z = -1,96
0.2
(car symétrie)
0.1
0.0
-4 -2 0 2 4
z
71
4. La loi normale : exemple score Z
Supposons que les tailles d’une grande population d’hommes

suivent d’assez près une distribution normale avec une
moyenne de 175cm et un écart-type de 6,5 cm.
X ~ N (  = 175 ,  2 = 6.52 )
➢ Quelle proportion de la population attendriez-vous
entre 165 et 180 cm ?
P(165  X  180 ) ?
72
 165 − 175 X − 175 180 − 175 

P(165  X  180) = P   
 6,5 6,5 6,5 
 165 − 175 180 − 175 

P(165  X  180) = P Z 
 6,5 6,5 
P(165  X  180 ) = P(− 1,54  Z  0,77 )
73
P(165  X  180 ) = 1 − P(Z  0,77 ) − P( Z  −1,54 )
Surface totale Surface bleue

Surface verte Surface orange
en dessous
de la courbe
Distribution normale centrée réduite
0.4
0.3
Densité
0.2
0.1
0.0
-4 -2 0 2 4
75
Z = 0,77
0.4
P ( Z  0, 77)
Plus grande
= P ( Z  −0, 77)
0.3
portion
Plus petite
= 0, 2206
Densité
portion
0.2
0.1
0.0
-4 -2 0 2 4
76
P ( Z  −1, 54 ) = 0, 0618

0.4
0.3
Densité
0.2
0.1
0.0
-4 -2 0 2 4
77
P(165  X  180 ) = 1 − P(Z  0,77 ) − P( Z  −1,54 )
P(165  X  180 ) = 1 − 0,2206 − 0,0618 = 0,7176

0.4
0,7176
0.3
Densité
0.2
0.1
0.0
-4 -2 0 2 4
78
4. La loi normale pour la distribution
d’échantillonnage
- Trois notions importantes :

- La distribution (d’une variable) dans la population
- La distribution (d’une variable) dans l’échantillon
- La distribution des échantillons issus de la population
- Mais quand a-t-on affaire à des distributions normales?

- Une trouvaille en théorie des probabilités : le théorème
central-limite
‘http://www.youtube.com/watch?v=XAuMfxWg6eI
Pierre-Simon de Laplace (1749-

1827)
matheux, comte de l’Empire
napoléonien et marquis sous
Louis XVIII
4. La loi normale pour la
distribution d’échantillonnage
Pour bien comprendre la logique des méthodes d’estimation, partons d’un exemple
concret:
5. L’inférence statistique
• La question à mille points :

« Quel risque y a-t-il à inférer à la
population les résultats que
j’observe dans mon échantillon
tiré aléatoirement? »
• Une première façon de voir (en

connaissant les paramètres de
la population) :
« Quelle est la probabilité
statistique de tirer un échantillon
de taille n foireux/correct? »
5. L’inférence statistique (ex. à partir de
loi binomiale)
Exemple :
Proportion dans la population : 65% d’individus ont regardé la télévision hier
Probabilité des proportions dans un échantillon aléatoire de 10 individus
Proportion de personnes dans Probabilité de tirer aléatoirement cet

l’échantillon répondant « Oui » échantillon dans cette population
10 0,01
7 0,25
5 0,15
3 0,02
1 0,00051
0 0,000028
Total de tous les échantillon : 1.
5. L’inférence statistique (ex. à partir de loi
binomiale)
• La question à mille points :

« Quel risque y a-t-il à inférer à la
population les résultats que j’observe
dans mon échantillon tiré
aléatoirement? »
• Une deuxième façon de voir les

choses (sans connaître la pop., en
partant de l’échantillon) : Généralement… on ne connaît
« la vraie valeur de la population se pas la population et ses
trouve, avec une certaine probabilité paramètres (moyenne,…), donc
(=risque) quelque part (=précision)
autour de la valeur observée dans on l’estime à partir de
l’échantillon » l’échantillon… avec un certain
risque.
?
?
• Mettons que j’ai un échantillon avec une x̄ de 0,5… Généralement… on ne connaît

• - à quelle distribution d’échantillonnage a-t-il le
plus/le moins de chance d’appartenir? pas la population et ses
• - qu’est-ce que je peux raisonnablement (ne pas) paramètres (moyenne,…), donc
exclure? on l’estime à partir de
• - quelle est la μ correspondante?
l’échantillon… avec un certain
risque.
• Dans ce cas, l’échantillon est la « best guess »

– Sa moyenne, son écart-type sont les meilleurs atouts… mais
il faut être prudent!
– D’où l’idée de calculer un « intervalle de confiance »
- Permet de faire la part entre précision et sécurité
- L’IC dépend de :
- De la taille de l’échantillon (plus l’échantillon est grand, plus l’intervalle
sera petit)
- Du niveau d’erreur accepté
- Seuils classiques en sciences sociales :
- 90% de certitude, seuil de 0.1 (*)
- 95% de certitude, seuil de 0.05 (**)
- 99% de certitude, seuil de 0.01 (***)
• Récapitulons :
1) Nous avons 1 échantillon aléatoire (bon/ foireux?),
notre « best guess »
2) Le TLC et la LNCR permettent de montrer que X%
des échantillons se trouveront dans un intervalle Y
qui ira d’une valeur A à une valeur B.
3) Supposition : la « vraie valeur » de la population se
trouve dans un intervalle T autour de la valeur de
l’échantillon avec un degré de certitude α
(T = 1,64, si α = 0.10, T= 1,96 si α = 0.05, T= 2,57 si α = 0.01)
- La formule de l’intervalle de confiance :
- Les ingrédients de l’intervalle de confiance :

- x̅ : la moyenne observée dans l’échantillon
- s : l’écart-type observé dans l’échantillon
- Plus s est grand, plus l’IC est grand
- n : la taille de l’échantillon
- Plus n est grand, plus l’IC est petit
- tα: la valeur de la distribution NCR pour une valeur α
- Plus tα est grand, plus l’IC est grand
- Pour une variable binomiale (ex. Voter pour le

parti A : oui/non) :
(z = 1,96 si α = 0.05)
• La taille de l’échantillon est importante…

Tableau réalisé en fonction de la table de distribution
des scores Z (in Martin, 2005)
Taille de l’échantillon (n) Niveau de confiance (p) Intervalle de confiance

pour un pourcentage
estimé de 20%
100 95% ± 7,8 %

500 95% ± 3,5 %
1000 95% ±2,5 %
2000 95% ±1,8 %
6. Tester la normalité d’une variable
Sur SPSS
• Afin d’évaluer si la distribution d’une variable quantitative
est normale avec SPSS, évaluer les 4 critères suivant :
– Test de Kolmogorov-Smirnov (la p-valeur associée est non-significative.
Ok?)
– Histogramme (Regarder l’allure: en forme de cloche. Ok?)
– QQ-Plot (Regarder l’allure: tous les points sur la bissectrice (ou diagonale).
Ok?)
– Boxplot (Regarder l’allure: si symétrique est sans outlier. Ok?)
• Avoir au moins 3 critères sur 4 qui confirment la normalité
pour confirmer la normalité.
• Attention, si n est grand (ex : n>150), la p-valeur associée
au test de Kolmogorov-Smirnov sera plus vite significative
⟹ prioriser les 3 autres critères.
6. Tester la normalité d’une variable : résultats
• Test de Kolmogorov-Smirnov (la p-valeur associée est non-

significative. Ok? (si n grand, regarder en priorité les 3 graphiques))
• Ce test teste si un échantillon suit une loi normale ou non (hypothèse
nulle : suit une loi normale. Donc si p-valeur < 0.05, ne suit pas une
loi normale).
• Conclusion critère 1 : la variable ne suit pas une loi normale
• Attention, pour rappel, si n est grand (ex : n>150 = c’est le cas ici), la
p-valeur associée au test de Kolmogorov-Smirnov sera plus vite
significative ⟹ prioriser les 3 autres critères.
6. Tester la normalité d’une variable :
résultats
• Histogramme (Regarder
l’allure: en forme de
cloche. Ok?)
• Conclusion critère 2 : la
variable ne suit pas une
loi normale
6. Tester la normalité d’une variable :
résultats
• QQ-Plot (Regarder
l’allure: tous les points sur
la bissectrice (ou
diagonale). Ok?)
• Si la distribution est
normale => tous les
points sont plus ou moins
sur la bissectrice (ou
diagonale)
• Conclusion critère 3 : la
variable ne suit pas une
loi normale
: résultats
• Boxplot (Regarder
l’allure: si symétrique
est sans outlier. Ok?)
• Conclusion critère 4 :
la variable ne suit
pas une loi normale
7. De l’inférence au test d’hypothèse
7. L’inférence et le test d’hypothèse
• On peut vouloir inférer des valeurs… (analyse UNIvariée)

• On peut aussi vouloir inférer des liens entre plusieurs
phénomènes! (analyse BI/MULTIvariée)
• Pour tester l’existence d’une relation entre deux (ou plusieurs)
variables
– P.ex. y a-t-il un lien significatif entre le nombre d’heures d’étude et la réussite
en Stat?
• Pour tester l’existence d’une différence entre deux sous-populations
– P.ex. les hommes et les femmes ont-ils une taille significativement différente?
• …
➢ Une autre ressource intellectuelle : le test d’hypothèse

7. Les tests d’hypothèse
7. Une structure de raisonnement
Le terme « significatif » est fondamental :

– Significatif = observable dans la population (et pas
seulement dans l’échantillon) … avec une certaine
probabilité
– Non significatif = observable uniquement dans
l’échantillon, dû au hasard, à l’erreur statistique
Un résultat est toujours (non-)significatif à un
certain seuil de signification (= la probabilité que
j’accepte de me tromper)
7. Le test d’hypothèse
• Construire un test d’hypothèse = fournir une règle de décision en
déterminant :
– Pour une valeur : entre quelles valeurs peut varier la variable aléatoire, en
supposant l’hypothèse vraie, sur la seule considération du hasard de
l’échantillonnage (càd déterminer un intervalle de confiance)
• Ex. j’observe dans mon échantillon une moyenne de 4.
– Avec quelle probabilité veux-je dire dans quel intervalle se trouve la moyenne de la population?
(ex. 95% de certitude = le seuil de signification)
– Quels sont les valeurs-bornes? (ex. 3.8 et 4.2)
– Pour une relation, une différence,… : quel risque suis-je prêt à prendre pour
affirmer que ce que j’observe dans l’échantillon vaut également pour la
population (= mesurer le risque que ce que j’observe ne soit du qu’au hasard et
pas à une réalité)
• Ex. j’observe dans mon échantillon une relation entre heures d’étude et réussite.
– Quelle est la probabilité que cette relation se trouve également dans la population? (ex. 73% de
chances)
– Quelle probabilité d’erreur accepterais-je pour « oser » parler « au nom de la population »? (ex.
95% de certitude = le seuil de signification)
• Formalisation :
– 2 hypothèses mutuellement exclusives
• Hypothèse nulle (H0) : ce que j’observe dans
l’échantillon (relation, différence) NE SE RETROUVE PAS
dans la population
• Hypothèse alternative (H1) : ce que j’observe dans
l’échantillon (relation, différence) SE RETROUVE dans la
population
– Un seuil de probabilité pour choisir : le seuil de
signification α (ex. 0.05 => 5% d’erreur, 95% de
chance d’avoir raison)
• Raisonnement :
– On part de H0 (il n’y a RIEN dans la pop.)
– On fixe un seuil de signification α
– On interroge : quel est le risque que je prends (= la
probabilité de me tromper) en passant de H0 à H1?
– Deux possibilités
• Si le risque pris est inférieur à α, on rejette H0
• Si le risque pris est supérieur à α, on garde H0
• Exemple :
L’échantillon montre un lien entre heures d’étude et réussite en Stat
H0 : il y a indépendance entre les deux variables dans la population
H1 : il y a une relation statistique significative entre les deux variables dans la
population
– Je pars de H0 (il n’y a RIEN dans la pop.)
– Je fixe un seuil de signification α : 0.05
– Je teste : quel est le risque que je prends en passant de H0 à H1?
• Le test (ex Chi², cf plus tard) me dit que j’ai 3% de chances de me tromper en
affirmant que la relation existe aussi dans la population
– Conséquence : le risque pris est inférieur à α, je rejette H0 et j’accepte
H1 : je peux affirmer, au seuil de 0.05 qu’il y a dans la population un
lien significatif entre heures d’étude et réussite en Stat
• Les types d’erreur (avec un seuil α)

– Dans le cas ou H0 est vraie
• Probabilité d’une mauvaise décision (rejeter H0) : α : risque de première espèce (ne pas
être assez prudent)
• Probabilité d’une bonne décision (garder H0) : 1-α
– Dans le cas ou H1 est vraie
• Probabilité d’une mauvaise décision (garder H0) : β : risque de seconde espèce (être
trop prudent)
• Probabilité d’une bonne décision (rejeter H0) : 1- β
http://webapps.fundp.ac.be/umdb/biostats/?q=book/export/html/219
8. Choix du test
• La question que l’on se pose : lien? Effet? Différence? …
• Lors de l’analyse des proportions obtenues, on peut donc
parfois découvrir l’influence d’une variable sur une autre. Il y
a alors une variable dépendante par rapport à une variable
indépendante.
– La variable indépendante (VI) est la cause présumée ou
hypothétique d’une variable dépendante (VD).
– La variable dépendante est la variable expliquée et la
variable indépendante est la variable explicative.
• Les caractéristiques des variables
– That’s why on ne peut certainement plus confondre, en
bloc 2, des variables nominales, ordinales, numériques
(discrètes, continues,…)
8. Choix du test
8. Choix du test
Conclusion : vue d’ensemble

Statistiques 2: Pierre-Olivier Robert, PHD

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistiques 2: Pierre-Olivier Robert, PHD

Uploaded by

Copyright:

Available Formats

Statistiques 2

Pierre-Olivier Robert, PhD

Précédé de quelques autres rappels

Nicolas Marquis MQ1

Les mesures de tendance

Les mesures de dispersion

Petit rappel de statistiques descriptives:

◦ Le mode d’un ensemble de valeurs de la variable est la valeur ou la

◦ Une mesure de tendance centrale : la moyenne

1. Calcul des positions charnières

3. Recherche des valeurs adjacentes

• La boîte du box-plot est toujours délimitée par Q1 et Q3

Dans ce cours : moustaches = valeurs adjacentes

◦ Mesures de dispersion autour de la moyenne

• Mentionner un titre clair et concis

▪ échantillon aléatoire simple ou

▪ échantillon avec constitution de

▪ Echantillon par quotas

Nicolas Marquis MQ1

– Dans la réalité, peu d’échantillons sont non-biaisés

➢ Attention! Les techniques inférentielles qui suivent

C’est trop compliqué

➢Probabilité = surface sous la courbe (à calculer

… nous allons l’illustrer avec la loi normale…

Carl F. Gauss, (1777-

Il y en a d’autres : Loi de student, loi de Poisson, Loi binomiale,…

68% des ind.

Aire totale sous la courbe est de 100% ou 1

Probabilité de se trouver entre 2 valeurs = aire sous la courbe !

Quelle est la probabilité qu’une personne prise au hasard soit

Il faut additionner l’aire de chaque petit rectangle…

Les distributions normales Chaque distribution

Distribution X − Distribution normale

Valeurs prises par 'X'et 'Z'

Valeurs prises par 'X'et 'Z'

Valeurs prises par 'X'et 'Z'

= une table des surfaces

= une table des surfaces

Scores z avec une seule décimale 68

Scores z négatifs Scores z positifs

Supposons que les tailles d’une grande population d’hommes

 165 − 175 X − 175 180 − 175 

 165 − 175 180 − 175 

P(165  X  180 ) = P(− 1,54  Z  0,77 )

Surface totale Surface bleue

Distribution normale centrée réduite

P(165  X  180 ) = 1 − 0,2206 − 0,0618 = 0,7176

- Trois notions importantes :

- Mais quand a-t-on affaire à des distributions normales?

Pierre-Simon de Laplace (1749-

• La question à mille points :

• Une première façon de voir (en

Proportion de personnes dans Probabilité de tirer aléatoirement cet

• La question à mille points :

• Une deuxième façon de voir les

• Mettons que j’ai un échantillon avec une x̄ de 0,5… Généralement… on ne connaît

• Dans ce cas, l’échantillon est la « best guess »

- La formule de l’intervalle de confiance :

- Les ingrédients de l’intervalle de confiance :

- Pour une variable binomiale (ex. Voter pour le

• La taille de l’échantillon est importante…

Taille de l’échantillon (n) Niveau de confiance (p) Intervalle de confiance

100 95% ± 7,8 %