You are on page 1of 117

Statistiques 2

Pierre-Olivier Robert, PhD

Bloc2 en Kinésithérapie
Année académique 2023-2024
Organisation pratique
• Fiche ECTS
• Examen écrit en Janvier
• 9 séances de théorie
• Application sur SPSS (1 mois gratuit/an) et PSPP
– pour windows :
https://www.gnu.org/software/pspp/get.html
– pour Mac : https://www.hs-
augsburg.de/~beckmanf/pspp/
Table des matières
• Rappel : Statistiques descriptives et intervalle
de confiance.
• Echantillonnage et inférence.
• De l’inférence au test d’hypothèse.
• Quelques analyses bivariées : le test de
moyenne.
Table des matières
• Test d’hypothèse pour variables discrètes.
• Tests non-paramétriques.
• La corrélation entre deux variables et La
régression linéaire simple et multiple.
Echantillonnage et inférence

Précédé de quelques autres rappels


vraiment gentils & basiques
1. Description des observations
• Rappels :
– question/réponses -> variable/modalités
– variables nominales, ordinales, numériques
(quantitatives, soit discrètes, soit continues)
• Les individus répondants (composant ensemble
l’échantillon) vont se répartir dans les différentes
modalités
– Rappel : NR vs NSP, pas d’avis,…
– La notion de constante
• Décrire une variable = décrire cette répartition :
la distribution
Vidéo sur les types des variables:
https://www.youtube.com/watch?v=99jDA-hN3P8
1. Description des observations
a. Terminologie générale
• Deux façons d’exprimer la distribution
– Les effectifs :
• La quantité d’individus qui se trouvent dans une situation
particulière (p.ex. avoir répondu « 1 » à la question « Q1 »)
• S’expriment en nombres entiers positifs
• Calcul? Aucun
– Les fréquences
• la proportion d’individus qui se trouvent dans une situation
particulière (p.ex. avoir répondu « 1 » à la question « Q1 »)
• S’expriment en pourcentages
• Calcul? Diviser le nombre d’individus dans une situation
particulière par le nombre total des individus de l’échantillon
1. Description des observations
a. Terminologie générale: quelques notations
statistiques
• L’ensemble des individus observés (l’échantillon) = n
• L’ensemble des individus de la population= N
• Notation d’une variable = X, Y, Z,…
• Notation des modalités en particulier : n1 n2 n3 … ni
• Réaliser une somme : ∑
1. Description des observations
a. Terminologie générale: quelques notations
statistiques
• La notation statistique
– Des effectifs :
• n1 n2 n3 … ni
N

=> å n = n
i =1
i

– Des fréquences :
ni
• f1 f2 f3 … f i = n

=> å f
i =1
i =1

Nicolas Marquis MQ1


b. Distributions statistiques à un caractère:
présentation en tableau d’une distribution
Dans les tableaux SPSS (cf.
commande « freq var »)
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques

Les mesures de tendance


centrale
◦ La moyenne
◦ Le mode
◦ La médiane

Les mesures de dispersion


◦ Variance
◦ Ecart-type

Indiquer concomitamment
tendance centrale & dispersion
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques

Petit rappel de statistiques descriptives:

◦ Le mode d’un ensemble de valeurs de la variable est la valeur ou la


modalité de la variable qui présente le plus grand nombre d’effectifs.
◦ Autrement dit, le Mode est la valeur la plus fréquente (=le plus grand
effectif) dans une distribution.
◦ Distribution unimodale vs bimodale
◦ Absence de mode : 𝑴𝟎

◦ Une mesure de tendance centrale : la moyenne


n

c’est-à-dire  ni
m= i =1

n
Distribution Bimodale

Source : http://www.astro.ulg.ac.be/cours/magain/STAT/Stat_Main_Fr/Chapitre3.html
Le mode

𝑴𝟎

Source : http://ftp.ulb.ac.be
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
• Mesures de dispersion autour de la médiane
– Diagramme en boite à moustaches

Source : http://www.itse.be/statistique2010/co/233_Cours_boxplot.html
Construction d’un Box-plot
• https://www.youtube.com/watch?v=SARU5IsXv2k
• Axe gradué (observations rangées dans un ordre croissant)
• Calcul des positions charnières
– Médiane : Q2
– 1er quartile : Q1
– 3ème quartile : Q3
• Calcul des barrières
– Calculer espace interquartile (EIQ) (dispersion des charnières) : EIQ=Q3 – Q1
– Barrière inférieure : Q1 – (1,5xEIQ)
– Barrière supérieure : Q3 + (1,5xEIQ)
• Recherche des valeurs adjacentes
– Valeur adjacente inférieure : VAI=plus petite valeur réelle > ou = barrière
inférieure.
– Valeur adjacente supérieure : VAS=plus grande valeur réelle < ou = barrière
supérieure.
• Outliers (valeur aberrante)?
Construction d’un Box-plot

1. Calcul des positions charnières


• 1er quartile : Q1/4
• Médiane : Q1/2
• 3ème quartile : Q3/4
2. Calcul des barrières VAI P25 Me P75 VAS
d
• Calculer l’espace interquartile (EIQ) (dispersion des charnières) : Q3/4 – Q1/4
• Barrière inférieure : Q1/4 – 1,5.EIQ
• Barrière supérieure : Q3/4 + 1,5.EIQ

3. Recherche des valeurs adjacentes


• Val adj inf : + petite valeur réelle > ou = barrière inf
• Val adj sup : + grande valeur réelle < ou = barrière supérieure

4. Recherche d’outliers

15
https://www.youtube.com/watch?v=iOo_n-gBALI
Remarques

• La boîte du box-plot est toujours délimitée par Q1 et Q3


• Mais les moustaches peuvent représenter plusieurs choses
selon les auteurs/les programmes
– Le minimum et le maximum
– Les valeurs adjacentes inférieures et supérieures
– Une déviation standard au-dessus et en-dessous de la moyenne
• Intérêts du Boxplot
– Examen de la symétrie de la distribution
– Visualisation de valeurs aberrantes

Dans ce cours : moustaches = valeurs adjacentes


2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
Petit rappel de statistiques descriptives:
◦ Une mesure de tendance centrale : la moyenne
n

c’est-à-dire  ni
m= i =1

◦ Mesures de dispersion autour de la moyenne


◦ Variance (https://www.youtube.com/watch?v=CiFoBkipJQk)

C’est-à-dire :
2 =  ( x i −  )2
ni
N Ou (n-1)
◦ Ecart type

C’est-à-dire:  =  ( x i −  )2
ni
N Ou (n-1)
◦ Score Z (https://www.youtube.com/watch?v=kIDWQRzfsNs)
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
– Les caractéristiques des variables (voir supra)
• Pour la statistique descriptive
Type de variable
Instruments de descriptions Nominales Ordinales Numériques
Tri-à-plat (nombre et %) XXX XXX X
Le mode XXX XXX XX
La médiane 0 XX XXX
La moyenne 0 X (!) XXX
La variance 0 X( !) XXX
L’écart-type 0 X (!) XXX
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
– Exemple d’une variable ordinale… et discussion!
2. Distributions statistiques à un caractère
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
– Règles primordiales pour la présentation de
tableaux et graphes !

• Mentionner un titre clair et concis


• Indiquer la source des données et du tableau
• Indiquer la date de collecte des données et de leur
publication
• Préciser l’unité de valeur utilisée
• Indiquer le nombre de valeurs manquantes est toujours
intéressant, surtout s’il y en a beaucoup (>10%).
• Bon graphique = informatif !
3. Echantillonnage
• Mais est-ce que décrire nous suffit? De qui veut-on parler?
Population, échantillon et unité statistique:
(https://www.youtube.com/watch?v=pZwKbr6XJcE&feature=y
outu.be)
3. Echantillonnage

▪ échantillon aléatoire simple ou


représentativité importante de

systématique
▪ échantillon aléatoire stratifié

▪ échantillon avec constitution de


grappes
la population visée

▪ Echantillon par quotas


Probabilité d’une

▪ Echantillon accidentel ou
boule de neige

▪ Echantillon volontaire ou
spontané

Facilité de constitution

Nicolas Marquis MQ1


3. Echantillonnage
• La question de la représentativité
– Evidemment, un idéal vers lequel tendre
– La représentativité détermine la portée des résultats (de qui
puis-je parler?)
– Echantillon représentatif… de quoi? En fonction de quoi?
– Les possibilités de redressement
• La pondération (poids réel/poids dans l’échantillon)
• Le « propensity score »

– Dans la réalité, peu d’échantillons sont non-biaisés


– la nécessité de « montrer sa cuisine » : la rédaction d’une fiche
technique

➢ Attention! Les techniques inférentielles qui suivent


présupposent un échantillon aléatoire
3. Echantillonnage et inférence
• La question de la précision des sondages
probabilistes
- Différence entre « biais » et « erreur statistique »
- Jamais de certitude qu’une valeur obtenue dans
l’échantillon soit effectivement celle de la
population (= effet du hasard)
- Trois notions importantes :
- La distribution (d’une variable) dans la population
- La distribution (d’une variable) dans l’échantillon
- La distribution des échantillons issus de la population
3. Echantillonnage et inférence
Pour bien comprendre la logique des méthodes d’estimation, partons d’un exemple
concret:
Prenons le temps de comparer les différentes moyennes obtenues
grâce aux 10 échantillons sélectionnés:

- ത 2,7
Ech 1 : 𝑋=
- ത 3,1
Ech 2 : 𝑋=
- ത 3,7
Ech 3 : 𝑋=
- ത 2,15
Ech 4 : 𝑋=
- ത 2,05
Ech 5 : 𝑋=
- ത 3
Ech 6 : 𝑋=
- ത 3,5
Ech 7 : 𝑋=
- ത 3,5
Ech 8 : 𝑋=
- ത 5,5
Ech 9 : 𝑋=
- ത 3,65
Ech 10 : 𝑋=

Le nombre moyen de visite chez le kinésithérapeute calculé sur un échantillon varie en fonction de la composition de
l’échantillon. (On a en fait autant de moyenne possible qu’on a d’échantillon possible)
→ Le nombre moyen de visite chez le kinésithérapeute est une variable aléatoire… qui a elle-même sa moyenne
→ Son comportement peut donc être décrit à l’aide d’une loi de probabilité
4. La loi normale: la probabilité d’une
VARIABLE DISCRETE
Si ce diagramme en bâtons représente celui d’une population de ménage;
quelle est la probabilité qu’un ménage tiré au hasard ait 4 enfants ?
Probabilité = Fréquence relative = 10,1 %

42
4. La loi normale: la probabilité d’une
VARIABLE DISCRETE
Si ce diagramme en bâtons représente celui d’une population; quelle est la
probabilité qu’un ménage ait plus de 4 enfants? Somme des probabilités =
P(5) + P(6) + P(7) + P(8) = 12,5% + 10,5% + 11,7% + 10,6% = 45,3%

43
4. La loi normale: la probabilité d’une
VARIABLE CONTINUE … ça se complique
Si cet histogramme représente celui d’une population fictive; quelle est la
probabilité qu’un individu pèse 22,32kg? Ou alors pèse entre 91,3 kg et 107,1
kg?

C’est trop compliqué


d’additionner la surface
de chaque petit
rectangle. Pour nous
faciliter la vie, les
probabilités vont se
calculer à l’aide d’une
fonction de densité
c’est à dire sous forme
d’intégrales, en
calculant la surface
sous la courbe entre
deux points.

44
4. La loi normale: la probabilité d’une
VARIABLE CONTINUE … ça se complique

➢Probabilité = surface sous la courbe (à calculer


par intégrales…)
➢Densité = f(x) = hauteur de la courbe → décrite
par une fonction mathématique

… nous allons l’illustrer avec la loi normale…

45
4. Distribution normale : caractéristiques
1. Symétrique
2. Médiane = Moyenne = Mode
3. Unimodale
4.
− ;+
Etendue infinie de la variable aléatoire càd
domaine =
5. En forme de cloche
fréquence
Densité de

Carl F. Gauss, (1777-


1855), « prince des
f(X) mathématiciens » (et des
astronomes) (et des
physiciens)

X
Moyenne = Médiane = Mode
4. La loi normale
• La question de la précision des sondages probabilistes
- Une supposition qui vaut de l’or : la distribution « normale »
(de Laplace-Gauss)
- La loi normale est un exemple de loi continue, càd
qu’uniquement les variables continues peuvent suivre une loi
normale.
- Une variable ‘ X ’ suit une loi normale de moyenne µ et de
variance σ² si et seulement si :
 1 ( x −  )2 
−  
1  2  2 
f ( x) = e
2 2

Il y en a d’autres : Loi de student, loi de Poisson, Loi binomiale,…


4. D’autres distributions (ex. loi binomiale)
4. D’autres distributions (ex. loi binomiale)
4. D’autres distributions (ex. loi binomiale)
4. D’autres distributions (ex. loi binomiale)
4. Distribution normale : caractéristiques
• f(x) dépend de µ
• Si µ varie → Déplacement horizontal

52
4. Distribution normale : caractéristiques

• f(x) dépend de σ
• Si σ varie → Courbe plus condensée ou plus dispersée

53
4. Distribution normale

-3  -2  -1   + 1 + 2  +3 

68% des ind.


95% des ind.
99% des ind.

Aire totale sous la courbe est de 100% ou 1

54
4. Distribution normale

Probabilité de se trouver entre 2 valeurs = aire sous la courbe !

Quelle est la probabilité qu’une personne prise au hasard soit


située entre c et d ?

55
4. Distribution normale

Il faut additionner l’aire de chaque petit rectangle…


(hauteur x largeur de chaque classe)
Pour une variable continue, cela se fait par un calcul d’intégrale.

56
4. Distribution normale

d

c
f ( x)dx
Les calculs de toutes ces
surfaces ont déjà été effectués
et les réponses ont été
classées dans des tables
statistiques.

57
4. Distribution normale

+
−
f ( x)dx = 1 ou 100%

58
4. Distribution normale

Les distributions normales Chaque distribution


diffèrent en moyennes et en nécessiterait sa propre
écart-types table.

Infini !

59
Une petite astuce : standardiser la distribution
normale

Distribution X − Distribution normale


Z=
normale  standardisée

  =1
Z

X
 =0
N ( , ) UNE table !
Écart type de la population N (0,1)
Gaussien/Normal
Moyenne de la population

60
4. La loi normale : score Z

• https://www.youtube.com/watch?v=kIDWQRzfsNs
• Mesure relative
• Le score Z (ou la cote Z) est utilisé pour situer une donnée par rapport
aux autres données d’une série.
• Elle permet de mesurer à combien d’écarts-types de la moyenne se
situe un score donné.
• Une valeur positive signifie que le score est supérieur à la moyenne ;
une valeur négative signifie que le score est inférieur à la moyenne.

𝑿𝒊 − 𝝁
𝒁𝒊 =
𝝈
Exemple 1 (centrer) : Distribution normale : moyenne=15 et variance=1

( )

0.4
X ~ N  = 15,  2 = 1

0.3
Densité

0.2
0.1
0.0

10 12 14 16 18 20

x
Courbe de densité de la variable 'X'

62
Exemple 1 (centrer) :

( )
Transformation de 'X' en 'Z'
X ~ N  = 15,  = 1 2

0.5
Z = X − 15

0.4
centrer

0.3
Densité
Centrer : soustraire la

0.2
moyenne de chaque
observation (on
0.1
obtient des écarts par
0.0

rapport à la moyenne
centrée = 0) -5 0 5 10 15 20

Valeurs prises par 'X'et 'Z'


Courbes de densité
Rappelons que soustraire une constante de chaque score dans un ensemble de scores a
pour effet de réduire de cette constante la moyenne de l’ensemble. Donc si nous enlevons 15
(la moyenne) de toutes les valeurs de X, la nouvelle moyenne sera égale à 15-15=0. On «
centre » donc la distribution sur une moyenne de 0.

63
Exemple 2 (réduire) : Transformation de 'X' en 'Z'

( )

0.5
X ~ N  = 0,  2 = 4

0.4
X

0.3
Z=

Densité
4

0.2
0.1
réduire

0.0
-5 0 5

Valeurs prises par 'X'et 'Z'


Courbes de densité

Rappelons que multiplier ou diviser toutes les valeurs d’une distribution par une
constante revient à multiplier ou diviser l’ET par cette constante. Donc si nous
divisons toutes les valeurs par 2, l’ET sera à présent égal à 2/2=1. On « réduit » la
distribution à un ET de 1.

64
Transformation de 'X' en 'Z'
centrer

0.5
X − 15
Z=

0.4
4

0.3
Densité

réduire 0.2
0.1
0.0

-5 0 5

Valeurs prises par 'X'et 'Z'


Courbes de densité

65
Exemple de transformation Z

66
4. La loi normale : la table des probabilités

= une table des surfaces

Surfaces

67
4. La loi normale : la table des probabilités

= une table des surfaces


Deuxième décimale du score z

Scores z avec une seule décimale 68


Z =0 Distribution normale centrée réduite

0.4
Surface = 0,5

0.3
Densité

0.2
0.1
0.0
Surface = 0,5

-4 -2 0 2 4

Scores z négatifs Scores z positifs


69
Z =1 Distribution normale centrée réduite

0.4
Aire cumulée
à partir de la 1-0,8413
gauche pour = 0,1587

0.3
un score z de OU aire cumulée
1,00 = 0,8413 à p. de la gauche
Densité pour un score z de
0.2
0.1
0.0
-1,00 (car symétrie)

La surface totale -4 -2 0 2 4
sous la courbe
vaut 1 z
Z = 1,96 Distribution normale centrée réduite

0.4
Aire cumulée à p. de la

0.3
gauche pour 1-0,975 = 0,025
z = 1,96 = 0,975 ou aire cumulée
à p. de la gauche

Densité
pour z = -1,96

0.2
(car symétrie)

0.1
0.0

-4 -2 0 2 4

z
71
4. La loi normale : exemple score Z

Supposons que les tailles d’une grande population d’hommes


suivent d’assez près une distribution normale avec une
moyenne de 175cm et un écart-type de 6,5 cm.

X ~ N (  = 175 ,  2 = 6.52 )
➢ Quelle proportion de la population attendriez-vous
entre 165 et 180 cm ?

P(165  X  180 ) ?

72
4. La loi normale : exemple score Z

 165 − 175 X − 175 180 − 175 


P(165  X  180) = P   
 6,5 6,5 6,5 

 165 − 175 180 − 175 


P(165  X  180) = P Z 
 6,5 6,5 

P(165  X  180 ) = P(− 1,54  Z  0,77 )

73
4. La loi normale : exemple score Z
P(165  X  180 ) = 1 − P(Z  0,77 ) − P( Z  −1,54 )

Surface totale Surface bleue


Surface verte Surface orange
en dessous
de la courbe
Distribution normale centrée réduite

0.4
0.3
Densité

0.2
0.1
0.0

-4 -2 0 2 4

75
Z = 0,77
Distribution normale centrée réduite

0.4
P ( Z  0, 77)
Plus grande
= P ( Z  −0, 77)

0.3
portion
Plus petite
= 0, 2206
Densité
portion

0.2
0.1
0.0

-4 -2 0 2 4

76
P ( Z  −1, 54 ) = 0, 0618

Distribution normale centrée réduite


0.4
0.3
Densité

0.2
0.1
0.0

-4 -2 0 2 4

77
P(165  X  180 ) = 1 − P(Z  0,77 ) − P( Z  −1,54 )

P(165  X  180 ) = 1 − 0,2206 − 0,0618 = 0,7176


Distribution normale centrée réduite

0.4

0,7176
0.3
Densité

0.2
0.1
0.0

-4 -2 0 2 4

78
4. La loi normale pour la distribution
d’échantillonnage

- Trois notions importantes :


- La distribution (d’une variable) dans la population
- La distribution (d’une variable) dans l’échantillon
- La distribution des échantillons issus de la population
4. La loi normale pour la distribution
d’échantillonnage

- Mais quand a-t-on affaire à des distributions normales?


4. La loi normale pour la distribution
d’échantillonnage
- Une trouvaille en théorie des probabilités : le théorème
central-limite
‘http://www.youtube.com/watch?v=XAuMfxWg6eI

Pierre-Simon de Laplace (1749-


1827)
matheux, comte de l’Empire
napoléonien et marquis sous
Louis XVIII
4. La loi normale pour la
distribution d’échantillonnage

Pour bien comprendre la logique des méthodes d’estimation, partons d’un exemple
concret:
5. L’inférence statistique

• La question à mille points :


« Quel risque y a-t-il à inférer à la
population les résultats que
j’observe dans mon échantillon
tiré aléatoirement? »

• Une première façon de voir (en


connaissant les paramètres de
la population) :
« Quelle est la probabilité
statistique de tirer un échantillon
de taille n foireux/correct? »
5. L’inférence statistique (ex. à partir de
loi binomiale)
Exemple :
Proportion dans la population : 65% d’individus ont regardé la télévision hier
Probabilité des proportions dans un échantillon aléatoire de 10 individus

Proportion de personnes dans Probabilité de tirer aléatoirement cet


l’échantillon répondant « Oui » échantillon dans cette population
10 0,01
7 0,25
5 0,15
3 0,02
1 0,00051
0 0,000028
Total de tous les échantillon : 1.
5. L’inférence statistique (ex. à partir de loi
binomiale)
5. L’inférence statistique

• La question à mille points :


« Quel risque y a-t-il à inférer à la
population les résultats que j’observe
dans mon échantillon tiré
aléatoirement? »

• Une deuxième façon de voir les


choses (sans connaître la pop., en
partant de l’échantillon) : Généralement… on ne connaît
« la vraie valeur de la population se pas la population et ses
trouve, avec une certaine probabilité paramètres (moyenne,…), donc
(=risque) quelque part (=précision)
autour de la valeur observée dans on l’estime à partir de
l’échantillon » l’échantillon… avec un certain
risque.
5. L’inférence statistique

?
?

• Mettons que j’ai un échantillon avec une x̄ de 0,5… Généralement… on ne connaît


• - à quelle distribution d’échantillonnage a-t-il le
plus/le moins de chance d’appartenir? pas la population et ses
• - qu’est-ce que je peux raisonnablement (ne pas) paramètres (moyenne,…), donc
exclure? on l’estime à partir de
• - quelle est la μ correspondante?
l’échantillon… avec un certain
risque.
5. L’inférence statistique

• Dans ce cas, l’échantillon est la « best guess »


– Sa moyenne, son écart-type sont les meilleurs atouts… mais
il faut être prudent!
– D’où l’idée de calculer un « intervalle de confiance »
- Permet de faire la part entre précision et sécurité
- L’IC dépend de :
- De la taille de l’échantillon (plus l’échantillon est grand, plus l’intervalle
sera petit)
- Du niveau d’erreur accepté
- Seuils classiques en sciences sociales :
- 90% de certitude, seuil de 0.1 (*)
- 95% de certitude, seuil de 0.05 (**)
- 99% de certitude, seuil de 0.01 (***)
5. L’inférence statistique

• Récapitulons :
1) Nous avons 1 échantillon aléatoire (bon/ foireux?),
notre « best guess »
2) Le TLC et la LNCR permettent de montrer que X%
des échantillons se trouveront dans un intervalle Y
qui ira d’une valeur A à une valeur B.
3) Supposition : la « vraie valeur » de la population se
trouve dans un intervalle T autour de la valeur de
l’échantillon avec un degré de certitude α
(T = 1,64, si α = 0.10, T= 1,96 si α = 0.05, T= 2,57 si α = 0.01)
5. L’inférence statistique

- La formule de l’intervalle de confiance :

- Les ingrédients de l’intervalle de confiance :


- x̅ : la moyenne observée dans l’échantillon
- s : l’écart-type observé dans l’échantillon
- Plus s est grand, plus l’IC est grand
- n : la taille de l’échantillon
- Plus n est grand, plus l’IC est petit
- tα: la valeur de la distribution NCR pour une valeur α
- Plus tα est grand, plus l’IC est grand
5. L’inférence statistique

- Pour une variable binomiale (ex. Voter pour le


parti A : oui/non) :

(z = 1,96 si α = 0.05)
5. L’inférence statistique

• La taille de l’échantillon est importante…


Tableau réalisé en fonction de la table de distribution
des scores Z (in Martin, 2005)

Taille de l’échantillon (n) Niveau de confiance (p) Intervalle de confiance


pour un pourcentage
estimé de 20%

100 95% ± 7,8 %


500 95% ± 3,5 %
1000 95% ±2,5 %
2000 95% ±1,8 %
6. Tester la normalité d’une variable
Sur SPSS
6. Tester la normalité d’une variable
• Afin d’évaluer si la distribution d’une variable quantitative
est normale avec SPSS, évaluer les 4 critères suivant :
– Test de Kolmogorov-Smirnov (la p-valeur associée est non-significative.
Ok?)
– Histogramme (Regarder l’allure: en forme de cloche. Ok?)
– QQ-Plot (Regarder l’allure: tous les points sur la bissectrice (ou diagonale).
Ok?)
– Boxplot (Regarder l’allure: si symétrique est sans outlier. Ok?)
• Avoir au moins 3 critères sur 4 qui confirment la normalité
pour confirmer la normalité.
• Attention, si n est grand (ex : n>150), la p-valeur associée
au test de Kolmogorov-Smirnov sera plus vite significative
⟹ prioriser les 3 autres critères.
6. Tester la normalité d’une variable
6. Tester la normalité d’une variable
6. Tester la normalité d’une variable
6. Tester la normalité d’une variable
6. Tester la normalité d’une variable
6. Tester la normalité d’une variable : résultats

• Test de Kolmogorov-Smirnov (la p-valeur associée est non-


significative. Ok? (si n grand, regarder en priorité les 3 graphiques))
• Ce test teste si un échantillon suit une loi normale ou non (hypothèse
nulle : suit une loi normale. Donc si p-valeur < 0.05, ne suit pas une
loi normale).
• Conclusion critère 1 : la variable ne suit pas une loi normale
• Attention, pour rappel, si n est grand (ex : n>150 = c’est le cas ici), la
p-valeur associée au test de Kolmogorov-Smirnov sera plus vite
significative ⟹ prioriser les 3 autres critères.
6. Tester la normalité d’une variable :
résultats
• Histogramme (Regarder
l’allure: en forme de
cloche. Ok?)
• Conclusion critère 2 : la
variable ne suit pas une
loi normale
6. Tester la normalité d’une variable :
résultats
• QQ-Plot (Regarder
l’allure: tous les points sur
la bissectrice (ou
diagonale). Ok?)
• Si la distribution est
normale => tous les
points sont plus ou moins
sur la bissectrice (ou
diagonale)
• Conclusion critère 3 : la
variable ne suit pas une
loi normale
6. Tester la normalité d’une variable
: résultats
• Boxplot (Regarder
l’allure: si symétrique
est sans outlier. Ok?)
• Conclusion critère 4 :
la variable ne suit
pas une loi normale
7. De l’inférence au test d’hypothèse
7. L’inférence et le test d’hypothèse

• On peut vouloir inférer des valeurs… (analyse UNIvariée)


• On peut aussi vouloir inférer des liens entre plusieurs
phénomènes! (analyse BI/MULTIvariée)
• Pour tester l’existence d’une relation entre deux (ou plusieurs)
variables
– P.ex. y a-t-il un lien significatif entre le nombre d’heures d’étude et la réussite
en Stat?
• Pour tester l’existence d’une différence entre deux sous-populations
– P.ex. les hommes et les femmes ont-ils une taille significativement différente?
• …

➢ Une autre ressource intellectuelle : le test d’hypothèse


7. Les tests d’hypothèse
7. Une structure de raisonnement

Le terme « significatif » est fondamental :


– Significatif = observable dans la population (et pas
seulement dans l’échantillon) … avec une certaine
probabilité
– Non significatif = observable uniquement dans
l’échantillon, dû au hasard, à l’erreur statistique
Un résultat est toujours (non-)significatif à un
certain seuil de signification (= la probabilité que
j’accepte de me tromper)
7. Le test d’hypothèse
• Construire un test d’hypothèse = fournir une règle de décision en
déterminant :
– Pour une valeur : entre quelles valeurs peut varier la variable aléatoire, en
supposant l’hypothèse vraie, sur la seule considération du hasard de
l’échantillonnage (càd déterminer un intervalle de confiance)
• Ex. j’observe dans mon échantillon une moyenne de 4.
– Avec quelle probabilité veux-je dire dans quel intervalle se trouve la moyenne de la population?
(ex. 95% de certitude = le seuil de signification)
– Quels sont les valeurs-bornes? (ex. 3.8 et 4.2)
– Pour une relation, une différence,… : quel risque suis-je prêt à prendre pour
affirmer que ce que j’observe dans l’échantillon vaut également pour la
population (= mesurer le risque que ce que j’observe ne soit du qu’au hasard et
pas à une réalité)
• Ex. j’observe dans mon échantillon une relation entre heures d’étude et réussite.
– Quelle est la probabilité que cette relation se trouve également dans la population? (ex. 73% de
chances)
– Quelle probabilité d’erreur accepterais-je pour « oser » parler « au nom de la population »? (ex.
95% de certitude = le seuil de signification)
7. Le test d’hypothèse
• Formalisation :
– 2 hypothèses mutuellement exclusives
• Hypothèse nulle (H0) : ce que j’observe dans
l’échantillon (relation, différence) NE SE RETROUVE PAS
dans la population
• Hypothèse alternative (H1) : ce que j’observe dans
l’échantillon (relation, différence) SE RETROUVE dans la
population
– Un seuil de probabilité pour choisir : le seuil de
signification α (ex. 0.05 => 5% d’erreur, 95% de
chance d’avoir raison)
7. Le test d’hypothèse
• Raisonnement :
– On part de H0 (il n’y a RIEN dans la pop.)
– On fixe un seuil de signification α
– On interroge : quel est le risque que je prends (= la
probabilité de me tromper) en passant de H0 à H1?
– Deux possibilités
• Si le risque pris est inférieur à α, on rejette H0
• Si le risque pris est supérieur à α, on garde H0
7. Le test d’hypothèse
• Exemple :
L’échantillon montre un lien entre heures d’étude et réussite en Stat
H0 : il y a indépendance entre les deux variables dans la population
H1 : il y a une relation statistique significative entre les deux variables dans la
population
– Je pars de H0 (il n’y a RIEN dans la pop.)
– Je fixe un seuil de signification α : 0.05
– Je teste : quel est le risque que je prends en passant de H0 à H1?
• Le test (ex Chi², cf plus tard) me dit que j’ai 3% de chances de me tromper en
affirmant que la relation existe aussi dans la population
– Conséquence : le risque pris est inférieur à α, je rejette H0 et j’accepte
H1 : je peux affirmer, au seuil de 0.05 qu’il y a dans la population un
lien significatif entre heures d’étude et réussite en Stat
7. Le test d’hypothèse

• Les types d’erreur (avec un seuil α)


– Dans le cas ou H0 est vraie
• Probabilité d’une mauvaise décision (rejeter H0) : α : risque de première espèce (ne pas
être assez prudent)
• Probabilité d’une bonne décision (garder H0) : 1-α
– Dans le cas ou H1 est vraie
• Probabilité d’une mauvaise décision (garder H0) : β : risque de seconde espèce (être
trop prudent)
• Probabilité d’une bonne décision (rejeter H0) : 1- β
http://webapps.fundp.ac.be/umdb/biostats/?q=book/export/html/219
8. Choix du test
• La question que l’on se pose : lien? Effet? Différence? …
• Lors de l’analyse des proportions obtenues, on peut donc
parfois découvrir l’influence d’une variable sur une autre. Il y
a alors une variable dépendante par rapport à une variable
indépendante.
– La variable indépendante (VI) est la cause présumée ou
hypothétique d’une variable dépendante (VD).
– La variable dépendante est la variable expliquée et la
variable indépendante est la variable explicative.
• Les caractéristiques des variables
– That’s why on ne peut certainement plus confondre, en
bloc 2, des variables nominales, ordinales, numériques
(discrètes, continues,…)
8. Choix du test
8. Choix du test
Conclusion : vue d’ensemble

You might also like