Professional Documents
Culture Documents
Statistiques 2: Pierre-Olivier Robert, PHD
Statistiques 2: Pierre-Olivier Robert, PHD
Bloc2 en Kinésithérapie
Année académique 2023-2024
Organisation pratique
• Fiche ECTS
• Examen écrit en Janvier
• 9 séances de théorie
• Application sur SPSS (1 mois gratuit/an) et PSPP
– pour windows :
https://www.gnu.org/software/pspp/get.html
– pour Mac : https://www.hs-
augsburg.de/~beckmanf/pspp/
Table des matières
• Rappel : Statistiques descriptives et intervalle
de confiance.
• Echantillonnage et inférence.
• De l’inférence au test d’hypothèse.
• Quelques analyses bivariées : le test de
moyenne.
Table des matières
• Test d’hypothèse pour variables discrètes.
• Tests non-paramétriques.
• La corrélation entre deux variables et La
régression linéaire simple et multiple.
Echantillonnage et inférence
=> å n = n
i =1
i
– Des fréquences :
ni
• f1 f2 f3 … f i = n
=> å f
i =1
i =1
Indiquer concomitamment
tendance centrale & dispersion
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
c’est-à-dire ni
m= i =1
n
Distribution Bimodale
Source : http://www.astro.ulg.ac.be/cours/magain/STAT/Stat_Main_Fr/Chapitre3.html
Le mode
𝑴𝟎
Source : http://ftp.ulb.ac.be
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
• Mesures de dispersion autour de la médiane
– Diagramme en boite à moustaches
Source : http://www.itse.be/statistique2010/co/233_Cours_boxplot.html
Construction d’un Box-plot
• https://www.youtube.com/watch?v=SARU5IsXv2k
• Axe gradué (observations rangées dans un ordre croissant)
• Calcul des positions charnières
– Médiane : Q2
– 1er quartile : Q1
– 3ème quartile : Q3
• Calcul des barrières
– Calculer espace interquartile (EIQ) (dispersion des charnières) : EIQ=Q3 – Q1
– Barrière inférieure : Q1 – (1,5xEIQ)
– Barrière supérieure : Q3 + (1,5xEIQ)
• Recherche des valeurs adjacentes
– Valeur adjacente inférieure : VAI=plus petite valeur réelle > ou = barrière
inférieure.
– Valeur adjacente supérieure : VAS=plus grande valeur réelle < ou = barrière
supérieure.
• Outliers (valeur aberrante)?
Construction d’un Box-plot
4. Recherche d’outliers
15
https://www.youtube.com/watch?v=iOo_n-gBALI
Remarques
c’est-à-dire ni
m= i =1
C’est-à-dire :
2 = ( x i − )2
ni
N Ou (n-1)
◦ Ecart type
C’est-à-dire: = ( x i − )2
ni
N Ou (n-1)
◦ Score Z (https://www.youtube.com/watch?v=kIDWQRzfsNs)
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
– Les caractéristiques des variables (voir supra)
• Pour la statistique descriptive
Type de variable
Instruments de descriptions Nominales Ordinales Numériques
Tri-à-plat (nombre et %) XXX XXX X
Le mode XXX XXX XX
La médiane 0 XX XXX
La moyenne 0 X (!) XXX
La variance 0 X( !) XXX
L’écart-type 0 X (!) XXX
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
– Exemple d’une variable ordinale… et discussion!
2. Distributions statistiques à un caractère
2. Distributions statistiques à un caractère
a. Valeurs caractéristiques
– Règles primordiales pour la présentation de
tableaux et graphes !
systématique
▪ échantillon aléatoire stratifié
▪ Echantillon accidentel ou
boule de neige
▪ Echantillon volontaire ou
spontané
Facilité de constitution
- ത 2,7
Ech 1 : 𝑋=
- ത 3,1
Ech 2 : 𝑋=
- ത 3,7
Ech 3 : 𝑋=
- ത 2,15
Ech 4 : 𝑋=
- ത 2,05
Ech 5 : 𝑋=
- ത 3
Ech 6 : 𝑋=
- ത 3,5
Ech 7 : 𝑋=
- ത 3,5
Ech 8 : 𝑋=
- ത 5,5
Ech 9 : 𝑋=
- ത 3,65
Ech 10 : 𝑋=
Le nombre moyen de visite chez le kinésithérapeute calculé sur un échantillon varie en fonction de la composition de
l’échantillon. (On a en fait autant de moyenne possible qu’on a d’échantillon possible)
→ Le nombre moyen de visite chez le kinésithérapeute est une variable aléatoire… qui a elle-même sa moyenne
→ Son comportement peut donc être décrit à l’aide d’une loi de probabilité
4. La loi normale: la probabilité d’une
VARIABLE DISCRETE
Si ce diagramme en bâtons représente celui d’une population de ménage;
quelle est la probabilité qu’un ménage tiré au hasard ait 4 enfants ?
Probabilité = Fréquence relative = 10,1 %
42
4. La loi normale: la probabilité d’une
VARIABLE DISCRETE
Si ce diagramme en bâtons représente celui d’une population; quelle est la
probabilité qu’un ménage ait plus de 4 enfants? Somme des probabilités =
P(5) + P(6) + P(7) + P(8) = 12,5% + 10,5% + 11,7% + 10,6% = 45,3%
43
4. La loi normale: la probabilité d’une
VARIABLE CONTINUE … ça se complique
Si cet histogramme représente celui d’une population fictive; quelle est la
probabilité qu’un individu pèse 22,32kg? Ou alors pèse entre 91,3 kg et 107,1
kg?
44
4. La loi normale: la probabilité d’une
VARIABLE CONTINUE … ça se complique
45
4. Distribution normale : caractéristiques
1. Symétrique
2. Médiane = Moyenne = Mode
3. Unimodale
4.
− ;+
Etendue infinie de la variable aléatoire càd
domaine =
5. En forme de cloche
fréquence
Densité de
X
Moyenne = Médiane = Mode
4. La loi normale
• La question de la précision des sondages probabilistes
- Une supposition qui vaut de l’or : la distribution « normale »
(de Laplace-Gauss)
- La loi normale est un exemple de loi continue, càd
qu’uniquement les variables continues peuvent suivre une loi
normale.
- Une variable ‘ X ’ suit une loi normale de moyenne µ et de
variance σ² si et seulement si :
1 ( x − )2
−
1 2 2
f ( x) = e
2 2
52
4. Distribution normale : caractéristiques
• f(x) dépend de σ
• Si σ varie → Courbe plus condensée ou plus dispersée
53
4. Distribution normale
-3 -2 -1 + 1 + 2 +3
54
4. Distribution normale
55
4. Distribution normale
56
4. Distribution normale
d
c
f ( x)dx
Les calculs de toutes ces
surfaces ont déjà été effectués
et les réponses ont été
classées dans des tables
statistiques.
57
4. Distribution normale
+
−
f ( x)dx = 1 ou 100%
58
4. Distribution normale
Infini !
59
Une petite astuce : standardiser la distribution
normale
=1
Z
X
=0
N ( , ) UNE table !
Écart type de la population N (0,1)
Gaussien/Normal
Moyenne de la population
60
4. La loi normale : score Z
• https://www.youtube.com/watch?v=kIDWQRzfsNs
• Mesure relative
• Le score Z (ou la cote Z) est utilisé pour situer une donnée par rapport
aux autres données d’une série.
• Elle permet de mesurer à combien d’écarts-types de la moyenne se
situe un score donné.
• Une valeur positive signifie que le score est supérieur à la moyenne ;
une valeur négative signifie que le score est inférieur à la moyenne.
𝑿𝒊 − 𝝁
𝒁𝒊 =
𝝈
Exemple 1 (centrer) : Distribution normale : moyenne=15 et variance=1
( )
0.4
X ~ N = 15, 2 = 1
0.3
Densité
0.2
0.1
0.0
10 12 14 16 18 20
x
Courbe de densité de la variable 'X'
62
Exemple 1 (centrer) :
( )
Transformation de 'X' en 'Z'
X ~ N = 15, = 1 2
0.5
Z = X − 15
0.4
centrer
0.3
Densité
Centrer : soustraire la
0.2
moyenne de chaque
observation (on
0.1
obtient des écarts par
0.0
rapport à la moyenne
centrée = 0) -5 0 5 10 15 20
63
Exemple 2 (réduire) : Transformation de 'X' en 'Z'
( )
0.5
X ~ N = 0, 2 = 4
0.4
X
0.3
Z=
Densité
4
0.2
0.1
réduire
0.0
-5 0 5
Rappelons que multiplier ou diviser toutes les valeurs d’une distribution par une
constante revient à multiplier ou diviser l’ET par cette constante. Donc si nous
divisons toutes les valeurs par 2, l’ET sera à présent égal à 2/2=1. On « réduit » la
distribution à un ET de 1.
64
Transformation de 'X' en 'Z'
centrer
0.5
X − 15
Z=
0.4
4
0.3
Densité
réduire 0.2
0.1
0.0
-5 0 5
65
Exemple de transformation Z
66
4. La loi normale : la table des probabilités
Surfaces
67
4. La loi normale : la table des probabilités
0.4
Surface = 0,5
0.3
Densité
0.2
0.1
0.0
Surface = 0,5
-4 -2 0 2 4
0.4
Aire cumulée
à partir de la 1-0,8413
gauche pour = 0,1587
0.3
un score z de OU aire cumulée
1,00 = 0,8413 à p. de la gauche
Densité pour un score z de
0.2
0.1
0.0
-1,00 (car symétrie)
La surface totale -4 -2 0 2 4
sous la courbe
vaut 1 z
Z = 1,96 Distribution normale centrée réduite
0.4
Aire cumulée à p. de la
0.3
gauche pour 1-0,975 = 0,025
z = 1,96 = 0,975 ou aire cumulée
à p. de la gauche
Densité
pour z = -1,96
0.2
(car symétrie)
0.1
0.0
-4 -2 0 2 4
z
71
4. La loi normale : exemple score Z
X ~ N ( = 175 , 2 = 6.52 )
➢ Quelle proportion de la population attendriez-vous
entre 165 et 180 cm ?
P(165 X 180 ) ?
72
4. La loi normale : exemple score Z
73
4. La loi normale : exemple score Z
P(165 X 180 ) = 1 − P(Z 0,77 ) − P( Z −1,54 )
0.4
0.3
Densité
0.2
0.1
0.0
-4 -2 0 2 4
75
Z = 0,77
Distribution normale centrée réduite
0.4
P ( Z 0, 77)
Plus grande
= P ( Z −0, 77)
0.3
portion
Plus petite
= 0, 2206
Densité
portion
0.2
0.1
0.0
-4 -2 0 2 4
76
P ( Z −1, 54 ) = 0, 0618
0.2
0.1
0.0
-4 -2 0 2 4
77
P(165 X 180 ) = 1 − P(Z 0,77 ) − P( Z −1,54 )
0.4
0,7176
0.3
Densité
0.2
0.1
0.0
-4 -2 0 2 4
78
4. La loi normale pour la distribution
d’échantillonnage
Pour bien comprendre la logique des méthodes d’estimation, partons d’un exemple
concret:
5. L’inférence statistique
?
?
• Récapitulons :
1) Nous avons 1 échantillon aléatoire (bon/ foireux?),
notre « best guess »
2) Le TLC et la LNCR permettent de montrer que X%
des échantillons se trouveront dans un intervalle Y
qui ira d’une valeur A à une valeur B.
3) Supposition : la « vraie valeur » de la population se
trouve dans un intervalle T autour de la valeur de
l’échantillon avec un degré de certitude α
(T = 1,64, si α = 0.10, T= 1,96 si α = 0.05, T= 2,57 si α = 0.01)
5. L’inférence statistique
(z = 1,96 si α = 0.05)
5. L’inférence statistique