Professional Documents
Culture Documents
p
p
|
p
'( #
#
p
(latin « status » état)
Ensemble cohérent de données numériques relatives à
un groupe d'individus.
Statistiques démographiques
Statistiques annuelles des établissements de santé
Statistiques du chômage
Statistiques de santé - Etat de santé de la population
p
Ensemble des méthodes qui permettent de rassembler et
d'analyser les données numériques
Paramètre tel que moyenne... calculé à partir d'un
ensemble de données
þ
u
#
)
"
£ @ut : décrire et présenter les données pour que l'on puisse
en prendre connaissance facilement.
£ Tient compte de la ð des données.
£ Peut concerner :
£ une variable à la fois : statistique à une dimension
£ deux variables à la fois : statistique à deux dimensions
£ plus de deux variables à la fois : statistique multidimensionnelle
£ Comporte :
£ les tableaux : distributions de fréquences
£ les diagrammes : graphiques
£ les paramètres statistiques : réduction des données à quelques
valeurs numériques caractéristiques
^
#
"#
(1)
£ u"#
"
£ Se présentent sous plusieurs aspects ou suivant plusieurs
modalités.
£ Exprimées de façon littérale ou par un codage
£ Ne permettent pas les calculs arithmétiques (moyenne )
mais donnent lieu à des dénombrements (fréquences
absolues et des pourcentages (fréquences relatives)
à
£ ml est possible qu·il existe entre les diverses classes #
,##, telle que par exemple : plus grave que , de meilleur
pronostic que
ð
Î
u
#
-#
£ # --
-
£ La -# ou effectif noté
est le nombre
d·individus par classe. Représentation des données
sous forme de tableau:
[n peut définir :
Les -# #
" notées -
qui sont, pour chaque classe,
le rapport de son effectif au nombre total d·individus de la série
des mesures.
* La somme des fréquences relatives -
est égale à 1.
* Parfois, les résultats sont exprimés en pourcentage, chacune des
fréquences relatives -
étant multipliée par 100.
Enn cas de "#
"
"#
",, on ordonne les xi et les
fréquences absolues ou relatives peuvent être additionnées de
proche en proche de manière à obtenir Les -#
notées
ü
#
"
'
p
314 )
5* %%- 6
-
!
G0-5G 2,5 2 0,02 2 0,02
G5-10G ,5 15 0,15 1 0,1
G10-15G 12,5 21 0,21 38 0,38
G15-20G 1 ,5 18 0,18 56 0,56
G20-25G 22,5 14 0,14 0 0, 0
G25-30G 2 ,5 13 0,13 83 0,83
G30-35G 32,5 9 0,09 92 0,92
G35-40G 3 ,5 5 0,05 9 0,9
G40-45G 42,5 2 0,02 99 0,99
G45-50G 4 ,5 1 0,01 100 1,0
!1%%2-
1
Ä
#
"
'(#)
h
h
h
h
£ Graphique:diagramme en bâtons
||
#
"'+).0
X: Etat vaccinal
h
h
h h h
h h
h hh
hh hh h
Graphiques:
Digramme en barres Diagramme en secteurs
à
h
O
h h hh h hh
|þ
#
"#
'+).$0
£ Sur un échantillon de 500 malades cancéreux, on a noté le stade
de la maladie 3
Cette présentation permet de dire, par exemple, que A$B des sujets
examinés ont un stade inférieur ou égal à 2.
£ Pour les #
=on peut
également représenter les fréquences
absolues, relatives ou cumulées par
un
*#C
|^
#;#
£ Permettent de présenter de façon simple et abrégée les
caractéristiques principales de l·ensemble des mesures qui ont été
effectuées sur un échantillon ou une population.
[n distingue :
|ÿ
#;##)
.0
£ u:#
£ X: une caractéristique de la tendance centrale de la distribution
observée de la variable étudiée au niveau ,
.
.
|r
:#
'+)
a) Considérons la série brute de mesures constituée par les poids
de 5 individus (poids exprimés en kilogrammes) :
0,0 ; 68,5 ; 2,5 ; 3,0 ; 6,0. La moyenne est X xi/N 2 kg.
b) Considérons la variable X « nombre d·enfants par famille »
X (0*6)+(1
)+(1*4)+(2
)+(2*5)+(3
)+(3*2)+(4
)+(4*1) 1,3 enfants/famille
18
c) Considérons la variable X « poids en kg de 100 enfants »
X (20* ,5)+(10*12,5)+a..+(35*35)
100
d) Considérons à la suite de l·application d·un traitement à 120
malades , un nombre de sujets guéris égal à 3636;; alors po 36
36/
/120
0,3 30
30%
%
|Î
#;##)
.$0
£ u
£ : Valeur divisant la série en deux, laissant de part et d·autre
un nombre égal d·observations.
£ [rdonner la série de mesures.
£ La médiane
influencée que la moyenne arithmétique
par les valeurs extrêmes.
p #
#:
Deux cas peuvent se présenter :
Si
)
#= la médiane est la valeur de la mesure qui se
situe au milieu de la série de mesures ordonnées :
1 ,#"
#* D8$
|ü
u
p #
*#) '
£ Classe médiane : classe correspondant à une fréquence
cumulée égale à 0,5
£ (#)
sur la courbe cumulative des
fréquences cumulées Fi
Fi,,
|
u
'+).$0
þ
#;##)
./0
u
u"#
£ Valeur (ou modalité) de la variable dont la fréquence (ni ou fi) est
maximale.
£ Série groupée , on parle dont la fréquence est
maximale.
£ Un seul maximum de fréquence:
#
£ Plusieurs maximums de fréquence:
#
)#
. échantillon hétérogène).
£ (#)
c'est la classe correspondant au maximum de
l'histogramme.
£ Distribution : #
et
:
Moyenne, Médiane et Mode
sont confondus.
þ|
#;#
)#
.0
£ La moyenne ne suffit pas pour caractériser un ensemble de
données.
à
ð
ð
þþ
#;#
)#
.$0
£ : E d·une série de mesures est la différence entre la
plus grande et la plus petite valeur de la série : à 1 + F
£
#
: Le paramètre le plus efficace pour rendre compte de
la dispersion d·une série de mesures est la variance, ou sa racine
carrée : l·écart type.
£ ))
:
2
.+
F J0K
£ ;K.+0 1 FFFFFFFFFFFFFFFFFFFFF , #
*#)
2.+
F J0K
£ ;K.+0 1 FFFFFFFFFFFFFFFFFFFFF , #
*#)
þ^
#
#F:).0
£ Variance et écart-
Variance écart-type estimés de la
population :
p$ 1
1FFFFFF .2.+
FF 30$0
FFFFFF .2.+
pour une série non groupée
0pour
F
F
i
p$ 1FFFFFF .2
1FFFFFF .2
.+
0pour une série groupée
.+
FF30$0pour
F
F
þÿ
#
#F:).$0
þr
#;#
)#
./0
£ u
' Valeurs de la variable qui divisent
l·échantillon # en groupes d·effectifs égaux.
[n distingue:
£ u #
' séparent les valeurs de la variable en quatre
groupes d·effectifs égaux : = $ /
£ = $ / sont respectivement l'abscisse des points
d'ordonnées 0.25 ; 0.5 ; 0. 5 # #
"
#
.
£ HF / L est l·#"
##
: ml contient 50 % des
observations.
£ HF / L est représenté par un diagramme en boite de largeur
arbitraire
þÎ
u#
'.+)0
£ à
ð
£ L·effectif de chaque quartile est donc de 5.
£ Toute valeur comprise entre 8 et 11 peut être
retenue comme Q1, toute valeur entre 22 et 23
comme Q2 et toute valeur comprise entre 31 et
32 comme Q3
þü
u
.$0
þÄ
!#
#
"#
þ
!#
#
"#
£ Si n est grand, les rectangles deviennent étroits, il s·agit
plutôt d·une distribution de probabilités.
probabilités.
£
#
!# est caractérisée par :
* une courbe en cloche, symétrique par rapport à la
moyenne µ, appelée "fonction de densité de
probabilité""
probabilité
* la moyenne, le mode et la médiane sont confondus.
confondus.
* la surface sous la courbe représente l·entièreté de la
population et la probabilité qu'une variable X prenne
une valeur plus petite ou plus
grande qu'une certaine valeur
s'obtient en calculant l'aire
sous la courbe
courbe..
^
#
!#
^|
#
!##
Soit une variable 3 distribuée selon une loi normale de
moyenne J et d'écart type ; quelconque
quelconque..
£ la transformation â 1 .3 FJ 0 8 est appelée variable
# # #
" .µ 0 et Ƴ 1)
Toutes les probabilités sont calculées et reprises dans
une table unique celle de la distribution « â ».
Cela correspond à la surface de la courbe normale
centrée réduite située à
gauche du trait vertical
marquant la position de
la valeur limite å :
^þ
#
!##
u
"#å
u
"# )
")#'
å)
")#'
Ô å Ô å
Ô å
^^
#
!#'+)
å
quelle proportion des adultes a une concentration
plasmatique de sodium < 13 mmol/l ?
£ Quelle proportion des adultes a une concentration
plasmatique comprise entre 13 et 140mmol/l
140mmol/l ?
£ Quelle proportion des adultes a une concentration
plasmatique comprise entre 132 et 138mmol/l
138mmol/l ?
^ÿ
#
!#'+)
X N(135, 3) Vlors
Z (X-
(X-135)/3 N(0, 1)
PGX<13 PGZ< 0,66 0. 454 sur la table Z
^r
^Î
p p
!! uu
^ü
#
7,
^Ä
)#;#,"#
Ù
ÿ
7)#
#,
X
Ô
è è
è
è è Ñ
è
è
è è
è
è è
è
è
è è è
è è
è è
è è è
è
è
è è è è !
è è è è è
è è è è
è
è
è è
è
!"#"
è è
* !$
%
* &'
(
! ÿ|
$
#
)
:"#
£ Estimation de la moyenne
c
R
£ Estimation de la variance 8²
¨
O
Ö
R R R Ö
R
¨
RO
ÿþ
)#
#".0
#"-
:
£ Un intervalle de confiance d·un paramètre inconnu
est une fourchette de valeurs construite de telle sorte
qu·une proportion (1-à) des intervalles ainsi
construits recouvrent la vraie valeur du paramètre
estimé..
estimé
£ En pratique, on dit que le paramètre inconnu a une
probabilité (1-à) de se trouver à l·intérieur de cet
intervalle..
intervalle
£ .Fà0 est le niveau de confiance.
confiance.
ÿ^
)#:'
#
ÿÿ
,:.$0
* # : Ƴ
R R
R
m
.FN0 .
a
R
$
%
&'
$
()*
$
N J 0 ÿr
,:./0
* # : Ƴ
)#p
£ n > 30 avec distribution de 3
X suit approximativement une loi normale !.JO; 0
.FN0 . Ƭ 01
ÿü
+)' #
)#
ÿ
,:' +).$0
F .A?
A?B
B0.J0Q
0.J0Q
£ N 253> 30 , alors peu importe la distribution de X
* X: corticoïdes urinaires N(
N(44,5 ; 1,5) et P.N01
01=A<
* .A?
A?BB0.J0 HD P.N0R p 8 I ! L
0.J0 1 HD
A< =? 8 I$?/
1 H>=?D =A< $?/LL 1 H>=? D %%A>
%A>LL
1 H>=/ O >=<?
<?
£ Cet intervalle a 95% de chances de contenir la vraie valeur de la
dose moyenne des corticoïdes urinaires µ.
$F .A?
A?B
B0.J0Q
0.J0Q
N 6 faible ' distribution de X est normale
* ơ 0.05 ddl 5 . 01$?@ (table unilatérale)
.NN8$01$
* .A?
A?BB0.J0
0.J0 1H
1HD .NN8$0R p 8 I! L 1H>
D . ?@ =? 8 I<L
1H>=?D $?@
1H>=? D %>A<
%>A<LL
1H//=>?% O ?=?>AL
1H ?>AL
* Que remarquez-
remarquez-vous Q r
r|
)#)#)#
=,)#
è è
è
Ñ
è
è è
è è
è è
è
è
è
è
è
è è
è è
è è
è è è
!
è è
è
è è
è
è )
è è è è è
è è è ¦
è
è
è è è
è %è
!
+
#
,-"
.
,-
/
0
1
,-
#
) rþ
#"-
,)#)#
£ mntervalle de confiance au risque à d·une proportion
inconnue à partir d·un échantillon de taille n présentant une
proportion
r^
,)#)#
'
+)F #"
7)#
$n 40
$ Estimer la mortalité à moins d· un an par HCC
!
$ intervalle de confiance à 95 % :
rÿ
)#
#".$0
m
rr
,:'
#")#
£ Connaissant Ƭ ; dans la population d·origine, on
peut déterminer l·intervalle de pari mP (1-ơ) (m).
(m).
£ ml définit l·intervalle dans lequel une moyenne observée
m peut évoluer et fluctuer avec une probabilité (1-ơ) ơ)..
[n note mP (1-ơ) (m).
(m).
rÎ
,)#)#
'
#")#
£ Connaissant ® dans la population d·origine, on peut
déterminer l·intervalle de pari mP (1-ơ) (p).
(p).
£ ml définit l·intervalle dans lequel une proportion
observée p dans un échantillon peut évoluer et fluctuer
avec une probabilité (1-ơ)
ơ).. [n note mP (1-ơ) (p):
(p):
Î
#
Î|
#
£ -
: le test statistique donne une règle
permettant de décider si l·on peut rejeter une
hypothèse, en fonction des observations
relevées sur des échantillons.
échantillons.
£ #
-
£ Poser une hypothèse
£ Conduire une expérience
£ Vnalyser la compatibilité de cette hypothèse avec
les observations issues de l·expérience
Îþ
:);
£ :); : l·hypothèse dont on cherche à savoir si elle
peut être rejetée, notée %
souvent définie comme une
-- #
à
* La taille dépend elle du genre de l·individu ?
%: Les tailles moyennes des mâles et des femelles sont égales
* La structure en âge varie-t-elle entre deux populations ?
%: La distribution en âge (fréquence) est indépendante de la
population (la même dans les deux populations).
£ :); #
" : hypothèse concurrente, notée H1
£ Ho et H1 portent toujours sur les valeurs vraies des paramètres
étudiés.
Î^
!
#
.0
£ ###)#
;#);.à0 '
£ probabilité de trouver une différence
statistiquement significative alors qu·il n·y en a pas.
£ Probabilité de Rejeter H0 alors que H0 est vraie.
Îr
£
'.F =
£ c·est la capacité du test à mettre en évidence une
différence ou une liaison qui existe réellement.
ÎÎ
*#
*
-
£ *#
*
-
' )
£ Si p > ơ, alors on ne rejette pas Ho.
£ Si p< ơ, alors on rejette Ho et on conclut à l'existence d'une
liaison ou d·une différence.
£ plus le degré de signification est faible, plus on est convaincu
que les résultats observés ne sont pas en cohérence avec
l·hypothèse nulle.
£ p 0,001 Cela veut dire que si l'hypothèse nulle était vraie
(absence de différence selon le test), les fluctuations
d·échantillonnage donneraient moins de 1 chance pour 1000
d'observer une telle différence entre les deux paramètres à
comparer.
Îü
))
' , ##
£ )#
)#*#" 7
)#* #
'
à
Dans une étude menée auprès de 1000 ouvriers
au fond des mines, le taux de mortalité (Po)
1000.. Le taux national ( ?) étant
était de 9 pour 1000
de pour 1000
1000.. Est-
Est-ce que le taux observé chez
les mineurs diffère significativement du chiffre
national ?
ÎÄ
, ##
')
: Vbsence de différence entre les proportions
théorique et observée
$F fixer le risque d·erreur ơ 5%
/F Conditions de validité : N ư 1000* 0,00 >5
N (1- ư) 1000* 0,993 993>5
>F Calculer la statistique du test P :
ư
P 1VVVVVVVVVVV 1%=@?
VVVVVVVVVVVV
Ó T .F T 0
! Î
, ##
')
?F Déterminer la valeur théorique de ƥ(ơ) lue sur la table
de l·Écart $ réduit ; ƥ(5%) =A<
<F Comparer P à la valeur théorique ƥ(ơ)
@F Décision: si ƥ o < ƥ(ơ) alors on ne rejette pas Ho
si ƥ o > ƥ(ơ) alors on rejette Ho et on
détermine p ( degrés de signification) sur table de
l·Écart -réduit.
£ ƥo 0. 5< ƥ(ơ 5% ) 1.96 alors : Vu risque 5% on n'a
pas mis en évidence une différence statistiquement
significative entre les deux pourcentages.
ü
, ##
ü|
, ##
£ )#
$)#*#" '
à
[n a testé deux médicaments antalgiques V et
@ dans le traitement des céphalées auprès de
200 personnes (100 par groupe)
groupe)..
Les taux de succès sont respectivement de 80
80%%
pour le médicament V et 00% % pour le
médicament @. [n se propose de comparer
l'efficacité de ces deux médicaments.
médicaments.
üþ
, ##
')
F :Vbsence de différence entre les proportions
: ư ư La différence observée est due au hasard et
non aux traitements
$F fixer le risque d·erreur ơ 5%
ü^
, ##
')
?F Calculer la statistique du test P '
) ) %=&F %=@
P 1VVVVVVVVVVV1 VVVVVVVVVVV 1=<>
Ó .)80D.)8 Ó .%=@?R%=$?8%%0D.%=@?R%=$?8%%0
£ )#
$)#*#"
+*#)
)'
[n dispose de deux échantillons (V et @) sur lesquels on
a mesuré une "#
"
Ces deux échantillons peuvent-
peuvent-ils être considérés
comme étant issus de la même population ? (Les deux
pourcentages P V, P@ sont ils deux estimateurs du même
pourcentage P ?)
?)..
ür
+
à
£ [n dispose de 100 souris qui sont réparties par
tirage au sort en deux groupes de 50 souris.souris. Le
premier groupe est soumis à la fumée de cigarettes
et le second à celle de cigares.
cigares. [n observe un
pourcentage de cancer de 20 20%
% dans le groupe
cigarettes et de 12
12%% des cas dans le groupe cigare
cigare..
Cette différence est-
est-elle significative au seuil de
risque 5% ?
üÎ
+
"##" '
--
- #
--
- #
"# #
üü
+')
£ Formuler les hypothèses
£ H[ : ưV ư@
La différence observée est due au hasard et non aux goudrons
£ H1 : ưV ư@ test bilatéral
£ Fixer ơ à 5%
£ Vérifier les conditions de validité:
[n calcule les --
- #
d·indépendance ( sous Ho).
statistiquement | r þ | |
goudron et la maladie
au seuil de risque 5%. ^ Îþr üÄþ Äÿ ||^ÿ |Îþü
Ä|
ÿ üüÄ ÿ ||Îü |^þÄ |ÄÿÎ
+')
Äþ
5
+##
I
£ H1 : µV µ@ Test bilatéral
ÄÎ
,#FF#
'+)
,#
1- Ho : µV µT (La différence observée est due au hasard et non aux poisons)
H1 : µV µ T Test bilatéral
ÄÄ
, ##
÷!"##!$
%h&h
Ä
)#
:'+)$
p
1- Ho : µ1 µ2 (La différence observée est due au hasard)
H1 : µ1 µ 2 Test bilatéral
2-fixer le risque d·erreur ơ 5%
3-Vérifier les conditions de validité:
n1 4 et n2 4 <30
Égalité des variances Ƴ12 Ƴ22 test de Student
Distribution normale de la variable dose
1 F$ 1>=@
Ip$.8 D8$0
- Comparer à .1<ON1%%?00
8- Décision : > .1<ON1%%?00 )##
NN1?B
9)##
9
et on conclut a l·existence d·une différence significative entre les
moyennes de dosage µ1et µ2 avec pWU=U
pWU=U
þ
^
)#
:#" F
F
: #
à
£ Dans un échantillon de 114 sujets extrait d·une
population de sexe masculin âgés de 50 à 59 ,
on mesure le taux de cholestérol dans le sang.
sang.
£ mo 195
195..4 mg/ml S 45
45..6
£ [n se demande si la moyenne mo est
compatible avec la moyenne de référence
µ 185 mg/ml (nationale).
(nationale).
ÿ
)#
:#" F
F
: #
1-Ho: µV µ H1 : µ1 µ 2
2-fixer le risque d·erreur ơ 5%
3-Vérifier conditions de validité :
1>S/% Test de l·écart réduit.
4- Calculer la statistique du test P:
P 1 F
FJ 1$>/
I.p$80
r
)#
:#" F
F
: #
5- Lire PN1?B 1A< sur la table de l·écart réduit.
6- Comparer P1 $>/ à PN1?B 1A<
- Décision: P1 $>/ > PN1?B 1A< Rejet Ho
pour le risque ơ 5% et on conclut a l·existence
d·une différence significative entre les deux taux
moyens de cholestérol dans le sang
p <0.02 est lu sur la table de l·écart réduit
Î
, ##
÷!"##!$
%h&h
ü
+#
Ä
+#
+#
|
| |
,:'
#")#
£ La moyenne m calculée sur un échantillon
de taille n () #
# * 7 /%)
fluctue suivant une distribution gaussienne
d ·espérance J et de variance ;$ 8 dans un
intervalle de pari à (1-ơ)% défini par :
| þ
,)#)#
'
#")#
| ^
+'
| ÿ