You are on page 1of 104

p  p 

p 

p   

     

      


!" #$%%&

|
p   '(  #   
# 
p    (latin « status » état)
Ensemble cohérent de données numériques relatives à
un groupe d'individus.
Statistiques démographiques
Statistiques annuelles des établissements de santé
Statistiques du chômage
Statistiques de santé - Etat de santé de la population
p   
Ensemble des méthodes qui permettent de rassembler et
d'analyser les données numériques
Paramètre tel que moyenne... calculé à partir d'un
ensemble de données
þ
u    # ) "
£ @ut : décrire et présenter les données pour que l'on puisse
en prendre connaissance facilement.
£ Tient compte de la ð   des données.
£ Peut concerner :
£ une variable à la fois : statistique à une dimension
£ deux variables à la fois : statistique à deux dimensions
£ plus de deux variables à la fois : statistique multidimensionnelle
£ Comporte :
£ les tableaux : distributions de fréquences
£ les diagrammes : graphiques
£ les paramètres statistiques : réduction des données à quelques
valeurs numériques caractéristiques
^
#   " #  (1)
£ u" #     "
£ Se présentent sous plusieurs aspects ou suivant plusieurs
modalités.
£ Exprimées de façon littérale ou par un codage
£ Ne permettent pas les calculs arithmétiques (moyenne )
mais donnent lieu à des dénombrements (fréquences
absolues et des pourcentages (fréquences relatives)

à  
      
            

     
  
  
  
 

[n définit des   *#  ou   + "


correspondant aux différentes modalités du caractère
observé, puis on détermine à quelle classe appartient
chaque individu. Un individu appartient à une classe et
une seule.
ÿ
#   " #  (2)
£ u" #     "#  

£ ml est possible qu·il existe entre les diverses classes #  
,##, telle que par exemple : plus grave que , de meilleur
pronostic que

Le caractère observé est alors de type     -#  .


à  
     
    
     
   





  
 
     
 ð          
  
 

£ Le mécanisme de base reste le même : on affecte chaque individu


à une classe et une seule. Toutefois, notons qu·il existe un ordre
sur les classes.
r
#   " #  ./0
£ u" #     "

£ Une variable     " prend pour valeur, notée + , un


nombre résultant de la mesure, avec une unité, du caractère chez
chaque individu.
£ Un caractère     -Permet
Permet les calculs arithmétiques
(moyenne, écart type...).
£ Un caractère quantitatif est  #  suivant qu·il est
susceptible de prendre des valeurs isolées ou bien toutes les
valeurs de son intervalle de variation.
à 
       
   
  

 
   
      a
à 
              


Î
u #  -# 
£ #    -- -
£ La -#   ou effectif noté  est le nombre
d·individus par classe. Représentation des données
sous forme de tableau:      

[n peut définir :
 Les -# #  " notées - qui sont, pour chaque classe,
le rapport de son effectif au nombre total d·individus de la série
des mesures.
* La somme des fréquences relatives - est égale à 1.
* Parfois, les résultats sont exprimés en pourcentage, chacune des
fréquences relatives - étant multipliée par 100.
 Enn cas de " #     "
" #     ",, on ordonne les xi et les
fréquences absolues ou relatives peuvent être additionnées de
proche en proche de manière à obtenir Les -# 
   notées  

ü

#     " '     
p  314 ) 5* %%-  6
    - ! 
G0-5G 2,5 2 0,02 2 0,02
G5-10G ,5 15 0,15 1 0,1
G10-15G 12,5 21 0,21 38 0,38
G15-20G 1 ,5 18 0,18 56 0,56
G20-25G 22,5 14 0,14 0 0, 0
G25-30G 2 ,5 13 0,13 83 0,83
G30-35G 32,5 9 0,09 92 0,92
G35-40G 3 ,5 5 0,05 9 0,9
G40-45G 42,5 2 0,02 99 0,99
G45-50G 4 ,5 1 0,01 100 1,0
!1%%2- 1

Ä

#     " '(# ) 

£ Vxe des abscisses : Extrémités de chaque classe et pour


chacune d·elles on construit un rectangle dont la base
est le segment limité aux extrémités de la classe et 
#-   )#)#  7 ,-- -    .
La surface limitée par l·ensemble des rectangles
s·appelle l· *# 
£ Vxe des ordonnées : Hauteurs des rectangles ‰ 1  8u
£ Continuité de la variable : les intervalles de classes
doivent être 9 
£ Le contour polygonal joignant les milieux des bases
supérieures des rectangles s·appelle le ):* 
-# 
Œ

#  '+ ).0
*  - u ‰ 
h h  hh h 
h h h h  h 
h h hh h h h
h
h  h h 

h h  hh h 
h h hh h h h
 h h h hh h 
h h  h h 
 hh hhh
÷   

 

  



  

h

h



h

h

  
  

hh hh hh hh h h


 hh h h  h
h

:*-#  ‰ *# -#  |



#  #;'+ ).$0
£ X « nombre enfants par famille »

#3  - 
% < %=/// %=///
 > %=$$$ %=???
$ ? %=$@& %=&//
/ $ %= %=A>>
>  %=%?< =%%%
  & =%%%

£ Graphique:diagramme en bâtons

||

#     "'+ ).0
X: Etat vaccinal       h
 h 
 h h h
 h h 

 h hh 
 hh hh  h
Graphiques:
Digramme en barres Diagramme en secteurs
à  
  
  

    

 

    



    


 
 
 h
O 




   

  
  

h h hh  h hh 


 

 



#     "#  '+ ).$0
£ Sur un échantillon de 500 malades cancéreux, on a noté le stade
de la maladie 3

p  ni fi .B0  .B0


1 350 0 0
2 110 22 92
3 30 6 98
4 10 2 100

Cette présentation permet de dire, par exemple, que A$B des sujets
examinés ont un stade inférieur ou égal à 2.
£ Pour les  #  =on peut
également représenter les fréquences
absolues, relatives ou cumulées par
un  *# C

|^
# ;#   
£ Permettent de présenter de façon simple et abrégée les
caractéristiques principales de l·ensemble des mesures qui ont été
effectuées sur un échantillon ou une population.

[n distingue :

£ u ) # ;#  )   ' moyenne, médiane, mode,


pourcentage ou proportion ;
£ u ) # ;#   )#  ' étendue, variance, écart-type,
quantiles.

£ Ces paramètres font partie des grandeurs statistiques que l·on


nomme parfois « statistiques ».

|ÿ
# ;# # )  .0

£ Ce sont les valeurs autour desquelles se groupent les différentes


mesures effectuées sur l·échantillon.

£ u :#   
£ X: une caractéristique de la tendance centrale de la distribution
observée de la variable étudiée au niveau ,   .
  .

a) Série brute: X ™ xi/N


b) Série groupée: X ( ™ nixi )/N
c) Variable quantitative continue: X ( ™niCi )/N, avec
Ci centre de classe i
d) Variable qualitative: on parle de proportion po

£ La moyenne s·exprime dans les mêmes unités que les valeurs


observées. 

|r
: #   '+ )
a) Considérons la série brute de mesures constituée par les poids
de 5 individus (poids exprimés en kilogrammes) :
0,0 ; 68,5 ; 2,5 ; 3,0 ; 6,0. La moyenne est X ™ xi/N 2 kg.
b) Considérons la variable X « nombre d·enfants par famille »
X (0*6)+(1
)+(1*4)+(2
)+(2*5)+(3
)+(3*2)+(4
)+(4*1) 1,3 enfants/famille
18
c) Considérons la variable X « poids en kg de 100 enfants »
X (20* ,5)+(10*12,5)+a..+(35*35)
100
d) Considérons à la suite de l·application d·un traitement à 120
malades , un nombre de sujets guéris égal à 3636;; alors po 36
36/
/120
0,3 30
30%
%


# ;# # )  .$0

£ u   
£  : Valeur divisant la série en deux, laissant de part et d·autre
un nombre égal d·observations.
£ [rdonner la série de mesures.
£ La médiane    influencée que la moyenne arithmétique
par les valeurs extrêmes.
p #      #:
Deux cas peuvent se présenter :
‡ Si   ) #= la médiane est la valeur de la mesure qui se
situe au milieu de la série de mesures ordonnées :
1 ,#"    # * D8$

‡ Si  ) #= 1 E .,#"    # * 8$D


,#"    # * 8$ D0


u   
p #    *#) '
£ Classe médiane : classe correspondant à une fréquence
cumulée égale à 0,5
£ (# )   sur la courbe cumulative des
fréquences cumulées Fi
Fi,,

La médiane  est la valeur


de l'abscisse correspondant
à l'ordonnée égale à 0,5.

u   '+ ).0
£ Dans un service de biochimie on a enregistré les
taux de glycémie suivants (en g/l):
2 - 0,85 - 1,2 - 0,9 - 1,4 - 1,5 - 1.
£ ml faut ordonner la série d·abord et
La médiane cherchée est égale à 1,2
£ p     #  )#  =  ) )  
 += ,F7F # %=&?  # )  ) # %=??
G*=  :  -  #  
  #  


u   '+ ).$0

£ Soit la distribution de poids de 100 enfants


 3  - 
H?
H?FF%H $% %=$ %=$
H%FF?H
H% % %= %=/
H?FF$%H
H? $% %=$ %=?
H$%FF/%H
H$% ? %=? %=<?
H/%FF>%H
H/% /? %=/? =%%
  %% =%%

G15,20G : est la classe médiane

þ
# ;# # )  ./0
 u
u" #  
£ Valeur (ou modalité) de la variable dont la fréquence (ni ou fi) est
maximale.
£ Série groupée , on parle      dont la fréquence est
maximale.
£ Un seul maximum de fréquence:  #     
£ Plusieurs maximums de fréquence:  #   )#  
. échantillon hétérogène).
£ (# )   c'est la classe correspondant au maximum de
l'histogramme.
£ Distribution : # 
et    :
Moyenne, Médiane et Mode
sont confondus.
þ|
# ;# )# .0
£ La moyenne ne suffit pas pour caractériser un ensemble de
données.
à  
 ð    
           
  
 ð    
            
  

Dans le deuxième cas,   )#   # autour de la


moyenne 10 est beaucoup   )#  que dans le
premier cas.
[n distingue:
£  !
£
!   F I 
£ ! up

þþ
# ;# )# .$0
£ š : E d·une série de mesures est la différence entre la
plus grande et la plus petite valeur de la série : à 1 + F 

£
# : Le paramètre le plus efficace pour rendre compte de
la dispersion d·une série de mesures est la variance, ou sa racine
carrée : l·écart type.

£  ))  :
2 .+ F J0K
£ ;K.+0 1 FFFFFFFFFFFFFFFFFFFFF  , # *#) 


2.+ F J0K
£ ;K.+0 1 FFFFFFFFFFFFFFFFFFFFF  , # *#) 

þ^

#  #F:).0
£ Variance et écart-
    Variance écart-type estimés de la
population :

p$ 1
1FFFFFF .2.+ FF 30$0
FFFFFF .2.+  pour une série non groupée
0pour
F
F 

i
p$ 1FFFFFF .2
1FFFFFF .2
 .+  0pour une série groupée
.+ FF30$0pour
F
F 

£ u š #:) p, c'est la racine carrée de la variance estimée p$.


£ Plus p est faible ()#%
()#%)) plus la distribution # #  
#  :,, avec des valeurs très peu différentes les
#  :
unes des autres.

þÿ

#  #F:).$0

£ Pour une variable     " '


p$ po. qo où po pourcentage observée
n taille de l'échantillon
qo 1 - po

þr
# ;# )# ./0
£ u    ' Valeurs de la variable qui divisent
l·échantillon # en groupes d·effectifs égaux.
[n distingue:
£ u  #  ' séparent les valeurs de la variable en quatre
groupes d·effectifs égaux : = $  /
£ = $  / sont respectivement l'abscisse des points
d'ordonnées 0.25 ; 0.5 ; 0. 5 #  #    "
#  .
£ HF / L est l·#"  # # : ml contient 50 % des
observations.
£ HF / L est représenté par un diagramme en boite de largeur
arbitraire

þÎ
u # '.+ )0
£ à  
  
 

   
ð
      
            
 
£ L·effectif de chaque quartile est donc de 5.
£ Toute valeur comprise entre 8 et 11 peut être
retenue comme Q1, toute valeur entre 22 et 23
comme Q2 et toute valeur comprise entre 31 et
32 comme Q3

þü
u  .$0

£ u   '  = $ =  = AA divisent une série


statistique ordonnée en 100 parties d'effectifs égaux.
Ce sont les abscisses respectives des points
d'ordonnée 0.01 ; 0.02 ; ... ; 0.99 #  #
   " #  
£ u   : D1 , D2 , ... , D9 divisent une série
statistique en 10 parties d'effectifs égaux.
Ce sont les abscisses respectives des points
d'ordonnée 0.1 ; 0.2 ; ... ; 0.9 #  #    "
#  

þÄ
! # #   " # 

£ Multitude de modes de distribution d'une


variable X (ou lois).
lois).
£ En biologie, c'est   #   (  
 !#  est la plus fréquente
£ Histogramme représentant la distribution des
valeurs de X d·un échantillon a souvent la forme
d·une cloche.
cloche.

þŒ
! # #   " # 
£ Si n est grand, les rectangles deviennent étroits, il s·agit
plutôt d·une distribution de probabilités.
probabilités.
£  #   !#  est caractérisée par :
* une courbe en cloche, symétrique par rapport à la
moyenne µ, appelée "fonction de densité de
probabilité""
probabilité
* la moyenne, le mode et la médiane sont confondus.
confondus.
* la surface sous la courbe représente l·entièreté de la
population et la probabilité qu'une variable X prenne
une valeur plus petite ou plus
grande qu'une certaine valeur 
s'obtient en calculant l'aire
sous la courbe
courbe..
^
 #  !# 

Π

„    „ „   

A?B ))  " # , #" 


D=A<;L
HMD=A<;

^|
 #  !# #   
Soit une variable 3 distribuée selon une loi normale de
moyenne J et d'écart type ; quelconque
quelconque..
£ la transformation â 1 .3 FJ 0 8  est appelée variable
#  #  #   " .µ 0 et Ƴ 1)
Toutes les probabilités sont calculées et reprises dans
une table unique celle de la distribution « â ».
Cela correspond à la surface de la courbe normale
centrée réduite située à
gauche du trait vertical
marquant la position de
la valeur limite å :

 #  !# #   
u   " #å
u   " # )  ") #'
å )  ") #'

Ô å    Ô å  
  Ô å  

^^
 #  !# '+ )
        
 
  å


       
   
  
  
    

quelle proportion des adultes a une concentration
plasmatique de sodium < 13 mmol/l ?
£ Quelle proportion des adultes a une concentration
plasmatique comprise entre 13 et 140mmol/l
140mmol/l ?
£ Quelle proportion des adultes a une concentration
plasmatique comprise entre 132 et 138mmol/l
138mmol/l ?

^ÿ
 #  !# '+ )
X N(135, 3) Vlors
Z (X-
(X-135)/3 N(0, 1)
PGX<13  PGZ< 0,66 0. 454 sur la table Z

£ PG13 <X<140 PG0,66<Z< 1,66 0,9615


0,9615--
0, 454 0,2161

£ PG132<X<138 PG PG--1<Z< +1 2* PGZ< +1-


+1-1
2*0,8413--1 0,6826
2*0,8413

^r

p  p 
!! uu

Estimation par mntervalle


# 7,  

£ Estimation d·une moyenne

£ Estimation d·une proportion


  ) # ;#," # 

£ : Déterminer des paramètres inconnus d·une


variable aléatoire (+ )  :  
)#)# ) dans une population P à partir
d·échantillons représentatifs de taille .
£ l·existence des fluctuations d'échantillonnage
amèneront à construire des échantillons à chaque fois
différents.
£ V partir d'un échantillon, on ne pourra pas avoir de
certitudes mais faire des estimations.
£ Pour que ces estimations présentent un degré de
confiance acceptable il faut construire un intervalle
d·estimation appelé #"   - .

+ ))#; '
£ Population étudiants de la FMT
£ Un besoin :

Ù  
     
 
       

 

ÿ
  7) # #,   
      X

Ô     



 


è è   



è
   
è è „ Ñ 
 

 è
è  
 
è è  
è   

è è

 

è
è
è è è
 
è è
è è
è è è    
 
   è

  
è
è     è è è ! 
 
 
è è è è è   
è è è è
è 
 
è
  
è è   
è 

 !"#"

è è
     „
  *  !$      %
*  &'
 (   ! ÿ|



$    # 
  )
  : " # 
£ Estimation de la moyenne „

 c 
R
£ Estimation de la variance 8²

 ¨


 

  O  

  
Ö
R R  R Ö



R
¨

 RO

ÿþ
  ) # #" .0
#" -   :
£ Un intervalle de confiance d·un paramètre inconnu
est une fourchette de valeurs construite de telle sorte
qu·une proportion (1-à) des intervalles ainsi
construits recouvrent la vraie valeur du paramètre
estimé..
estimé
£ En pratique, on dit que le paramètre inconnu a une
probabilité (1-à) de se trouver à l·intérieur de cet
intervalle..
intervalle
£ .Fà0 est le niveau de confiance.
confiance.

ÿ^
)#  :' #  

ÿÿ
  , :.$0
 *  #  : Ƴ  

 n faible avec 3  # !.JO; 0


R
   

R R      
  R 

m
.FN0 . „ 


a
R




$

% 
 
&'
 

$ 

()*

$
 

N J 0 ÿr
  , :./0
 *  #  : Ƴ   ) #p
£ n > 30 avec distribution de 3
X suit approximativement une loi normale !.JO; 0

.FN0 . Ƭ 01

PN #    # )#


# N ÿÎ
  , :' + )
£ Données de mortalité par Hépatocarcinome (HCC)
X: nombre de mois de survie après diagnostic
échantillon n 40 patients
£ Valeurs observées :
5 8 8 8 9 9 11 11 11 11 12 12 12 12 12 12 14 14
15 16 16 1 1 18 19 19 19 20 20 22 23 25 2 29 32 41
43 45
£ ™xi 688; ™(xi - m)2 3692,4; ƥơ 1,96 , A?B .J0 ?

ÿü
+ )'  #   ) #‰

‡ Que vaut la moyenne des durées de survie dans cet


échantillon ?
        
‡ Que vaut s2 ?
       
Estimer l'écart-type de la moyenne
   I.A>=@8>%01=?
$mntervalle de confiance de la moyenne µ , ơ 5%
m ! " #   $ w %   & w '
 #  %  '      ( 
ml y a 95 chances sur 100 pour que la survie moyenne µ soit
comprise entre 14,2 et 20,2 mois.
ÿÄ
  , :' + ).$0

£ [n a dosé les corticoïdes urinaires dans un


groupe de 253 femmes de poids normal ; on a
trouvé une moyenne m 4,5 mg/ 24 heures et
un écart-
écart-type S 1,5. ƥ(ơ) 1.96
1- Calculer m.C (95%)( Ƭ) / Conditions
d·application
2- Si n 6, quel serait m.C 95%( Ƭ)/
Conditions d·application.

ÿŒ
  , :' + ).$0
F  .A?
A?B
B0.J0Q
0.J0Q
£ N 253> 30 , alors peu importe la distribution de X
* X: corticoïdes urinaires N(
N(44,5 ; 1,5) et P.N01
01=A<
*  .A?
A?BB0.J0 H D P.N0R p 8 I ! L
0.J0 1 H D
A< =? 8 I$?/
1 H>=?D =A< $?/LL 1 H>=? D %%A>
%A>LL
1 H>=/ O >=<?
<?
£ Cet intervalle a 95% de chances de contenir la vraie valeur de la
dose moyenne des corticoïdes urinaires µ.

$F  .A?
A?B
B0.J0Q
0.J0Q
N 6 faible  ' distribution de X est normale
* ơ 0.05 ddl 5 . 01$?@ (table unilatérale)
.NN8$01$
*  .A?
A?BB0.J0
0.J0 1H
1H D .NN8$0R p 8 I! L 1H>
D . ?@ =? 8 I<L
1H>=?D $?@
1H>=? D %>A<
%>A<LL
1H//=>?% O ?=?>AL
1H ?>AL
* Que remarquez-
remarquez-vous Q r
r|
)#)#)# =,) # 


   
 è è   

è
 Ñ
 
è
    è è  

è è  
è è  
è
    
è
  
è
è
è
è è

 
 
è è
è è
è è è    
! 

è è   
è    è è
è

   è   )
è è è è è
è è è ¦ 
è   

è
è è è
è %è  
!
+ 
 #


,-"
.
 

 


,-
 
   
  


/
0  
1
 

,-

  

 #
) rþ
#" - ,)#)# 
£ mntervalle de confiance au risque à d·une proportion
inconnue à partir d·un échantillon de taille n présentant une
proportion 

£   "    à vérifier à postériori au bornes de


l·mC
$ mC 1-ơ ( ) Gp1 ; p2
$ vérifier que )=.F )0=)$=.F )$0S ?
Souvent ơ 5 % , ƥ ơ 1,96

r^
  ,)#)# '
+ )F #" 7 ) #‰
$n 40
$ Estimer la mortalité à moins d· un an par HCC
         !
$ intervalle de confiance à 95 % :

$ m !   ù   # % '


$   "    '
‡ 40 w 0,30 12 ; 40 w 0, 0 28> 5
‡ 40 w 0,60 24 ; 40 w 0,40 16 > 5

rÿ
  ) # #" .$0

m  

rr
   , : '
#" ) #
£ Connaissant Ƭ  ; dans la population d·origine, on
peut déterminer l·intervalle de pari mP (1-ơ) (m).
(m).
£ ml définit l·intervalle dans lequel une moyenne observée
m peut évoluer et fluctuer avec une probabilité (1-ơ) ơ)..
[n note mP (1-ơ) (m).
(m).

£ Condition d·application: !S/%


   ,)#)# '
#" ) #
£ Connaissant ® dans la population d·origine, on peut
déterminer l·intervalle de pari mP (1-ơ) (p).
(p).
£ ml définit l·intervalle dans lequel une proportion
observée p dans un échantillon peut évoluer et fluctuer
avec une probabilité (1-ơ)
ơ).. [n note mP (1-ơ) (p):
(p):

Condition d ·application : T.FT0S ?



#" ) # '+ )
[n pense que la fréquence d·une maladie dans la
population P est ®1 ®1$%$%BB
Calculer mP (9595% %) de la proportion observée p sur un
échantillon de 64 individus.
individus.
 
N 64 ơ 0.05 ƥ(ơ) 1,9696..
 .A? B0 .)01 G+ ƥ(ơ) ¥ G( 1-  )/N
A?B
GG00.2+ 1.96 ¥ G0.2 ( 1- 0.2)/
)/64
64

1H%%$D %%A&L1
1H %A&L1 H%%$O
%$O %$A&
$A&LL
 ' <>
<> %=$1 $
$&S?O <>
<> %=& S?

#" ) # '+ )$
[n s'intéresse à la température corporelle, mesurée en degrés
Celsius (>C) des patients atteints de grippe sévère, 3 jours après le
début de la maladie. [n supposera par la suite que cette mesure de
la température est une variable gaussienne. [n sait que chez les
malades qui s'aggravent la température fluctue autour de sa
moyenne µ 39 avec un écart type 1.
[n constitue un échantillon de n malades grippés qui s'aggravent.

Parmi les propositions suivantes, laquelle est vraie ?


 ml s·agit de déterminer un intervalle de pari à 95% de la
température moyenne de N sujets; si oui le calculer.
 ml s·agit de déterminer un intervalle de confiance à 95% de la
température moyenne de N sujets; si oui le calculer.
 ml faut préciser une condition sur N pour répondre; si oui la
préciser.

U pU!
#" - 8#" ) #
£ #"   ) # #"   - 
Construit autour de l·espérance Construit autour de la moyenne
Ƭ de la variable aléatoire. observée m d·un échantillon.

£ Utilise la variance théorique Ƴ$  Utilise la variance observée


S2.
£ Définit l·intervalle dans lequel
une moyenne observée m peut Définit l·intervalle dans
évoluer avec une probabilité 1-ơ lequel l·espérance théorique Ƭ
peut se situer avec une probabilité
1- ơ.
£ Fixe
variable

Î
 # 
   

Î|
 #    
£  -    : le test statistique donne une règle
permettant de décider si l·on peut rejeter une
hypothèse, en fonction des observations
relevées sur des échantillons.
échantillons.
£  #   - 
£ Poser une hypothèse
£ Conduire une expérience
£ Vnalyser la compatibilité de cette hypothèse avec
les observations issues de l·expérience

Îþ
‰:);
£ ‰:);  : l·hypothèse dont on cherche à savoir si elle
peut être rejetée, notée ‰%
souvent définie comme une    -- #   
à  
* La taille dépend elle du genre de l·individu ?
‰%: Les tailles moyennes des mâles et des femelles sont égales
* La structure en âge varie-t-elle entre deux populations ?
‰%: La distribution en âge (fréquence) est indépendante de la
population (la même dans les deux populations).
£ ‰:); #  " : hypothèse concurrente, notée H1
£ Ho et H1 portent toujours sur les valeurs vraies des paramètres
étudiés.
Î^
! # .0
£ ###)# ;#);.à0 '
£ probabilité de trouver une différence
statistiquement significative alors qu·il n·y en a pas.
£ Probabilité de Rejeter H0 alors que H0 est vraie.

£ ###   ); .=0 '


£ probabilité de ne pas mettre en évidence une
différence statistiquement significative alors qu·elle
existe.
£ Probabilité de ne pas rejeter  alors que  n·est
pas vraie
£ (à) et (=) évoluent en sens inverse.
Îÿ
! # .$0

Îr
     
£      '.F =
£ c·est la capacité du test à mettre en évidence une
différence ou une liaison qui existe réellement.

£ C·est la capacité du test de rejeter ‰   


- 

£ [n calcule un nombre de sujets nécessaire pour


obtenir une puissance donnée.
donnée.

ÎÎ
*#  * -   

£ *#    * -   ' )
£ Si p > ơ, alors on ne rejette pas Ho.
£ Si p< ơ, alors on rejette Ho et on conclut à l'existence d'une
liaison ou d·une différence.
£ plus le degré de signification est faible, plus on est convaincu
que les résultats observés ne sont pas en cohérence avec
l·hypothèse nulle.
£ p 0,001 Cela veut dire que si l'hypothèse nulle était vraie
(absence de différence selon le test), les fluctuations
d·échantillonnage donneraient moins de 1 chance pour 1000
d'observer une telle différence entre les deux paramètres à
comparer.

Îü
))   ' ,  ##  
£  ) #  )# *#" 7
)# * # '
à 
Dans une étude menée auprès de 1000 ouvriers
au fond des mines, le taux de mortalité (Po)
1000.. Le taux national ( ?) étant
était de 9 pour 1000
de pour 1000
1000.. Est-
Est-ce que le taux observé chez
les mineurs diffère significativement du chiffre
national ?

ÎÄ
,  ##  'š )
 ‰: Vbsence de différence entre les proportions
théorique et observée
$F fixer le risque d·erreur ơ 5%
/F Conditions de validité : N ư 1000* 0,00 >5
N (1- ư) 1000* 0,993 993>5
>F Calculer la statistique du test P  :

 ư
P  1VVVVVVVVVVV 1%=@?
VVVVVVVVVVVV
Ó T .F T 0
! Ό
,  ##  'š )
?F Déterminer la valeur théorique de ƥ(ơ) lue sur la table
de l·Écart $ réduit ; ƥ(5%) =A<
<F Comparer P  à la valeur théorique ƥ(ơ)
@F Décision: si ƥ o < ƥ(ơ) alors on ne rejette pas Ho
si ƥ o > ƥ(ơ) alors on rejette Ho et on
détermine p ( degrés de signification) sur table de
l·Écart -réduit.
£ ƥo 0. 5< ƥ(ơ 5% ) 1.96 alors : Vu risque 5% on n'a
pas mis en évidence une différence statistiquement
significative entre les deux pourcentages.

ü
,  ##  

£  ) # )# * +


*#)  ) '
[n dispose de deux échantillons (V et @) sur lesquels on
a mesuré une variable qualitative binaire.
Ces deux échantillons peuvent-
peuvent-ils être considérés comme
étant issus de la même population ? (Les deux
pourcentages P V, P@ sont ils deux estimateurs du même
pourcentage P ?)

ü|
,  ##  
£  ) # $)# *#" '
à 
[n a testé deux médicaments antalgiques V et
@ dans le traitement des céphalées auprès de
200 personnes (100 par groupe)
groupe)..
Les taux de succès sont respectivement de 80
80%%
pour le médicament V et 00% % pour le
médicament @. [n se propose de comparer
l'efficacité de ces deux médicaments.
médicaments.

üþ
,  ##  'š )
F ‰:Vbsence de différence entre les proportions
‰: ư ư La différence observée est due au hasard et
non aux traitements
$F fixer le risque d·erreur ơ 5%

/F Calculer la proportion commune + +    )'


) nV pV + n@ p@ 100** 0,8 + 100*
100 100* 0, 0, 5
nV + n@ 100+
100 +100

>F Vérifier les conditions de validité :


nV*)>5 n@*) >5
n V * ( 1-)0 > 5 n @ * ( 1-)0 > 5

ü^
,  ##  'š )
?F Calculer la statistique du test P '
) ) %=&F %=@
P  1VVVVVVVVVVV1 VVVVVVVVVVV 1=<>

Ó .)80D.)8 Ó .%=@?R%=$?8%%0D.%=@?R%=$?8%%0

<F Déterminer la valeur théorique de ƥ(ơ) lue sur la table de


l·Écart $ réduit P.?B0 1 =A<
@F Comparer P  à la valeur théorique ƥ(ơ)
&F Décision: si ƥ o < P.N) alors on ne rejette pas Ho
si ƥ o > P.N) alors on rejette Ho et on détermine p
(degrés de signification) sur table de l·Écart -réduit.
£ P 1 =<>W P.N1 ?B 01A< alors au risque 5% on ne met pas en
évidence une différence statistiquement significative entre les
deux taux de succès et les deux traitement ont la même efficacité.
üÿ
 +

£  ) # $)# *#" 
 +*#)  ) '
[n dispose de deux échantillons (V et @) sur lesquels on
a mesuré une " #      "   
  
Ces deux échantillons peuvent-
peuvent-ils être considérés
comme étant issus de la même population ? (Les deux
pourcentages P V, P@ sont ils deux estimateurs du même
pourcentage P ?)
?)..

ür
 +
à 
£ [n dispose de 100 souris qui sont réparties par
tirage au sort en deux groupes de 50 souris.souris. Le
premier groupe est soumis à la fumée de cigarettes
et le second à celle de cigares.
cigares. [n observe un
pourcentage de cancer de 20 20%
% dans le groupe
cigarettes et de 12
12%% des cas dans le groupe cigare
cigare..
Cette différence est-
est-elle significative au seuil de
risque 5% ?

üÎ
 +
 " ##" '
-- - #  -- - #   
" #   #

(#) N V+ 50 * 0,2 % >% ! 1?%


 * #
(#) N @+ 50* 0,12 < >> ! 1?%
 * #

  < &> !1%%

üü
 +'š )
£ Formuler les hypothèses
£ H[ : ưV ư@
La différence observée est due au hasard et non aux goudrons
£ H1 : ưV  ư@ test bilatéral
£ Fixer ơ à 5%
£ Vérifier les conditions de validité:
[n calcule les -- - #  d·indépendance ( sous Ho).

  *. u03  . 0


£  _____________________________________ .?%R<08%%
 *  # 

idem pour C2, C3, C4

[n vérifie que tous les Ci > 5. üÄ


 +'š )
£ Tableau des valeurs observées et théoriques.
   
 
    
 
   
 

  
Ä 
 

  
Ä 
  
Tous les effectifs théoriques sont supérieurs à 5 Les conditions
d·application sont remplies.
üŒ
 +'š )
£ Calculer la statistique du test Khi2:
5 $ 12.U   0 12.U#"   # 0 
  # 
   
J   J  J  J  1=A
o     
   
 

Comparer Khi 2 observée à 5 $N= avec ddl (C-1)*(L-1)


lue sur la table du chi deux.
Décision:
Si Khi 2 observée < 5 $N= Non rejet de Ho
Si Khi 2 observée > 5 $N= Rejet de Ho et détermination p
Ä
 +'š )
Khi 2 observée =AW
5 $?B= 3,84
[n ne met pas en p 
" #$#%
évidence une différence
÷÷

statistiquement |  r  þ  |  |

significative entre les


pourcentages de cancer | þü| &$'( rÿ| ÎÎÿ | Ä^
dans les deux groupes
donc pas de liaison
entre le type du þ ÿÎ rŒŒ üÄþ Œþ| |^Äþ

goudron et la maladie
au seuil de risque 5%. ^ Îþr üÄþ ŒÄÿ ||^ÿ |Îþü

Ä|
ÿ üüÄ ŒÿŒ ||Îü |^þÄ |ÄÿÎ
 +'š )

Si 5 $ #"  5=?A S 5 $ ?B=   3,84


alors rejet de Ho et on détermine p
) W %=%$%$:: si les pourcentages de cancer sous
cigarettes et sous cigare sont identiques (Ho
vraie) alors la probabilité d·observer une telle
différence (i(i..e. 20
20%% ð 12
12%%) ou une différence
plus grande encore est < 2%.

Äþ
5 +## I 

£ Le calcul du 5 + exige que tous les effectifs


théoriques Ci soient supérieurs ou égaux à 5.
£ Dans le cas où:
où:
£ Un ou plusieurs effectifs théoriques / W  W ?
£  1 
[n peut utiliser la correction de Yates:
Yates:

5 + ## * 1 ü .XU F  X F 8$0$



mdem pour le reste du test.
test.
Ä^
 ) # + :
#" 
£ Une variable qualitative binaire qui permet de définir
deux groupes (ex:
(ex: adm>
adm> de deux somnifères).
somnifères).
£ Une variable quantitative (ex:
(ex: durée du sommeil)
pour calculer dans chaque groupe les différents
paramètres de la distribution : moyenne, estimateur
de l·écart type...
type...
£ Les moyennes observées dans chacun des groupes
peuvent elles être considérées comme des
estimateurs de la même moyenne aux fluctuations du
hasard près
près..
Äÿ
 ) # + :
#" 
£ Hypothèses :
£ Ho : µV µ@ (La différence observée est due au hasard)

£ H1 : µV  µ@ Test bilatéral

£ En pratiques deux cas de figure :


£  et  sont grands () # # 7 /%)) : Les calculs
sont simplifiés, on peut utiliser une approche par la loi
normale   , #F  ..
, #F#  
£ Un des effectifs ou les deux sont W /% : En plus de
l·égalité des variances, la distribution du paramètre doit suivre
une loi normale p.
  p.
Är
 ) #   :'+ )

£ [n veut comparer le temps moyen de survie


après injection d·un poison V a celui d·un
poison témoin T, et on note le temps de survie
en jours de chaque souris.
souris.
£ :: mV 1 .5j
#  SV2 49
49..5 n V 100
£ :: m? 2[.05j ST2 5 .0 n T 100
$;  
£ Comparer les temps moyens de survie après
injection de V et T

ÄÎ
, #FF#  '+ )
, #
1- Ho : µV µT (La différence observée est due au hasard et non aux poisons)
H1 : µV  µ T Test bilatéral

2-fixer le risque d·erreur: ơ 5%


3-Conditions de validités:
nV et n T >30 on utilise le test de l·écart réduit
4-Calculer la statistique du test ƥo:
‘  F ‘
ƥo 1VVVVVVVVVVVVVVVVVVVVVVVVV 1$=>@
VVVVVVVVVVVVVVVVVVVV
p$ p$
Ó VVVVVVVDVVVVVVV
 
Äü
, #FF#  '+ )
, #

5- Déterminer la valeur critique ƥơ 5% 1.96


6- Décision: ƥo 2.4 > PN1?B 1A<
[n rejette Ho pour le risque ơ 5% et on conclut a
l·existence d·une différence statistiquement significative
entre les temps moyens de survie après injection de V et
T
[n détermine le degrés de signification de cette
différence p<
p<00.02 sur la table de l·écart réduit:
réduit:

ÄÄ
,  ##  
÷!"##!$ %h&h

Č
 ) #   :'+ )$

£ Un dosage biologique a donné les résultats suivants:


£ 1er groupe de sujets: 0.8 0.9 0.1 1.9
£ 2ème groupe de sujets: 0.5 0.6 0.6 0.

£ La différence entre les deux moyennes est elle


statistiquement significative au risque ơ 5% ?

Œ
p
1- Ho : µ1 µ2 (La différence observée est due au hasard)
H1 : µ1  µ 2 Test bilatéral
2-fixer le risque d·erreur ơ 5%
3-Vérifier les conditions de validité:
n1 4 et n2 4 <30
Égalité des variances Ƴ12 Ƴ22 test de Student
Distribution normale de la variable dose

4- Calculer la variance commune S2:


p$ G(n1-1) S12+ (n2-1) S22 0,011
(n1+n2-2)
Œ|
p'+ )$
5- Calculer la statistique du test To:

1 F $ 1>=@
Ip$.8 D8$0

m1 0.95 m2 0.6 S1 0.016 S2 0.06 S 0,011 ddl 88--2 6

6- Lire .1<ON1%%?) 2.44 sur la table de Student    # 

- Comparer  à .1<ON1%%?00
8- Décision :  > .1<ON1%%?00 ‰)## NN1?B
9‰)## 
9
et on conclut a l·existence d·une différence significative entre les
moyennes de dosage µ1et µ2 avec pWU=U
pWU=U
Œþ
Œ^
 ) #  :#" F
F
: # 
à 
£ Dans un échantillon de 114 sujets extrait d·une
population de sexe masculin âgés de 50 à 59 ,
on mesure le taux de cholestérol dans le sang.
sang.
£ mo 195
195..4 mg/ml S 45
45..6
£ [n se demande si la moyenne mo est
compatible avec la moyenne de référence
µ 185 mg/ml (nationale).
(nationale).

Œÿ
 ) #  :#" F
F
: # 

1-Ho: µV µ H1 : µ1  µ 2
2-fixer le risque d·erreur ơ 5%
3-Vérifier conditions de validité :
1>S/% Test de l·écart réduit.
4- Calculer la statistique du test P:
P 1 F
FJ 1$>/
I.p$80
Œr
 ) #  :#" F
F
: # 
5- Lire PN1?B 1A< sur la table de l·écart réduit.
6- Comparer P1 $>/ à PN1?B 1A<
- Décision: P1 $>/ > PN1?B 1A< Rejet Ho
pour le risque ơ 5% et on conclut a l·existence
d·une différence significative entre les deux taux
moyens de cholestérol dans le sang
p <0.02 est lu sur la table de l·écart réduit

ŒÎ
,  ##  
÷!"##!$ %h&h

Ο
+# 

΀
+# 

ŒŒ
+# 

|
| |
   , : '
#" ) #
£ La moyenne m calculée sur un échantillon
de taille n () # #  *  7 /%)
fluctue suivant une distribution gaussienne
d ·espérance J et de variance ;$ 8  dans un
intervalle de pari à (1-ơ)% défini par :

| þ
   ,)#)# '
#" ) #

£ Une proportion  calculée sur un échantillon de taille n


fluctue suivant une distribution gaussienne d ·espérance
ư et de variance (ư(1îư))/  dans un intervalle de pari
à (1-ơ)% défini par :

£ Condition d ·application : nư et n(1-ư) > 5

| ^
 +'

£ Utilité : Le test du CHm-


CHm-DEUX permet la
comparaison de pourcentages observés.
£ + ) 1 : Soient 120 patients atteints d·1
même maladie qui ont été traités par 2 trait
différents , parmi les 0 qui ont reçu le
traitement V 22 ont guéri ; Parmi les 50 qui ont
reçu un trait @ 25 ont guéri.

| ÿ