You are on page 1of 5

STATISTIQUES INFERENTIELLES

JEAN MARC MEUNIER

CHAPITRE 1 - PRINCIPES ET METHODOLOGIE


1.

Dfinition des principaux concepts

Linfrence statistique utilise un certain nombre de concepts quil convient de connatre et


pour certains de ne pas confondre. Nous allons donc dans un premier temps poser les
dfinitions de ces concepts.
Les analyses statistiques, quelles quelles soient, portent sur un protocole recueilli sur un
chantillon issu dune population parente.

Protocole. Ensemble dobservations sur une ou plusieurs variables.

chantillon. Ensemble dindividus statistiques sur lesquels sont recueillies les


donnes constituant le protocole. Lchantillon est un sous-ensemble de la
population.

Population parente. galement appele population, cest lensemble des individus


statistiques do est extrait lchantillon. La population parente est de taille finie.

On distinguera lchantillonnage dans une population et lchantillonnage dans une


distribution.

chantillonnage dans une population. Cest lextraction dun chantillon dans


ensemble de rfrence de taille finie. Lchantillonnage dans une population peut tre
vu comme un tirage sans remise.

chantillonnage dans une distribution. Cest lextraction dun chantillon dans un


ensemble de rfrence de taille infinie. Cette forme dchantillonnage peut tre
assimile un tirage avec remise dans une population finie.

Le principe gnral de linfrence consiste situer un chantillon dans lespace des


chantillons. Pour cela, on situe un rsum du protocole dans une distribution
dchantillonnage. La conclusion de cette infrence dpend du modle dchantillonnage
choisi.

2.

Espace des chantillons. Cest lensemble de tous les chantillons possibles obtenus
par combinatoire.

Distribution dchantillonnage. Cest la distribution, pour une statistique donne, de


lensemble des chantillons possibles. Pour les variables numriques, la distribution
dchantillonnage est faite sur la moyenne. Pour les variables nominales ou
catgorise, on utilise gnralement la frquence pour construire la distribution
dchantillonnage.

Modle dchantillonnage. Cest lensemble des hypothses que lon fait sur le mode
de constitution de lchantillon partir de la population.

Principes gnraux de linfrence

Linfrence statistique est une forme de raisonnement hypothtico-dductif. Dans cette forme
de raisonnement, on cherche tester une hypothse travers un raisonnement dductif
dont la dmarche suit le questionnement suivant :
3

Version 15/10/07

IED Universit Paris 8

JEAN MARC MEUNIER

3.

STATISTIQUES INFERETIELLES

Dans un premier temps, la dmarche consiste se demander quel est lensemble


des protocoles possibles. Cet ensemble de protocoles est obtenu par combinatoire,
do le nom de cette approche, Dans cette approche, le protocole observ est un des
protocoles possibles, mais nest pas ncessairement tir au hasard.

Ensuite on cherche situer le protocole observ dans lensemble des protocoles


possibles. Pour cela, on calcule sur chacun des protocoles possibles une statistique
rsumant les protocoles (statistique dchantillonnage). Dans le cas des variables
catgorises, cest--dire nominale ou ordinale, cette statistique est la frquence.
Dans le cas des variables numriques, cette statistique est la moyenne. Ces
statistiques rsumant les protocoles sont utilises pour calculer une distribution qui
permettra de situer le protocole observ dans lensemble des protocoles possibles.
Cette distribution est ce quon appelle distribution dchantillonnage.

Enfin, on se demandera si le protocole observ est suffisamment rare dans la


distribution dchantillonnage pour le considrer comme atypique ou si on doit le
considrer comme typique.

Choix du modle dchantillonnage

Le modle dchantillonnage est lensemble des hypothses que lon fait sur le mode de
constitution de lchantillon partir de la population. Concrtement, le choix du modle
dchantillonnage nengage en rien le choix de la distribution dchantillonnage et de la
procdure mettre en oeuvre. En revanche, le choix du modle dchantillonnage dtermine
la formulation de la conclusion.
Dans tous les cas, on peut se placer dans le cadre du modle combinatoire qui consiste
considrer le protocole observ comme un lment de lensemble des protocoles possibles
(espace des chantillons). La conclusion se formulera en termes de typicit (comparaison
dun groupe dobservations une distribution de rfrence) ou dhomognit (comparaison
de deux groupes dobservations).
On peut parfois se situer dans le cadre du modle frquentiste qui consiste considrer que
la distribution dchantillonnage est une distribution des probabilits dobtenir un chantillon
de telle ou telle moyenne. Ce modle constitue un prolongement du modle combinatoire.
Pour cela, on fait lhypothse supplmentaire que lchantillon a t tir au hasard dans
lensemble des protocoles possibles. Cette hypothse nest justifie que si la procdure
exprimentale fait intervenir le hasard (sondage ou alatorisation de la rpartition des sujets)
ou si lexprience vise vritablement tester une hypothse, autrement dit que la
comparaison est faite toutes choses gales par ailleurs.

4.

Choix de la distribution dchantillonnage

Ce choix dpend de lchelle de mesure de la variable dpendante. On distinguera les


variables numriques, pour lesquelles on peut utiliser des tests dits paramtriques des
autres variables pour lesquelles on utilise des tests non paramtriques.
Dans les deux cas, on peut utiliser une distribution exacte ou une distribution approche. Les
distributions dchantillonnage exactes sont obtenues par combinatoire ou en ayant recours
lorsquelles existent, des distributions particulires. On peut galement utiliser une
distribution approche. Pour les variables nominales, il sagit de la distribution de X2 (lire khideux ou khi carr). Pour les variables numriques, si la variance parente est connue, on

IED Universit de Paris 8

Version 15/10/07

STATISTIQUES INFERENTIELLES

JEAN MARC MEUNIER

emploiera la distribution de Z sinon on emploiera la distribution du T de Student. Chaque fois


que cela est possible, on prfrera la distribution exacte la distribution approche.

Tableau 1.1 Choix de la distribution dchantillonnage

5.

Mise en uvre du test

La mise en uvre du test dpend du type de protocole et de la distribution dchantillonnage


choisi. Elle ne dpend pas du modle dchantillonnage. La mise en uvre des tests
statistiques sera prsente en dtail dans les chapitres suivants. Nous distinguerons 4 cas.

Linfrence sur un protocole univari non structur.

Linfrence sur un protocole univari structur par un embotement (groupes


indpendants)

Linfrence sur un protocole univari structur par un croisement (groupes apparis)

Linfrence sur un protocole bivari.

Quel que soit le cas, la dmarche gnrale de linfrence suit un schma en quatre tapes :

6.

Choisir le modle dchantillonnage (combinatoire ou frquentiste).

Dterminer la distribution dchantillonnage (voir le paragraphe prcdent)

Situer le protocole observ dans la distribution dchantillonnage en calculant (ou en


lisant dans la table) la proportion dchantillons plus extrmes ou gaux au protocole
observ.

Comparer cette proportion au seuil-repre .025 (unilatral) ou .05 (bilatral).

Formulation de la conclusion et Interprtation

La formulation de la conclusion repose toujours sur une comparaison entre la proportion


observe (calcule ou lue dans une table) et un seuil de significativit fix par convention
.025 (seuil unilatral) ou .05 (seuil bilatral). Lorsque la proportion observe est infrieure
au seuil, le test est dclar significatif.

Version 15/10/07

IED Universit Paris 8

JEAN MARC MEUNIER

STATISTIQUES INFERETIELLES

Tableau 1.2 Choix du seuil-repre


Le choix entre un seuil unilatral ou bilatral dpend du type de comparaison que lon fait et
de la question quon se pose (voir Tableau 1.2). On distinguera deux types de comparaison :
la comparaison dun groupe dobservations une population ou une distribution de rfrence
(chantillon vs population) et la comparaison de deux groupes dobservations.
Dans tous les cas, le seuil bilatral est gal la somme des seuils unilatraux suprieurs et
infrieurs. Dans le cas particulier des distributions dchantillonnage symtriques, le seuil
bilatral est gal au double dun des seuils unilatraux.
Dun point de vue statistique, linterprtation du test dpend du type de comparaison que lon
fait et du modle dchantillonnage choisi. Le test est significatif si pobs seuil repre.

Tableau 1.3 Formulation de la conclusion dans le modle combinatoire


Dans le cas du modle combinatoire, la conclusion sera formule en termes de typicit ou
datypicit de lchantillon dans le cas de linfrence sur une protocole univari non structur
et en termes dhomognit ou dhtrogneit des groupes dans le cas de linfrence sur
des protocoles univaris structurs.

Tableau 1.4 Formulation de la conclusion dans le modle frquentiste


Dans le cas de linfrence frquentiste, la conclusion sera formule en termes de
conservation ou de rejet de lhypothse nulle, ce qui conduira admettre lexistence dune
diffrence dans le cas dun test significatif, un test non significatif ne permettant pas de
conclure.

IED Universit de Paris 8

Version 15/10/07

STATISTIQUES INFERENTIELLES

JEAN MARC MEUNIER

Il faut garder lesprit deux points importants : (i) une analyse infrentielle ne dit rien sur
limportance dune diffrence, elle permet seulement de se prononcer ou non sur son
existence. (ii) Lanalyse infrentielle est le prolongement de lanalyse descriptive.
Toute analyse statistique vise permettre au chercheur de mieux comprendre les
phnomnes psychologiques. Une interprtation statistique des rsultats doit donc tre
accompagne dune interprtation psychologique (quest-ce que cela nous apprend sur les
comportements tudis ?).

Version 15/10/07

IED Universit Paris 8

You might also like