Statistique Descriptive

Cours de Statistique descriptive édition 2021-2022
PLAN DU COURS
1. OBJECTIFS ET COMPETENCES VISEES

1.1. OBJECTIFS GENERAUX
Ce cours de STATISTIQUE DESCRIPTIVE vise à résumer quantitativement
l’information recueillie sur un univers concret au moyen d’une investigation
exhaustive, telle une population humaine étudiée à travers un recensement général.
Son but est de décrire avec des outils appropriés des séries statistiques relatives aux
phénomènes économiques, commerciaux, financiers ou sociaux, c’est-à-dire:
 De présenter et de synthétiser l’information chiffrée ;
 De mesurer dans le temps la variation des phénomènes économiques ;
 De mesurer l’intensité de la liaison existant entre variables et d’établir
mathématiquement cette liaison ;
 De disséquer les composantes d’une série chronologique.
1.2. OBJECTIFS SPECIFIQUES
A la fin de ce cours, l’étudiant de PREPA à qui il est destiné sera capable :
 De définir et d’expliquer certains concepts statistiques tels que la population,
l’échantillon, les variables ou caractères, les séries et tableaux statistiques, etc.
 De classifier les variables d’après leur nature ;
 De présenter les séries statistiques dans des tableaux ou sous forme
graphique et de les synthétiser à l’aide des paramètres;
 De définir et de distinguer les différents types des indices statistiques ;
 De calculer et d’appliquer ces indices aux phénomènes économiques ;
 De définir et de calculer une corrélation ;
 D’élaborer une droite de régression ;
 D’analyser une série chronologique.
2. CONTENU DU COURS
Chapitre 1 : GENERALITES
1.1. Statistique, instrument de gestion, de planification et de la recherche
scientifique.
1.2. Etymologie, fondateur et définition du mot statistique.
1.3. Définition des concepts statistiques de base.
1.4. Les logiciels de traitement des données statistiques
 Le logiciel Excel
 StatBox et Question
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
 Le Sphinx
 Minitab
 Le logiciel SAS
 Le logiciel SPSS
 Le logiciel XLSTAT
Chapitre 2 : ORGANISATION ET REPRESENTATION GRAPHIQUE DES

DONNEES STATISTIQUES
2.1. Des données brutes à la distribution des fréquences.
2.1.1. Dépouillement des observations
2.1.1.1. Pointage et comptage
2.1.2. Groupement des données en classes
2.1.2.1. Détermination du nombre de classes par la méthode
de LIORZOU
2.1.3. Tableaux STEM and LEAF
2.1.4. Distributions des fréquences d’une variable qualitative
2.2. Représentation graphique des données statistiques
2.2.1. Graphiques représentant les caractères qualitatifs
1. Le diagramme à barres
2. Le diagramme en secteurs ou Camembert
2.2.2. Graphiques représentant les caractères quantitatifs
1. Le diagramme en bâtons
2. Le diagramme des points ou dot plot
3. L’histogramme
4. Le polygone des fréquences
5. L’ogive
Chapitre 3 : SYNTHESE DES DONNEES STATISTIQUES A L’AIDE DES
PARAMETRES
3.1. Conditions de Yule
3.2. Les paramètres de position
1. La moyenne arithmétique
2. La moyenne géométrique
3. La moyenne harmonique
4. La moyenne quadratique
5. Le mode
6. La médiane et les quantiles
3.3. Les paramètres de dispersion
1. La variance et l’écart type
2. L’écart moyen
3. Le coefficient de variation
4. L’étendue ou range
3.4. Les paramètres de forme
1. Le coefficient de dissymétrie de Yule
2. Le coefficient de dissymétrie de Fisher
3. Le coefficient d’aplatissement de Fisher
3.5. Le diagramme en boîte (BOX-PLOT) ou diagramme de TUKEY
Chapitre 4 : INDICES STATISTIQUES

4.1. Définition et application des nombres indices.

4.2. Les indices élémentaires, Indices simples
4.3. Les indices synthétiques.
4.3.1. Les indices agrégats ou indices des moyennes
4.3.2. Les indices moyennes arithmétiques
4.3.3. Les indices synthétiques utilisés en pratique
1. L’indice de Laspeyres
2. L’indice de Paasche
3. L’indice Fisher
Chapitre 5 : DISTRIBUTIONS STATISTIQUES A DEUX VARIABLES

5.1. INTRODUCTION
5.2. Notions de corrélation
5.2.1. Types de liaisons entre variables.
5.2.2. Estimation de l’intensité de liaison entre variables.
5.2.2.1. Coefficient de corrélation linéaire
5.2.2.2. Calcul du coefficient de corrélation à partir d’une distribution
conjointe
5.3. Notions d’ajustement
5.3.1. Ajustement linéaire par la méthode de Mayer
5.3.2. Ajustement linéaire par la méthode des moindres carrés
ordinaires Chapitre 6 : SERIES CHRONOLOGIQUES
6.1. Les éléments constitutifs d’une série chronologique.
6.2. L’analyse des séries chronologiques
A. La méthode analytique
B. Les méthodes empiriques
3. BIBLIOGRAPHIE
1. Albert JACQUARD, Les probabilités, Que sais-je ?, P.U.F.,1974.
2. BEDARIDA et al., Pour une histoire de la statistique, Economica, Paris, 1987.
3. Bernard GOLDFARB & Cathérine PARDOUX, Introduction à la méthode
statistique, Paris, 2013, 374 p.
4. Bernard GRAIS, Méthodes statistiques.2, Dunod, Paris, 2003, 402 p.
5. Christian GRANIER et Bernard GUILBAUD, Statistique dans l’entreprise,
édition Foucher, Paris,1978.
6. David R. Anderson et al., Statistique pour l’économie et la gestion, de Boeck
université, Paris, 2001
7. Dominick SALVATORE, Econométrie et statistique appliquées, Série Schaum,
MC GRAW-HILL, Paris, 1975, 298 p.
8. Edwin DIDAY, Eléments d’analyse de données, Dunod, 1982, 464 p.
9. François COUTY, Jean DEBORD & Daniel FREDON, Probabilités et
statistiques pour biologistes, Armand Colin, Paris, 1990, 208 p.
10. François DRESS, Les probabilities et la statistique de A à Z, Dunod, Paris, s.d,

201 p.
11. Gérard CALOT, Cours de calcul des probabilités, Dunod, Paris, 1967.
12. Gérard CALOT, Cours de statistique descriptive, Dunod, Paris, 1964, 519 p.
13. Jacqueline FOURASTIE & Bernard GRAIS, Les indices statistiques, Masson,
Paris, 1984, 149 p.
14. Jacqueline FOURASTIE & Sophie SAGUERY, Exercices résolus de statistique
appliquée à l’économie, Masson, Paris, 1993, 264 p.
15. Jean STAFFORD et Paul BODSON, L’analyse multivariée avec SPSS, P.U.F.,
Québec, 2006, 245 p.
16. Jean-Jacques DROESBEKE et Philippe TASSI, Histoire de la statistique, Que
sais-je ?, Paris, 1990, 127 p.
17. Jean-Pierre LE COUTRE, Statistique et probabilités, Dunod, Paris, 2008.
18. L. Lebart, A. Morineau, N. Tabard, techniques de la description statistique :
méthodes et logiciels pour l’analyse des grands tableaux, Dunod, Paris, 1977,
351 p.
19. Manu CARRICANO & Fanny POUJOL, Analyse de données avec SPSS,
Pearson, Paris, 2009, 202 p.
20. Michel JAMBU, Exploration informatique et statistique des données, Dunod,
Paris, 1989, 505 p.
21. Michel VILAIN, Méthodes expérimentales en agronomie : pratique et analyse,
éditions TEC&DOC, Paris, 1999.
22. Murray R. SPIEGEL, Probabilités et statistique, MC GRAW-HILL, Paris,1981,
386 p.
23. Pascal ARDILLY, Les techniques de sondage, éditions TECHNIP, Paris, 1994,
393 p.
24. PEYTON Z. PEEBLES, Probability, Random variables and Random signal
principles, MCGRAW-HILL, USA, 1993.
25. Renee VEYSSEYRE, Statistique et probabilités pour l’ingénieur, l’Usine
nouvelle, Paris, 2006.
26. SANDERS & SMIDT, Statistics, MCGRAW-HILL, USA, 2000.
27. Thierry ANCELLE, Statistique et épidémiologie, Maloine, 4e éd., Paris, 2017,
342 p.

28. Thomas H. WONNACOTT & Ronald J. WONNACOTT, Statistique: Economie,

Gestion, Sciences et Medecine, Economica, Paris, 1991, 921 p.
29. Xavier BRY, Analyses factorielles simples, Economica, Paris, 1995, 112 p.
CHAPITRE 1 : GENERALITES
1.1. STATISTIQUE, INSTRUMENT DE GESTION, DE PLANIFICATION ET DE LA

RECHERCHE SCIENTIFIQUE.
Aujourd’hui la statistique est au carrefour de tous les domaines de la vie :

Santé, Agriculture, Enseignement, Economie, Commerce, Industrie, Science etc. Elle
intervient dans la quantification et l’analyse des variables économiques,
sociologiques, politiques, … ainsi que dans le processus de prise des décisions
rationnelles, la planification des activités et la modélisation mathématique de la réalité
complexe. La prise des décisions se trouve au centre de l’administration et de la vie
des entreprises. Toute la gestion peut s’interpréter comme une séquence des
décisions successives qui doivent être intégrées et liées les unes aux autres. La
statistique est encore indispensable dans le domaine de la recherche scientifique : en
effet la méthodologie statistique est devenue la méthode fondamentale des sciences
expérimentales et d’observation.
Ce cours de Statistique porte sur la statistique descriptive et s’oriente vers la
description statistique des phénomènes économiques. Il aborde l’organisation, la
présentation et la synthèse des séries statistiques, les indices statistiques ainsi que
les problèmes de corrélation et de régression.
1.2. ETYMOLOGIE, FONDATEUR ET DEFINITION DU MOT STATISTIQUE

Etymologiquement, le mot «statistique » vient du substantif allemand :
statistik, dérivé de la notion staatskunde relative à l’activité correspondant au
recueil de données permettant de connaitre la situation des Etats.
En effet , on attribue souvent la création du terme «statistique» à un
professeur de GOTTINGEN, du nom de Gottfried ACHENWALL, qui aurait
en 1746 créé le mot statistik , dérivé de la notion staatskunde.
La statistique est la science ayant pour objet la collecte, la présentation, la
synthèse et l’analyse des données numériques relatives à un phénomène
aléatoire dans le but de prendre des décisions judicieuses ou de procéder à la
planification rationnelle des activités.

Historiquement, la statistique consistait à organiser des recensements

démographiques et des inventaires comptables en vue de fournir à l’Etat des
renseignements d’ordre démographique sur la composition de la population et la
richesse du pays. L’importance sociale de la statistique était reconnue , puisqu’il
advint que le pharaon Amasis édicta la peine de mort contre ceux qui
refusaient de déclarer leurs nom , profession et moyens de subsistance. Le
premier champ de la statistique fut alors les populations humaines. Par la suite la
statistique s’est étendue aux populations de toute nature autres que
démographiques. Grâce à l’analyse des données, la statistique, initialement une
activité de constatation, devint une science dynamique par la recherche des lois
régissant les ensembles et l’établissement des estimations et des prévisions.
Le mot « statistique(s) » comporte une triple signification :
1°. Les statistiques (au pluriel) sont des séries des chiffres ou des données
numériques nombreuses obtenues grâce à des observations systématiques et
indiquant les valeurs prises par une variable. Les statistiques sont également des
tableaux des chiffres décrivant numériquement un phénomène.
Exemples :
- Les statistiques de la production mensuelle de la bière dans une entreprise.
- Le tableau statistique de la distribution par âge d’une population.
2°. La statistique (au singulier) est une fonction mathématique des données
observées sur un échantillon. Exemple : La moyenne arithmétique est une
statistique.
3°. La statistique (au singulier) est la science qui fournit des lois, des méthodes et
techniques de recueil, de présentation, de synthèse et d’analyse des données
statistiques.
La statistique, comme science, peut être descriptive ou inductive.
• La statistique descriptive s’occupe de l’organisation, de la présentation et
de la synthèse des données. Ainsi l’observation, l’enregistrement et le
dépouillement des données, leur présentation dans des tableaux des
chiffres et à l’aide des graphiques ainsi que leur synthèse par des
paramètres caractéristiques sont du ressort de la statistique descriptive.

Elle permet d’étudier quantitativement la situation économique d’un pays ou

d’une entreprise en fournissant des renseignements précis permettant de
prendre des mesures adéquates pour améliorer le niveau de la production
et de suivre l’évolution de la situation.
• La statistique inductive ou inférentielle. L’induction ou l’inférence statistique
consiste, à partir d’une étude portant sur un nombre limité des cas, à
généraliser
les conclusions à l’ensemble de tous les cas existants. La statistique
inductive recourt aux mathématiques, notamment au calcul des probabilités
et définit sous quelles conditions et limites les généralisations peuvent être
considérées comme valables. La statistique inductive est toujours précédée
par une analyse descriptive des cas soumis à l’étude. Elle joue un rôle
fondamental dans la recherche scientifique.
Les trois étapes d’une étude statistique sont :
• la collecte des données relatives aux phénomènes étudiés sur des
échantillons ;
• la description et l’analyse de ces données des échantillons, et
• l’induction sur les populations relatives aux phénomènes étudiés.
Ces trois étapes sont étroitement liées et dépendent l’une de l’autre : une
mauvaise collecte introduira des « biais de sélection » ; une mauvaise analyse
introduira des « biais d’estimation », et l’induction sera alors difficile, erronée,
voire impossible.
1.3. DEFINITIONS DES CONCEPTS STATISTIQUES DE BASE.
1°. Population statistique ou univers statistique.
C’est tout ensemble d’éléments soumis à une étude statistique. Les unités
composant cette population sont de même nature : on dit que la population est
homogène. Ces unités peuvent être
- des êtres humains : exemple les travailleurs d’une société ;
- des êtres vivants comme les animaux d’une ferme, les plantes dans un champ;
- des objets inanimés comme par exemple, les véhicules d’un charroi
automobile, les instruments de laboratoire ;
On appelle ces éléments « individus », «unités statistiques» ou « membres »,
appellations provenant du 1er champ d’application de la statistique qu’est la
démographie. Dans une étude statistique la population doit être définie avec
précision, sans ambiguïté, de telle sorte que l’on sache quelles unités appartiennent
ou non à la population.
2°. Echantillon.
Très souvent, la population que l’on désire étudier est très grande, voire infinie. Il
est alors impossible d’examiner toutes les unités de cette population. On décide alors
d’examiner uniquement une partie de ces unités qu’on appelle échantillon. Un
échantillon est donc une partie de la population statistique sur la quelle porte l’étude
statistique en vue de généraliser les résultats de cette étude à toute la population
d’où est extrait l’échantillon. Les unités devant faire partie de l’échantillon sont
choisies selon des techniques précises d’échantillonnage garantissant la
représentativité de l’échantillon. 3°. Le recensement.
C’est la collecte exhaustive de l’information sur tous les individus d’une population. Le
recensement est très coûteux et souvent impossible à réaliser dans une étude.
4º.Sondage
C’est l’opération de recueil de données pour un échantillon d’individus d’une
population. Ce mot est l’exact synonyme d’échantillonnage, même si les habitudes
font utiliser préférentiellement l’un ou l’autre mot selon les situations.
5°. Caractères ou variables statistiques.
Dans l’étude d’une population on considère un ou plusieurs traits communs à tous les
individus de la population. Ce trait ou phénomène commun à tous les individus de la
population et sur lequel porte l’étude statistique est ce qu’on appelle « caractère ou
variable statistique ». En clair, une variable statistique est une grandeur définie sur
une population d’individus et susceptible d’être observée et de prendre plusieurs
valeurs.
Exemple des caractères statistiques : Le poids, la taille, le sexe, l’âge, l’état civil, la
profession, l’existence ou non d’une maladie, la possession ou nom d’un poste de
télévision, etc.
Les variables peuvent être quantitatives ou qualitatives.
a. Une variable est quantitative quand elle est mesurable et donne lieu pour
chaque unité statistique à une mesure numérique. Les variables quantitatives sont
subdivisées en deux groupes :

- Les variables quantitatives discrètes ou discontinues : ce sont des variables

dont les valeurs numériques possibles sont dénombrables, c’est-à-dire peuvent être
dénombrées ou comptées. Très souvent les valeurs d’une variable discrète sont des
nombres entiers. Exemples : le rang de l’enfant, le nombre d’accidents par chauffeur,
le nombre de jours ouvrables, le nombre d’enfants à charge ; etc.
- Les variables quantitatives continues ou concrètes : une variable statistique est
continue si ses valeurs possibles sont en nombre infini et a priori quelconques dans
un intervalle de valeurs. Ainsi :
 l’âge d’un individu,

 le diamètre d’une pièce,
 la teneur en carbone d’un alliage,
 la température d’un corps,  la vitesse d’un mobile,…
D’une façon générale, toutes les grandeurs liées à l’espace (longueur, surface,…), au
temps (âge, durée de vie,…), à la masse (poids, teneur,…) ou encore aux
combinaisons de ces éléments (vitesse, débit, densité,…) sont des variables
statistiques continues.
On notera toutefois que la distinction entre variable statistique discrète et continue est
parfois arbitraire. En réalité, toute mesure est discrète, du fait d’une précision toujours
limitée. Ainsi, si on mesure les diamètres de pièces mécaniques au centième de
millimètres près, le résultat d’une mesure est nécessairement un multiple entier de
1/100 de millimètre et répond alors à la définition de la variable discrète. Si on affirme
cependant que le diamètre est une variable continue, c’est en raison de la nature
intrinsèque, indépendamment de la mesure, de la notion de diamètre : a priori toute
valeur (positive) peut représenter un diamètre. On conviendra alors qu’une mesure
représente un intervalle de valeurs : dire qu’une pièce, mesurée au 1/100 de mm
près, a un diamètre égal à 13,62 mm signifie que son diamètre est compris entre
13,615 mm et 13,625 mm.
Par extension de la notion de la variable statistique continue, une grandeur qui peut
prendre un grand nombre de valeurs possibles- même si celles-ci sont des valeurs
isolées- sera considérée comme une variable continue. Il en est ainsi en particulier
des grandeurs monétaires :
 salaire mensuel d’un ouvrier,

 bénéfice annuel d’une entreprise.

Un salaire par exemple s’exprime nécessairement par un nombre entier de centimesla
plus faible unité monétaire. Assimiler la variable salaire à une variable continue, c’est
assimiler la plus faible unité monétaire au degré de précision de mesures.
b. Les variables qualitatives sont des variables qui expriment une qualité. Elles ne
peuvent être mesurées, mais classées, répertoriées selon certaines valeurs ou
particularités. Ces variables qualitatives ou en catégories peuvent êtres subdivisées
en deux groupes :
- Les variables qualitatives dichotomiques, binaires ou encore à deux classes :
elles ne peuvent prendre que deux valeurs ou modalités distinctes Exemples :
1. Le sexe : masculin ou féminin ;
2. La possession ou non d’un poste de télévision ;
3. Une pièce fabriquée est bonne ou défectueuse.
- Les variables qualitatives polytomiques ou à plusieurs classes : ce sont des
variables qualitatives ayant plus de deux modalités ou particularités possibles.
Exemple : La nationalité des habitants d’un pays. Ces variables peuvent être
ordonnées, c'est-à-dire avoir une importance croissante dans un ordre déterminé
comme par exemple la cotation des travailleurs en mauvais, médiocre, bien, très bien,
excellent. Elles peuvent aussi être non ordonnées ou nominales comme le groupe
sanguin (A, B, AB, O), l’état civil, le type de profession, la province d’origine en RDC
6°. Modalités.
Les modalités d’un caractère statistique sont les différentes situations, particularités
ou valeurs possibles de ce caractère. Les modalités doivent être à la fois exclusives et
exhaustives, ce qui signifie qu’un individu doit présenter une seule modalité et une
seule de la variable, et toutes les modalités doivent englober les différentes
particularités ou valeurs susceptibles d’être observées dans la population. Exemples :
- Les modalités du caractère « sexe » sont : féminin et masculin.
- Les modalités du caractère « état civil » sont : célibataire, marié, divorcé, veuf.
- Les modalités du caractère « nombre de personnes dans un ménage » à
Lubumbashi sont :
1, 2, 3, 4, 5, 6, 7, 8, 9, ≥10
7°.Série statistique

Une série statistique est une suite de valeurs numériques prises par n individus de la
population, ces valeurs étant relatives à une ou plusieurs variables.
Une série statistique simple est la suite des n valeurs observées sur n individus
relatives à une seule variable, chaque valeur étant la mesure de cette variable prise
par un seul de ces n individus. Si on symbolise par X la variable considérée, la série
statistique relative à cette variable pour n individus sera présentée par : x 1, x2, …, xi,
…, xn, (xi est la valeur de X pour le ième individu).
Exemple : la série ( x1,x2,x3,x4 ,x5,x6,x7,x8,x9) = ( 15, 3, 623, 46, 126, 64, 1350, 279,
23).
Une série statistique double est l’ensemble des n couples des valeurs observées pour
deux variables, chaque couple de valeurs représentant les valeurs prises par ces
deux variables sur une unité statistique.
Exemple : pour les variables X et Y la série double relative à ces deux variables se
présente comme suit : (x1, y1), (x2, y2),…, (xn, yn).
Une série statistique, c’est aussi un tableau des chiffres.
8°. Distribution statistique.
C’est un ensemble des couples (xi, ni) où xi est une modalité de la variable X et ni le
nombre de fois où cette modalité est observée dans la population ou l’échantillon. On
appelle ni effectif ou fréquence absolue.
A la place de la fréquence absolue n i, on peut mettre fi qui est la fréquence relative ou
tout simplement la fréquence ou la proportion de la modalité x i et qui est calculée par
fi = ni /n ( n étant l’effectif total des observations ou la taille de l’échantillon) : n=
n1+n2+…+ nk, k étant le nombre des modalités.
La distribution statistique est alors représentée par l’ensemble des couples (xi, fi)
Généralement une distribution statistique se présente sous forme d’un tableau.
9°. Paramètres.
Ce sont des indicateurs numériques ou des valeurs caractéristiques d’une distribution,
c'est-à-dire servant à synthétiser un ensemble des données. Exemple : la moyenne, le
mode, la médiane, la variance, etc.
1.4. LES LOGICIELS DE TRAITEMENT DES DONNEES STATISTIQUES

Les logiciels de traitement des données sont nombreux et, pour la plupart, très bien
construits et très faciles à utiliser. Nous allons citer ici les plus importants :

• Le logiciel Excel, produit par Microsoft, est sûrement le plus connu et le plus
utilisé ; la version la plus récente contient une partie des procédures
statistiques utilisées dans les analyses des données.
• StatBox et Questions, mis au point par la firme Grimmer Logiciels, sont des
logiciels conçus spécialement pour l’analyse des données d’enquête ; ces
logiciels fonctionnent à partir du logiciel Excel de Microsoft.
• Le Sphinx, dont le concepteur est Jean Moscarola, professeur à Grenoble, est
un logiciel utilisé surtout pour la recherche marketing.
• Minitab est un logiciel statistique puissant qui propose un grand nombre de
procédures statistiques.
• Le logiciel SAS ( Système d’Analyse Statistique) a été conçu au départ pour le
calcul économique et les modèles de régression ; par la suite, on l’a adapté de
façon à y inclure les méthodes les plus connues de l’analyse des données.
• Le logiciel SPSS (Statistical Package for the Social Sciences) a été créé, au
tout début, pour les besoins des psychologues. Avec le temps (cette entreprise
existe depuis 1965), on a intégré un grand nombre de procédures statistiques
tout en facilitant le travail de manipulation des données.
Dans l’ensemble, tous les logiciels statistiques se valent. A la longue, de

perfectionnement en perfectionnement, ils finissent par tous se ressembler. Quatre
éléments vont surtout jouer dans l’achat d’un logiciel de traitement des données :
• L’apprentissage : le logiciel dans lequel on a appris le traitement des données a
une certaine longueur d’avance sur les autres (on évite de réapprendre le
maniement d’un logiciel).
• L’accessibilité : le produit est-il accessible dans notre ville ou dans notre
région ?
• La maniabilité : la simplicité dans l’entrée des données et dans les commandes
générales et particulières.
• Enfin, le coût du logiciel.
Dans ce cours, nous allons utiliser le logiciel SPSS sous Windows (ou à défaut le
logiciel Excel), car il arrive premier pour tous les critères énoncés ci-dessus. Après
avoir comparé les logiciels cités plus haut, le logiciel SPSS nous semble le plus

performant ; c’est véritablement la « Rolls Royce » des logiciels de traitement des

données.
EXERCICES
1. Dites si les variables suivantes sont qualitatives (dichotomiques, polytomiques
ordonnées ou nominales), quantitatives (discrètes ou continues) : a) Ventes
annuelles
b) Taille de la cannette de boisson (petite, moyenne, grande)
c) Classification des employés (GS1 à GS18)
d) Revenu d’un travailleur dans une entreprise
e) Méthode de payement (liquide, chèque, carte de crédit)
f) Age
g) Sexe
h) Classe sociale (pauvre, moyen, riche)
i) Marque d’un véhicule
j) Nombre de personnes en faveur de la peine de mort
2. Une agence gouvernementale californienne classe les postes des

travailleurs en trois catégories : professionnels, cols blancs ou cols bleus . Les
données sont enregistrées de la manière suivante :1 correspond à la
catégorie « professionnel », 2 correspond à la catégorie « col blanc » et 3 à la
catégorie « col bleu ». La variable est le poste occupé par un travailleur. Est-
ce une variable qualitative (dichotomique, polytomique ordonnée ou nominale),
quantitative continue ou discrète ?
CHAPITRE 2 : ORGANISATION ET REPRESENTATION GRAPHIQUE DES

DONNEES STATISTIQUES
2.1. DES DONNEES BRUTES A LA DISTRIBUTION DES
FREQUENCES
2.1.1. Dépouillement des observations
Les données statistiques issues d’une enquête ou d’une expérience se
présentent sous forme des mesures qui ont été réalisées sur les individus de la
population ou d’une partie de celle-ci. Ces mesures se présentent généralement
sous forme d’une série statistique nécessitant une analyse statistique descriptive
préalable. Dans son état initial, la série statistique brute est en vrac et
désordonnée sans qu’on soit en mesure d’assimiler l’information qu’elle renferme
ou de procéder à des analyses. Elle nécessite d’être arrangée, grâce à l’opération
de dépouillement, en distribution de fréquences.

2.1.1.1. Pointage et comptage

Une même valeur peut être rencontrée plusieurs fois dans une série statistique.
Il est alors possible de condenser l’information en établissant un tableau de
dépouillement comprenant trois colonnes :
a) La 1ere colonne « valeur » indique, selon l’ordre choisi, les modalités de la
variable représentées par la notation xi
b) La 2e colonne « pointage » enregistre le dénombrement qui s’effectue en
inscrivant une barre sur la ligne représentant la valeur lue. Pour faciliter le
comptage, les barres sont rassemblées par groupe de 5, Soit par la
méthode dite «du balai » pointage en pâturage :
IIII
Soit par la méthode dite « du pendu » appelée aussi pointage en carreaux
c) La 3e colonne « comptage » récapitule l’effectif de chaque valeur.
Exemple : Cas d’une variable quantitative discrète.

Une enquête portant sur 153 ménages échantillonnés fournit la série
statistique ci-après exprimant le nombre d’enfants à charge dans les ménages dans
une ville :
4, 3, 3, 5,4, 4, 5, 6, 7, 5, 3, 3, 4, 6, 5, 8, 1, 2, 4, 5, 5, 3, 4, 4, 8, 3, 5, 4, 6, 6, 6, 7, 4, 4, 5,
6, 5, 2, 1, 4, 5, 4, 3, 3, 4, 4, 5, 6, 1, 1, 2, 3, 6, 10, 4, 3, 4, 5, 6, 5, 0, 2, 3, 4, 5, 5, 4, 6, 6, 5,
4, 2, 3, 4, 4, 5, 6, 6, 6, 5, 3, 3, 9, 5, 5, 6, 7, 5, 4, 2, 2, 1, 1, 1, 6, 8, 8, 4, 2, 1, 4, 5, 2, 5, 6,
6, 3, 6, 5, 4, 1, 2, 2, 6, 6, 5, 3, 3, 1, 10, 3, 6, 4, 3, 5, 4, 6, 6, 2, 1, 5, 7, 10, 3, 3, 4, 4, 5, 6, 1,
6, 3, 3, 5, 2, 8, 9, 3, 4, 7, 8, 6, 9.

Cette série de données est peu engageante, moins assimilable et il est

impossible de l’analyser telle qu’elle est. Construisons la distribution des fréquences
de ces données sous forme d’un tableau des fréquences absolues (ou relatives). Ce
tableau est obtenu à l’aide de l’opération de dépouillement. La méthode du balai de
la série statistique ci-dessus se présente comme suit :
Tableau 2.1 : Distribution du nombre d’enfants à charge dans 153 ménages à

Lubumbashi.
xi Fréquence Fréquence Fréquence Fréquence

absolue relative fi ( Cumulée cumulée
en %)
ni ascendante descendante
FCa FCd
0 1 0.7 1 153
1 12 7.8 13 152

2 13 8.5 26 140
3 24 15.7 50 127
4 30 19.6 80 103
5 29 18.9 109 73
6 27 17.6 136 44
7 5 3.3 141 17
8 6 3.9 147 12
9 3 2.0 150 6
10 3 2.0 153 3
Total 153 100
Exemple 2 : Cas d’une variable quantitative continue.

Nous souhaitons étudier le prix d’un article dans un milieu A. Nous
disposons pour cela de tous les prix pour 150 points de vente implantés dans le milieu
A commercialisant l’article considéré. La variable étudiée c’est le prix de l’article.
L’unité statistique c’est tout point de vente dans le milieu A commercialisant l’article.
les données brutes recueillies sont les suivantes :
17, 8, 19, 9, 9, 17, 10, 19, 16, 10, 10, 16, 16, 10, 17, 19, 11, 18,11, 15, 15, 11, 11, 11,
11, 17, 12, 12, 12, 12, 12, 12, 17, 12, 12,18, 12, 12, 13, 13, 13, 20, 13, 13, 17, 13, 19,
15, 15, 17, 13, 18, 13, 13,17, 13, 13, 17, 13, 13, 17, 14, 18, 14, 14, 14, 14, 18, 14, 14,
12, 19, 14, 14, 21, 14, 14, 15, 14, 14, 19, 21, 14, 14, 14, 14, 14, 14, 14, 15, 18, 15, 16,
18, 15, 15, 18, 17, 15, 15, 20, 15, 13, 17, 13, 20, 13, 13, 22, 15, 15, 15, 20, 18, 15, 17,
15, 15, 15, 15, 15, 12, 15, 16, 16, 17 ,16, 16,18, 16, 16, 16, 16, 16, 17, 16, 18, 14, 17,
14, 16, 16, 16, 17, 16, 16, 16, 16, 16, 18.
En examinant la série statistique ci-dessus on peut relever que les

modalités observées de cette variable sont 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
20, 21, 22. Après dépouillement on établit la distribution des fréquences ci-après
Tableau 2.2. : Distribution des fréquences du prix d’un article dans 150 points de
vente en milieu A.
Prix xi Effectif (fréquence Fréquences relatives fi
absolue) (en %)
ni

8 1 0,7
9 2 1,3
10 4 2,7
11 6 4,0
12 12 8,0
13 17 11,3
14 22 14,7
15 22 14,7
16 22 14,7
17 17 11,3
18 12 8,0
19 6 4,0
20 4 2,7
21 2 1,3
22 1 0,6
Total 150 100,0
Une série statistique relative à une variable quantitative continue peut être
également représentée par une distribution des fréquences avec des classes, c'est-
àdire une distribution où les modalités sont sous forme des classes. De manière
générale, lorsqu’une variable quantitative continue ou discrète comporte un très grand
nombre de modalités observées la meilleure façon de présenter la série statistique
correspondante est de former des classes et de construire une distribution des
fréquences en classes.
Une classe est un groupe de valeurs de la variable situées dans un
intervalle. Elle est définie par :
- une limite inférieure et une limite supérieure ;
- son centre de classe qui est la valeur centrale de la classe ; - son
amplitude ou longueur de classe.
2.1.2. GROUPEMENT EN CLASSES
Pour mettre en relief les caractéristiques d’une série, il est souvent

nécessaire de la condenser. Pour cela on découpe l’étendue en classes, et on

attribue au centre de chaque classe l’effectif de la classe. Notons que :
- le groupement dénature la série initiale : perte d’information et altération de son
contenu ;
- le groupement est dépendant du statisticien ou du chercheur : il est par
conséquent subjectif.
Le groupement en classes doit donc être choisi de manière à concilier les avantages
de la synthèse et les inconvénients d’une trop grande altération.
En principe, pour des raisons de commodité on procède à un découpage en
intervalles de classes égaux ou découpage en classes d’amplitudes égales.
Néanmoins des critères biologiques, économiques, sociaux, démographiques ou
autres peuvent conduire à un découpage en classes d’amplitudes inégales. Par
exemple, dans une étude de la consommation d’un produit par les personnes d’âges
différents on peut être amené à considérer les tranches d’âges présentant des
consommations différentes comme suit : 0 – 5 ans , 5 – 18 ans, 18 – 45 ans et ≥ 45
ans.
Pour la formation des classes deux cas sont à distinguer :
1° La borne supérieure d’une classe est inférieure à la borne inférieure de la
classe suivante. Très souvent la séquence des classes peut se présenter comme
suit : [a, b],
[b+1, c], [c+1, d], [d+1, e], …Ce type de découpage en classes est beaucoup plus
approprié à une variable quantitative discrète.
2° La limite supérieure d’une classe est égale à la limite inférieure de la classe qui
suit : La séquence des classes se présente comme suit : [a, b[ , [b, c[, [c, d[ ,…
2.1.2.1. DETERMINATION DU NOMBRE DE CLASSES PAR LA METHODE DE
LIORZOU
Le nombre de classes doit être choisi de manière à concilier les avantages de la
synthèse et les inconvénients d’une trop grande altération de la série statistique : un
petit nombre de classes entraînant la création des classes trop larges dénature
l’information originelle. En revanche un très grand nombre de classes entraîne la
création des classes trop étroites et n’aboutit pas à une bonne synthèse de
l’information. Le nombre de classes à retenir reste néanmoins du ressort de
l’appréciation du statisticien ou du chercheur.
LIORZOU propose la formule suivante pour la détermination du nombre de

classes. Si n est la taille de l’échantillon, alors le nombre k de classes est donné
par :
10logn
k  1
3
Ainsi l’amplitude des classes est alors :
W
a où W = Xmax – Xmin = étendue de la série.
k 1
La limite théorique inférieure de la première classe sera :
a
Linf = Xmin - 2
et la limite supérieure d’une classe est obtenue en ajoutant l’amplitude a à sa limite
inférieure. La limite inférieure de toute autre classe est égale à la limite supérieure de
la classe qui précède.
Le tableau 2.3 qui suit représente la distribution des fréquences en classes
du prix d’un article observé sur 150 points de vente dans le milieu A. Ce
regroupement en classes est d’amplitude 2 pour toutes les classes.
Tableau 2.3. : Distribution en classes du prix d’un article dans le milieu A
observé dans 150 points de vente.
Durée en Centres des Fréquence Fréquence FCA FCD
classes classes absolue relative
xi ni fi
[7 - 9 [ 8 1 0,67 1 150
[ 9 – 11[ 10 6 4 7 149
[11 – 13[ 12 18 12 25 143
[13 – 15[ 14 39 26 64 125
[15 – 17[ 16 44 29,33 108 86
[17 – 19[ 18 29 19,33 137 42
[19 – 21[ 20 10 6,67 147 13
[21 – 23[ 22 3 2 150 3
Total 150 100

On appelle densité de fréquence relative la fréquence relative divisée par l’amplitude

de la classe : fi/a Exercice.
Soit la série statistique ci-dessous relative au prix du même article dans le
milieu B observé dans 200 points de vente.
28, 51, 38, 45, 29, 31, 32, 54, 38, 38, 39, 33, 41, 34, 34, 34, 34, 34, 34, 34, 35, 47, 47,
40, 47, 47, 48, 48, 35, 35, 35, 35, 35, 36, 50, 36, 36, 36, 36, 36, 36, 36, 36, 37, 52, 53,
37, 37, 37, 31, 31, 37, 37, 37, 37, 37, 37, 38, 35, 35, 38, 38, 38, 41, 41, 41, 41, 32, 38,
38, 38, 45, 45, 39, 45, 47, 30, 40, 40, 40, 39, 39, 44, 44, 40, 40, 41, 41, 33, 33, 41, 41,
41, 41, 41, 41, 42, -+ 42, 30, 38, 33, 34, 41, 41, 41, 38, 38, 38, 42, 42, 42, 42, 42, 36,
36, 36, 42, 42, 42, 42, 42, 42, 40, 40, 40, 40, 42, 42, 43, 32, 43, 43, 43, 43, 43, 43, 43,
43, 43, 43, 43, 44, 44, 44, 32, 33, 33, 44, 26, 27, 35, 39, 39, 39, 35, 44, 44, 44, 44, 45,
45, 45, 40, 40, 40, 40, 45, 39, 39, 39, 39, 45, 46, 37, 39, 39, 39, 39, 39, 45, 37, 37, 46,
46, 46, 46, 46, 46, 46, 47, 48, 48, 44, 40, 40, 43, 32, 49, 49, 49.
Regroupez cette série en classes en utilisant la technique de regroupement de
Liorzou.
Solution :
- Nombre de classes : k = 1+ =9
- L’étendue de la série : W = 54 – 26 = 28
- L’amplitude : a = = 3,50
- Limite inférieure de la 1ère classe :
Linf = 26 - = 24,25
Ainsi on formera les classes ci-après :
[24,25 ; 27,75[ ; [27,75, 31,25[ ; [31,25, 34,75[ ; [34,75 ; 38,25[ ; [38,25 ; 41,75[ ;
[41,75 ; 45,25[ ; [45,25 ; 48,75[ ; [48,75 ; 52,25[ ; [52,25 ; 55,75[.
Tableau de dépouillement

Ainsi le tableau de la distribution en classes est repris ci-après :

Tableau 2.4 : Distribution en classes du prix d’un article observé dans 200
points de vente en milieu B.
Classes Centre de classe Fréquence Fréquences
absolue relative fi
xi
(en %)
ni
24,25 – 27,75 26 2 1,0
27,75 – 31,25 29,5 7 3,5
31,25 – 34,75 33 19 9,5
34,75 – 38,25 36,5 49 24,5
38,25 – 41,75 40 48 24,0
41,75 – 45,25 43,5 49 24,5
45,25 – 48,75 47 18 9,0
48,75 – 52,25 50,5 6 3,0
52,25 - 55,75 54 2 1,0
Total 100
2.1.3. Les tableaux stem and leaf

A coté des tableaux de distributions de fréquences nous pouvons citer les
tableaux « stem and leaf » qui signifient littéralement tableaux des « tiges et feuilles ».

Ces tableaux rangent les données sous forme d’une colonne où figurent les racines
des valeurs de la variable et d’une autre où figurent les unités.
Exemple : série statistique de la variable « salaire mensuel » dans une entreprise.
124,142,181,192,129,141,173,157,105,133,127,196,164,163,164,179,148,143,150,16
9,165,
188,93,172,152,121,201,187,167,161,152,177,164,174,195,166,169,200,181,138 Tableau
2.5. Tableau tiges et feuilles de la variable salaire mensuel dans une entreprise.
Tige Feuilles
9 3
10 5
11
12 4971
13 38
14 2183
15 7022
16 4349571469
17 39274
18 1871
19 265
20 10
Le stem and leaf permet de faire ressortir le tableau de distribution en classes
d’amplitude 10 et surtout de conserver les données initiales. Les fréquences peuvent
être formées à partir de la colonne des feuilles. En même temps le stem and leaf
visualise une sorte d’histogramme de la distribution des fréquences.
A coté des tableaux des distributions des fréquences relatives aux séries
simples il existe des tableaux à double entrée qui se rapportent aux séries doubles.
C’est le cas des tableaux de contingence ou tableaux de dépendance.
2.1.4. Distribution des fréquences d’une variable qualitative.
Les distributions des fréquences d’une variable qualitative sont semblables à
celles des distributions des fréquences relatives aux variables quantitatives. Les
tableaux correspondants reprennent dans une colonne les modalités de la variable
qualitative et dans une autre colonne les effectifs ou fréquences relatives de ces
modalités. Chaque effectif représente le nombre d’individus de la population ou
d’échantillon présentant la modalité correspondant. Les fréquences relatives de ces
modalités expriment la proportion des individus de la population présentant ces

modalités.
Exemple : le restaurant – grill Leverock, situé sur le front de mer, à Maderia Beach en
Floride demande à ses clients de remplir un questionnaire d’évaluation concernant le
service, la qualité des plats, les cocktails, les prix et l’ambiance du restaurant. Chaque
caractéristique est évaluée sur une échelle allant d’excellent (E) à mauvais (M), en
passant par très bon (T), bon (B) et moyen (MO). Les données statistiques suivantes
concernent la qualité des plats :
B E T B MO E T E T B E T T
T E M T E B MO E E E B E T
T MO B E T M T E E B E E
E B MO E T E E B T MO B MO
a) Quelle en est la distribution des fréquences ?
b) Quelle est votre opinion concernant la qualité des plats dans ce restaurant ?
Tableau 2.6. Tableau de distribution de fréquences de la qualité des plats
du restaurant - grill
Qualité de Pointage(méthode ni fi(%)
plats du balai)
E IIII IIII IIII IIII 19 38

T IIII IIII III 13 26
B IIII IIII 10 20
MO IIII I 6 12
M II 2 4
TOTAL 50 100
2.2. REPRESENTATION GRAPHIQUE DES DONNEES STATISTIQUES

Les graphiques ou graphes sont des représentations imagées, illustrées des
données inscrites dans les tableaux. Ils sont plus parlants et présentent, d’un seul
coup d’œil, l’ensemble de la situation. Ils attirent davantage l’attention et facilitent la
compréhension.

Il existe différents types de graphiques dont certains sont beaucoup plus

appropriés à certains types de caractères.
2.2.1. Graphiques représentant des caractères qualitatifs.
1. le diagramme à barres (ou à colonnes ou encore tuyaux d’orgue)
Ce graphique s’inscrit entre deux axes perpendiculaires : l’axe vertical ou axe
des ordonnées et l’axe horizontal ou axe des abscisses. L’axe vertical est gradué
selon une échelle indiquant les fréquences des modalités du caractère. Sur l’axe
horizontal on note les bases des colonnes. Ces bases sont de mêmes longueurs et
équitablement espacées. Elles désignent les différentes modalités du caractère. Les
colonnes ou rectangles dressés au dessus de chaque base sont de hauteurs
proportionnelles aux fréquences des modalités correspondantes.
Exemple du diagramme à barres : la figure 1 qui suit est le diagramme à barres de la
qualité des plats.
FIGURE 1 : DIAGRAMME A BARRES DE LA QUALITE DES PLATS AU
RESTAURANT GRILL.
20
18
16
14
12
10 ni
8 Pointage
6
4
2
0
E T B MO M
2. Le diagramme en secteurs ou digramme circulaire (CAMEMBERT OU FROMAGE).

On trace un cercle. La surface de ce cercle représente 100%, c'est-à-
dire la totalité des valeurs (fréquences). On divise le cercle en secteurs
proportionnels aux différentes valeurs exprimées en pourcentages des modalités
considérées. Pour cela, il faut calculer l’angle au centre de chaque secteur au moyen
de la formule :
Valeursen% x360

angleendeg rés.
100
Exemple : calculons les angles relatifs à la qualité des plats dans le restaurant Grill
Tableau 2.6. : Qualité des plats au restaurant Grill.
QUALITE ni fi (%) Angles(°)
E 19 38 136,8
T 13 26 93,6
B 10 20 72
MO 6 12 43,2
M 2 4 14,4
Total 50 100 360
FIGURE 2. DIAGRAMME EN SECTEURS DE LA QUALITE DE PLATS
ni
E
T
B
MO
M
2.2.2. Graphiques représentant les caractères quantitatifs.

1. Le diagramme en bâtons.
Pour le construire, on trace deux axes perpendiculaires, l’axe horizontal
appelé axe des abscisses ou axe des x et l’axe vertical appelé axe des ordonnées ou
axe des y. Le long de l’axe des abscisses on place des points régulièrement espacés.
Sous ces points on indique les différentes valeurs du caractère étudié. Sur l’axe des
ordonnées on porte une échelle correspondant aux effectifs (ou aux fréquences
relatives) des valeurs du caractère. A partir des points marqués sur l’axe des
abscisses on trace des segments de droite ou bâtons dont la longueur est

proportionnelle aux effectifs des valeurs correspondantes.
La figure 3 qui est le diagramme en bâtons représentant la distribution des
enfants à charge dans 153 ménages à Lubumbashi.
FIGURE 3. DIAGRAMME EN BATONS DES ENFANTS A CHARGE DANS
153 MENAGES A LUBUMBASHI.
Effectifs
35
30
30 29
27
25 24
20
Effectifs
15
13
12
10
6
5
5
3 3
0
1 2 3 4 5 6 7 8 9 10 11 12
Le diagramme en bâton est un graphe plus adapté aux caractères quantitatifs

discontinus.
2. le diagramme de points (dot plot)
On trace un axe horizontal gradué selon une échelle couvrant l’étendue de la
série. Au dessus de chaque valeur d’abscisse représentant une modalité de la série
est marqué un nombre de points correspondant à l’effectif de cette modalité.
La figure 4 ci-après représente le diagramme de points correspondant à la
distribution des fréquences du prix d’un article dans 150 points de vente en milieu A
dont les données sont renfermées au tableau 2.2.
Fig. : dot plot du prix d’un article dans 150 points de vente en milieu A.
.
.

. .
. . .
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
3. L’histogramme.
L’histogramme est utilisé lorsque la variable est quantitative continue et ses
modalités regroupées en classes. L’histogramme est un diagramme à barres dont les
rectangles sont contigus (c’est à dire qui se touchent).
En cas des classes d’amplitude a identique, la longueur de chaque
rectangle est égale à l’effectif (ou à la fréquence relative) de la classe. A chaque
classe on associe un rectangle dont la base est délimitée par les extrémités de la
classe et dont la hauteur est proportionnelle à l’effectif n i (ou à la fréquence fi) de la
classe.
La figure 5 ci-après représente l’histogramme du tableau 2.4.
FIGURE 5 : HISTOGRAMME DE LA DISTRIBUTION EN CLASSES DU PRIX D’UN
ARTICLE OBSERVE DANS 200 POINTS DE VENTE EN MILIEU B. Graphique

60
50 49 49
48
40
30
20 19
18
10
7
6
2 2
0
Fréquences
En cas des classes d’amplitudes variables la hauteur du rectangle = effectif /

amplitude ou
= fi/ai= densité de fréquence
4. Le polygone de fréquence
La représentions graphique des fréquences absolues ou relatives est appelée
polygone de fréquence. Sur l’axe horizontal, on note la valeur des observations ou de
leurs classes et sur l’axe vertical, les fréquences absolues ou relatives.
FIGURE 6 : POLYGONE DE FREQUENCE DE LA DISTRIBUTION EN CLASSES

DU PRIX D’UN ARTICLE OBSERVE DANS 200 POINTS DE VENTE EN MILIEU B.

5. L’ogive
La représentions graphique d’une distribution cumulée est appelée une ogive.
Sur l’axe horizontal, on note la valeur des observations et sur l’axe vertical, les
fréquences cumulées.
FIGURE 7 : OGIVE DE LA DISTRIBUTION EN CLASSES DU PRIX D’UN ARTICLE
OBSERVE DANS 200 POINTS DE VENTE EN MILIEU B.
Classes FCA
250
200
150
100
Classes FCA
50
0
24,25 27,75 31,25 34,75 38,25 41,75 45,25 48,75 52,25
– – – – – – – – -
27,75 31,25 34,75 38,25 41,75 45,25 48,75 52,25 55,75
EXERCICES
1. une société de transport en commun dispose de 500 véhicules. Afin d’étudier le
taux de pannes, sa direction d’exploitation enregistre au cours du mois de juin,
jour après jour, le nombre de véhicules en panne.

4, 5, 2, 3, 6, 5, 4, 7, 8, 9, 11, 7, 6, 9, 12, 2, 4, 7, 5, 3, 6, 5, 10, 12, 15, 13, 10, 8, 9, 12

Représenter la série par un diagramme en bâtons
2. On donne le poids de 30 personnes en kilogramme force : 70, 50, 67, 61, 57,
80, 95, 82, 58, 63, 88, 77, 96, 72, 64, 69, 56, 61, 59, 91, 93, 90, 78, 76, 73, 58,
60, 86, 95, 53
Représenter cette série statistique au moyen d’un diagramme approprié
Prix du repas en $ Fréquence

25 - 34 2
35 - 44 6
45 - 54 4
55 - 64 4
65 - 74 2
75 - 84 2
3. Le prix d’un repas au restaurant La Maison French a la distribution de

fréquences suivante :
Représenter cette distribution au moyen d’un histogramme.
CHAPITRE 3 : SYNTHESE DES DONNEES STATISTIQUES A L’AIDE DES
PARAMETRES
Les tableaux des distributions de fréquences et leurs représentations
graphiques permettent d’apprécier l’ordre de grandeur de valeurs de la série, leur
variabilité et la forme de leurs distributions. L’étape suivante consiste à résumer les
données grâce à un certain nombre de paramètres caractéristiques. Les paramètres
sont des valeurs numériques permettant de résumer et de réduire une série statique.
Les paramètres statistiques sont de trois sortes :
 Les paramètres de position ont pour objet de situer le point autour duquel les
valeurs observées se distribuent. Ils indiquent leur position par rapport aux
autres valeurs de la série. On les appelle aussi paramètres de localisation ou
de tendance centrale.

 Les paramètres de dispersion donnent des renseignements sur la variabilité

ou la dispersion de la série statistique.
 Les paramètres de forme, moins utilisés, renseignent sur la forme de la
distribution statistique.
3.1. Conditions de Yule

Le statisticien britannique Yule a énoncé un certain nombre de propriétés souhaitées
pour les paramètres des séries statistiques. Dans son schéma, une caractéristique
statistique doit être une valeur-type :
1) Définie de façon objective et donc indépendante de l’observation ;
2) Dépendantes de toutes les observations ;
3) De signification concrète pour être comprise par des non-spécialistes ;
4) Simple à calculer ;
5) Peu sensible aux fluctuations d’échantillonnage ;
6) Se prêtant aisément aux opérateurs mathématiques classiques.
3.2. Les paramètres de position.
1. La moyenne arithmétique
La moyenne arithmétique est la valeur la plus couramment utilisée en
statistique. Elle caractérise la tendance centrale d’un ensemble de données
numériques.
La moyenne arithmétique d’une série statistique est le quotient de la
somme de ses termes par leur nombre.
- Cas des données non groupées : Soit la série statistique composée de n
valeurs x 1, x2, x3, … , x n.
La moyenne arithmétique simple de cette série est donnée par
x  x1  x2n...xn  1nin1 xi
Exemple : calculer la moyenne des tailles suivantes en cm :180, 183, 176, 193,
163,188.
x =   180,5cm
- Cas des données groupéés ( ou admettant distributions des fréquences) :

La moyenne arithmétique pondérée est donnée par :
Dans cette formule

k
n  ni est l’effectif total ou taille de l’échantillon ;

i1
x est la ième modalité de la variable X ou encore le centre de la classe

n° i ; k est le nombre de modalités ou de classes ; n i est l’effectif de la
modalité ou de la classe n° i.
Ex : Les notes sur 20 obtenues par un candidat à une session d’examen dont
les épreuves admettent pour coefficients de pondération 3 ,5 , 1 et 1 sont
respectivement 10,12,14 et 8 . la moyenne arithmétique pondérée vaut
2. La moyenne géométrique
A coté de la moyenne arithmétique il existe la moyenne géométrique et la
moyenne harmonique et la moyenne quadratique
- La moyenne géométrique simple est la racine nième du produit des n valeurs de
l’échantillon :
xg  n (x1)(x2)....(xn ) logxg  logx1 
lognx2...logxn  1n in1 logxi
La moyenne géométrique est donc l’antilogarithme de la moyenne arithmétique

des
Logarithmes des valeurs observées :
1n
ni1 log xi
xg  10
EX : La moyenne géométrique simple d’un élève ayant obtenue les notes 7,8 et 9
est :
xg = 3√7.8.9 = 7, 96
_ La moyenne géométrique pondérée est donnée par :

EX : Mademoiselle jolie a commandée 22 plateaux d’œufs dans une ferme dont les
prix sont les suivants :
5 plateaux d’œufs de poules à 15$
8 plateaux d’œufs de pintades à 3$
7 plateaux d’œufs de canards à 12$
2 plateaux d’œufs de dindons à 25$
Calculer le prix moyen géométrique pondéré
3. La moyenne harmonique
La moyenne harmonique simple X H est une moyenne telle que son inverse est la
moyenne arithmétique des inverses des valeurs de la série :
1 1n 1 n
X H  n i1 xi . ; D’où X H  n 1
 i1 xi
EX : Un voyageur a parcouru la distance de 120 km dans un train qui
roula à 40km/h à l’aller et 60km/h au retour. Calculer la vitesse moyenne
harmonique.
4. La moyenne quadratique
La moyenne quadratique Xq est la racine carrée de la moyenne arithmétique des
carrés des observations .
5. Le mode.
Le mode d’une série statistique est la valeur de la variable observée le
plus grand nombre de fois. Ou encore c’est la valeur de la variable à laquelle
correspond l’effectif le plus grand (la fréquence la plus élevée).
Dans le cas d’une série groupée sans classes, le mode correspond à la

modalité ayant la plus grande fréquence. Ainsi le mode de la distribution du

tableau 2.1 est Mo = 4, car son effectif 30 est le plus élevé. Ainsi par ménage on
observe le plus souvent 4 enfants à charge dans la ville de Lubumbashi.
Dans le cas d’une série groupée en classes on parle de la classe modale,
c'est-à-dire celle qui correspond à la plus grande fréquence si toutes les classes
ont la même amplitude ou intervalle de classe. Dans ce cas on détermine le mode
par interpolation linéaire qui conduit à la formule :
1 a
Mo  Li 
1  2 où Mo
symbolise le mode
Li est la limite inférieure de la classe modale ;

∆1 est l’excédent de la fréquence de la classe modale sur celle de la classe
immédiatement
inférieure ;
∆2 est l’excédent de la fréquence de la classe modale sur celle de la classe
immédiatement
supérieure ; a est l’amplitude de la
classe modale.
Il peut arriver qu’une série statistique possède plusieurs modes : série
bimodale ou plurimodale.
Exemple : la distributions du tableau 2.2 possède trois valeurs modales : 14 ,15
et16, car elles ont toutes les trois la même plus grande fréquence égale à 22. Il
peut se faire aussi que le mode n’existe pas.
6. La médiane et les quantiles
a. La médiane est la valeur de la variable qui partage une série statistique en deux
parties
de même effectif telles que l’une des parties comprend des valeurs inférieures à la
médiane et l’autre des valeurs supérieures à la médiane. Pour trouver la médiane on
distingue le cas des données non groupées et le cas des données groupées.
1°. Cas des données non groupées.
La première opération consiste à ranger les données par ordre des

grandeurs croissantes.
- Si l’effectif n de la série ordonnée est impair, alors la médiane est
l’observation n 1
d’ordre , soit l’observation xn1
2 2
Exemple : soit la série du prix de 1 kg de viande dans 5 boucheries :

3510 FC, 3500 FC, 3150 FC, 3720 FC, 3200 FC
La série des valeurs ordonnées est alors 3150, 3200, 3500, 3510, 3720.
La médiane est l’observation d’ordre 3

c’est-à-dire la 3e valeur de la série des valeurs ordonnées ; d’où la médiane,
symbolisée par Me = 3500FC
- Si l’effectif n de la série des valeurs ordonnées est pair, alors la médiane est la
moyenne arithmétique des observations xn et xn
1
2 2
xn  xn
1
d’où Me = 2 2
2
Exemple : n = 6 ; la série des valeurs ordonnées est : 3150, 3200, 3500, 3510,
3720, 3800.
 x4 35003510
Alors la médiane de cette série est Me  x3  =3505e
2 2
2°. Cas d es données groupées sans classes( admettant une distribution des
fréquences)
Ici, il faut aussi distinguer les séries ayant un effectif impair des données
de celles
comportant un effectif pair. Pour déterminer la médiane, on calcule préalablement les
effectifs cumulés ascendants.
 Si l’effectif total « n » est impair, la médiane coïncide avec une modalité de la
distribution telle que son effectif cumulé ascendant est le 1er qui est supérieur ou

1
égal à n
2
 Si l’effectif total « n » est pair, la médiane coïncide avec une modalité de la
er
qui est supérieur
à n . distribution telle que son effectif cumulé ascendant est le 1
2
 Si l’effectif cumulé ascendant d’une modalité de la distribution est n
exactement égal à (n étant pair) alors la médiane de cette série est la moyenne 2
arithmétique de cette modalité et de la modalité immédiatement supérieure.
Exemple : la médiane de la distribution des enfants à charge dans 153 ménages de
Lubumbashi du tableau 2.1.
xi ni Effectif cumulé
ascendant
0 1 1
1 12 13  77
2 13 26
3 24 50
Me = 4 30
80
5 29
109
6 27
136
7 5
141
8 6
147
9 3
150
10 3
153
Total 153
La médiane de cette distribution est donc Me = 4
3°. Cas des données groupées en classes.
La détermination de la médiane d’une série en classes suit la procédure suivante :

- calcul des effectifs cumulés ascendants ;
- recherche de la classe médiane : la classe médiane est celle où se situe la
médiane. Elle est telle que son effectif cumulé ascendant est immédiatement
n
supérieur ou égal à la moitié de l’effectif total 2
- Calcul de la médiane à l’aide de la formule d’interpolation ci après : n

Fcp
2
MeLi  am nm
où Me symbolise la médiane ;
Li est la limite inférieure réelle de la classe
médiane ; n est la moitié de l’effectif total n ; 2
n m est l’effectif de la classe médiane ;
am est l’amplitude de la classe médiane ;
FCp est l’effectif cumulé ascendant de la classe qui précède la classe
médiane.
b. Les quantiles. Les quantiles sont des valeurs possibles de la variable X qui
partagent la série statistique correspondante sous forme des valeurs ordonnées en r
parties ayant le même effectif. Pour un partage en r parties, il y a (r-1) quantiles. En
pratique, on utilise les quantiles suivants :
1°. La médiane, symbolisée par Me, partage la série des valeurs ordonnées en 2
parties ayant le même effectif.
2°. Les quartiles, symbolisés par Q 1, Q2 et Q3 partagent la série des valeurs
ordonnées en
4 parties ayant le même effectif.
- Le quartile inférieur Q1 ou 1er quartile est la valeur de la série statistique telle
que 25% des valeurs lui sont inférieures et 75% des valeurs lui sont
supérieures.
- Le quartile supérieur Q3 ou 3e quartile est la valeur de la série statistique telle
que 75% des valeurs sont inférieures à Q 3 et 25% des valeurs sont
supérieures à Q3.
- Le quantile central Q2 ou 2e quartile n’est autre chose que la médiane de la
série statistique.
3°. Les déciles sont 9 valeurs de la variable qui partagent la série des valeurs
ordonnées en 10 parties ayant le même effectif. Ils sont symbolisés par D 1,
D2, D3,…,D9. 4°. Les centiles ou percentiles C 1, C2, C3,…, C99 partagent la série
des valeurs ordonnées en 100 parties ayant chacune le même effectif.
Formule générale pour le calcul des quantiles d’une série regroupée en classes.
n.p

F
cp
r
Qr,p  Li aq
nq
r est le nombre de parties (r = 2, 4, 10, 100) ;

r-1 est le nombre de quantiles ; p est l’ordre
du quantile ;
Li est la limite inférieure réelle de la classe du quantile ; aq
est l’intervalle ou amplitude de la classe du quantile Qr,p ;- nq:
est l’effectif de la classe du quantile Qr,p ;
Fcp est la fréquence cumulée de la classe directement inférieure à celle de Qr,p.

On notera que : Me = Q2 = D5 = C50 ;
Q1 = C25 ;
D1 = C10 ;
Q3 = C75.
Propriétés générales de la moyenne et de la médiane.
1. La moyenne dépend de la valeur de toutes les observations composant la
série, alors que la médiane dépend essentiellement de leur ordre.
2. La moyenne présente le défaut d’être sensible aux valeurs exceptionnelles ou
aberrantes ; la médiane n’est pas influencée par ces valeurs.
3.3. Les paramètres de dispersion.

Les paramètres de position, et en particulier la moyenne, la médiane et le
mode, sont insuffisants pour caractériser à eux seuls une série statistique. Ils donnent
des renseignements sur la tendance centrale de la série. Mais la variabilité des
valeurs de cette série n’est renseignée que par les paramètres de dispersion. Les plus
importants et les plus utilisés des paramètres de dispersion sont la variance, l’écart
type et l’étendue
1. La variance et l’écart-type.
La variance est définie comme la moyenne arithmétique des carrés des

écarts des valeurs d’une série statistique par rapport à leur moyenne arithmétique.
D’après cette définition, si x1, x2,…, xn constitue une série statistique comportant n
termes, la variance se calcule à l’aide de la formule :
²   x 1  x  2   x 2  x
n
2 ... xn  x2  1ni n1 xi  x2 ou encore

𝜎2 xi2
 i x2
n (formule de Huygens-Koenig)
1 n
Où x  n  i1 xi est la moyenne arithmétique de la série, et x i la valeur de la

variable
prise par le ième individu.

La formule précédente concerne une série non groupée. Si les données sont
groupées dans une distribution des fréquences, alors
2 1 k ni xi  x2
  ni1
𝜎2 n xi. i
2
 i
 x 2n
1k
avec 𝑥̅ = n i1 ni.xi
L’écart-type ou déviation standard est la racine carrée positive de la variance : σ=
2

L’écart-type est la déviation moyenne des données d’une série statistique par rapport
à leur moyenne arithmétique. Notez que l’unité de la variance est le carré de l’unité de
mesure de la variable étudiée, tandis que l’écart-type est exprimé dans la même
unité de mesure que la variable.
2. l’écart moyen
L’écart moyen d’une distribution est la moyenne arithmétique des valeurs absolues
des écarts entre chaque donnée et la moyenne arithmétique de cette distribution. Elle
se note
cas des données non groupées.
: cas des données groupées.

EX : soit 8, 10, 11, 12, 13, 14, 16 les notes hebdomadaires d’un étudiant dans un
cours donné. Calculer l’écart moyen et la variance.
3. Le coefficient de variation
C’est le rapport de la déviation standard à la moyenne arithmétique exprimé en

% ; il est donc exprimé par la formule CV= 100
x
4. l’étendue ou range.
L’étendue est la différence entre les valeurs maximale et minimale d’une
série statistique. Ainsi l’étendue représentée par W est égale à W = X max – Xmax.
L’étendue exprime la longueur de l’intervalle dans lequel sont éparpillées toutes les
valeurs de la série.
3.4. Les paramètres de forme.
La forme d’une distribution des fréquences ou d’une courbe des
fréquences est étudiée d’après son asymétrie (dissymétrie) et son aplatissement. Il
existe ainsi des paramètres indiquant la dissymétrie d’une courbe des fréquences et
ceux qui indiquent son degré d’aplatissement.
3.4.1. Les paramètres d’asymétrie.

1°. Le coefficient de Yule. Il est est donné par
Cy  Q3 Q2  Q2 Q1   Q3  Q1  2Q2

Q3 Q1 Q3 Q1
Le coefficient de Yule varie de -1 à 1.
- Les valeurs négatives de ce coefficient signifient qu’il y a dissymétrie à droite et
que les valeurs de la série sont beaucoup plus étirées vers la gauche.
- Les valeurs positives du coefficient signifient qu’il y a dissymétrie à gauche et que
les valeurs de la série sont beaucoup plus étirées vers la droite.
- La valeur 0 du coefficient signifie que la distribution est symétrique.
2°. Le coefficient d’asymétrie FISHER (Skewness) est donné par
γ1 =𝜇3 / σ 3
ni (xi  x) moment centré d’ordre r.
où 𝜇𝑟 = 1n ik1 r
Si γ1 < 0, la distribution est étalée vers la gauche ;

Si γ1 > 0, la distribution est étalée vers la droite ; Si γ1 = 0, la distribution
est symétrique.
Distribution étalée vers la gaucheDistribution étalée vers la droite Distri

symétrique
3.4.2. Le paramètre d’aplatissement (ou Kurtosis)
1. Le coefficient d’aplatissement de Fisher
Pour mesurer le degré d’aplatissement des courbes des fréquences on
utilise le coefficient
que l’on compare à la valeur 3 Si
γ2 >0, la distribution est leptokurtique ;
Si γ2 < 0, la distribution est platykurtique ;
Si γ2 = 0, la distribution est mésokurtique ou normale
3.5. LE DIAGRAMME EN BOITE (BOX-PLOT) OU DIAGRAMME DE TUKEY
Les principaux paramètres vus peuvent faire l’objet d’une représentation graphique
appelée « box –plot » ou « diagramme en boîte ». Ce diagramme donne les
informations suivantes :
- L’échelle horizontale (ou verticale) a une longueur égale à l’étendue de la série ;
- Sur cette échelle sont placés les trois quartiles ;
- Parallèlement à l’échelle est représenté un rectangle dont la longueur est égale à
Q 3 - Q1 ;
- Le rectangle est partagé en largeur par une ligne indiquant la médiane ;
- Le rectangle est prolongé de part et d’autre par deux lignes parallèles à l’échelle
horizontale, indiquant les valeurs maximale et minimale.
Cette représentation est aussi appelée « boîte à moustaches » dans certains
logiciels utilisés en statistique. Elle donne un aperçu sommaire sur une série
statistique et sur ses paramètres de position et de dispersion. Par ailleurs, dans les
représentations graphiques de données statistiques, la boîte à moustaches est un
moyen rapide de figurer le profil essentiel d’une série statistique quantitative. Elle a
été inventée en 1977 par John Tukey.
Voici le diagramme en boîte du prix d’un article en milieu A

Q2=14,5
Xmin=8 xmax=22
Q1 =12,7 Q3 =16,4
6 8 10 12 14 16 18 20 22 24
Exercices.
1. Déterminez les paramètres de position (moyenne, mode et quartiles) et
ceux de dispersion (variance et écart–type) de la distribution du prix d’un
article dans un milieu A représentée par le tableau 2.3.
Tableau 2.9. : Calcul des paramètres de position et de dispersion de la
distribution du prix d’un article dans le milieu A.
Classes Centres des Effectifs

classes ni nixi² cumulés
nixi ascendants.
xi
7–9 8 3 24 192 3
9 – 11 10 10 100 1000 13
11 – 13 12 29 348 4176 42
13 – 15 14 44 616 8624 86
15 – 17 16 39 624 9984 125

17 – 19 18 18 324 5832 143

19 – 21 20 6 120 2400 149
21 – 23 22 1 22 484 150
Total 150 2178 32692
- Le prix moyen de l’article dans ce milieu A :
x 14,52Fc
 29
- Le mode : Mo =Li+ 1 a  13 44  2 = 14,5 1 
2 44  29 44  29 n

75  42
Ncp
2
- La médiane : Me = Li+ am  13  2  14,5 nm 44 n
37,513
 Ncp
4
- Premier quantile :Q1 = Li+ aq 11 2 12,69
nq 29
3n
4  Ncp
aq 15 112,5862 16,36
- Troisième quantile : Q3=Li+
nq 39
- La variance :
L’écart type = σ=2,67

1. Les notes obtenues par un étudiant au cours d’une semaine sont :
a. 13, 4, 7, 7, 15, 17, 11
b. 13, 11, 12, 9, 9, 9, 9
Calculer la médiane dans chacun des cas ci-dessus.
2. Déterminer la médiane et le mode de chacune de distributions suivantes : a.
1, 4, 5, 0, 8, 2
b. 10, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 25, 26, 30
c. 18, 0, 8, 16, 10, 4, 4, 14, 2, 14
4. calculer l’écart moyen par rapport à la médiane de la série : 5, 12, 3, 15, 11, 11, 8.
5. On donne le poids de 30 personnes en kilogramme force : 70, 50, 67, 61, 57, 80,
95, 82, 58, 63, 88, 77, 96, 72, 64, 69, 56, 61, 59, 91, 93, 90, 78, 76, 73, 58, 60, 86, 95,
53
1. calculer pour cette distribution :
a. La moyenne
b. La médiane
c. Le mode
d. La variance et l’écart-type
e. L’écart moyen
2. Etudier pour cette distribution :
a. L’asymétrie suivant YULE et FISHER
b. Le Kurtosis
6. Soit le tableau suivant des données :
xi ni
4 2
6 5
8 8
10 10
12 4
14 1
Calculer la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique
et la moyenne quadratique.
7. Le prix d’un repas au restaurant La Maison French a la distribution de fréquences
suivante :

Prix du repas en $ Fréquence

25 - 34 2
35 - 44 6
45 - 54 4
55 - 64 4
65 - 74 2
75 - 84 2
Calculer la moyenne, la variance et l’écart type.

CHAPITRE 4 : LES INDICES STATISTIQUES

4.1. DEFINITION ET APPLICATIONS DES NOMBRES INDICES
Un indice est une mesure statistique, un nombre unique qui indique les variations ou
les changements intervenus dans une variable (grandeur) ou un groupe de variables
entre deux temps ou deux lieux différents. L’un de deux temps ou de lieux exprimera
la situation de base ou de référence et l’autre la situation actuelle ou courante. Si la
variable étudiée est considérée dans le temps les indices correspondants sont des
indices chronologiques, si elle est considérée dans l’espace les indices
correspondants sont des indices spatiaux.
Les applications des indices sont nombreuses et variées. Ils son utilisés en
économie, dans le commerce, dans le domaine de l’éducation, dans l’industrie,…On
parle des indices de salaire, de production, de l’emploi, de prix, du coût de la vie, etc.
Tous ces différents indices sont utilisés pour montrer les changements intervenus
dans une variable ou un groupe de variables de la situation de base (0) à la situation
actuelle (n). Par exemple, on parlera de l’indice de prix en 2007 par rapport à l’année
2003.
NB : L’indice ne donne aucune indication sur la grandeur absolue des phénomènes
étudiés.
4.2. LES INDICES ELEMENTAIRES OU INDICES SIMPLES
L’indice élémentaire ou l’indice simple est le rapport de la valeur d’une variable
à la situation actuelle (n) à sa valeur à la situation de base (0). Ce rapport est souvent
exprimé en pourcentage. En désignant par :
I : indice ; n : la
période actuelle ; 0 : la
période de base ;
Vn : la valeur de la variable à la période actuelle n ;
V0: la valeur de la variable à la période de base 0 ;
In/0 : l’indice élémentaire à la période n sur la base de la période 0 ;
Vn
x100 il vient : In/o 
Vo
Exemple : Indices élémentaires des ventes de la bière à la BRALIMA.

Année Quantités Indices simples Variation (en %)

vendues (en hl) calculés sur base
de 1973 (en %)
1973 288.634 100 -

1974 331.575 114,88 14,88
1975 304.790 105,60 5,60
1976 209.452 72,57 - 27,43
1977 130.255 45,13 - 54,87
1978 125.935 43,63 - 56,37
1979 91.086 31,56 - 68,44
L’indice de chaque année s’obtient en rapportant la valeur de l’année

considérée à la valeur de l’année de base 1973. Ainsi :
I1974/1973 = (331.575 / 288.634). 100 = 114,88%
I1978/1973 = (125.935 / 288.634). 100 = 43,63%
Pour les deux années considérées 1974 et 1978, la vente de la bière a connu
successivement une augmentation de 14,88 % et une baisse de 56,37% par rapport à
l’année de référence 1973.
L’indice peut être égal, inférieur ou supérieur à 100% selon que la valeur
considérée de la variable est égale, est inférieure ou est supérieure à la valeur de
l’année de base. L’indice élémentaire est un nombre pur, c’est–à–dire sans
dimension.
Propriétés des indices élémentaires.
Si I0, I1, I2, ..., In sont des indices élémentaires d’une variable aux temps 0, 1, 2, ...,
n on peut dégager les propriétés suivantes se rapportant à ces indices.
1°. L’identité : l’indice élémentaire pour une période donnée sur base de la même
V0 1 ou 100% période
vaut 1 ou 100%, c’est-à-dire I 0  
0 V0

2°. La réversibilité : si deux périodes sont inter changées, les nombres relatifs
correspondants
sont les réciproques l’un de l’autre, c’est-à-dire
1
1  1 0
0 I0 0 1
I 1 ou I .I  1 soit 100%
3°. La circularité : le produit des nombres relatifs successifs pour chaque période par
rapport à la période immédiatement antérieure vaut 1 ou 100% :
I 1 .I 2 .I 0 1
0 1 2
I 1 .I 2 .I 3 .I 0 1
0 1 2 3
4°. La transférabilité ou l’enchaînement : I 3  I 3 .I 2 .I 1

0 2 1 0
4.3. LES INDICES SYNTHETIQUES

Considérons une grandeur G complexe, c’est-à-dire constituée d’éléments
G1, G2,...,Gi, ... Par exemple G est le niveau des prix de détail : les constituants Gi
sont les prix des différents articles au stade final de leur commercialisation.
Les indices élémentaires des constituants Gi sont définis par
Pi
Ini  P0ni , Pni et P0i sont respectivement les prix de détails de Gi à la situation n et à la
0
situation 0. Le problème se pose de synthétiser en un indice unique, qu’on appellera

indice de la grandeur G, les indices élémentaires des constituants de G : c’est le
problème de construction des indices synthétiques.
4.3.1 Les indices agrégats (ou indice de moyennes)

Considérons Pni le prix unitaire d’une marchandise i à la période actuelle n et P0i
le prix unitaire de cette même marchandise à la période de base à 0.
a) L’indice agrégat non pondéré des k marchandises est le rapport entre la

somme des prix de ces k marchandises à la période actuelle et la somme de
k
P ni

leurs prix à la période de référence, d’où : Ia  i 1

k
P 0i
i1
Exemple
No Marchandises Prix unitaires en Prix unitaires en
I 1970 1975
P2000i (enFc) P2005i (enFc)

1 Riz 100 200
2 Viande 150 350
3 Poisson 240 280
4 Fruits 50 150
Total 540 980
P 2005i
En considérant 1970 comme année de référence : Ia  i 1

k   181,4%
P 2000i
i1
Cette valeur traduit une augmentation générale des prix de 81,4% du coût de ces
denrées de 2000 à 2005.
L’indice agrégat non pondéré présente deux inconvénients :
- Il ne prend pas en considération l’importance relative de différentes marchandises.
- Il est influencé par différentes unités de mesure utilisées pour chaque marchandise.
b) L’indice agrégat pondéré de k marchandises pondère le prix de chaque
marchandise considéré afin de remédier aux désavantages de l’indice non
pondéré. Très souvent on considère la quantité ou le volume de l’année de
k
P q
ni 0i

base comme coefficient de pondération : Ia  i 1

k où q0i est la quantité
P q
0i 0i
i1
consommée (vendue, commercialisée,…) de la marchandise i à l’année de

base 0.
Exemple
N° Marchandise Quantités P2000i P2005i P2000i q2000i P2005iq2000i
i s consommées en
1970
q2000i
1 Riz 5 kg 100 200 500 1000
2 Viande 1 kg 150 350 150 350
3 Poisson 1 kg 240 280 240 280
4 Fruits 1 panier 50 150 50 1760
940 1780
Ia  x100  189,3%
Cet indice traduit une augmentation générale de 89,3% 4.3.2
Indices moyenne arithmétique des indices élémentaires
Soient :
Pni le prix d’une marchandise i à la période actuelle n .
P0i le prix de la même marchandise i à la période de base 0.
L’indice élémentaire Ini /0 est donné par Ini /0  PP0nii
a. L’indice moyenne arithmétique des indices simples :

 k
Im  1k k PP0nii1 ik1 Ini /0

i1
Exemple
Marchandises Quantités P2000i P2005i Pi
consommées en I2005i  2005i
2000 P2000
2000 q2000i
1 Riz 5 kg 100 200 2,00

2 Viande 1 kg 150 350 2,33
3 Poisson 1 kg 240 280 1,17
4 Fruits 1 panier 50 150 3,00
8,5
Im   2,13 soit 213%

b. L’indice des moyennes arithmétiques pondérées, le coefficient de pondération
étant la valeur de chaque marchandise à la période de base
k
k Pniq0i
1
I i 1
k
1 k P0iq0i
i1
Cet indice se ramène à l’indice agrégat pondéré.

Exemple
No Marchandises P2iOOO P2005i q2000i P2000iq2000i P2005i q2000i
i
1 Riz 100 200 5 500 1000

2 Viande 150 350 1 150 350
3 Poisson 240 280 1 240 280
4 Fruits 50 450 1 50 450
940 2080
I 100  221,28%

3.3.3 Les indices synthétiques utilisés en pratique.

Ces indices on été mis au point par les économistes Laspeyres, Paasche et
Fisher. Nous distinguerons les indices de prix et ceux de quantités.
1. L’indice de Laspeyres
p ni q0i
 cas de prix :PL  p

i
0i q0i : il y a pondération des prix par les
quantités de
marchandises achetées à la période de base, ou par les quantités de biens

consommés à la période de base.
q ni p0i
 cas de quantité : QL  q i
0I p0i : il y a pondération des quantités
par les prix
des marchandises à la période de base. C’est une formule qu’on utilise pour
mesurer les indices des quantités à l’importation ou à l’exportation et pour les
indices de production industrielle. Il est à remarquer que les coefficients de
pondération des indices de Laspeyres appartiennent à la situation de référence
0.
2. L’indice de Paasche
 Cas de prix : PP  pnqn : il y a pondération des prix par les quantités à la
 pq 0 n
période actuelle.
 Cas de quantités : QP   pnqn : il y a pondération des quantités par les prix
 pq n 0
à la période actuelle.
Il est aussi à remarquer que les coefficients de pondération des indices de
Paasche appartiennent à la période actuelle n.
3. L’indice de Fisher.
L’indice de Fisher est la moyenne géométrique simple des indices de

Laspeyres et de Paasche.
p n q0 pn qn
 Cas de prix : PF L P  p0 q0
 p0 qn PP
 
p0 qn pn qn
 Cas de F QL QF   p 0 q0
 pn q0 quantités : Q 
 
EXERCICES
1. Le tableau ci-après reprend les prix en 2000 et 2002 ainsi que les quantités
moyennement consommées par mois de 10 produits et services représentant les
grands ensembles des biens consommés par une catégorie des ménages de
Lubumbashi.
N° Produits et Unité de Prix Prix Quantité Quantité
services mesure en en consommé consommé
I
2000 2002 e en 2000 e en 2002
p00i p02i q00i q02i

1 Farine de maïs Seau comm. 100 390 25 20
2 Huile somol bouteille 80 320 8 5
3 Savon Boite 500g 60 350 5 4
4 Poisson 1 kg 120 320 15 10
5 Thomson Colis type 800 1500 2 1
6 Poisson salé Mois 4000 8000 1 1
7 Loyer Enfant 500 1500 5 6
8 Frais d’études Boite emball. 150 300 2 1
9 Lait extra clair Comprimé 20 30 30 30
10 Quinine Course 15 40 100 80
Transport
Déterminer les indices des prix et des quantités en 2002 par rapport à l’an
2000 en utilisant les formules de Laspeyres, Paasches et Fisher. Interprétez les
indices de prix et de quantités de Laspeyres.
SOLUTION.

N° p00i p02i q00i q02i

I p00i q00i p00i q02i p02i q00i p02i q02i
1 100 390 25 20 2500 2000 9750 7800
2 80 320 8 5 640 400 2560 1600
3 60 350 5 4 300 240 1750 1400
4 120 320 15 10 1800 1200 4800 3200
5 800 1500 2 1 1600 800 3000 1500
6 4000 8000 1 1 4000 4000 8000 8000
7 500 1500 5 6 2500 3000 7500 9000
8 150 300 2 1 300 150 600 300
9 20 20 30 30 600 600 900 900
10 15 15 100 80 1500 1200 4000 3200
15740 13590 42860 36900
10
PL  i1 pp0200ii q00ii 100  42860
p i 00i q02i 100  13590100  86,34%

100  272,3% ; Q
q 00 15740 L   p00i q00i  15740
i i
PP   ppi
02ii qq02ii 100  13590 36900100  271,52% ; QP  i
pp02i q02ii 100  36900100
 86,09% i q 42860
 00 02 02 00 i
PF  p02i q00i pp02ii qq0202ii 100  1574042860 1359036900100 
271,9% pi qi
00 00  00

 pqi i
QF   p0000i02i   pp0202ii qq0002ii100 1574013590 3690042860100  86,2%
q00 
Les indices des prix et des quantités de Laspeyres traduisent respectivement
une augmentation générale des prix de 172,3% et une diminution de la consommation
de 13,7% de 2000 à 2002.
1. Les mesures en 2003 et en 2005 des prix unitaires et des quantités consommées
des articles A, B, C et D sont données dans le tableau ci-après :
2003 2005
Articles Prix Quantité Prix Quantité

A 5 100 7 80
B 20 15 30 25
C 10 50 12 90
D 3 200 4 200
Calculer l’indice synthétique des prix de Laspeyres et de Paasche en 2005 par rapport
à l’an 2003.
2. On dispose des informations suivantes :
Prix mensuel s
Articles Pondérations Janvier Février Mars Avril Mai

A 4 50 50,4 50,9 51 52
B 1 70 70,7 72 72,1 73
C 5 40 40,7 41,2 41,3 42

Calculer l’indice des prix des moyennes arithmétiques pondérées pour le mois
de février, mars, avril et mai, par référence chaque fois au mois qui précède.
CHAPITRE 5 : DISTRIBUTIONS STATISTIQUES A DEUX VARIABLES

5.1. Introduction
Lorsque les observations portent simultanément sur deux caractères, et lorsqu’elles
sont trop nombreuses pour qu’on les cite une à une, on les représente sous forme
d’un tableau à double entrée. On définit alors la distribution conjointe, les distributions
marginales et les distributions conditionnelles. L’étude de la distribution de deux
variables se poursuit par celle de leur liaison. L’étude de la liaison entre les variables
observées, appelée communément l’étude des corrélations, dépend de leur nature.
5.2. Notions de la corrélation
La corrélation est la liaison ou la dépendance entre deux ou plusieurs variables.
5.2.1. Types de liaison entre variables
Les liaisons entre variables ne sont pas toutes du même genre :
- certaines sont plus ou moins fortes ou plus ou moins faibles : elles sont donc
différentes par le degré d’intensité qui les caractérise ;
- d’autres sont linéaires ou curvilignes : elles sont différentes par la forme.
Le degré d’intensité de la liaison entre variables est déterminé par le coefficient et le
rapport de corrélation.
Etant donné que la liaison entre variables peut être forte ou faible, il est
indispensable d’étudier la validité de tout ajustement d’une variable par la fonction de
plusieurs autres : cela constitue le problème de la signification du coefficient ou du
rapport de corrélation ainsi que des cœfficients de régression : cela fait partie des
problèmes d’inférence statistique.
D’une manière générale, lorsque l’on considère deux variables, trois cas peuvent se
présenter :
1°. Une variable parmi les deux, par exemple la variable y, est parfaitement
déterminée par une fonction de l’autre variable x : y = f(x). Nous dirons qu’il y a
liaison fonctionnelle entre x et y. La variable x est dite variable explicative ou variable
indépendante ou encore variable exogène ; y est la variable expliquée ou variable

dépendante ou encore variable endogène. Exemple : lorsqu’on s’enfonce dans l’eau,

la pression augmente au fur et à mesure que la profondeur croît. A une profondeur
donnée, correspond toujours la même pression : il y a entre ces deux grandeurs
(profondeur et pression) une relation qui est vérifiée dans tous les cas ; on dit qu’il
s’agit d’une relation stricte, d’une liaison fonctionnelle ou d’une loi. La plupart des
relations entre les grandeurs du monde physique sont des lois.
Si nous établissons un diagramme représentatif ayant pour abscisse la
variable explicative x et pour ordonnée la variable expliquée y, tous les points
représentatifs du couple (x, y) se placeront exactement sur la courbe d’équation y = f
(x)
y = f(x)
2°. Supposons que les deux variables x et y varient d’une façon aléatoire sans
s’influencer mutuellement. Il n’y a aucun lien entre elles ; connaître la valeur de
l’une ne nous donne aucune information sur celle de l’autre. Nous dirons alors que
les deux variables sont indépendantes. Si nous établissons le diagramme
représentatif des couples des points (x, y), nous obtiendrons un nuage de points
dispersés n’importe comment y

. . x.
Exemple : considérons la quantité de deux produits non substituables et non

complémentaires offerte sur un marché. Supposons par exemple que x soit la
quantité d’huile de table et y la quantité de savons de lessive offertes sur le marché.
La variation de x n’entraîne pas celle de y et vice versa. Les deux variables sont
indépendantes.
3°. Supposons que nous ayons deux variables x et y telles que la variation de
l’une entraîne plus ou moins celle de l’autre. A une valeur fixée de la variable
considérée comme indépendante, il existe un intervalle probable de variation de la
valeur de la variable dépendante. Si nous traçons le diagramme représentatif sous
forme d’un nuage statistique, les points sont très denses dans une bande inclinée, et
seuls quelques points sont dispersés hors de cette bande.
y y
Corrélation directe x Corrélation inverse

x Ce
fait nous indique qu’il y a un lien entre les deux grandeurs x et y. On dit alors que les
deux variables sont en corrélation. La plupart des relations entre les variables des
sciences humaines sont des corrélations.
Si les phénomènes en corrélation varient dans le même sens, on dit que la
corrélation est directe ou positive. Mais si les deux variables manifestent une
tendance à varier en sens inverse c’est-à-dire si l’une diminue quant l’autre

augmente, la corrélation est dite inverse ou négative.
Exemple : Soient x la quantité offerte d’un certain produit vendu sur le marché et y le
prix unitaire de ce produit sur ce marché. Pour une offre « x » sur le marché, le prix «
y » varie dans un intervalle donné. Il est certain que, suivant la loi économique,
quand x augmente, y diminue ou si x diminue, y augmente. Les deux variables sont
en corrélation inverse.
Ce sont les phénomènes en corrélation qui font l’objet de ce chapitre. Pour
qu’il y ait corrélation il faut rencontrer l’un des cas suivants :
a) Les variations d’une des variables sont provoquées directement ou
indirectement par l’autre. Exemple : l’âge et la taille des enfants sont en
corrélation directe. Il y a une relation de cause à effet entre les deux
grandeurs, mais cette causalité n’est pas obligatoirement réversible : de ce
que la taille des enfants est expliquée par leur âge, on déduit que la taille
dépend de l’âge, mais non que l’âge est dû à la taille qui en serait la cause
déterminante.
Il est très important de noter que la corrélation peut ne se manifester que
sur un certain intervalle, et non sur toute l’étendue de variation de la variable. Par
exemple la taille n’est en corrélation avec l’âge que pour les personnes non adultes.
b) Chacune de deux variables est capable d’agir sur l’autre. Par exemple, en
l’absence de tout autre facteur, il y a réaction entre quantité de biens
disponibles et prix demandés.
c) La covariation de deux variables est due à une cause commune. Ainsi la
taille et le poids des enfants dépendent de leur âge. Cette cause commune
peut conduire à des conclusions aberrantes : quand les hivers sont rigoureux,
il y a accroissement simultané de la mortalité et de la consommation de
charbon. Il serait stupide de croire que la consommation de charbon réagit sur
la mortalité, ou vice-versa. La corrélation est alors dite factice.
5.2.2. ESTIMATION DE L’INTENSITE DE LIAISON ENTRE
VARIABLES.
Pour apprécier la relation entre deux ou plusieurs variables, on a inventé des
"coefficients de corrélation" qui sont des indices variant la plupart entre –1 et 1. Dans
ce cas, la valeur 1 indique la relation totale, une loi entre deux variables qui varient
dans le même sens. La valeur –1 indique également une loi, mais entre deux
variables qui varient en sens opposés. La valeur 0 indique l’absence de relation entre
deux variables : elles sont indépendantes.
5.2.2.1. COEFFICIENT DE CORRELATION LINEAIRE
Deux phénomènes x et y sont en corrélation linéaire lorsque les nuages des

points (x, y) forment une bande linéaire de part et d’autre d’une droite d’estimation. Il
faut que ces points soient à peu près alternativement au-dessous et au-dessus de la
droite d’estimation, sans former des groupes systématiquement au-dessous pendant
un intervalle assez long, puis au-dessus pendant un autre intervalle prolongé. Le
graphique suivant s’appelle "diagramme de dispersion" ou "diagramme de
corrélation". y
La zone où se situent les points s’appelle le nuage de dispersion. Lorsque le nuage

de dispersion forme une bande linéaire, il y a lieu de penser que la corrélation entre
les deux variables est du type linéaire. S’il en est ainsi ou lorsque l’on fait l’hypothèse
d’une liaison linéaire entre deux variables x et y, la première chose à faire est de
calculer le degré d’intensité de cette liaison entre les deux variables, c’est-à-dire le
coefficient de corrélation linéaire.
Lorsque nous disposons des couples des points (x, y) de deux variables x et
y en corrélation linéaire, le coefficient de corrélation correspondant est donné par la
formule.
r (x x)(y y)  (x x)(y y)  COV(X,Y) nxy (x x)2
(y y) (X)(X)
2

dans la quelle r est le coefficient de corrélation linéaire, x et y sont respectivement la
moyenne de la variable x et celle de la variable y ; x ety sont respectivement l’écart–

type de la variable x et celui de la variable y ; n est le nombre des couples (x, y) ou
taille de l’échantillon.
Le coefficient de corrélation linéaire est donc le rapport de la covariance,
donnée par
Cov(x, y)  (x  x)(y  y) , et le produit des écarts–types. n

Le coefficient de corrélation ainsi établi porte le non de "coefficient de corrélation de «
Bravais-Pearson ».
A. Interprétation du coefficient de corrélation linéaire
Le coefficient de corrélation linéaire est beaucoup plus l’estimation d’une
tendance de deux grandeurs à varier simultanément qu’une mesure de la liaison
entre deux variables. Plus le coefficient de corrélation est élevé, plus les deux
variables considérées ont tendance à varier ensemble. Ainsi, un coefficient de
corrélation de 0,9 entre x et y est un indice qu’à de grandes valeurs de x
correspondront de grandes valeurs de y et qu’à de petites valeurs de x
correspondront de petites valeurs de y. par contre, un coefficient de 0,1 signifie qu’à
de petites valeurs de x peuvent très souvent correspondre de grandes valeurs de y
et inversement. L’échelle du coefficient de corrélation n’est pas proportionnelle : un
coefficient de 0,8 n’indique pas une liaison deux fois plus forte qu’un coefficient de
0,4. Cette situation rend l’interprétation assez délicate.
Un moyen assez simple d’interpréter un coefficient de corrélation est de
considérer son carré qui a reçu le nom de "coefficient de détermination". Le
coefficient de détermination peut généralement être interprété comme la proportion
(pourcentage) la variance (ou variation) de y qui est attribuable à la variance (ou
variation) de x. La différence 1–r2 est, au contraire, une estimation de la proportion
de la variance de y qui n’est pas attribuable à la variance de x. En somme r 2 est une
estimation de la proportion de la liaison entre deux variables, tandis que 1-r 2 est une
estimation de la proportion d’aliénation, c’est-à-dire l’absence de liaison entre deux
variables. Par exemple, si r = 0,9, cela signifie que 0,81 soit 81% de la variance de y
est attribuable à la variance de x.

Il faut se garder d’interpréter une corrélation comme une relation de cause

effet : par exemple il y a une forte corrélation entre la mort des personnes et la
présence d’un médecin ; prétendre qu’il y a entre les deux une relation de cause
effet, serait bien entendu lourdement se tromper.
B. Exemples de calcul
1. On veut voir si la tension artérielle Y est corrélée à l’âge X. Après
mesures et calculs, on obtient : 𝒀̅ = 13,5 𝑋̅ = 35
V(Y) = 4 V(X) = 64
COV(X,Y) = 10
Calculer le coefficient de corrélation linéaire entre X et Y .
SOLUTION
r=
2.Chaque mois, une entreprise commerciale consent certaines dépenses de publicité
afin d’accroître son chiffre d’affaires. Après 10 mois d’essais, l’on veut savoir si la
variation des frais affectés à la publicité entraîne dans le même sens le chiffre
d’affaires mensuel. Autrement dit, est-ce que les deux variables, dépenses de
publicité et chiffre d’affaires, sont-elles corrélées ?
Appelons x la dépense mensuelle de publicité et y le chiffre d’affaires
mensuel.
X Y (en (x  x) (y  y) (x  x)(y  y)
(en milliers) (yy)
2
milliers) (xx)2
0,0 10 -0,45 -20 9 400 0,2025

0,1 30 -0,35 0 0 000 0,1225
0,2 20 -0,25 -10 2,5 100 0,0625
0,3 30 -0,15 0 0 000 0,0225
0,4 10 -0,05 -20 1 400 0,0025
0,5 40 0,05 10 0,5 100 0,0025
0,6 50 0,15 20 3 400 0,0225
0,7 40 0,25 10 2,5 100 0,0625
0,8 30 0,35 0 0 000 0,1225
0,9 40 0,45 10 4,5 100 0,2025
4,5 300 23 1600 0,8250

n = 10 ;
r %
Ainsi 42,25 de la variation du chiffre d’affaires est due à celle des dépenses de
publicité.
5.2.2.2. Calcul du coefficient de corrélation à partir d’une distribution
conjointe
Lorsque l’on dispose des données sous forme d’un tableau de corrélation
décrivant une population statistique suivant deux caractères x et y, le coefficient de
Cov(x, y) corrélation
entre x et y sera donné par la formule : r  dans laquelle
x.Y
n ij xi y j
Cov(x, y)  i j
xy
n ij i j
n x i. i2 n .j y2j
x2  i x 2 ;y2  j y 2
n i. n .j
i j
x et y sont respectivement la moyenne marginale pour x et celle pour y ; x2
ety2 sont respectivement la variance marginale pour x et celle pour y.
Exemple de calcul.
On considère la répartition d’une population de 50 entreprises suivant deux caractères
: l’effectif x des travailleurs et le chiffre d’affaires annuel y.

xi (en milliers)
160 170 180
yj (en millions)
60 2 2 0
70 5 8 4
80 4 9 6
90 1 4 5
Les valeurs xi et yj représentent les centres de classes.
Tableau de calcul des variances marginales

x2  i1
3  x 2  29158170,62  53,64; d'oùx 
7,323933369 ni.
i1
n .j y 2j
y2  j1
4 y 2  6006 772  77; d'oùy  8,774964387
n .j
j
Pour calculer la covariance on se sert du tableau des données pour construire le

tableau ci-après et on se sert de la formule
n ij xi y j n ij xi y j
Cov(x, y)  i j
xy i j
xy
n ij n
i j

Tableau de calcul de la covariance

xi 160 170 180
yj
60 120 120 0
70 350 560 280
80 320 720 480
90 90 360 450
880 1760 1210
140800 299200 217800 657800
Cov   (170,6)(77)  19,8; d'où r   0;31

EXERCICES
1. Une étude du ministère des transports sur la vitesse et le kilométrage des
véhicules de taille moyenne a fourni les données suivantes : Vitesse : 30, 50, 40,
55, 30, 25, 60, 25, 50, 55
Kilométrage : 28, 25, 25, 23, 30, 32, 21, 35, 26, 25
Calculer et interpréter le coefficient de corrélation linéaire entre la vitesse et le
kilométrage.
2. Un sondage effectué auprès de 80 voitures (de cylindrée moyenne) de

représentants
donne la distribution suivante étudiée selon deux variables :
X : puissance des voitures exprimée en chevaux vapeur
Y : durée des pneumatiques exprimée en milliers de km

6 7 8
y
30 0 8 20
40 5 20 7
50 15 3 2
Peut-on déterminer une corrélation valable entre X et Y ?
5.1. Notions d’ajustement

L’étude de la corrélation nous a permis de déceler l’existence d’une liaison
entre deux ou plusieurs variables (corrélation significative) et la forme de cette liaison.
Cette forme peut être linéaire, plane ou curviligne. Si donc nous connaissons qu’il
existe une liaison entre deux ou plusieurs variables et la forme de cette liaison, quelle
est la relation mathématique ou encore la courbe ajustée qui traduit le mieux cette
liaison ? L’opération qui consiste à exprimer par une relation mathématique une
variable en fonction d’une ou de plusieurs autres s’appelle l’ajustement et constitue un
problème de régression. L’ajustement peut aussi consister à substituer à un ensemble
de données chronologiques empiriques des valeurs typiques qui représentent les
différents éléments constitutifs d’une série chronologique.
5.2.1. Ajustement linéaire par la méthode de « MAYER »
Ici, les données sont partagées en deux groupes sensiblement égaux (exactement si
le nombre est pair, à une unité près si le nombre est impair). Pour chaque groupe, on
détermine les points moyens(ou barycentres) G1 et G2. La droite ajustée est celle
qui passe par ces deux points.
Exemple : Etant donné deux variables X et Y
X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Y 110 108 109 112 110 110 113 115 116 114 116 117 115 116 119
Procéder à un ajustement de Y en fonction de X par la méthode de MAYER
SOLUTION
G1 : X1 = 4 Y1= 110,28
G2 : X2 = 11,5 Y2 = 116

Connaissant les coordonnées de deux ponts d’une droite, il est alors facile de
déterminer l’équation de la droite (de la forme y = a x + b). Dans notre
exemple :
 G1 doit vérifier l’équation : 110,28 = a *4 +b
 G2 doit vérifier l’équation : 116 = a*11,5 + b
Des deux équations précédentes, par soustraction nous obtenons :
7,5a = 5,72 a= 0,762
et b = 107,2 D’où
l’équation de la droite
de MAYER : y =
0,762 x + 107,2
5.1.2. Ajustement linéaire par la méthode de moindres carrés ordinaires

S’il existe une liaison linéaire significative entre deux variables x et y, on peut
ajuster l’une d’elles par l’autre au moyen d’une droite d’équation y = a x + b, appelée
droite d’estimation de y en x ; c’est-à-dire que l’on remplace le nuage des points par la
droite y. Supposons donc que nous ayons substitué au nuage statistique une droite
d’équation y’= a x +b et désignons par yi les ordonnées des points du nuage. A
l’ensemble des abscisses x1, x2, x3, … etc il correspond l’ensemble des ordonnées y 1,
y2, y3, … etc des points M1, M2, M3, … etc du nuage et l’ensemble des ordonnées
y1, y2 , y3 ,... etc des points M1 , M 2 , M 3 ,...sur la droite d’ajustement y’= a x +
b. Posons : y1  y1  d1
y2  y2  d2
y3  y3  d3
………………
L’ensemble d1, d2, d3, … est dit ensemble des résidus. Ils mesurent chacun la
distance d’un point du nuage à la droite, distance mesurée parallèlement à l’axe des
ordonnées oy. Ces résidus constituent en somme les erreurs commises en
substituant un point de la droite au point du nuage de même abscisse.
Le problème qui se pose pour tout ajustement linéaire est la détermination
des paramètres a et b de la droite d’estimation. La méthode d’ajustement la plus
utilisée en pratique, c’est la méthode des moindres carrées. La droite d’estimation
trouvée grâce à cette méthode s’appelle "droite de moindres carrés" ou " droite de
régression".
La méthode de moindres carrés est ainsi appelée car elle impose comme
seule condition à l’ensemble des résidus di

2
minimum, condition qui permet de
déterminer a et b, et qui entraîne, comme nous le verrons ci-après dans la
démonstration, que di  0. La droite de régression est donc celle qui passe le plus
près de l’ensemble des points du nuage de dispersion.

A. ESTIMATION DES COEFFICIENTS DE REGRESSION
La méthode des moindres carrés consiste à rendre la quantité
(d )  (y  y )  (y  ax b)

i
2
i i
2
i i
2
minimum. Ce minimum a lieu pour des valeurs de
a et b telles que :
1o.  (yi aaxi b)2  2(yi  axi b)xi  0


2o.  (yi baxi b)2  2(yi  axi b)  0


La deuxième relation devient : yi axi b 0 ou encore

1 a
 y  ax  nb; d'où b 
i i n  y i n x i
d’où :b yax

Cette dernière relation introduite dans la première, il vient :
(y  ax  yˆ  ax)x  0
i i i
(x y ax i i i
2
 yxi  axxi ) 0
x y  ax
i i i
2
 yxi  axxi  0
x y  y x  a(x
i i i i i
2
 xxi )

1 xi yi  xy  a(xi2  x xi n

n n
1 xi yi  xy x
1
 a( 2  x2 )
i
n n
n
1 2
(avec x2 variance de la variable x)
xi yi  xy  ax
D’où:

1n
xi yi  xy  Cov(x2 , y)  y rxy , ou encore
a 2
x x x
a  (xi (xix)(yxi)2 y)  nnxi y j(xi xx)i 2 yi
Dans ce cas la prédiction de y à partir de x se fera par la droite de régression,‫׃‬
y y où
yˆ  y  rxy (x  x)
x
On peut aussi suivant le même raisonnement déterminer la droite de
régression de x en y. Dans ce cas les résidus sont mesurés parallèlement à l’axe des
abscisses ox. Cette deuxième droite est de la forme :
x (y  y)
xˆ  ay b soit xˆ  x  rxy
y
a  (xi (yxi )( yyi)2 y)  Cov(xy2 , y)  rxy xy

b  x  ay
Exemple :
Les ventes Y d’un nouveau journal ont été, pendant les 7 dernières semaines X, les
suivantes :
X 1 2 3 4 5 6 7
Y 6 4 6 8 10 10 12
Procéder à un ajustement de Y en fonction de X par la méthode des moindres carrés
ordinaires.
SOLUTION
a= 1,21 et b = 3,16. D’où l’équation de la droite dans sa forme générale :
y = 1,21 x + 3,16
EXERCICES
1. Le tableau suivant fournit le pourcentage de femmes travaillant dans chaque
société (X) et le pourcentage de postes à responsabilité occupés par des femmes
dans chaque société (Y).
Société 𝑋𝑖 𝑌𝑖
Federated department 72 61
stores
Kroger 47 16
Marriott 51 32
Mc donald’s 57 46
Sears 55 36
a. Estimer l’équation de la régression de Y en fonction de X par la méthode des

moindres carrés ordinaires
b. Prévoyez le pourcentage de postes à responsabilité occupés par des femmes
dans une société ayant 60% de femme parmi ses employés.
2. Une étude sur les coûts des annonces publicitaires Y d’une « pleine page » dans
des hebdomadaires en fonction du nombre de pages X de ces derniers a donné le
tableau suivant :
X 10 12 15 18 20 22 25 28 32
Y 6500 7200 8500 9200 9500 10000 11000 12000 13000
a. Etablir l’équation de la droite d’ajustement de Y en fonction de X par la
méthode de Mayer
b. A quel prix un nouvel hebdomadaire de 26 pages peut-il proposer une «
pleinepage » publicitaire ?
3. Au cours de 9 périodes, une entreprise a noté le montant des frais de publicité
X et le volume du chiffre d’affaires Y réalisé. Les résultats sont consignés dans

le tableau suivant :
X Y
25000 280000
17000 250000
18000 255000
28000 292000
22000 265000
20000 260000
19000 262000
22000 280000
30000 285000
a. Déterminer l’équation de Y en fonction de X par la méthode de moindres carrés

ordinaires
b. L’agence de publicité a prévu un budget pour la période à venir de 32000 F.
Quel sera le chiffre d’affaires prévisionnel possible ?
CHAPITRE 6 : SERIES CHRONOLOGIQUES
On appelle série chronologique, série temporelle ou une chronique, une suite

d’observations chiffrées ordonnées dans le temps. La grandeur dont on suit
l’évolution qu’on désignera par y, peut être un flux ou un niveau.
Dans le cas d’un niveau, on dit encore stock, chaque observation se rapporte à une
date. Les dates d’observation repérées par l’indice t sont numérotées de 1 à T : Y t est
la valeur prise par y à la date t. On peut généralement supposer les dates
d’observation équidistantes, mais cette hypothèse n’est pas toujours rigoureusement
vérifiée.
Exemples : - série journalière des températures relevées à zéro heure en un point
donné ;
- série mensuelle du nombre de chômeurs secourus au 1er de chaque mois.

Dans le cas d’un flux chaque observation se rapporte à une période : flux écoulé
pendant la période. Les périodes d’observations sont numérotées de 1 à T et Y t est le
flux écoulé pendant la période t. On peut également supposer les périodes
d’observations d’égale longueur, mais ici encore, cette hypothèse n’est pas toujours
rigoureusement vérifiée.
Exemple : - série de la production mensuelle de bière à la Bralima ;
- série mensuelle des quantités d’un article vendues dans un magasin.

On représente graphiquement l’évolution d’un niveau en rapportant l’observation y t à
la date correspondante t et celle d’un flux en rapportant l’observation y t à la date
milieu de la période t
yt + 1 yt +
1
yt
yt
yt-1
yt -1
t -1 t t +1 temps t -1 t
t+1 temps
Représentation graphique d’un stock Représentation

graphique d’un flux
En général les séries temporelles sont mensuelles, trimestrielles ou annuelles. Nous
n’étudierons dans ce chapitre que les séries temporelles à périodicité inférieure à
l’année. Dans l’étude des séries chronologiques à périodicité inférieure à l’année, on
donnera deux dimensions au temps :
• le mois, unité de référence correspondant aux dates ou aux périodes
d’observations. Ces mois pourront être des mois véritables, mais
également des trimestres ou des semaines.
• L’année, composée de m mois : m = 4 (trimestres) ou m = 12 (mois) ou

même m = 52 (semaines). On supposera pour besoin de simplification
que les observations dont on dispose portent sur un nombre entier n
d’années, c’est-à-dire sur T= n m mois.
Les deux dimensions mensuelles et annuelles du temps sont repérées par les indices
j et i : j= indice relatif au mois : j = 1,2, …, m ; i= indice relatif à l’année : i = 1, 2 … n.
Le mois no t sera le j ème mois de la ième année si : t = m (i 1) + j.
On écrira indifféremment : Yt (t = 1, 2 … , T = n m) Yi j (i = 1, 2, … , n ; j = 1, 2, …, m)
6.1. LES ELEMENTS CONSTITUTIFS D’UNE SERIE CHRONOLOGIQUE.

A. Définition des composantes.

On a coutume de distinguer trois composantes principales dans une série
chronologique :
1. Le mouvement conjoncturel : il correspond à l’évolution fondamentale à

laquelle viennent se superposer les autres composantes. On décompose
parfois le mouvement conjoncturel en deux éléments : le trend ou tendance
séculaire à long terme et le cycle, mouvement oscillatoire d’amplitude et de
périodicité variable, la périodicité étant supérieure à l’année. On ne cherchera
pas dans la suite à dissocier ces deux éléments.
2. Les variations saisonnières sont des fluctuations périodiques s’inscrivant

dans le cadre de l’année et qui se reproduisent de façon plus au moins
permanente d’une année à l’autre (hypothèse de la répétition cyclique du
temps). La saisonnalité affecte différents aspects de la gestion. La gestion de
marketing est très sensible aux variations saisonnières. Les chiffres de vente
rendent compte d’un profil saisonnier mensuel, hebdomadaire et parfois
journalier. Ce profil est déterminé par la nature du produit et certains facteurs
d’environnement (climat, événements, festivités, …). En réponse à cet impact,
la politique commerciale vise, soit à bénéficier pleinement d’un effet saisonnier
positif, soit à limiter un effet saisonnier négatif afin de maintenir un volume
d’affaires constant tout au long de l’année. Des campagnes de publicité sont
programmées en fonction du mouvement saisonnier des affaires : promotion
des jouets en fin d’année, publicité pour les vacances au printemps. Tirant
profit d’un événement comme le salon de l’automobile, des campagnes
d’affichage mais aussi des politiques de promotion (prix, services) sont
engagées à un moment précis.
3. Les variations résiduelles ou accidentelles sont des fluctuations irrégulières

et imprévisibles, supposées en général de faible amplitude, qui traduisent l’effet
de facteurs perturbateurs non permanents.
B. Hypothèses sur la nature et la composition des éléments constitutifs d’une

série chronologique.
• Le mouvement conjoncturel Ct est une fonction a priori quelconque du

temps
• Le mouvement saisonnier St est indépendant du mouvement

conjoncturel et rigoureusement périodique : St = St+m = St+2 m = …

On peut désigner aussi par S j le mouvement saisonnier relatif au mois

o
n j:
Si j = Sj quel soit i
• Le mouvement accidentel It est de faible amplitude et en moyenne

nulle sur un faible nombre de mois.
• Les hypothèses que l’on fait habituellement sur la composition des

mouvements conjoncturel et saisonnier se ramènent au schéma additif
et au schéma multiplicatif.
Dans le schéma additif, on a : Yt = Ct + St + It tandis que

Dans le schéma multiplicatif : Yt = Ct .St + It (première forme) ou
Y t = Ct .St (1 + It ) ( seconde forme).
On notera que sous sa 2ème forme, le schéma multiplicatif est équivalent au schéma
additif si on passe par les logarithmes ; en effet log Yt = log Ct + log St +log (1 + It)
Le choix du schéma de composition à retenir est guidé par des considérations
pratiques résultant par exemple de l’examen de l’évolution graphique de la série : le
schéma additif correspond à un mouvement saisonnier dont la composition avec le
mouvement conjoncturel conduit à une modulation d’amplitude constante, alors que le
schéma multiplicatif conduit à une modulation d’amplitude variable croissante avec le
mouvement conjoncturel : les courbes annuelles superposées sont sensiblement
parallèles sur un graphique arithmétique dans le cas du schéma additif et sur
graphique semi-logarithmique dans le cas du schéma multiplicatif.
 Le principe de conservation des aires.

Supposons l’écart accidentel nul et le mouvement conjoncturel constant. Le partage
entre le mouvement saisonnier et le mouvement conjoncturel est indéterminé dans
chacun de deux schémas : Yt = Ct + St ou Yt = Ct . St
Soit Yi j = C + Sj ou Yij = C . Sj
On convient pour lever cette indétermination d’identifier le mouvement conjoncturel à
la moyenne annuelle : Y  C  S  C ou Y  C S  C
Cette convention, qu’on appelle « principe de conservation des aires », revient ainsi à
supposer que :
- dans le schéma additif, la moyenne des coefficients saisonniers S j est nulle sur
une année ;
- dans le schéma multiplicatif, la moyenne des coefficients saisonniers S j est

égale à 1 sur une année.
6.2. L’ANALYSE DES SERIES CHRONOLOGIQUES.

Ce point est consacré à la composition d’une série chronologique en ses deux

éléments fondamentaux : le mouvement saisonnier et le mouvement
conjoncturel. On distingue les méthodes de décomposition analytiques et les
méthodes empiriques
Dans les méthodes analytiques on suppose que le mouvement conjoncturel répond à
une forme analytique donnée : tendance linéaire ou exponentielle. On est conduit
alors à un ajustement par la méthode des moindres carrés qui fournit une estimation
des composantes. Ce genre de modèle présente l’inconvénient majeur de ne
s’appliquer qu’à un nombre restreint de séries : en général, il est impossible de faire
une hypothèse quelconque du mouvement extra saisonnier.
Les méthodes empiriques permettent seules dans la plupart des cas de décomposer
d’une manière satisfaisante, au moins sur le plan numérique, les séries
chronologiques moyennant un nombre réduit d’hypothèses, mais au prix des
conventions difficiles à justifier théoriquement. Malgré leur caractère empirique, elles
constituent un outil précieux et efficace d’observation économique. A. La méthode
analytique.
La méthode exposée dans cette partie est un exemple particulier de ce qu’on appelle
en économétrie l’estimation des paramètres d’un modèle. On suppose que la
grandeur étudiée répond à des hypothèses de nature algébrique laissant
indéterminée certains paramètres. Le problème qui se pose est l’estimation à partir
des observations, des paramètres du modèle et le calcul des valeurs ajustées
correspondant aux observations.
Un modèle est toujours une approximation plus ou moins précise de la réalité. Il est
une sorte d’acte de foi dans la nature des choses, car il est impossible de tester la
validité d’un modèle, sauf peut-être graphiquement.
4. Les hypothèses du modèle.
Le modèle que nous supposons valable au cours de la période étudiée

s’exprime ainsi :
• Le mouvement conjoncturel se limite à un trend linéaire de la forme :

Ct .t 
• Le mouvement saisonnier est rigoureusement périodique : St t
• Le mouvement accidentel Ct est un écart en moyenne nul dont les valeurs

successives sont indépendantes les unes des autres.
• La composition des trois mouvements est additive : Yt .t j Ct
On posera dans la suite : j j
On isolera la valeur  des valeurs j en exprimant le principe de conservation

1 m
des aires comme suit :  m j1 j et j  j 
D’où l’expression du modèle ci-après qui comporte m+1 paramètres :
Yij m(i 1) jj  It

5. Estimation des paramètres du modèle.
La méthode d’estimation que nous retiendrons s’appelle « méthode des moindres

carrés » : les estimations a et bj des paramètres et j sont les valeurs qui rendent
n m
minimum la quantité : A  Yij  am(i 1)  jbj 2

i1 j1
Pour parvenir à établir les formules des valeurs de a et b j qui rendent minimum
l’expression A, il faut chercher les dérivées partielles de A par rapport à b j et par
rapport à a et égaler chacune d’elles à 0. On aura ainsi un système de deux équations
à deux inconnues dont la résolution nous conduira à l’établissement des formules de
a et bj. Les quantités bj ne figurent que dans n des m.n termes de la somme double A.
am(i 1)  jbj

2
D’où la dérivée partielle de A par rapport à b j est :  Y ij
 0
i
Yij  nbj  an.j  am(i 1)

i i
1 am
 
 n Yij bj  a. j  n i (i 1)
i
En désignant par Y la moyenne des n mois no j de diverses années, il vient.

am
Yj  bj  a. j  (n 1)
2
 n 1 
 bj  Yj  a  j  m( 2 )  (1)
Le fractionnement de bj en b et cj, estimations des paramètres et j s’obtient par le

  1 a
principe de conservation des aires : b 1 bj  m1 j Yj  am(n2 )m j j
mj
En désignant par Y la moyenne des n.m observations Yij , il vient :
b  Y  am(n 1)  a m(m 1)  Y  a(nm m  m 1)  Y  a nm1

2 m 2 2 2
1
b  Y  a nm (2)
2
D’où les coefficients saisonniers cj :
c j  bj b  Yj  a j  m(n21) Y  a(nm21)  Yj Y  a( j  nm m2

nm1)
1
c j  Yj Y  a( j  m ) (3)
2
En injectant l’expression (1) de la formule de bj dans A, il vient :

2
n 1 
A  i j Yij  am(i 1)  jYj  a( j  m

2 ) 
2
 A  Yij Yj  am(i 1 n21)

i j 
2
 A  Yij Yj  am(i  n 21)
La dérivée de A par rapport à a est donc :

 n 1  n 1
 2i j Yij Yij  am(i 
 
2 )  m(i  2 )   0
 (Yij Yj )(i  n21)  ami j (i  n21)2

i j
    
 (i  n2 1) j (Yij Yj )  am2 i (i  n2 1)2
i
 (i  n21) m1 j (Yij Yj )  ami (i  n21)2

i

i (i  n 1)(Yi Y )  am (i  n 21)2
 2 i
(Y Y )(i  n 21)

i
 am  i
 (i  n 21)
i
2
 1  n 1 n 1
Or (Yi Y )(i  n 2 ) i (iYi  2 Yi iY  2 Y)
i
 iYi  n(n21)Y  n21(i Yi Y )  iYi  n(n21)Y  n21(nY  nY )

i
 iYi  n(n21) Y
i

D’autre part:

(i  n 21)2  i (i 2  2i n 21  (n 41)2 )  i i 2  (n 1)i i  n(n41)2
n(n 1)(2n 1) (n 1)n(n 1) n(n 1)2 2n(2n2  3n 1)  6n(n2  2n 1)  3n(n2  2n 1)
   
6 2 4 12 n(4n  6n  2  6n2 12n  6  3n2  6n  3)
2
n(n 1)
2
 
12 12

12 iYi  n(n 1)Y 
D’où: a   i nm(n2 12) 
On obtient donc les estimations a, b et cj suivantes‫׃‬
 
a 12 nmiYi (n2n(n12) 1)Y
 i
1
b  Y  a nm
2
1
c j  Yj Y  a( j  m )
2
6. Calcul pratique.

Le calcul pratique des estimations est effectué sur la table de Buys- Ballot qui se
présente de la manière suivante :
Table de Buys-Ballot
Mois j 1 ... J ... m Ti=total Yi  Produit
de
moyenne iTi
la mensuelle
Année i
ligne n° pour
i
l’année n°
i
1 Y11 Y1j Y1m
....... ..... ..... ...... ..... ....... ........ ............ ............
I Yi1 Yij Yim Ti T iTi

Yi  i
m
......... ........ ...... ....... ....... ....... ........ ............. .............
N Yn1 Ynj Ynm

T j= total de Tj T=total iTi
la colonne général
n° j
Yj  T Moyenne S= total
moyenne Yj  j générale de la
mensuelle n colonne
T
du mois n°
Y  nm
j
Coefficients c1 cj cm
saisonniers
cj
a  nm(12n2 1) mS 
n2m1T 

1
b  T  a nm
nm 2
Tj T m 1
c j   a( j 
)n nm 2
1. EXEMPLE D’APPLICATION.
Considérons la série mensuelle des ventes d’un rayon d’un grand magasin dont les
données (exprimées en 10.000 Francs) sont reprises dans la table de Buys-Ballot et
représentées graphiquement à la figure suivante. L’allure linéaire du mouvement de
fond, la régularité des oscillations mensuelles suggèrent un ajustement conforme au
modèle étudié. Le tableau de calcul (table de Buys-Ballot) fournit les estimations a, b
et cj dont on déduit la série ajustée ( en dizaine de milliers) de : a  7 1212(72 1)
 1
(29966012  27 12 71660)  3,229
 
b 3,229  715,86
c j  Yj 853,103,229( j  )
Janvier = -12,5 ; Février = -57,1 ; Mars = -88,2 ; Avril = -92,9 ; Mai = -4,0 ; Juin =
63,5 ;
Juillet = -2,6 ; Août = -73,7 ; Septembre = -74,7 ; Octobre = 1,31 ; Novembre = 86,7 ;
Décembre = 254,1.
La série ajustée est donc calculée à partir de :
Yt  715,863,229t 
En janvier -12,5 ; En février -57,1 ; En mars -88,2 ; En avril -92,9 ; En mai -4,0 ; En
juin -63,5 ; En juillet -2,6 ; En août -73,7 ; En septembre -74,7 ; En octobre 1,31 ;
En novembre 86,7 ; En décembre 254,1.

Mois j  J F M A M J J A S O N D Total Moyenne Produit

1 2 3 4 5 6 7 8 9 10 11 12 Ti Yi iTi
An. i
1950 : 1 700 650 635 675 750 800 725 650 675 750 800 975 8785 732,08 8785
1951 : 2 750 725 675 700 825 850 825 700 700 800 825 1000 9375 781,25 18750
1952 : 3 775 775 750 735 810 870 805 745 750 825 875 1050 9765 813,75 29295
1953 : 4 815 775 780 760 850 920 855 810 795 865 960 1090 10275 856,25 41100
850 810 765 750 870 950 875 850 835 895 1010 1175 10635 886,25 53175
1954 : 5
925 840 825 800 890 1000 920 860 855 930 1090 1285 11220 935,00 67320
1955 : 6
945 895 845 845 915 1015 960 875 895 995 1120 1300 11605 967,08 81235
1956 : 7
Total 5760 5470 5275 5265 5910 6405 5965 5490 5505 6060 6680 7875 T 299660
71660
Moyenne 822,86 781,43 753,57 752,14 844,29 915,00 852,14 784,29 786,43 865,71 954,29 1125 853,10
Coeffic. -12,48 -57,14 -88,22 -92,88 -3,97 63,52 -2,57 -73,65 -74,74 1,32 86,66 254,15
Saisonnier
86
La série ajustée est donc donnée dans le tableau ci-après

Mois J F M A M J J A S O N D
j 1 2 3 4 5 6 7 8 9 10 11 12
Année i
↓
1950 1 707 665 637 636 728 799 736 668 670 750 838 1009
1951 2 745 704 676 675 767 838 775 707 709 788 877 1047
1952 3 784 743 715 713 806 816 813 746 748 821 916 4086
1953 4 825 782 754 752 844 915 852 784 787 866 954 1125
1954 5 862 820 792 791 883 954 891 823 825 905 993 1164
1955 6 900 859 831 830 922 992 930 862 864 943 1032 1202
1956 7 939 898 870 868 961 1031 968 901 903 982 1071 1241
B. Les méthodes empiriques.

1. La moyenne mobile.
Soit une série chronologique composée des valeurs g t, gt étant la valeur de la série
correspondant à la période (ou date) t, (t = 1, 2, 3, …). On appelle moyennes mobiles
sur p mois de la série chronologique, les moyennes successives de la série
calculées sur p mois consécutifs et rapportées à la date milieu de la période.
Exemple :
T J F M A M J J A S O N D
gt 10 15 15 18 16 20 25 12 16 17 20 22
Les moyennes mobiles de cette série calculées sur 3 mois consécutifs sont :
13,3 ; 16 ; 16,3 ;
18 ;  20,3
19 ; 17,7 ; 15 ; 17,7 ; 19,7
3 33

87
Chacune de ces moyennes mobiles se rapporte au milieu des mois centrés dans le
calcul de la moyenne. Ainsi pour calculer la 1 ere moyenne mobile, nous avons utilisé
les observations de J, F et M ; cette moyenne mobile se rapporte à la date milieu de
février. De cette manière les moyennes mobiles ci-dessus se rapportent
respectivement aux mois de F, M, A, M, J, J, A, S, O et N.
De manière générale la moyenne mobile sur p mois de la période s’étendant entre les
dates t + 1 et t + p est donnée par :
p 1 1 p
1
M p (t  )  p  gtk  p (gt1  gt2  ...  gtp ) ,
2 k1
1
la date t  p étant la date milieu de la période
considérée. 2
2. Hypothèses relatives aux composantes de la série chronologique.
Les hypothèses qui sont faites pour l’analyse des séries chronologiques dans le cadre des
méthodes empiriques sont les suivantes :
- Le mouvement extra-saisonnier est une fonction ft quelconque du temps ;
- Le mouvement saisonnier st est rigoureusement périodique, de périodicité m

mois ;
- Le mouvement accidentel It est supposé de petite amplitude et de moyenne

nulle sur un faible nombre de mois ;
- Les trois composantes peuvent être associées suivant les schémas :
• Additif : Yt  Ct  s j  It , la somme des m coefficients sj étant nulle

(principe de conservation des aires)
• Multiplicatif :Yt  Ct (1 s j )  It ou Yt  Ct (1 s j )(1 It )
La somme de m coefficients sj étant nulle.
• Mixte :Yt  Ct (1 a j )bj  It , la somme des m coefficients aj ainsi que la

somme des m coefficients bj étant nulle.
Du fait des hypothèses précédentes relatives aux mouvements saisonnier et accidentel, les
trois schémas conduisent tous ou au moins approximativement à
1m 1m

88
mk1 Ytk  mk1 Ctk
Les fonctions Yt et ft ont même moyenne mobile sur m mois. Ce résultat se déduit
immédiatement de :
1m 1m
 
m  stk  0 ; m k1 Itk  0, pour le schéma
additif. k1
Dans le cas du schéma multiplicatif ou du schéma mixte, il faut en outre supposer

que, sur m mois consécutifs, le mouvement extra-saisonnier ne varie pas
considérablement :
1m 1m

mk1 Ctk stk 
C
m k1 tk s 0
1m 1m

mk1 Ctk atk 
C
m k1 atk  0
3. Estimation du mouvement extra – saisonnier par la moyenne mobile.
En supposant que le mouvement extra-saisonnier présente une faible courbure sur m

mois consécutifs on peut assimiler la moyenne mobile :
1m 1m
 
m k1 Ctk  m k1 Ytk , à la valeur de C relative à la date milieu de période, c’est-à-dire
Ctm2
Ainsi donc, dans les trois schémas envisagés et moyennant les hypothèses suivantes :
- périodicité égale à m mois du mouvement saisonnier ;
- faible amplitude du mouvement accidentel, compensation des écarts

accidentels sur un an (moyenne sur m mois consécutifs voisine de zéro) ;
- faible courbure du mouvement extra-saisonnier sur m mois consécutifs ;
- faible variation du mouvement extra-saisonnier sur m mois dans le cas des

schémas multiplicatif ou mixte,

89
la moyenne mobile des observations Y t sur m mois consécutifs est une estimation de
l’extra-saisonnier ft relatif au milieu de la période. Cette estimation présente les
inconvénients suivants :
- Si on dispose de T = n m observations (s’étendant sur n années de m mois)

on ne peut calculer que T-m moyennes mobiles si m est pair, soit une perte
d’une année ;
m
- On ne peut calculer la moyenne mobile relative au mois t que mois plus
2
Y Y
tard, lorsqu’on dispose des observations tm2 , tm21,....,Ym.
La moyenne mobile est beaucoup plus inerte que l’extra-saisonnier et peut

-
masquer certaines oscillations passagères en les étalant sur les mois
encadrant : elle rabote une évolution plus ou moins chaotique, ce qui est son
grand intérêt en ce qui concerne le mouvement accidentel mais qui est gênant
pour la traduction fidèle de l’extra-saisonnier
Mais ces inconvénients, on admettra que la moyenne mobile fournit une estimation valable
du mouvement extra-saisonnier.
4. Estimation des coefficients saisonniers.
- Schéma additif.
Dans le schéma additif :Yt  Ct  s j  It l’estimation Mm (t) de l’extra-saisonnier Ct conduit
à : Yt  Mm (t)  s j  It
Pour chaque mois no j on dispose de n–1 différences qui constituent des estimations
entachées de l’erreur It du coefficient saisonnier sj. On synthétise ces n–1
estimations en une estimation unique sj en calculant la médiane ou encore la
moyenne arithmétique. Dans le cas de la moyenne arithmétique sj sera donné par :

1 n1 sj  n1  Y  M
ij
m (i, j), j = 1, 2, ..., m.
 i1
On obtient ainsi m estimations se rapportant chacune à l’un des m mois de l’année.

On corrige ces estimations par soustraction pour obtenir des estimations définitives
qui satisfont au principe de conservations des aires en retranchant de chacune leur
moyenne :
1 s j
sj  m sj
90
On appelle alors série corrigée des variations saisonnières la série des différences
Yt  s j  Ytc
Le schéma des calculs à effectuer en supposant une série mensuelle (m = 12) se présente
comme suit :
1o. Calcul des sommes mobiles rapportées au milieu de la période :
5
S(t  )  Ytk
k6
On remarque que S(t 12 )  S(t  )Yt6 Yt6
2o. Calcul des sommes des sommes mobiles consécutives :

(t)  S(t  )  S(t  )
(t)
3o Calcul des moyennes mobiles :M12 (t) S(t )  S(t  12)
24
4o. Calcul des différences à la moyenne mobile : Yt – M 12 (t)
5o. Synthèse en une estimation unique sj de chacun des coefficients saisonniers :
sj = médiane (ou moyenne) des différences Yij  M12 (i, j)où j est fixé et i variable. 6
o
. Calcul de la moyenne des 12 estimations sj : s  121 12j1 sj
7o. Correction des coefficients saisonniers et estimation définitive : s j  sj  s
8o. Etablissement de la série corrigée des variations saisonnières : Yijc  Yij  s j
Remarque :
Si les estimations des coefficients saisonniers sont valables, la série corrigée des
variations saisonnières ne doit plus présenter de modulation. Une estimation trop
faible du mouvement saisonnier relatif au mois n° j conduit à une série corrigée
présentant systématiquement des pointes au mois j de différentes années.
- Schéma multiplicatif.
Le schéma multiplicatif : Yt  Ct (1 s j ) It ou Yt  Ct (1 s j )(1 It )
Conduit à calculer les rapports saisonniers ou quotients des observations à la

91
Yt
moyenne mobile :
M m (t)
Les n–1 rapports saisonniers relatifs au mois n° j sont des estimations entachées
d’erreur des coefficients 1+sj. On synthétise ces n-1 estimations pour obtenir une
estimation unique 1 sj en calculant la médiane des rapports saisonniers ou la
moyenne après élimination des valeurs extrêmes. Ensuite on corrige les m
1 sj
estimations de façon à assurer le principe de conservation des aires : 1 s j 
1 s
(correction proportionnelle)
Les estimations 1+sj constituent les estimations définitives des coefficients saisonniers.
Le schéma des calculs à effectuer en supposant m = 12 présente comme suit :
5
1o) Calcul des sommes mobiles : S(t  )  Ytk

k6
2o) Calcul des sommes des sommes mobiles consécutives :
(t)  S(t  )  S(t  )
o
) Calcul des moyennes mobiles : M12 (t) S(t )  S(t 

1
2 ) (t) 3
24
o
) Calcul des rapports saisonniers :
Yt 4
M12 (t)
5o) Synthèse des rapports saisonniers relatifs au mois n° j :

Yij
1 sj = médiane (ou moyenne) des n–1 rapports saisonniers
M12 (i, j)
o :

) Calcul de la moyenne des 12 estimations 1 sj 1 sj  121 12j1 (1 sj )
1 sj

92
7o) Correction des coefficients saisonniers et estimation définitive : 1 s j  1

s
o
) Etablissement de la série corrigée des variations saisonnières : Yijc
 Yij 8
1 s j
- Schéma mixte.
Dans le cas du schéma mixte : Yt  ft (1 a j ) bj  zt on obtient les estimations des
coefficients aj et bj par report graphique des couples (Yt ,M m (t)).En effet, si le schéma
mixte est valable, les n–1 points relatifs aux mois j doivent être sensiblement alignés,
aux écarts zt près. On estime, en général graphiquement, la droite D j sur le
graphique relatif au mois j. la pente de cette droite, 1 aj est une estimation de 1+aj
et son ordonnée à l’origine bj est une estimation bj. On corrige ensuite les
estimations obtenues (de façon à assurer le principe de conservation des aires) pour
aboutir à des estimations définitives :
1 aj
1 a j  , bj  bj b
1 a
D’où le schéma de calcul ci après, en supposant m = 12 :

5
1o. Calcul des sommes mobiles : S(t  )  Ytk

k6
2o. Calcul des sommes des sommes mobiles consécutives :
(t)  S(t  ) S(t  )
o
. Calcul des moyennes mobiles : M12 (t) S(t )  S(t 

1
2) (t) 3
24
4°. Report graphique, pour chacun des 12 mois, des n–1 points de coordonnées
(Yij ,M12 (i, j)) où j est fixé.
5o. Estimation des douze pentes 1 aj et des douze ordonnées à l’origine bj .
6o. Calcul des moyennes des pentes et ordonnées à l’origine :

93
1 12 1 12
 
1 a  12 j1 (1 aj ) , b  12 j1 bj
7o. Correction des coefficients saisonniers et estimation définitive :

1 aj
1 a j  ; bj  bj b.
1 a
8o. Etablissement de la série corrigée de variations saisonnières : Yijc  Yij

bj
1 a j
Remarque:
Le report graphique précédent permet de choisir entre les trois types des schémas :
additif, multiplicatif ou mixte. On retient le schéma additif si les pentes des droites D j
ajustées aux n-1 couples (Yij ,Mm (i, j))ne diffèrent pas sensiblement de 1 ; on retient le
schéma multiplicatif si les droite Dj passent approximativement par l’origine ; enfin,
dans les autres cas, on retient le schéma mixte. Il y a lieu de noter toutefois qu’il est
préférable de retenir les schémas additif ou multiplicatifs si les coefficients a j et bj
sont faibles : l’introduction de nombreux paramètres ne se justifie que si elle améliore
sensiblement la qualité de l’ajustement.
Exemple : considérons la série suivante des livraisons françaises d’essence automobile et

de super carburant (en milliers de m3) de 1952 à 1963 :
ANNES 1er Trimestre 2èm Trimestre 3èm Trimestre 4èm Trimestre
1952 920 1114 1310 1047
1953 963 1241 1468 1189
1954 1002 1343 1571 1314
1955 1128 1544 1747 1446
1956 1257 1589 1911 1465
1957 1108 1682 1720 1531
1958 1291 1771 2006 1603

94
1959 1422 1782 2112 1658
1960 1515 1942 2233 1755
1961 1738 2057 2408 1925
1962 1778 2264 2597 2111
1963 1845 2481 2856 2358
Résolution
L’examen relatif à cette série fait apparaître que :
- L’allure générale du mouvement extra-saisonnier est ascendante ;
- La série est marquée par un mouvement saisonnier très net : pointes aux 3 e
trimestres, creux aux 1er trimestres.
- L’amplitude du mouvement saisonnier augmente en valeur absolue avec le

mouvement extra-saisonnier : l’écart entre le 1er trimestre et le 3e trimestre
passe de 390 000 m3 en 1952 à 1011000 m3 en 1963. Cela conduit à rejeter le
schéma additif au profit du schéma multiplicatif.
Le tableau de calcul ci-après fournit les moyennes mobiles et les rapports saisonniers.
Livraison trimestrielles d’essence automobile + tableau de calcul

Années Trimestre Valeurs Sommes Sommes des Moyennes Rapports Série
observées mobiles sommes mobiles saisonniers corrigée des
I J Mm (t)
mobiles variations
Yij S(t  2)
1 Y t
consécutives saisonnières
100

(t) M m (t)
Yt
1 s j
1952 1 920 1121
2 1114 4391 1065
3 1310 4424 8815 1102 118,9 1104

95
4 1047 4551 8975 1122 93,3 1101
1953 1 953 4709 9260 1158 82,3 1161
2 1241 4851 9560 1195 103,3 1186
3 1468 4900 9751 1219 120,5 1231
4 1189 5002 9902 1238 96,1 1257
1954 1 1002 5105 10107 1264 79,3 1220
2 1343 5230 10335 1292 104,0 1284
3 1571 5356 10586 1323 118,1 1324
4 1314 5551 10913 1364 96,3 1389
1955 1 1128 5733 11290 1411 79,9 1374
2 1544 5865 11598 1450 106,5 1476
3 1747 5994 11859 1482 117,9 1472
4 1446 6039 12033 1504 96,1 1529
1956 1 1257 6203 12242 1530 82,1 1531
2 1589 6222 12425 1553 102,3 1519
3 1911 6073 12295 1537 124,3 1610
4 1465 6166 12239 1530 95,8 1549
1957 1 1108 5975 12141 1518 73,0 1350
2 1682 6041 12016 1502 112,0 1608
3 1720 6224 12265 1533 112,2 1449
4 1531 6313 12537 1567 97,7 1618

96
1958 1 1291 6599 12912 1614 80,0 1512
2 1771 6671 13210 1659 106,8 1693
3 2006 6802 13473 1684 119,1 1690
4 1603 6813 13615 1702 94,2 1695
1959 1 1422 6919 13732 1717 82,8 1732
2 1782 6974 13893 1737 102,6 1704
3 2112 7067 14041 1755 120,3 1779
4 1658 7221 14294 1781 92,8 1753
1960 1 1515 7348 14575 1822 83,2 1845
2 1942 7445 14793 1849 105,0 1857
3 2233 7668 15113 1889 118,2 1881
4 1755 7783 15451 1931 90,9 1855
1961 1 1738 7958 15741 1968 88,3 2117
2 2057 8128 16086 2011 102,3 1967
3 2408 8168 16296 2031 118,2 2029
4 1925 8375 16543 2068 93,1 2035
1962 1 1778 8564 16939 2117 84,0 2166
2 2264 8750 17314 2164 104,6 2164
3 2597 8817 17567 2196 118,3 2188
4 2111 9034 17851 2231 94,6 2232
1963 1 1845 9293 18327 2291 80,5 2247
2 2481 9540 18833 2354 105,4 2372

97
3 2856 2406
4 2358 2493
Les quatre médianes sont égales respectivement à
1er trimestre : 82,1100 s1 ;
2è trimestre : 104,6 100 s2 ;
3è trimestre : 118,7 100 s3 ;

4è trimestre : 94,6 100 s4
Total : 400,0
1 s   100%
Les estimations définitives des coefficients saisonniers sont donc
100 s j  100 sj  100 sj 

1 s 100
1er trimestre : 82,1% ; 2ème trimestre : 104,6% ; 3ème
trimestre : 118,7% ; 4ème trimestre : 94,6%.

Statistique Descriptive

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistique Descriptive

Uploaded by

Copyright:

Available Formats

Cours de Statistique descriptive édition 2021-2022

1. OBJECTIFS ET COMPETENCES VISEES

 D’analyser une série chronologique.

Chapitre 2 : ORGANISATION ET REPRESENTATION GRAPHIQUE DES

Chapitre 4 : INDICES STATISTIQUES

4.1. Définition et application des nombres indices.

Chapitre 5 : DISTRIBUTIONS STATISTIQUES A DEUX VARIABLES

10. François DRESS, Les probabilities et la statistique de A à Z, Dunod, Paris, s.d,

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

28. Thomas H. WONNACOTT & Ronald J. WONNACOTT, Statistique: Economie,

1.1. STATISTIQUE, INSTRUMENT DE GESTION, DE PLANIFICATION ET DE LA

Aujourd’hui la statistique est au carrefour de tous les domaines de la vie :

1.2. ETYMOLOGIE, FONDATEUR ET DEFINITION DU MOT STATISTIQUE

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Historiquement, la statistique consistait à organiser des recensements

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Elle permet d’étudier quantitativement la situation économique d’un pays ou

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

- Les variables quantitatives discrètes ou discontinues : ce sont des variables

 l’âge d’un individu,

 salaire mensuel d’un ouvrier,

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

 bénéfice annuel d’une entreprise.

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

1.4. LES LOGICIELS DE TRAITEMENT DES DONNEES STATISTIQUES

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Dans l’ensemble, tous les logiciels statistiques se valent. A la longue, de

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

performant ; c’est véritablement la « Rolls Royce » des logiciels de traitement des

2. Une agence gouvernementale californienne classe les postes des

CHAPITRE 2 : ORGANISATION ET REPRESENTATION GRAPHIQUE DES

2.1. DES DONNEES BRUTES A LA DISTRIBUTION DES

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

2.1.1.1. Pointage et comptage

c) La 3e colonne « comptage » récapitule l’effectif de chaque valeur.

Exemple : Cas d’une variable quantitative discrète.

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Cette série de données est peu engageante, moins assimilable et il est

Tableau 2.1 : Distribution du nombre d’enfants à charge dans 153 ménages à

xi Fréquence Fréquence Fréquence Fréquence

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Exemple 2 : Cas d’une variable quantitative continue.

En examinant la série statistique ci-dessus on peut relever que les

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

nécessaire de la condenser. Pour cela on découpe l’étendue en classes, et on

LIORZOU propose la formule suivante pour la détermination du nombre de

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

On appelle densité de fréquence relative la fréquence relative divisée par l’amplitude

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Ainsi le tableau de la distribution en classes est repris ci-après :

2.1.3. Les tableaux stem and leaf

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

modalités expriment la proportion des individus de la population présentant ces

E IIII IIII IIII IIII 19 38

2.2. REPRESENTATION GRAPHIQUE DES DONNEES STATISTIQUES

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

Il existe différents types de graphiques dont certains sont beaucoup plus

2. Le diagramme en secteurs ou digramme circulaire (CAMEMBERT OU FROMAGE).

Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA

FIGURE 2. DIAGRAMME EN SECTEURS DE LA QUALITE DE PLATS

2.2.2. Graphiques représentant les caractères quantitatifs.

abscisses on trace des segments de droite ou bâtons dont la longueur est