Professional Documents
Culture Documents
Statistique Descriptive
Statistique Descriptive
PLAN DU COURS
2. CONTENU DU COURS
Chapitre 1 : GENERALITES
1.1. Statistique, instrument de gestion, de planification et de la recherche
scientifique.
1.2. Etymologie, fondateur et définition du mot statistique.
1.3. Définition des concepts statistiques de base.
1.4. Les logiciels de traitement des données statistiques
Le logiciel Excel
StatBox et Question
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
Cours de Statistique descriptive édition 2021-2022
Le Sphinx
Minitab
Le logiciel SAS
Le logiciel SPSS
Le logiciel XLSTAT
3. BIBLIOGRAPHIE
1. Albert JACQUARD, Les probabilités, Que sais-je ?, P.U.F.,1974.
2. BEDARIDA et al., Pour une histoire de la statistique, Economica, Paris, 1987.
3. Bernard GOLDFARB & Cathérine PARDOUX, Introduction à la méthode
statistique, Paris, 2013, 374 p.
4. Bernard GRAIS, Méthodes statistiques.2, Dunod, Paris, 2003, 402 p.
5. Christian GRANIER et Bernard GUILBAUD, Statistique dans l’entreprise,
édition Foucher, Paris,1978.
6. David R. Anderson et al., Statistique pour l’économie et la gestion, de Boeck
université, Paris, 2001
7. Dominick SALVATORE, Econométrie et statistique appliquées, Série Schaum,
MC GRAW-HILL, Paris, 1975, 298 p.
8. Edwin DIDAY, Eléments d’analyse de données, Dunod, 1982, 464 p.
9. François COUTY, Jean DEBORD & Daniel FREDON, Probabilités et
statistiques pour biologistes, Armand Colin, Paris, 1990, 208 p.
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
Cours de Statistique descriptive édition 2021-2022
CHAPITRE 1 : GENERALITES
démographie. Dans une étude statistique la population doit être définie avec
précision, sans ambiguïté, de telle sorte que l’on sache quelles unités appartiennent
ou non à la population.
2°. Echantillon.
Très souvent, la population que l’on désire étudier est très grande, voire infinie. Il
est alors impossible d’examiner toutes les unités de cette population. On décide alors
d’examiner uniquement une partie de ces unités qu’on appelle échantillon. Un
échantillon est donc une partie de la population statistique sur la quelle porte l’étude
statistique en vue de généraliser les résultats de cette étude à toute la population
d’où est extrait l’échantillon. Les unités devant faire partie de l’échantillon sont
choisies selon des techniques précises d’échantillonnage garantissant la
représentativité de l’échantillon. 3°. Le recensement.
C’est la collecte exhaustive de l’information sur tous les individus d’une population. Le
recensement est très coûteux et souvent impossible à réaliser dans une étude.
4º.Sondage
C’est l’opération de recueil de données pour un échantillon d’individus d’une
population. Ce mot est l’exact synonyme d’échantillonnage, même si les habitudes
font utiliser préférentiellement l’un ou l’autre mot selon les situations.
5°. Caractères ou variables statistiques.
Dans l’étude d’une population on considère un ou plusieurs traits communs à tous les
individus de la population. Ce trait ou phénomène commun à tous les individus de la
population et sur lequel porte l’étude statistique est ce qu’on appelle « caractère ou
variable statistique ». En clair, une variable statistique est une grandeur définie sur
une population d’individus et susceptible d’être observée et de prendre plusieurs
valeurs.
Exemple des caractères statistiques : Le poids, la taille, le sexe, l’âge, l’état civil, la
profession, l’existence ou non d’une maladie, la possession ou nom d’un poste de
télévision, etc.
Les variables peuvent être quantitatives ou qualitatives.
a. Une variable est quantitative quand elle est mesurable et donne lieu pour
chaque unité statistique à une mesure numérique. Les variables quantitatives sont
subdivisées en deux groupes :
Une série statistique est une suite de valeurs numériques prises par n individus de la
population, ces valeurs étant relatives à une ou plusieurs variables.
Une série statistique simple est la suite des n valeurs observées sur n individus
relatives à une seule variable, chaque valeur étant la mesure de cette variable prise
par un seul de ces n individus. Si on symbolise par X la variable considérée, la série
statistique relative à cette variable pour n individus sera présentée par : x 1, x2, …, xi,
…, xn, (xi est la valeur de X pour le ième individu).
Exemple : la série ( x1,x2,x3,x4 ,x5,x6,x7,x8,x9) = ( 15, 3, 623, 46, 126, 64, 1350, 279,
23).
Une série statistique double est l’ensemble des n couples des valeurs observées pour
deux variables, chaque couple de valeurs représentant les valeurs prises par ces
deux variables sur une unité statistique.
Exemple : pour les variables X et Y la série double relative à ces deux variables se
présente comme suit : (x1, y1), (x2, y2),…, (xn, yn).
Une série statistique, c’est aussi un tableau des chiffres.
8°. Distribution statistique.
C’est un ensemble des couples (xi, ni) où xi est une modalité de la variable X et ni le
nombre de fois où cette modalité est observée dans la population ou l’échantillon. On
appelle ni effectif ou fréquence absolue.
A la place de la fréquence absolue n i, on peut mettre fi qui est la fréquence relative ou
tout simplement la fréquence ou la proportion de la modalité x i et qui est calculée par
fi = ni /n ( n étant l’effectif total des observations ou la taille de l’échantillon) : n=
n1+n2+…+ nk, k étant le nombre des modalités.
La distribution statistique est alors représentée par l’ensemble des couples (xi, fi)
Généralement une distribution statistique se présente sous forme d’un tableau.
9°. Paramètres.
Ce sont des indicateurs numériques ou des valeurs caractéristiques d’une distribution,
c'est-à-dire servant à synthétiser un ensemble des données. Exemple : la moyenne, le
mode, la médiane, la variance, etc.
• Le logiciel Excel, produit par Microsoft, est sûrement le plus connu et le plus
utilisé ; la version la plus récente contient une partie des procédures
statistiques utilisées dans les analyses des données.
• StatBox et Questions, mis au point par la firme Grimmer Logiciels, sont des
logiciels conçus spécialement pour l’analyse des données d’enquête ; ces
logiciels fonctionnent à partir du logiciel Excel de Microsoft.
• Le Sphinx, dont le concepteur est Jean Moscarola, professeur à Grenoble, est
un logiciel utilisé surtout pour la recherche marketing.
• Minitab est un logiciel statistique puissant qui propose un grand nombre de
procédures statistiques.
• Le logiciel SAS ( Système d’Analyse Statistique) a été conçu au départ pour le
calcul économique et les modèles de régression ; par la suite, on l’a adapté de
façon à y inclure les méthodes les plus connues de l’analyse des données.
• Le logiciel SPSS (Statistical Package for the Social Sciences) a été créé, au
tout début, pour les besoins des psychologues. Avec le temps (cette entreprise
existe depuis 1965), on a intégré un grand nombre de procédures statistiques
tout en facilitant le travail de manipulation des données.
EXERCICES
1. Dites si les variables suivantes sont qualitatives (dichotomiques, polytomiques
ordonnées ou nominales), quantitatives (discrètes ou continues) : a) Ventes
annuelles
b) Taille de la cannette de boisson (petite, moyenne, grande)
c) Classification des employés (GS1 à GS18)
d) Revenu d’un travailleur dans une entreprise
e) Méthode de payement (liquide, chèque, carte de crédit)
f) Age
g) Sexe
h) Classe sociale (pauvre, moyen, riche)
i) Marque d’un véhicule
j) Nombre de personnes en faveur de la peine de mort
FREQUENCES
2.1.1. Dépouillement des observations
Les données statistiques issues d’une enquête ou d’une expérience se
présentent sous forme des mesures qui ont été réalisées sur les individus de la
population ou d’une partie de celle-ci. Ces mesures se présentent généralement
sous forme d’une série statistique nécessitant une analyse statistique descriptive
préalable. Dans son état initial, la série statistique brute est en vrac et
désordonnée sans qu’on soit en mesure d’assimiler l’information qu’elle renferme
ou de procéder à des analyses. Elle nécessite d’être arrangée, grâce à l’opération
de dépouillement, en distribution de fréquences.
2 13 8.5 26 140
3 24 15.7 50 127
4 30 19.6 80 103
5 29 18.9 109 73
6 27 17.6 136 44
7 5 3.3 141 17
8 6 3.9 147 12
9 3 2.0 150 6
10 3 2.0 153 3
Total 153 100
ni
8 1 0,7
9 2 1,3
10 4 2,7
11 6 4,0
12 12 8,0
13 17 11,3
14 22 14,7
15 22 14,7
16 22 14,7
17 17 11,3
18 12 8,0
19 6 4,0
20 4 2,7
21 2 1,3
22 1 0,6
Total 150 100,0
Une série statistique relative à une variable quantitative continue peut être
également représentée par une distribution des fréquences avec des classes, c'est-
àdire une distribution où les modalités sont sous forme des classes. De manière
générale, lorsqu’une variable quantitative continue ou discrète comporte un très grand
nombre de modalités observées la meilleure façon de présenter la série statistique
correspondante est de former des classes et de construire une distribution des
fréquences en classes.
Une classe est un groupe de valeurs de la variable situées dans un
intervalle. Elle est définie par :
- une limite inférieure et une limite supérieure ;
- son centre de classe qui est la valeur centrale de la classe ; - son
amplitude ou longueur de classe.
2.1.2. GROUPEMENT EN CLASSES
Pour mettre en relief les caractéristiques d’une série, il est souvent
- Nombre de classes : k = 1+ =9
- L’étendue de la série : W = 54 – 26 = 28
- L’amplitude : a = = 3,50
- Limite inférieure de la 1ère classe :
Linf = 26 - = 24,25
Ainsi on formera les classes ci-après :
[24,25 ; 27,75[ ; [27,75, 31,25[ ; [31,25, 34,75[ ; [34,75 ; 38,25[ ; [38,25 ; 41,75[ ;
[41,75 ; 45,25[ ; [45,25 ; 48,75[ ; [48,75 ; 52,25[ ; [52,25 ; 55,75[.
Tableau de dépouillement
Ces tableaux rangent les données sous forme d’une colonne où figurent les racines
des valeurs de la variable et d’une autre où figurent les unités.
Exemple : série statistique de la variable « salaire mensuel » dans une entreprise.
124,142,181,192,129,141,173,157,105,133,127,196,164,163,164,179,148,143,150,16
9,165,
188,93,172,152,121,201,187,167,161,152,177,164,174,195,166,169,200,181,138 Tableau
2.5. Tableau tiges et feuilles de la variable salaire mensuel dans une entreprise.
Tige Feuilles
9 3
10 5
11
12 4971
13 38
14 2183
15 7022
16 4349571469
17 39274
18 1871
19 265
20 10
Le stem and leaf permet de faire ressortir le tableau de distribution en classes
d’amplitude 10 et surtout de conserver les données initiales. Les fréquences peuvent
être formées à partir de la colonne des feuilles. En même temps le stem and leaf
visualise une sorte d’histogramme de la distribution des fréquences.
A coté des tableaux des distributions des fréquences relatives aux séries
simples il existe des tableaux à double entrée qui se rapportent aux séries doubles.
C’est le cas des tableaux de contingence ou tableaux de dépendance.
2.1.4. Distribution des fréquences d’une variable qualitative.
Les distributions des fréquences d’une variable qualitative sont semblables à
celles des distributions des fréquences relatives aux variables quantitatives. Les
tableaux correspondants reprennent dans une colonne les modalités de la variable
qualitative et dans une autre colonne les effectifs ou fréquences relatives de ces
modalités. Chaque effectif représente le nombre d’individus de la population ou
d’échantillon présentant la modalité correspondant. Les fréquences relatives de ces
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
Cours de Statistique descriptive édition 2021-2022
TOTAL 50 100
20
18
16
14
12
10 ni
8 Pointage
6
4
2
0
E T B MO M
angleendeg rés.
100
Exemple : calculons les angles relatifs à la qualité des plats dans le restaurant Grill
Tableau 2.6. : Qualité des plats au restaurant Grill.
QUALITE ni fi (%) Angles(°)
E 19 38 136,8
T 13 26 93,6
B 10 20 72
MO 6 12 43,2
M 2 4 14,4
Total 50 100 360
ni
E
T
B
MO
M
35
30
30 29
27
25 24
20
Effectifs
15
13
12
10
6
5
5
3 3
0
1 2 3 4 5 6 7 8 9 10 11 12
.
.
. .
. . .
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
3. L’histogramme.
L’histogramme est utilisé lorsque la variable est quantitative continue et ses
modalités regroupées en classes. L’histogramme est un diagramme à barres dont les
rectangles sont contigus (c’est à dire qui se touchent).
En cas des classes d’amplitude a identique, la longueur de chaque
rectangle est égale à l’effectif (ou à la fréquence relative) de la classe. A chaque
classe on associe un rectangle dont la base est délimitée par les extrémités de la
classe et dont la hauteur est proportionnelle à l’effectif n i (ou à la fréquence fi) de la
classe.
La figure 5 ci-après représente l’histogramme du tableau 2.4.
FIGURE 5 : HISTOGRAMME DE LA DISTRIBUTION EN CLASSES DU PRIX D’UN
ARTICLE OBSERVE DANS 200 POINTS DE VENTE EN MILIEU B. Graphique
60
50 49 49
48
40
30
20 19
18
10
7
6
2 2
0
Fréquences
4. Le polygone de fréquence
La représentions graphique des fréquences absolues ou relatives est appelée
polygone de fréquence. Sur l’axe horizontal, on note la valeur des observations ou de
leurs classes et sur l’axe vertical, les fréquences absolues ou relatives.
5. L’ogive
La représentions graphique d’une distribution cumulée est appelée une ogive.
Sur l’axe horizontal, on note la valeur des observations et sur l’axe vertical, les
fréquences cumulées.
FIGURE 7 : OGIVE DE LA DISTRIBUTION EN CLASSES DU PRIX D’UN ARTICLE
OBSERVE DANS 200 POINTS DE VENTE EN MILIEU B.
Classes FCA
250
200
150
100
Classes FCA
50
0
24,25 27,75 31,25 34,75 38,25 41,75 45,25 48,75 52,25
– – – – – – – – -
27,75 31,25 34,75 38,25 41,75 45,25 48,75 52,25 55,75
EXERCICES
1. une société de transport en commun dispose de 500 véhicules. Afin d’étudier le
taux de pannes, sa direction d’exploitation enregistre au cours du mois de juin,
jour après jour, le nombre de véhicules en panne.
PARAMETRES
Les tableaux des distributions de fréquences et leurs représentations
graphiques permettent d’apprécier l’ordre de grandeur de valeurs de la série, leur
variabilité et la forme de leurs distributions. L’étape suivante consiste à résumer les
données grâce à un certain nombre de paramètres caractéristiques. Les paramètres
sont des valeurs numériques permettant de résumer et de réduire une série statique.
Les paramètres statistiques sont de trois sortes :
Les paramètres de position ont pour objet de situer le point autour duquel les
valeurs observées se distribuent. Ils indiquent leur position par rapport aux
autres valeurs de la série. On les appelle aussi paramètres de localisation ou
de tendance centrale.
1. La moyenne arithmétique
La moyenne arithmétique est la valeur la plus couramment utilisée en
statistique. Elle caractérise la tendance centrale d’un ensemble de données
numériques.
La moyenne arithmétique d’une série statistique est le quotient de la
somme de ses termes par leur nombre.
- Cas des données non groupées : Soit la série statistique composée de n
valeurs x 1, x2, x3, … , x n.
La moyenne arithmétique simple de cette série est donnée par
x x1 x2n...xn 1nin1 xi
Exemple : calculer la moyenne des tailles suivantes en cm :180, 183, 176, 193,
163,188.
x = 180,5cm
- Cas des données groupéés ( ou admettant distributions des fréquences) :
2. La moyenne géométrique
A coté de la moyenne arithmétique il existe la moyenne géométrique et la
moyenne harmonique et la moyenne quadratique
- La moyenne géométrique simple est la racine nième du produit des n valeurs de
l’échantillon :
ni1 log xi
xg 10
EX : La moyenne géométrique simple d’un élève ayant obtenue les notes 7,8 et 9
est :
xg = 3√7.8.9 = 7, 96
EX : Mademoiselle jolie a commandée 22 plateaux d’œufs dans une ferme dont les
prix sont les suivants :
5 plateaux d’œufs de poules à 15$
8 plateaux d’œufs de pintades à 3$
7 plateaux d’œufs de canards à 12$
2 plateaux d’œufs de dindons à 25$
Calculer le prix moyen géométrique pondéré
3. La moyenne harmonique
La moyenne harmonique simple X H est une moyenne telle que son inverse est la
1 1n 1 n
X H n i1 xi . ; D’où X H n 1
i1 xi
harmonique.
4. La moyenne quadratique
5. Le mode.
Le mode d’une série statistique est la valeur de la variable observée le
plus grand nombre de fois. Ou encore c’est la valeur de la variable à laquelle
correspond l’effectif le plus grand (la fréquence la plus élevée).
Dans le cas d’une série groupée sans classes, le mode correspond à la
1 a
Mo Li
1 2 où Mo
symbolise le mode
grandeurs croissantes.
- Si l’effectif n de la série ordonnée est impair, alors la médiane est
l’observation n 1
d’ordre , soit l’observation xn1
2 2
xn xn
1
d’où Me = 2 2
2
Exemple : n = 6 ; la série des valeurs ordonnées est : 3150, 3200, 3500, 3510,
3720, 3800.
x4 35003510
Alors la médiane de cette série est Me x3 =3505e
2 2
2°. Cas d es données groupées sans classes( admettant une distribution des
fréquences)
Ici, il faut aussi distinguer les séries ayant un effectif impair des données
de celles
comportant un effectif pair. Pour déterminer la médiane, on calcule préalablement les
effectifs cumulés ascendants.
Si l’effectif total « n » est impair, la médiane coïncide avec une modalité de la
distribution telle que son effectif cumulé ascendant est le 1er qui est supérieur ou
1
égal à n
2
Si l’effectif total « n » est pair, la médiane coïncide avec une modalité de la
er
qui est supérieur
à n . distribution telle que son effectif cumulé ascendant est le 1
2
Si l’effectif cumulé ascendant d’une modalité de la distribution est n
exactement égal à (n étant pair) alors la médiane de cette série est la moyenne 2
arithmétique de cette modalité et de la modalité immédiatement supérieure.
Exemple : la médiane de la distribution des enfants à charge dans 153 ménages de
Lubumbashi du tableau 2.1.
xi ni Effectif cumulé
ascendant
0 1 1
1 12 13 77
2 13 26
3 24 50
Me = 4 30
80
5 29
109
6 27
136
7 5
141
8 6
147
9 3
150
10 3
153
Total 153
où Me symbolise la médiane ;
Li est la limite inférieure réelle de la classe
médiane ; n est la moitié de l’effectif total n ; 2
n m est l’effectif de la classe médiane ;
am est l’amplitude de la classe médiane ;
FCp est l’effectif cumulé ascendant de la classe qui précède la classe
médiane.
b. Les quantiles. Les quantiles sont des valeurs possibles de la variable X qui
partagent la série statistique correspondante sous forme des valeurs ordonnées en r
parties ayant le même effectif. Pour un partage en r parties, il y a (r-1) quantiles. En
pratique, on utilise les quantiles suivants :
1°. La médiane, symbolisée par Me, partage la série des valeurs ordonnées en 2
parties ayant le même effectif.
2°. Les quartiles, symbolisés par Q 1, Q2 et Q3 partagent la série des valeurs
ordonnées en
4 parties ayant le même effectif.
- Le quartile inférieur Q1 ou 1er quartile est la valeur de la série statistique telle
que 25% des valeurs lui sont inférieures et 75% des valeurs lui sont
supérieures.
- Le quartile supérieur Q3 ou 3e quartile est la valeur de la série statistique telle
que 75% des valeurs sont inférieures à Q 3 et 25% des valeurs sont
supérieures à Q3.
- Le quantile central Q2 ou 2e quartile n’est autre chose que la médiane de la
série statistique.
3°. Les déciles sont 9 valeurs de la variable qui partagent la série des valeurs
ordonnées en 10 parties ayant le même effectif. Ils sont symbolisés par D 1,
D2, D3,…,D9. 4°. Les centiles ou percentiles C 1, C2, C3,…, C99 partagent la série
des valeurs ordonnées en 100 parties ayant chacune le même effectif.
Formule générale pour le calcul des quantiles d’une série regroupée en classes.
n.p
F
cp
r
Qr,p Li aq
nq
1. La variance et l’écart-type.
La variance est définie comme la moyenne arithmétique des carrés des
écarts des valeurs d’une série statistique par rapport à leur moyenne arithmétique.
D’après cette définition, si x1, x2,…, xn constitue une série statistique comportant n
termes, la variance se calcule à l’aide de la formule :
² x 1 x 2 x 2 x
n
2 ... xn x2 1ni n1 xi x2 ou encore
𝜎2 xi2
i x2
n (formule de Huygens-Koenig)
1 n
2 1 k ni xi x2
ni1
𝜎2 n xi. i
2
i
x 2n
1k
2
L’écart-type est la déviation moyenne des données d’une série statistique par rapport
à leur moyenne arithmétique. Notez que l’unité de la variance est le carré de l’unité de
mesure de la variable étudiée, tandis que l’écart-type est exprimé dans la même
unité de mesure que la variable.
2. l’écart moyen
L’écart moyen d’une distribution est la moyenne arithmétique des valeurs absolues
des écarts entre chaque donnée et la moyenne arithmétique de cette distribution. Elle
se note
% ; il est donc exprimé par la formule CV= 100
x
4. l’étendue ou range.
L’étendue est la différence entre les valeurs maximale et minimale d’une
série statistique. Ainsi l’étendue représentée par W est égale à W = X max – Xmax.
L’étendue exprime la longueur de l’intervalle dans lequel sont éparpillées toutes les
valeurs de la série.
3.4. Les paramètres de forme.
La forme d’une distribution des fréquences ou d’une courbe des
fréquences est étudiée d’après son asymétrie (dissymétrie) et son aplatissement. Il
existe ainsi des paramètres indiquant la dissymétrie d’une courbe des fréquences et
ceux qui indiquent son degré d’aplatissement.
Q3 Q1 Q3 Q1
Le coefficient de Yule varie de -1 à 1.
- Les valeurs négatives de ce coefficient signifient qu’il y a dissymétrie à droite et
que les valeurs de la série sont beaucoup plus étirées vers la gauche.
- Les valeurs positives du coefficient signifient qu’il y a dissymétrie à gauche et que
les valeurs de la série sont beaucoup plus étirées vers la droite.
- La valeur 0 du coefficient signifie que la distribution est symétrique.
2°. Le coefficient d’asymétrie FISHER (Skewness) est donné par
γ1 =𝜇3 / σ 3
où 𝜇𝑟 = 1n ik1 r
est symétrique.
Les principaux paramètres vus peuvent faire l’objet d’une représentation graphique
appelée « box –plot » ou « diagramme en boîte ». Ce diagramme donne les
informations suivantes :
- L’échelle horizontale (ou verticale) a une longueur égale à l’étendue de la série ;
- Sur cette échelle sont placés les trois quartiles ;
- Parallèlement à l’échelle est représenté un rectangle dont la longueur est égale à
Q 3 - Q1 ;
- Le rectangle est partagé en largeur par une ligne indiquant la médiane ;
- Le rectangle est prolongé de part et d’autre par deux lignes parallèles à l’échelle
horizontale, indiquant les valeurs maximale et minimale.
Cette représentation est aussi appelée « boîte à moustaches » dans certains
logiciels utilisés en statistique. Elle donne un aperçu sommaire sur une série
statistique et sur ses paramètres de position et de dispersion. Par ailleurs, dans les
représentations graphiques de données statistiques, la boîte à moustaches est un
moyen rapide de figurer le profil essentiel d’une série statistique quantitative. Elle a
été inventée en 1977 par John Tukey.
Q2=14,5
Xmin=8 xmax=22
Q1 =12,7 Q3 =16,4
6 8 10 12 14 16 18 20 22 24
Exercices.
1. Déterminez les paramètres de position (moyenne, mode et quartiles) et
ceux de dispersion (variance et écart–type) de la distribution du prix d’un
article dans un milieu A représentée par le tableau 2.3.
Tableau 2.9. : Calcul des paramètres de position et de dispersion de la
distribution du prix d’un article dans le milieu A.
7–9 8 3 24 192 3
9 – 11 10 10 100 1000 13
11 – 13 12 29 348 4176 42
13 – 15 14 44 616 8624 86
15 – 17 16 39 624 9984 125
x 14,52Fc
29
- Le mode : Mo =Li+ 1 a 13 44 2 = 14,5 1
37,513
Ncp
4
- Premier quantile :Q1 = Li+ aq 11 2 12,69
nq 29
3n
4 Ncp
aq 15 112,5862 16,36
- Troisième quantile : Q3=Li+
nq 39
- La variance :
5. On donne le poids de 30 personnes en kilogramme force : 70, 50, 67, 61, 57, 80,
95, 82, 58, 63, 88, 77, 96, 72, 64, 69, 56, 61, 59, 91, 93, 90, 78, 76, 73, 58, 60, 86, 95,
53
1. calculer pour cette distribution :
a. La moyenne
b. La médiane
c. Le mode
d. La variance et l’écart-type
e. L’écart moyen
2. Etudier pour cette distribution :
a. L’asymétrie suivant YULE et FISHER
b. Le Kurtosis
6. Soit le tableau suivant des données :
xi ni
4 2
6 5
8 8
10 10
12 4
14 1
Calculer la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique
et la moyenne quadratique.
7. Le prix d’un repas au restaurant La Maison French a la distribution de fréquences
suivante :
Vn
x100 il vient : In/o
Vo
V0 1 ou 100% période
vaut 1 ou 100%, c’est-à-dire I 0
0 V0
2°. La réversibilité : si deux périodes sont inter changées, les nombres relatifs
correspondants
sont les réciproques l’un de l’autre, c’est-à-dire
1
1 1 0
0 I0 0 1
I 1 ou I .I 1 soit 100%
3°. La circularité : le produit des nombres relatifs successifs pour chaque période par
rapport à la période immédiatement antérieure vaut 1 ou 100% :
I 1 .I 2 .I 0 1
0 1 2
I 1 .I 2 .I 3 .I 0 1
0 1 2 3
Ini P0ni , Pni et P0i sont respectivement les prix de détails de Gi à la situation n et à la
0
P ni
P 0i
i1
Exemple
No Marchandises Prix unitaires en Prix unitaires en
I 1970 1975
P 2005i
P 2000i
i1
Cette valeur traduit une augmentation générale des prix de 81,4% du coût de ces
denrées de 2000 à 2005.
L’indice agrégat non pondéré présente deux inconvénients :
- Il ne prend pas en considération l’importance relative de différentes marchandises.
- Il est influencé par différentes unités de mesure utilisées pour chaque marchandise.
b) L’indice agrégat pondéré de k marchandises pondère le prix de chaque
marchandise considéré afin de remédier aux désavantages de l’indice non
pondéré. Très souvent on considère la quantité ou le volume de l’année de
k
P q
ni 0i
P q
0i 0i
i1
Exemple
N° Marchandise Quantités P2000i P2005i P2000i q2000i P2005iq2000i
i s consommées en
1970
q2000i
1 Riz 5 kg 100 200 500 1000
2 Viande 1 kg 150 350 150 350
3 Poisson 1 kg 240 280 240 280
4 Fruits 1 panier 50 150 50 1760
940 1780
Ia x100 189,3%
Cet indice traduit une augmentation générale de 89,3% 4.3.2
Indices moyenne arithmétique des indices élémentaires
Soient :
k
Exemple
Marchandises Quantités P2000i P2005i Pi
consommées en I2005i 2005i
2000 P2000
2000 q2000i
k Pniq0i
1
I i 1
k
1 k P0iq0i
i1
I 100 221,28%
p ni q0i
q ni p0i
cas de quantité : QL q i
0I p0i : il y a pondération des quantités
par les prix
des marchandises à la période de base. C’est une formule qu’on utilise pour
mesurer les indices des quantités à l’importation ou à l’exportation et pour les
indices de production industrielle. Il est à remarquer que les coefficients de
pondération des indices de Laspeyres appartiennent à la situation de référence
0.
2. L’indice de Paasche
pq 0 n
période actuelle.
pq n 0
à la période actuelle.
Il est aussi à remarquer que les coefficients de pondération des indices de
Paasche appartiennent à la période actuelle n.
3. L’indice de Fisher.
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
Cours de Statistique descriptive édition 2021-2022
p n q0 pn qn
Cas de prix : PF L P p0 q0
p0 qn PP
p0 qn pn qn
Cas de F QL QF p 0 q0
pn q0 quantités : Q
EXERCICES
1. Le tableau ci-après reprend les prix en 2000 et 2002 ainsi que les quantités
moyennement consommées par mois de 10 produits et services représentant les
grands ensembles des biens consommés par une catégorie des ménages de
Lubumbashi.
N° Produits et Unité de Prix Prix Quantité Quantité
services mesure en en consommé consommé
I
2000 2002 e en 2000 e en 2002
Déterminer les indices des prix et des quantités en 2002 par rapport à l’an
2000 en utilisant les formules de Laspeyres, Paasches et Fisher. Interprétez les
indices de prix et de quantités de Laspeyres.
SOLUTION.
PP ppi
02ii qq02ii 100 13590 36900100 271,52% ; QP i
86,09% i q 42860
00 02 02 00 i
271,9% pi qi
00 00 00
pqi i
q00
Les indices des prix et des quantités de Laspeyres traduisent respectivement
une augmentation générale des prix de 172,3% et une diminution de la consommation
de 13,7% de 2000 à 2002.
1. Les mesures en 2003 et en 2005 des prix unitaires et des quantités consommées
des articles A, B, C et D sont données dans le tableau ci-après :
2003 2005
Calculer l’indice synthétique des prix de Laspeyres et de Paasche en 2005 par rapport
à l’an 2003.
2. On dispose des informations suivantes :
Prix mensuel s
Calculer l’indice des prix des moyennes arithmétiques pondérées pour le mois
de février, mars, avril et mai, par référence chaque fois au mois qui précède.
y = f(x)
2°. Supposons que les deux variables x et y varient d’une façon aléatoire sans
s’influencer mutuellement. Il n’y a aucun lien entre elles ; connaître la valeur de
l’une ne nous donne aucune information sur celle de l’autre. Nous dirons alors que
les deux variables sont indépendantes. Si nous établissons le diagramme
représentatif des couples des points (x, y), nous obtiendrons un nuage de points
dispersés n’importe comment y
. . x.
y y
dans le même sens. La valeur –1 indique également une loi, mais entre deux
variables qui varient en sens opposés. La valeur 0 indique l’absence de relation entre
deux variables : elles sont indépendantes.
5.2.2.1. COEFFICIENT DE CORRELATION LINEAIRE
(y y) (X)(X)
2
r=
2.Chaque mois, une entreprise commerciale consent certaines dépenses de publicité
afin d’accroître son chiffre d’affaires. Après 10 mois d’essais, l’on veut savoir si la
variation des frais affectés à la publicité entraîne dans le même sens le chiffre
d’affaires mensuel. Autrement dit, est-ce que les deux variables, dépenses de
publicité et chiffre d’affaires, sont-elles corrélées ?
Appelons x la dépense mensuelle de publicité et y le chiffre d’affaires
mensuel.
X Y (en (x x) (y y) (x x)(y y)
(en milliers) (yy)
2
milliers) (xx)2
n = 10 ;
r %
Ainsi 42,25 de la variation du chiffre d’affaires est due à celle des dépenses de
publicité.
5.2.2.2. Calcul du coefficient de corrélation à partir d’une distribution
conjointe
Lorsque l’on dispose des données sous forme d’un tableau de corrélation
décrivant une population statistique suivant deux caractères x et y, le coefficient de
Cov(x, y) corrélation
entre x et y sera donné par la formule : r dans laquelle
x.Y
n ij xi y j
Cov(x, y) i j
xy
n ij i j
n x i. i2 n .j y2j
x2 i x 2 ;y2 j y 2
n i. n .j
i j
Exemple de calcul.
On considère la répartition d’une population de 50 entreprises suivant deux caractères
: l’effectif x des travailleurs et le chiffre d’affaires annuel y.
xi (en milliers)
160 170 180
yj (en millions)
60 2 2 0
70 5 8 4
80 4 9 6
90 1 4 5
Les valeurs xi et yj représentent les centres de classes.
x2 i1
3 x 2 29158170,62 53,64; d'oùx
7,323933369 ni.
i1
n .j y 2j
y2 j1
4 y 2 6006 772 77; d'oùy 8,774964387
n .j
j
n ij xi y j n ij xi y j
Cov(x, y) i j
xy i j
xy
n ij n
i j
yj
60 120 120 0
70 350 560 280
80 320 720 480
90 90 360 450
880 1760 1210
140800 299200 217800 657800
6 7 8
y
30 0 8 20
40 5 20 7
50 15 3 2
G1 : X1 = 4 Y1= 110,28
G2 : X2 = 11,5 Y2 = 116
Connaissant les coordonnées de deux ponts d’une droite, il est alors facile de
déterminer l’équation de la droite (de la forme y = a x + b). Dans notre
exemple :
G1 doit vérifier l’équation : 110,28 = a *4 +b
G2 doit vérifier l’équation : 116 = a*11,5 + b
Des deux équations précédentes, par soustraction nous obtenons :
7,5a = 5,72 a= 0,762
et b = 107,2 D’où
l’équation de la droite
de MAYER : y =
0,762 x + 107,2
y1, y2 , y3 ,... etc des points M1 , M 2 , M 3 ,...sur la droite d’ajustement y’= a x +
b. Posons : y1 y1 d1
y2 y2 d2
y3 y3 d3
………………
L’ensemble d1, d2, d3, … est dit ensemble des résidus. Ils mesurent chacun la
distance d’un point du nuage à la droite, distance mesurée parallèlement à l’axe des
ordonnées oy. Ces résidus constituent en somme les erreurs commises en
substituant un point de la droite au point du nuage de même abscisse.
Le problème qui se pose pour tout ajustement linéaire est la détermination
des paramètres a et b de la droite d’estimation. La méthode d’ajustement la plus
utilisée en pratique, c’est la méthode des moindres carrées. La droite d’estimation
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
Cours de Statistique descriptive édition 2021-2022
trouvée grâce à cette méthode s’appelle "droite de moindres carrés" ou " droite de
régression".
La méthode de moindres carrés est ainsi appelée car elle impose comme
démonstration, que di 0. La droite de régression est donc celle qui passe le plus
a et b telles que :
(y ax yˆ ax)x 0
i i i
(x y ax i i i
2
yxi axxi ) 0
x y ax
i i i
2
yxi axxi 0
x y y x a(x
i i i i i
2
xxi )
1 xi yi xy x
1
a( 2 x2 )
i
n n
n
1 2
(avec x2 variance de la variable x)
xi yi xy ax
D’où:
1n
xi yi xy Cov(x2 , y) y rxy , ou encore
a 2
x x x
y y où
yˆ y rxy (x x)
x
On peut aussi suivant le même raisonnement déterminer la droite de
régression de x en y. Dans ce cas les résidus sont mesurés parallèlement à l’axe des
abscisses ox. Cette deuxième droite est de la forme :
x (y y)
xˆ ay b soit xˆ x rxy
y
b x ay
Exemple :
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
Cours de Statistique descriptive édition 2021-2022
Les ventes Y d’un nouveau journal ont été, pendant les 7 dernières semaines X, les
suivantes :
X 1 2 3 4 5 6 7
Y 6 4 6 8 10 10 12
Procéder à un ajustement de Y en fonction de X par la méthode des moindres carrés
ordinaires.
SOLUTION
a= 1,21 et b = 3,16. D’où l’équation de la droite dans sa forme générale :
y = 1,21 x + 3,16
EXERCICES
1. Le tableau suivant fournit le pourcentage de femmes travaillant dans chaque
société (X) et le pourcentage de postes à responsabilité occupés par des femmes
dans chaque société (Y).
Société 𝑋𝑖 𝑌𝑖
Federated department 72 61
stores
Kroger 47 16
Marriott 51 32
Mc donald’s 57 46
Sears 55 36
25000 280000
17000 250000
18000 255000
28000 292000
22000 265000
20000 260000
19000 262000
22000 280000
30000 285000
Dans le cas d’un flux chaque observation se rapporte à une période : flux écoulé
pendant la période. Les périodes d’observations sont numérotées de 1 à T et Y t est le
flux écoulé pendant la période t. On peut également supposer les périodes
d’observations d’égale longueur, mais ici encore, cette hypothèse n’est pas toujours
rigoureusement vérifiée.
Exemple : - série de la production mensuelle de bière à la Bralima ;
yt + 1 yt +
1
yt
yt
yt-1
yt -1
t -1 t t +1 temps t -1 t
t+1 temps
Les deux dimensions mensuelles et annuelles du temps sont repérées par les indices
j et i : j= indice relatif au mois : j = 1,2, …, m ; i= indice relatif à l’année : i = 1, 2 … n.
Le mois no t sera le j ème mois de la ième année si : t = m (i 1) + j.
On écrira indifféremment : Yt (t = 1, 2 … , T = n m) Yi j (i = 1, 2, … , n ; j = 1, 2, …, m)
Si j = Sj quel soit i
Soit Yi j = C + Sj ou Yij = C . Sj
On convient pour lever cette indétermination d’identifier le mouvement conjoncturel à
la moyenne annuelle : Y C S C ou Y C S C
Cette convention, qu’on appelle « principe de conservation des aires », revient ainsi à
supposer que :
- dans le schéma additif, la moyenne des coefficients saisonniers S j est nulle sur
une année ;
Pour parvenir à établir les formules des valeurs de a et b j qui rendent minimum
l’expression A, il faut chercher les dérivées partielles de A par rapport à b j et par
rapport à a et égaler chacune d’elles à 0. On aura ainsi un système de deux équations
à deux inconnues dont la résolution nous conduira à l’établissement des formules de
a et bj. Les quantités bj ne figurent que dans n des m.n termes de la somme double A.
0
i
1 am
n Yij bj a. j n i (i 1)
i
n 1
bj Yj a j m( 2 ) (1)
1 a
principe de conservation des aires : b 1 bj m1 j Yj am(n2 )m j j
mj
1
b Y a nm (2)
2
1
c j Yj Y a( j m ) (3)
2
n 1
A i j Yij am(i 1) jYj a( j m
2 )
2
n 1 n 1
2i j Yij Yij am(i
2 ) m(i 2 ) 0
(i n2 1) j (Yij Yj ) am2 i (i n2 1)2
i
i (i n 1)(Yi Y ) am (i n 21)2
2 i
am i
(i n 21)
i
2
1 n 1 n 1
Or (Yi Y )(i n 2 ) i (iYi 2 Yi iY 2 Y)
i
iYi n(n21) Y
i
D’autre part:
(i n 21)2 i (i 2 2i n 21 (n 41)2 ) i i 2 (n 1)i i n(n41)2
n(n 1)(2n 1) (n 1)n(n 1) n(n 1)2 2n(2n2 3n 1) 6n(n2 2n 1) 3n(n2 2n 1)
6 2 4 12 n(4n 6n 2 6n2 12n 6 3n2 6n 3)
2
n(n 1)
2
12 12
12 iYi n(n 1)Y
a 12 nmiYi (n2n(n12) 1)Y
i
1
b Y a nm
2
1
c j Yj Y a( j m )
2
6. Calcul pratique.
Le calcul pratique des estimations est effectué sur la table de Buys- Ballot qui se
présente de la manière suivante :
Table de Buys-Ballot
Mois j 1 ... J ... m Ti=total Yi Produit
de
moyenne iTi
la mensuelle
Année i
ligne n° pour
i
l’année n°
i
1 Y11 Y1j Y1m
Yj T Moyenne S= total
moyenne Yj j générale de la
mensuelle n colonne
T
du mois n°
Y nm
j
Coefficients c1 cj cm
saisonniers
cj
a nm(12n2 1) mS
n2m1T
1
b T a nm
nm 2
Tj T m 1
c j a( j
)n nm 2
1. EXEMPLE D’APPLICATION.
Considérons la série mensuelle des ventes d’un rayon d’un grand magasin dont les
données (exprimées en 10.000 Francs) sont reprises dans la table de Buys-Ballot et
représentées graphiquement à la figure suivante. L’allure linéaire du mouvement de
fond, la régularité des oscillations mensuelles suggèrent un ajustement conforme au
modèle étudié. Le tableau de calcul (table de Buys-Ballot) fournit les estimations a, b
et cj dont on déduit la série ajustée ( en dizaine de milliers) de : a 7 1212(72 1)
1
(29966012 27 12 71660) 3,229
b 3,229 715,86
c j Yj 853,103,229( j )
Janvier = -12,5 ; Février = -57,1 ; Mars = -88,2 ; Avril = -92,9 ; Mai = -4,0 ; Juin =
63,5 ;
Juillet = -2,6 ; Août = -73,7 ; Septembre = -74,7 ; Octobre = 1,31 ; Novembre = 86,7 ;
Décembre = 254,1.
Yt 715,863,229t
En janvier -12,5 ; En février -57,1 ; En mars -88,2 ; En avril -92,9 ; En mai -4,0 ; En
juin -63,5 ; En juillet -2,6 ; En août -73,7 ; En septembre -74,7 ; En octobre 1,31 ;
En novembre 86,7 ; En décembre 254,1.
An. i
1950 : 1 700 650 635 675 750 800 725 650 675 750 800 975 8785 732,08 8785
1951 : 2 750 725 675 700 825 850 825 700 700 800 825 1000 9375 781,25 18750
1952 : 3 775 775 750 735 810 870 805 745 750 825 875 1050 9765 813,75 29295
1953 : 4 815 775 780 760 850 920 855 810 795 865 960 1090 10275 856,25 41100
850 810 765 750 870 950 875 850 835 895 1010 1175 10635 886,25 53175
1954 : 5
925 840 825 800 890 1000 920 860 855 930 1090 1285 11220 935,00 67320
1955 : 6
945 895 845 845 915 1015 960 875 895 995 1120 1300 11605 967,08 81235
1956 : 7
Total 5760 5470 5275 5265 5910 6405 5965 5490 5505 6060 6680 7875 T 299660
71660
Moyenne 822,86 781,43 753,57 752,14 844,29 915,00 852,14 784,29 786,43 865,71 954,29 1125 853,10
Coeffic. -12,48 -57,14 -88,22 -92,88 -3,97 63,52 -2,57 -73,65 -74,74 1,32 86,66 254,15
Saisonnier
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
86
Cours de Statistique descriptive édition 2021-2022
j 1 2 3 4 5 6 7 8 9 10 11 12
Année i
↓
1950 1 707 665 637 636 728 799 736 668 670 750 838 1009
1951 2 745 704 676 675 767 838 775 707 709 788 877 1047
1952 3 784 743 715 713 806 816 813 746 748 821 916 4086
1953 4 825 782 754 752 844 915 852 784 787 866 954 1125
1954 5 862 820 792 791 883 954 891 823 825 905 993 1164
1955 6 900 859 831 830 922 992 930 862 864 943 1032 1202
1956 7 939 898 870 868 961 1031 968 901 903 982 1071 1241
Soit une série chronologique composée des valeurs g t, gt étant la valeur de la série
correspondant à la période (ou date) t, (t = 1, 2, 3, …). On appelle moyennes mobiles
sur p mois de la série chronologique, les moyennes successives de la série
calculées sur p mois consécutifs et rapportées à la date milieu de la période.
Exemple :
T J F M A M J J A S O N D
gt 10 15 15 18 16 20 25 12 16 17 20 22
Les moyennes mobiles de cette série calculées sur 3 mois consécutifs sont :
18 ; 20,3
19 ; 17,7 ; 15 ; 17,7 ; 19,7
3 33
Chacune de ces moyennes mobiles se rapporte au milieu des mois centrés dans le
calcul de la moyenne. Ainsi pour calculer la 1 ere moyenne mobile, nous avons utilisé
les observations de J, F et M ; cette moyenne mobile se rapporte à la date milieu de
février. De cette manière les moyennes mobiles ci-dessus se rapportent
respectivement aux mois de F, M, A, M, J, J, A, S, O et N.
De manière générale la moyenne mobile sur p mois de la période s’étendant entre les
dates t + 1 et t + p est donnée par :
p 1 1 p
1
M p (t ) p gtk p (gt1 gt2 ... gtp ) ,
2 k1
1
la date t p étant la date milieu de la période
considérée. 2
Les hypothèses qui sont faites pour l’analyse des séries chronologiques dans le cadre des
méthodes empiriques sont les suivantes :
- Le mouvement extra-saisonnier est une fonction ft quelconque du temps ;
Du fait des hypothèses précédentes relatives aux mouvements saisonnier et accidentel, les
trois schémas conduisent tous ou au moins approximativement à
1m 1m
Les fonctions Yt et ft ont même moyenne mobile sur m mois. Ce résultat se déduit
immédiatement de :
1m 1m
m stk 0 ; m k1 Itk 0, pour le schéma
additif. k1
mk1 Ctk stk
C
m k1 tk s 0
1m 1m
mk1 Ctk atk
C
m k1 atk 0
3. Estimation du mouvement extra – saisonnier par la moyenne mobile.
m k1 Ctk m k1 Ytk , à la valeur de C relative à la date milieu de période, c’est-à-dire
Ctm2
Ainsi donc, dans les trois schémas envisagés et moyennant les hypothèses suivantes :
- périodicité égale à m mois du mouvement saisonnier ;
la moyenne mobile des observations Y t sur m mois consécutifs est une estimation de
l’extra-saisonnier ft relatif au milieu de la période. Cette estimation présente les
inconvénients suivants :
m
- On ne peut calculer la moyenne mobile relative au mois t que mois plus
2
Y Y
tard, lorsqu’on dispose des observations tm2 , tm21,....,Ym.
- Schéma additif.
Dans le schéma additif :Yt Ct s j It l’estimation Mm (t) de l’extra-saisonnier Ct conduit
à : Yt Mm (t) s j It
Pour chaque mois no j on dispose de n–1 différences qui constituent des estimations
entachées de l’erreur It du coefficient saisonnier sj. On synthétise ces n–1
estimations en une estimation unique sj en calculant la médiane ou encore la
moyenne arithmétique. Dans le cas de la moyenne arithmétique sj sera donné par :
1 n1 sj n1 Y M
ij
i1
1 s j
sj m sj
Par C.T. KANYEMBO LWIMBA Raphaël Castard pour PREPA/SALAMA
90
Cours de Statistique descriptive édition 2021-2022
On appelle alors série corrigée des variations saisonnières la série des différences
Yt s j Ytc
Le schéma des calculs à effectuer en supposant une série mensuelle (m = 12) se présente
comme suit :
1o. Calcul des sommes mobiles rapportées au milieu de la période :
5
S(t ) Ytk
k6
(t)
3o Calcul des moyennes mobiles :M12 (t) S(t ) S(t 12)
24
5o. Synthèse en une estimation unique sj de chacun des coefficients saisonniers :
sj = médiane (ou moyenne) des différences Yij M12 (i, j)où j est fixé et i variable. 6
o
. Calcul de la moyenne des 12 estimations sj : s 121 12j1 sj
Remarque :
Si les estimations des coefficients saisonniers sont valables, la série corrigée des
variations saisonnières ne doit plus présenter de modulation. Une estimation trop
faible du mouvement saisonnier relatif au mois n° j conduit à une série corrigée
présentant systématiquement des pointes au mois j de différentes années.
- Schéma multiplicatif.
Le schéma multiplicatif : Yt Ct (1 s j ) It ou Yt Ct (1 s j )(1 It )
Yt
moyenne mobile :
M m (t)
Les n–1 rapports saisonniers relatifs au mois n° j sont des estimations entachées
d’erreur des coefficients 1+sj. On synthétise ces n-1 estimations pour obtenir une
estimation unique 1 sj en calculant la médiane des rapports saisonniers ou la
moyenne après élimination des valeurs extrêmes. Ensuite on corrige les m
1 sj
estimations de façon à assurer le principe de conservation des aires : 1 s j
1 s
(correction proportionnelle)
Les estimations 1+sj constituent les estimations définitives des coefficients saisonniers.
Le schéma des calculs à effectuer en supposant m = 12 présente comme suit :
5
o
) Calcul des moyennes mobiles : M12 (t) S(t ) S(t
1
2 ) (t) 3
24
o
) Calcul des rapports saisonniers :
Yt 4
M12 (t)
o :
) Calcul de la moyenne des 12 estimations 1 sj 1 sj 121 12j1 (1 sj )
1 sj
o
) Etablissement de la série corrigée des variations saisonnières : Yijc
Yij 8
1 s j
- Schéma mixte.
Dans le cas du schéma mixte : Yt ft (1 a j ) bj zt on obtient les estimations des
coefficients aj et bj par report graphique des couples (Yt ,M m (t)).En effet, si le schéma
mixte est valable, les n–1 points relatifs aux mois j doivent être sensiblement alignés,
aux écarts zt près. On estime, en général graphiquement, la droite D j sur le
graphique relatif au mois j. la pente de cette droite, 1 aj est une estimation de 1+aj
et son ordonnée à l’origine bj est une estimation bj. On corrige ensuite les
estimations obtenues (de façon à assurer le principe de conservation des aires) pour
aboutir à des estimations définitives :
1 aj
1 a j , bj bj b
1 a
o
. Calcul des moyennes mobiles : M12 (t) S(t ) S(t
1
2) (t) 3
24
4°. Report graphique, pour chacun des 12 mois, des n–1 points de coordonnées
(Yij ,M12 (i, j)) où j est fixé.
5o. Estimation des douze pentes 1 aj et des douze ordonnées à l’origine bj .
1 12 1 12
1 a 12 j1 (1 aj ) , b 12 j1 bj
Remarque:
Le report graphique précédent permet de choisir entre les trois types des schémas :
additif, multiplicatif ou mixte. On retient le schéma additif si les pentes des droites D j
ajustées aux n-1 couples (Yij ,Mm (i, j))ne diffèrent pas sensiblement de 1 ; on retient le
schéma multiplicatif si les droite Dj passent approximativement par l’origine ; enfin,
dans les autres cas, on retient le schéma mixte. Il y a lieu de noter toutefois qu’il est
préférable de retenir les schémas additif ou multiplicatifs si les coefficients a j et bj
sont faibles : l’introduction de nombreux paramètres ne se justifie que si elle améliore
sensiblement la qualité de l’ajustement.
Résolution
- La série est marquée par un mouvement saisonnier très net : pointes aux 3 e
trimestres, creux aux 1er trimestres.
Le tableau de calcul ci-après fournit les moyennes mobiles et les rapports saisonniers.
1 s j
1952 1 920 1121
3 2856 2406
4 2358 2493
Total : 400,0
1 s 100%
Les estimations définitives des coefficients saisonniers sont donc