You are on page 1of 21

Statistique applique la gestion et au marketing

http://foucart.thierry.free.fr/StatPC

Chapitre 1

GRAPHIQUES
On entend souvent quun schma vaut mieux quun long discours. Effectivement, lorsque lon veut tudier une srie dobservations statistiques, il est souvent judicieux de commencer par en donner une reprsentation graphique. Cette reprsentation dpend de la nature des donnes tudies. En effet, il existe plusieurs types de donnes : donnes quantitatives continues (mesures par une unit de grandeur, comme le mtre, le franc), quantitatives discrtes (rsultant dun dnombrement et sexprimant en nombres entiers) ou qualitatives (codes par une lettre, par exemple F pour fminin, M pour masculin, ou un chiffre sans signification numrique) et ordinales (objets classs par ordre de prfrence). Les reprsentations graphiques fondamentales sont : des diagrammes, dans le cas de donnes qualitatives, quantitatives discrtes ou ordinales ; des histogrammes, dans le cas de donnes quantitatives.

Exemple : Le directeur commercial de lhypermarch EUROMARKET se propose de comparer la structure socioprofessionnelle et les achats de sa clientle ceux des autres hypermarchs de la chane. Sa dmarche consiste tudier la CSP de clients tirs au hasard

Chapitre 1

page 2

Graphiques

la sortie des caisses ainsi que leurs achats( tableau 2.1). On trouvera les donnes compltes en annexe. On note bien entendu F le sexe fminin et M le sexe masculin. La catgorie socioprofessionnelle (CSP) est dfinie par les 7 groupes de professions ci-dessous : 1. Agri : agriculteur ; ouvrier agricole 2. Ouv. : ouvrier 3. Emp. : employ ; 4. C.M. : cadre moyen ; 5. C.Sup. : cadre suprieur; 6. PIC : Commerants, artisans ; 7. Inact. : inactifs, retraits, chmeurs, tudiants Tableau 1.1 : Liste des catgories socioprofessionnelles 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Agri. Ouv. C.Sup C.M. Inact. C.Sup. Emp. Emp. Ouv. C.M. Agri. Ouv. Emp. Ouv. Emp. Emp. Ouv. Emp. C.M. Emp. Emp. Emp. Ouv. PIC C.Sup. M F F M F F F F M F F F M F M F F M F F F F M F M 150.15 173.12 88.91 65.10 39.90 351.15 478.80 745.33 841.50 555.10 632.13 712.22 254.13 301.52 420.15 289.90 251.14 190.65 215.85 165.44 174.55 135.33 154.66 274.15 293.12 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 PIC Inact. PIC C.M. Emp. PIC C.M. Emp. Ouv. Emp. C.Sup. Ouv. C.M. Agri. Emp. Emp. Emp. Emp. Emp. C.M. Ouv. Inact. C.M. Inact. Ouv. F F F M M M M F F M M F F M F F F M F F M M M F M 314.25 951.16 63.22 95.22 99.90 104.57 452.75 190.68 220.36 250.66 250.87 590.14 301.25 610.90 125.34 240.90 290.75 241.78 305.90 520.45 490.63 210.33 350.44 320.90 299.90

Tableau 2.1 : Catgories socioprofessionnelles et achats des 50 clients de EUROMARKET

Chapitre 1

page 3

Graphiques

1. DIAGRAMMES.
Il est facile de reprsenter graphiquement la rpartition des observations suivant une variable qualitative, ordinale ou quantitative code par valeurs entires. Il existe de nombreuses mthodes, disponibles sur la plupart des tableurs comme Excel, et les erreurs sont dues frquemment des choix malheureux.

1.1 Gnralits. Diagrammes de base.


Dans le cas gnral des donnes qualitatives, la variable qualitative est constitue de modalits dont le codage peut tre effectu par des caractres alphabtiques (par exemple, F pour Fminin, M pour Masculin) mais il est frquent, pour faciliter le traitement informatique des donnes, dutiliser un codage numrique (1 pour Fminin, 2 pour Masculin). La plupart des erreurs, dans les graphiques concernant les variables qualitatives, viennent de ce codage par des chiffres qui na en ralit aucun sens numrique ni ordinal. La CSP agriculteur, code par 1, nest pas avant la CSP ouvrier, code par 2. Le sexe peut tre cod par 1 pour Fminin et par 2 pour Masculin ou inversement, cela na aucune importance. Lordre des valeurs na pas de sens particulier et peut tre modifi. Les variables quantitatives discrtes sont dfinies par des grandeurs numriques exprimes en nombres entiers. Le nombre denfants par foyer en est un exemple, de mme que le nombre de personnes attendant lautobus un arrt, faisant la queue une caisse dun hypermarch etc.Ces variables sont quantitatives : on peut en calculer et en interprter la moyenne. On peut les reprsenter par des diagrammes comme les variables qualitatives, mais le codage a un sens numrique, et on ne peut inverser lordre des valeurs. Il existe deux diagrammes de base : un diagramme en btons, appel frquemment et improprement histogramme, et un diagramme circulaire. Ces diagrammes reprsentent les effectifs ou les pourcentages de lchantillon suivant chaque modalit de la variable qualitative : Le diagramme en btons est lmentaire : on reporte le long de laxe des abscisses la liste des modalits de la variable et le long de laxe des ordonnes leffectif de lchantillon correspondant chacune dentre elles.

Chapitre 1

page 4

Graphiques

Le diagramme circulaire est constitu dun disque reprsentant la totalit de lchantillon. Chaque modalit de la variable qualitative est caractrise par un secteur circulaire dont laire, et par suite langle au centre, reprsente leffectif de lchantillon correspondant. Il est prfrable dans la quasi totalit des cas de reprsenter non les effectifs correspondant chaque modalit ou chaque valeur entire, mais les proportions. Les deux mthodes sont quivalentes, mais la reprsentation des pourcentages permet de comparer deux diagrammes entre eux indpendamment des effectifs totaux. On peut crer dautres graphiques partir de ces deux types de diagrammes, par juxtaposition, superposition etc. On peut aussi trier les modalits dans lordre des effectifs dcroissants, lobjectif tant alors de classer les modalits. Certains logiciels proposent des graphiques trs labors, dont la comprhension devient cependant difficile ; le but de ces graphiques est plus commercial que de fournir un outil statistique de qualit.

1.2 Diagrammes dEXCEL.


Lassistant du tableur EXCEL propose un certain nombre de graphiques, parmi lesquels des histogrammes (qui sont en ralit des diagrammes en btons) et des graphiques circulaires (figure 1.1) :

Chapitre 1

page 5

Graphiques

Parmi les histogrammes, on choisit un des formats suivants (figure 2.1):

La varit offerte dans le choix du diagramme a pour rciproque le danger de slectionner un type de schma ne convenant pas aux donnes tudies. Ceux qui proposent une reprsentation de valeurs ngatives (types 1, 2, 4, 6, 7 et 8) sont viter en statistique et conviennent pour reprsenter des rsultats financiers par exemple. Les diagrammes circulaires peuvent tre crs sous forme dellipses donnant une reprsentation dans lespace (3D) pour amliorer lesthtique( figure 3.1) :

Chapitre 1

page 6

Graphiques

1.3 Exemples.
Les rpartitions des clients du tableau 2.1 sont les suivantes : Sexe Effectifs Catgorie socioprofessionnelle 1. sexe fminin : 30 1. Agriculteur : 2. sexe masculin : 20 2. Ouvrier : 3. Employ : 4. Cadre moyen : 5. Cadre suprieur : 6. Commerants, artisans : 7. Inactifs : Effectifs 3 10 17 8 4 4 4

Les diagrammes en btons donns en figures 4.1, 5.1, 6.1, 7.1, 8.1 ont t obtenus par Excel :

On notera que dans les figures 4.1 7.1, ce sont les effectifs qui sont reports en ordonne. Il est prfrable que ce soient les proportions, ou les pourcentages, par homognit avec la procdure gnrale et pour faciliter les comparaisons de diagrammes tablis partir densembles de donnes diffrents.

Chapitre 1

page 7

Graphiques

Le diagramme donn en figure 5.1 reprsente les effectifs par catgorie socioprofessionnelle. Ces CSP ont t classes suivant les effectifs dcroissants : les employs sont trs nombreux parmi les clients, les ouvriers et les cadres moyens sont peu prs deux fois moins nombreux. Les autres CSP ne sont gure prsentes dans lchantillon.

On peut calculer aussi les rpartitions des hommes et des femmes suivant la CSP, et les reprsenter simultanment. On obtient un diagramme en btons permettant de comparer les effectifs et non les proportions : la diffrence est importante, puisquil y a 30 femmes et 20 hommes. Femmes : Agriculteur : 1 Ouvrier : 6 Employ : 11 Cadre moyen : 4 Cadre suprieur : 2 Commerant, artisan : 3 Inactif : 3 Hommes 2 4 6 4 2 1 1

Chapitre 1

page 8

Graphiques

Le premier diagramme circulaire ci-dessous reprsente la rpartition des hommes suivant la catgorie socioprofessionnelle et est obtenu avec un effet en trois dimensions :

Le second, qui reprsente la rpartition des femmes suivant la catgorie socioprofessionnelle, se prsente sous la forme dun disque. Laire S dun secteur circulaire caractrisant une proportion p de lchantillon doit tre gale une proportion p de laire A du disque. En notant son angle au centre, on a les angles suivants dans le cas de la rpartition des femmes : p = 0.03 p = 0.10 p = 0.20 = 0.03 x 360 = 0.10 x 360 = 0.20 x 360 = = = 10.8 36 72 p = 0.07 p = 0.13 p = 0.37 = 0.07 x 360 = 0.13 x 360 = 0.37 x 360 = = = 25.2 46.8 133.2

Chapitre 1

page 9

Graphiques

Lorsque laire totale du disque caractrise le nombre total dobservations, laire de chaque secteur caractrise leffectif de la modalit correspondante. En construisant deux disques, on peut alors comparer la rpartition des hommes celles des femmes suivant les CSP en pourcentages (caractriss par les angles) et en effectifs (caractriss par les aires).

2. RPARTITIONS DOBSERVATIONS QUANTITATIVES.


Nous abordons ici le cas de variables quantitatives appeles continues, caractrises par le fait quelles peuvent prendre nimporte quelle valeur entre deux valeurs donnes.

2.1 Choix des classes.


La procdure la plus simple consiste rpartir les observations dans des intervalles appels aussi classes pralablement dfinis. Il nexiste pas de mthode gnrale pour dfinir ces classes ; les choix sont effectus par lutilisateur qui doit videmment tenir compte des donnes, de leur nature et des informations dont il dispose a priori. En ce qui concerne le nombre de classes, on peut donner comme valeur approximative le nombre dobservations divis par dix. Toutefois, il est souvent recommand de considrer un nombre de classes impair, pour disposer dune classe centrale souvent utile dans les reprsentations graphiques. Pour 60 observations, on choisira donc 5 ou 7 classes plutt que 6.

Chapitre 1

page 10

Graphiques

Cette rgle ne sapplique videmment quaux effectifs relativement faibles, et il est dans la plupart des cas inutile de considrer 100 classes si le nombre dobservations est gal 1000.

Les bornes des classes ne sont pas faciles choisir. Les choix dpendent toujours de lutilisateur et des donnes, ils sont empiriques , cest--dire choisis de faon raisonne. Une premire difficult est de fixer la plus petite et la plus grande des bornes. La question pose est la suivante : entre quelles valeurs varient les donnes ? On peut choisir la valeur la plus petite et la valeur la plus grande des valeurs observes ; on peut aussi dterminer les valeurs les plus vraisemblables, mais ce nest pas toujours facile. En ce qui concerne les classes suivantes, plusieurs critres peuvent tre utiliss : on fixe les bornes de faon arbitraire, en tenant compte de la nature des donnes, de la lisibilit des rsultats numriques ; on fixe les bornes de faon que les classes soient de mme longueur ; lavantage est la simplicit du calcul et de la reprsentation graphique ; on fixe les bornes de faon que les classes soient de mme effectif ; la dmarche est plus riche dinformations mais elle demande plus de calculs et nest pas toujours possible. Dans chaque cas, la borne infrieure dun intervalle est gale la borne suprieure du prcdent (sauf videmment dans le cas de la premire classe), de faon recouvrir lensemble des valeurs possibles. Une faon d viter que des valeurs observes soient gales une borne est de dfinir des bornes avec un nombre de dcimales suprieur celui des observations. Mais cela nempche pas les difficults qui apparaissent lorsque des observations sont gales entre elles dans une proportion non ngligeable par rapport leffectif de lintervalle o elles sont classes. On indique en gnral pour chaque classe son centre, le nombre dobservations quelle contient (appel effectif absolu ou frquence absolue) et le pourcentage dobservations dans la classe (appel effectif relatif ou frquence relative). Dans le cas dune rpartition en intervalles de mme longueur, les calculs ne posent pas de problmes : on peut choisir un grand nombre de classes, effectuer la rpartition des observations et runir ensuite des classes entre elles. Nous proposons donc la rgle suivante, qui peut aboutir une rpartition dans des intervalles de longueurs diffrentes :

Chapitre 1

page 11

Graphiques

on choisit comme nombre de classes le nombre dobservations divis par cinq ; on considre des classes de mme longueur ; on effectue la rpartition des observations ; on runit les classes voisines dont les effectifs sont faibles, infrieurs 5 par exemple, de faon obtenir un nombre impair de classes et gal peu prs leffectif des observations divis par dix. Les premire et dernire classes peuvent contenir des effectifs plus faibles.

Exemple : Nous rpartissons les achats des 50 clients en 10 classes de mme longueur. Nous choisissons comme bornes extrmes la plus petite et la plus grande des valeurs observes : 39.9 et 951.16. La longueur des classes est donne par : (951.16 - 39.9 )/10 = 91.126 Les bornes des autres classes sont les suivantes : 39.9 + 91.126 = 131.026 131.026 + 91.126 = 222.152 222.152 + 91.126 = 313.278 313.278+ 91.126 = 404.404 404.404+ 91.126 = 495.530 495.530+ 91.126 = 586.656 586.656+ 91.126 = 677.782 677.782+ 91.126 =768.908 768.908+ 91.126 =860.034 860.034+ 91.126 =951.160 On donne ci-dessous la rpartition des 50 observations dans ces 10 classes : Classe 1 2 3 4 5 6 7 8 9 10 [ [ [ [ [ [ [ [ [ [ Inf. 39.900, 131.026, 222.152, 313.278, 404.404, 495.530, 586.656, 677.782, 768.908, 860.034, Sup. 131.026 222.152 313.278 404.404 495.530 586.656 677.782 768.908 860.034 951.160 [ [ [ [ [ [ [ [ [ ] centre 85.463 176.589 267.715 358.841 449.967 541.093 632.219 723.345 814.471 905.597 Eff. 8 11 14 4 4 2 3 2 1 1 % 16 22 28 8 8 4 6 4 2 2

Tableau 3.1 : rpartition des achats en 10 classes de mme longueur Les classes donnes en tableau 3.1 sont trop nombreuses : les sept dernires regroupent chacune moins de cinq observations. Nous proposons de runir les classes 4, 5 et 6 dune part, les classes 7, 8, 9, 10 dautre part. La rpartition dfinitive est la suivante :

Chapitre 1

page 12

Graphiques

Classe 1 2 3 4 5 [ [ [ [ [

Inf. 39.900, 131.026, 222.152, 313.278, 586.656

Sup. 131.026 222.152 313.278 586.656 951.160 [ [ [ [ ]

Centre 85.463 176.589 267.715 449.967 768.908

Eff. 8 11 14 10 7

% 16 22 28 20 14

Tableau 4.1 : rpartition des achats en 5 classes aprs regroupement On notera que les 5 classes prcdentes ne sont pas de mme longueur. Les bornes ne sont pas explicites et un lecteur ne comprendra pas la faon dont elles ont t choisies. On choisit donc des classes plus lisibles comme celles qui sont donnes dans le tableau 5.1.

2.2 Algorithmes.
Un algorithme est un procd de calcul constitu dune suite doprations. Il existe trois algorithmes classiques pour trier les observations : Le premier consiste rechercher les observations de la classe 1, puis de la classe 2, de la classe 3 etc. Il est ncessaire de parcourir la liste des observations autant de fois quil y a de classes. Le deuxime consiste dterminer, pour chaque observation, la classe laquelle elle appartient et en dduire ensuite le nombre dobservations dans chaque classe. On ne parcourt la liste quune seule fois. On peut aussi classer les observations suivant les valeurs croissantes, et intercaler les bornes choisies. Il ne reste plus qu compter le nombre dobservations entre deux bornes. Le second algorithme est plus rapide que le premier dans la plupart des cas et provoque moins derreurs. Le troisime demande plus de calculs mais donne une plus grande souplesse dans le choix des classes. Dans certains cas, il est utile de disposer de la liste des observations appartenant chaque classe. Exemple : dans les calculs ci-dessous, la borne infrieure de chaque intervalle est incluse, la borne suprieure exclue, sauf dans le dernier intervalle o elle est incluse. Rpartition des achats des 50 clients en 5 classes dfinies empiriquement.

Le choix de bornes entires rend facile lire la rpartition obtenue :

Chapitre 1

page 13

Graphiques

Classes 1 2 3 4 5

[ [ [ [ [

Inf. 0, 200, 300, 400, 600,

Sup. 200 300 400 600 1000

[ [ [ [ ]

centres 100 250 350 500 800

Eff. 16 14 7 7 6

% 32 28 14 14 12

Tableau 5.1 : rpartition des achats en 5 classes arbitraires. Pour rpartir les observations dans ces cinq classes, on peut procder de lune des deux faons ci-dessous : 1. On compte les achats infrieurs 200 F, puis les achats compris entre 200F et 300F, entre 300F et 400F, etc. 2. On affecte chaque achat la classe laquelle il appartient : lobservation n1 x1=150.15 appartient la classe 1, x2, x3, x4, x5 aussi, x6 appartient la classe 3, x7 la classe 4 etc. Aprs avoir parcouru ainsi toute la liste des valeurs, on en dduit les effectifs par classe.

Rpartition des achats dans des classes de mme effectif.

On commence par les ordonner suivant les valeurs croissantes (en ligne) : n 5 30 23 33 43 24 38 48 46 11 achats 39.90 99.90 154.66 190.68 241.78 274.15 301.25 350.44 490.63 632.13 n 28 31 20 47 35 16 14 6 45 12 achats 63.22 104.57 165.44 210.33 250.66 289.90 301.52 351.15 520.45 712.22 n 4 40 2 19 36 42 44 15 10 8 achats 65.10 125.34 173.12 215.85 250.87 290.75 305.90 420.15 555.10 745.33 n 3 22 21 34 17 25 26 32 37 9 achats 88.91 135.33 174.55 220.36 251.14 293.12 314.25 452.75 590.14 841.50 n 29 1 18 41 13 50 49 7 39 27 achats 95.22 150.15 190.65 240.90 254.13 299.90 320.90 478.80 610.90 951.16

Tableau 6.1 : achats des 50 clients ordonns par valeurs croissantes Dans le tableau 6.1, lobservation n1 : 150.15, est place en 10ime position, lobservation n2 en 13ime position etc.. Chaque classe doit contenir le mme nombre dobservations : pour 5 classes et 50 observations, leffectif est donc gal 10.

Chapitre 1

page 14

Graphiques

La premire borne est gale la plus petite valeur observe, 39.9. La suivante peut tre tout nombre compris entre la 10ime valeur et de la 11ime valeur. On considre dans la plupart des cas leur moyenne : (150.15 + 154.66 )/2. De la mme faon, on considre la moyenne de la 20ime et de la 21ime : ( 240.90 + 241.78 )/2 etc. La dernire borne est la plus grande valeur observe : 951.16. On obtient la rpartition suivante : Classes 1 2 3 4 5 [ [ [ [ [ Inf. 39.9000, 152.4050, 241.3400, 300.5750, 484.7150, Sup. 152.4050 241.3400 300.5750 484.7150 951.1600 [ [ [ [ [ centres 96.1525 196.8725 270.9575 392.6450 717.9375 Eff. 10 10 10 10 10 % 20 20 20 20 20

Tableau 7.1 : rpartition des achats en 5 classes de mme effectif La rpartition des observations est intressante en fait par les bornes quelle donne, qui sont des quantiles . Dans le cas ci-dessus, chaque classe regroupe 20% des observations : les bornes sont les quintiles. La notion de quantile est dtaille dans le chapitre 2.

3. HISTOGRAMMES.
Dans toutes les analyses statistiques, on donne une reprsentation graphique particulire de la rpartition des observations, appele histogramme . Il sagit mathmatiquement de la reprsentation approximative dune fonction appele densit, dont linterprtation est analogue la densit classique utilise par exemple en dmographie, et dont nous introduisons la notion thorique dans le chapitre 4. Cette notion de densit dpend de lunit de mesure utilise pour effectuer les observations et les classer dans des intervalles.

3.1 Notion de densit.


En gographie on dfinit la densit de population par le nombre dhabitants par unit daire, en gnral par km et on la calcule dans des zones gographiques parfaitement dfinies (par exemple, les villes, les tats, ). Cest ainsi que lon divise la population de la France

Chapitre 1

page 15

Graphiques

(60 millions dhabitants) par sa superficie (550 000 km2) pour trouver le nombre dhabitants au km2 (109 h/km2). On peut calculer la densit par rgion, par dpartement, etc. La densit statistique est analogue, mais pour obtenir des valeurs indpendantes du nombre total dobservations, on prfre utiliser les proportions dobservations plutt que les effectifs. On la calcule ensuite dans chacun des intervalles pralablement dfinis pour rpartir les observations, en divisant la proportion dobservations par la longueur de lintervalle. Mathmatiquement, cest une approximation de la densit de probabilit . (cf. chapitre 4).

Dfinition : on appelle densit de la srie (xi) i = 1, , n dans lintervalle [a, b [ la proportion dobservations par unit de mesure dans cet intervalle.

Le calcul est le suivant : soit p la proportion dobservations contenue dans la classe [a, b [. la densit est donne par d = p/[b-a] dans tout lintervalle [a, b [.

Exemple : on considre la rpartition des achats des 50 clients suivant les intervalles arbitraires pralablement choisis (tableau 5.1). La densit est calcule de la faon suivante : Classe 1 : d = 0.32/200 = 0.0016 Classe 3 : d = 0.14/100 = 0.0014 Classe 5 : d = 0.12/400 = 0.0003 Classe 2 : d = 0.28/100 = 0.0028 Classe 4 : d = 0.14/200 = 0.0007

On prsente souvent les rsultats sous la forme suivante : Classe 1 2 3 4 5 [ [ [ [ [ Inf. Sup. 0, 200 [ 200, 300 [ 300, 400 [ 400, 600 [ 600, 1000 ] longueur 200 100 100 200 400 % 32 28 14 14 12 densit 0.0016 0.0028 0.0014 0.0007 0.0003

Tableau 8.1 : densit dans le cas de 5 classes de longueurs diffrentes. Dans le cas de 10 classes de mme longueur, on obtient le tableau 9.1. La longueur des classes tant constante, la densit est directement proportionnelle la frquence relative ou encore au nombre des observations qui lui appartiennent. Cette particularit est

Chapitre 1

page 16

Graphiques

lorigine de lerreur frquente consistant reporter en ordonne les pourcentages au lieu de la densit dans le trac de lhistogramme. Classe 1 2 3 4 5 6 7 8 9 10 [ [ [ [ [ [ [ [ [ [ Inf. 39.9000, 131.0260, 222.1520, 313.2780, 404.4040, 495.5300, 586.6560, 677.7820, 768.9080, 860.0340, Sup. 131.0260 222.1520 313.2780 404.4040 495.5300 586.6560 677.7820 768.9080 860.0340 951.1600 [ [ [ [ [ [ [ [ [ [ longueur 91.126 91.126 91.126 91.126 91.126 91.126 91.126 91.126 91.126 91.126 % 16 22 28 8 8 4 6 4 2 2 densit 0.00176 0.00241 0.00307 0.00088 0.00088 0.00044 0.00066 0.00044 0.00022 0.00022

Tableau 9.1 : densit dans le cas de 10 classes de mme longueur.

3.2 Reprsentation graphique de la densit : histogrammes.


dfinition : on appelle histogramme1 la reprsentation graphique de la densit.

Il est construit de la faon suivante : en abscisse, on reporte les valeurs observes et les classes que lon a dfinies ; en ordonne, on reporte la densit. Les valeurs observes sont quantitatives : lordre des classes et leur longueur sont imposs sur laxe des abscisses et une modification de cet ordre ou le non-respect de la longueur na aucun sens. Lorigine reprsente toujours la valeur 0 en ordonne. Par contre, elle peut tre choisie diffremment sur laxe des abscisse. La proportion observe dunits statistiques dans une classe est donc caractrise par laire du rectangle correspondant. Il est possible dobtenir par des logiciels classiques des histogrammes, mais on prendra garde quen gnral, ces logiciels supposent que les classes sont de mme longueur, et reportent en ordonne les proportions, au lieu des densits. Les rsultats quils donnent lorsque les intervalles choisis sont de longueur variable sont donc errons. Cest le cas en particulier dEXCEL.

Il existe dautres mthodes pour reprsenter une densit (estimation de la densit), cf. Saporta (1989).

Chapitre 1

page 17

Graphiques

Exemple : Les densits calcules prcdemment dans les tableaux 7.1, 8.1 et 9.1 sont reprsente par les histogrammes ci-dessous :

Figure 9.1 : histogramme des achats suivant la rpartition 7.1

Figure 10.1 : histogramme des achats suivant la rpartition 8.1

Chapitre 1

page 18

Graphiques

Figure 11.1 : histogramme des achats suivant la rpartition 9.1

3.3 Stabilit de lhistogramme. Classe modale. Courbe en cloche.


Il est vident que le choix des classes est fondamental dans le calcul de la densit et que des difficults pratiques peuvent apparatre suivant les donnes tudies. Tout dabord, la densit dans la premire classe est trs dpendante de sa borne infrieure dont le choix est arbitraire. De mme, la densit dans la dernire classe dpend de sa borne suprieure.

Exemple : considrons comme borne infrieure 39.9 F au lieu de 0 F et comme borne suprieure 951.16 F au lieu de 1000 F (tableau 8.1). Les densits dans les classes 1 et 5 deviennent : Classe 1 : d = 0.32/(200 - 39.90) Classe 5 : d = 0.12/(951.16 - 600) = 0.32/160.10 = 0.00200 (au lieu de 0.0016) = 0.12/351.16 = 0.00034 (au lieu de 0.0003)

La relative stabilit de la densit laisse penser que le choix des valeurs extrmes est correct.

Ensuite, la dfinition prcdente utilise des intervalles de la forme [a, b [ : une observation gale la borne a est donc prise en compte, linverse dune observation gale

Chapitre 1

page 19

Graphiques

la borne b. Si lon prfre les intervalles de la forme ]a, b], on obtiendra la difficult inverse. Leffectif peut donc tre diffrent bien que la longueur de la classe soit toujours gale b-a. Ces difficults sont souvent prsentes dans le cas de donnes entires (variables discrtes) : on peut les viter en donnant des valeurs dcimales aux bornes des intervalles. Dans tous les cas, un histogramme trs dpendant du choix des classes nest pas satisfaisant, et on recherche systmatiquement des intervalles donnant une bonne stabilit lhistogramme.

Les histogrammes prcdents font apparatre une classe dont la densit est plus grande que les autres.

Dfinition : on appelle classe modale une classe dont la densit est suprieure celles de ses deux voisines.

Une classe modale peut tre unique : la rpartition (ou lhistogramme) est dite unimodale . Lorsquil y en a plusieurs, elle est qualifie de plurimodale ; ce dernier cas peut se produire lorsque les observations proviennent de populations diffrentes. Les histogrammes donns en figure 9, figure 10 et figure 11 sont unimodaux. Il est souvent utile de superposer lhistogramme la reprsentation graphique dune densit thorique, appele loi normale, qui se prsente sous la forme dune courbe en cloche. Nous verrons en effet que cette densit sert de rfrence dans de nombreux cas, et que la proximit de lhistogramme avec cette courbe est ncessaire pour appliquer des mthodes statistiques telles que tests, prvision, etc. On se gardera bien toutefois de reprsenter cette courbe en cloche manuellement : cette reprsentation ncessite des calculs compliqus et un trac manuel donne en gnral des rsultats trs mdiocres.

Exemple : nous avons reprsent sur la figure 12 ci-dessous lhistogramme de la rpartition donne dans le tableau 4.1 et superpos cet histogramme la courbe en cloche caractristique de la densit thorique de la loi normale. La superposition montre bien que la distribution des achats ne suit pas la loi normale.

Chapitre 1

page 20

Graphiques

Figure 12.1 : histogramme des achats et courbe en cloche..

CONCLUSION
Les reprsentations graphiques sont fondamentales dans un rapport crit parce quelles constituent limage des donnes que retiendra le lecteur. Elles doivent donc tre effectues avec soin, lisibles, de dimension raisonnable et numrotes. Il est indispensable de leur attribuer un titre, de prciser les axes (on reportera toujours la densit en ordonne dans les histogrammes), dindiquer les chelles et dajouter un commentaire qui peut se rsumer une ou deux lignes. Dans le cas dun grand nombre de graphiques, on peut en ajouter la liste la fin du dossier. Notons quil existe beaucoup dautres mthodes de reprsentation graphique dun ensemble de donnes. On peut construire par exemple les diagrammes en tiges et feuilles , utiles lorsque le nombre de donnes est rduit, des botes de dispersion, qui prennent en compte les quartiles que nous verrons ultrieurement.

Chapitre 1

page 21

Graphiques

TABLE DES MATIRES 1. DIAGRAMMES......................................................................................................... 3 1.1 Gnralits. Diagrammes de base......................................................................... 3 1.2 Diagrammes dEXCEL......................................................................................... 4 1.3 Exemples. ............................................................................................................. 6 2. RPARTITIONS DOBSERVATIONS QUANTITATIVES.................................... 9 2.1 Choix des classes.................................................................................................. 9 2.2 Algorithmes. ....................................................................................................... 12 3. HISTOGRAMMES. ................................................................................................. 14 3.1 Notion de densit................................................................................................ 14 3.2 Reprsentation graphique de la densit : histogrammes..................................... 16 3.3 Stabilit de lhistogramme. Classe modale. Courbe en cloche........................... 18 CONCLUSION ............................................................................................................ 20

You might also like