You are on page 1of 10

Didacticiel - tudes de cas

R.R.

1 Objectif
Dtection et traitement des points aberrants avec Tanagra ( partir de 1.4.24). Dans le processus Data Mining, la dtection et le traitement des points aberrants sont incontournables lors de la prparation des donnes, ou mme aprs coup, pour analyser et valider les rsultats. On parle de point aberrant (point atypique) lorsque quun individu prend une valeur exceptionnelle sur une variable (ex. un client dune banque aurait 158 ans) ou sur des combinaisons de variables (ex. un athlte de 12 ans aurait effectu le 100 m en 10 secondes). Ces points sont problmatiques car ils peuvent biaiser les rsultats, notamment pour les mthodes bases sur des distances entre individus, ou plus dramatiquement encore, des distances par rapport des barycentres. Il importe donc didentifier ces individus et de les considrer attentivement. Dans ce didacticiel, nous prsentons le composant UNIVARIATE OUTLIER DETECTION destin dtecter les points atypiques sur chacune des variables, prises individuellement . Les techniques intgres dans ce composant sont largement inspires du texte sur le site de NIST (http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm). Nous avons implment : Le test de Grubbs (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm). Ce test repose sur la normalit de la distribution. On devrait donc tester pralablement la crdibilit de cette hypothse. Mais lorsque lon se rend compte que les tests de normalit eux mmes sont sensibles aux points aberrants, on ne sen sort plus. Voil pourquoi on se contente au pralable de techniques graphiques simples destines se faire une ide de la rpartition des donnes. La rgle de x sigmas. Elle consiste dclarer comme atypique les observations scartant de x carts types autour de la moyenne. Cest une rgle trs fruste. Elle est aussi base sur une normalit sous jacente des donnes. On sait par exemple que pour la loi normale, 99.73% des observations sont situes dans lintervalle savoir pourquoi elle est prsente dans les donnes. La rgle de la bote de Tukey (http://en.wikipedia.org/wiki/Box_plot). La bote moustaches (BOXPLOT) permet de reprsenter graphiquement la distribution dune variable. On peut mettre en vidence les points extrmes en utilisant une rgle simple. Nous calculons le 1 quartile Q1 et le 3
me er

m 3 ; m 3 .

Toute observation qui sort de cet intervalle a une trs faible probabilit dapparatre . Il faut

quartile Q3, nous en dduisons lintervalle interquartile IQ = Q3 Q1.

On dit quune observation est moyennement atypique (mild outlier) sil est en de de LIF = Q1 1.5 * IQ ou au del de UIF = Q3 + 1.5 * IQ (LIF : lowr inner fence, UIF : upper inner fence). Elle est extrmement atypique si elle en de de LOF = Q1 3 * IQ ou au del de UOF = Q3 + 3 * IQ (LOF : lower outer fence, UOF : upper outer fence). La relation entre la rgle des x sigmas et la rgle de Tukey, lorsque la distribution des donnes est normale, peut tre rsume graphiquement (Figure 1).

26 juin 2012

Page 1 sur 10

Didacticiel - tudes de cas

R.R.

Figure 1 Lien entre les rgles de dtection pour la distribution normale (http://en.wikipedia.org/wiki/Image:Boxplot_vs_PDF.png)

Nous essayerons de les combiner au mieux avec les statistiques descriptives dans ce document. On se rendra vite compte que des stratgies simples, notamment les approches graphiques, sont au moins aussi intressantes finalement. Les techniques numriques ci-dessus ne sont rellement dcisives que dans le cadre du traitement automatis de fichiers comportant de trs nombreuses colonnes. Dans ce cas, leurs indications nous permettent de nous orienter rapidement vers les variables problmes.

2 Donnes
Notre fichier de donnes body_mass_index.xls
1

comporte 50 observations. Les caractristiques

mesures sont le poids en kg (WEIGHTKG), la taille en mtres (HEIGHTM) et lindice de masse corporelle (BODYMASS = WEIGHTKG / HEIGHTM^2). Lobjectif est de vrifier si des observations se dtachent des autres selon au moins une de ces variables.

3 Dtection des points aberrants avec TANAGRA


3.1 Cration du diagramme Importation des donnes
Il existe plusieurs manires de charger les donnes au format XLS dans TANAGRA. Nous choisissons limportation directe . Elle prsente lavantage de ne pas requrir la prsence du logiciel EXCEL sur
2

http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/body_mass_index.xls Lautre possibilit dimportation est douvrir le fichier dans le tableur. Puis laide du nouveau menu

TANAGRA dans EXCEL, insr via la macro complmentaire TANAGRA.XLA, nous transfrons les donnes. Voir : http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html

26 juin 2012

Page 2 sur 10

Didacticiel - tudes de cas

R.R.

la machine (voir : http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excelmode.html). Il faut en revanche que les donnes soient dans la premire feuille de calcul, alignes en haut gauche, la premire ligne correspondant aux noms des variables. Notre configuration respecte ces spcifications. Attention, il ne faut pas qu e le fichier soit en cours ddition lors de limportation. Aprs avoir dmarr TANAGRA, nous activons le menu FILE / NEW pour crer un nouveau diagramme. Dans la bote de slection, nous spcifions le nom du fichier (body_mass_index.xls) et le nom du fichier diagramme. de donnes

Le fichier comporte bien 50 individus et 3 variables.

3.2 Statistiques descriptives


Premire tape, systmatique dans les tudes, rsumer les donnes laide des outils de la statistique descriptive. Nous slectionnons les variables analyser laide du composant DEFINE STATUS, accessible via le raccourci dans la barre doutils.

26 juin 2012

Page 3 sur 10

Didacticiel - tudes de cas

R.R.

Puis, nous branchons le composant MORE UNIVARIATE CONT STAT (onglet STATISTICS). Quelques indicateurs usuels et lhistogramme de frquences sont calculs (Tanagra cre automatiquement 10 intervalles de largeur gales).

Nous rsumons dans le tableau suivant les indicateurs et leurs significations.

26 juin 2012

Page 4 sur 10

Didacticiel - tudes de cas

R.R.

Indicateur Average Median

Description Moyenne Mdiane Ecart type (chantillon) et coefficient de variation (rapport entre lcart

Std.Dev. [Coef of variation]

type et la moyenne, permet la comparaison de la dispersion de variables mesures sur des units diffrentes)

MAD [MAD / STDDEV] Min, Max [Full Range] 1st * 3rd quartile [Range] Skewness (std dev)

Ecart absolu moyen3. Rapport entre lcart absolu moyen et lcart type. Lorsque la distribution est normale, ce rapport est proche de 0.8. Minimum, maximum, tendue 1er et 3me quartile ; intervalle inter quartile Coefficient dasymtrie et son cart type. Lorsque la distribution est normale, skewness = 0 Coefficient daplatissement et son cart type. Lorsque la distribution est normale, kurtosis = 0

Kurtosis (std dev)

WEIGHTKG.

HEIGHTM.

http://en.wikipedia.org/wiki/Absolute_deviation

26 juin 2012

Page 5 sur 10

Didacticiel - tudes de cas BODYMASS.

R.R.

Les distributions de WEIGHTKG et HEIGHTM nappellent pas de commentaires particuliers. Il y a certes un talement droite, avec deux observations qui semblent se dmarquer pour les deux variables (1 observation dans les deux dernires barres). Cela devient patent avec la variable BODYMASS, 2 observations valeurs leves scartent rellement des autres. On ne sait pas sil sagit des mmes observations dans les 3 situations.

3.3 Reprsentation graphique


Une autre manire de visualiser les anomalies est de projeter les individus dans le plan, en croisant les variables 2 2. Des logiciels comme R (http://www.r-project.org/) le font trs bien avec la commande pairs(). Notons que nous faisons dj un pas vers le traitement multivari dans ce cas, nous apprhendons le rle conjoint de deux variables. Dans Tanagra, nous insrons le composant SCATTERPLOT WITH LABEL (onglet DATA

VISUALIZATION). Nous croisons tout dabord les variables WEIGHTKG et HEIGHTM.

26 juin 2012

Page 6 sur 10

Didacticiel - tudes de cas

R.R.

En un coup dil, il apparat que les observations n19 et n22 son t douteuses si lon considre le nuage de points. Lcartement est surtout imputable la variable WEIGHTKG, il y a des individus qui psent lourd dans lchantillon. Nous savons maintenant, par rapport notre interrogation prcdente (section 3.2), les 2 individus qui sont plus grands que les autres (HEIGHTM, dans les deux dernires barres de lhistogramme) ne sont pas ceux qui sont plus corpulents que les autres (dans les deux dernires barres de lhistogramme de la variable WEIGHTKG). Croisons maintenant les variables WEIGHTKG et BODYMASS.

Il ny a plus de doute, ces deux individus (n19 et n22) sont singulirement dodus, surtout relativement leur taille.

3.4 Dtection et traitement des points aberrants


Le composant UNIVARIATE OUTLIER DETECTION identifie les observations qui scartent significativement des autres pour chaque variable. Il sappuie sur les diffrents critres prsents en introduction. Il produit un tableau listant les observations incrimines. Il peut les exclure de lensemble des donnes selon le ou les combinaisons de critres que lon choisit dactiver. Nous insrons le composant dans le diagramme. Nous activons le menu contextuel PARAMETERS pour spcifier les paramtres du traitement.

26 juin 2012

Page 7 sur 10

Didacticiel - tudes de cas

R.R.

Dans longlet PARAMETERS, nous choisissons dafficher les individus dtects dans le rapport dexcution. Dans longlet FILTERING, nous choisissons de supprimer de lensemble de donnes les individus atypiques, en nous basant uniquement sur le critre OUTER FENCE c.--d. retirer des donnes les individus extrmement atypiques (voir section 1). Nous validons ces paramtres et nous activons le menu VIEW pour accder aux rsultats.

26 juin 2012

Page 8 sur 10

Didacticiel - tudes de cas

R.R.

Dans la premire partie du rapport [1], nous observons les valeurs limites utilises et le nombre dobservations atypiques dtectes pour chaque critre.

Le test de Grubbs nous dit quau risque de 5%, la valeur la plus extrme de BODYMASS peut tre considre comme atypique.

Selon la rgle des 3-sigmas, nous dtectons 2 donnes atypiques pour la variable BODYMASS. Selon la rgle INNER FENCE, il y a 1 individu atypique pour WEIGHTKG, 2 pour BODYMASS. La rgle OUTER FENCE produit le mme rsultat que 3-sigmas.

Dans la seconde partie [2], un tableau numre les observations incrimines sur lensemble des critres.

Lobservation n19 est atypique selon les variables WEIGHTKG et BODYMASS. Ce qui nest gure tonnant lorsque lon se remmore son positionnement dans les graphiques ci -dessus. Lobservation n22 en revanche a t dtecte uniquement pour la variable BODYMASS. Enfin, dans la troisime partie du rapport [3], Tanagra nous indique quau final 2 individus ont t exclus selon les critres dfinis pour le filtrage, en loccurrence seule la rgle OUTER FENCE a t active ici.

3.5 Statistiques descriptives (bis)


Pour valuer linfluence des observations n19 et n22, recalculons les statistiques descriptives sur les observations restantes. Pour ce faire, nous insrons le composant UNIVARIATE CONTINUOUS STAT (onglet STATISTICS, il est plus rapide mais moins dtaill que celui utilis plus haut).

26 juin 2012

Page 9 sur 10

Didacticiel - tudes de cas

R.R.

Pour chaque variable, comparons la moyenne, indicateur sensible aux points atypiques, sur les 50 et 48 observations. La colonne cart nous indique que la prsence de ces 2 observations affecte manifestement les rsultats, surtout en ce qui concerne la variable BODYMASS. Variable WEIGHTKG HEIGHTM MODYMASS Moyenne pour 50 obs. 76.0402 1.6581 27.6806 Moyenne pour 48 obs. (sans n19 et n22) 74.3796 1.6623 26.8400 Ecart (en %) +2.23 % -0.25 % +3.13 %

4 Conclusion - Traitement des points aberrants


Notre composant choisit dexclure les observations atypiques. Cest une solution possible mais ce nest certainement pas la panace. Il y a dautres stratgies : la transformation des donnes, en rendant symtrique la distribution, on attnue lcartement des queues de distribution ; une transformation plus radicale encore, le passage au rangs ; lutilisation de techniques appropries, peu sensibles aux points aberrants (ex. dans le data mining, plutt quune analyse discriminante, on prfrera les arbres de dcision sil y a profusion de points atypiques) ; etc . Les techniques prsentes dans ce document sont univaries, indpendantes du traitement statistique ralis en aval. La situation devient plus complexe lorsque lon veut tenir compte : (a) du rle conjoint de plusieurs variables ; (b) valuer leffet de ces points sur la technique statistique mise en uvre. On trouvera en ligne un exemple de traitement dans le cadre de la rgression linaire multiple sous Tanagra.
5 4

http://cc.uoregon.edu/cnews/spring2000/outliers.html http://tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html

26 juin 2012

Page 10 sur 10