You are on page 1of 53

Formation en Analyse des

Donnes
Prsenter par:
GUINDO SIDIKI,
Ingnieur Statisticien Economiste,
Enseignant lENSEA Sngal.
mail: guindosidiki@yahoo.fr
Cl: +221 77 168 95 60

PLAN DE LA FORMATION
1. Prsentation des participants

2. Prsentation du SESRIC
3. Introduction et objectif de la formation
4. Notions lmentaires de traitement statistique
des donnes
5. Principe danalyse des donnes
multidimensionnelles,
6. Analyse en Composantes Principales.
7. Analyse des correspondances multiples
8. Mthodes de classification
9. Construction dun indicateur composite par ACP.

Prsentation des
participants

Nom et Prnom, Profil de


formation ou poste occup,
etc.

Prsentation du
SESRIC
Voir diapo SESRIC

INTRODUCTION ET OBJECTIF

Les points abords dans


lintroduction
1. Objectif de la formation
2. Dure
3. Difficults
4. Logiciels utiliss

1. Objectif de la formation
Introduction ou rvision des diffrentes
mthodes danalyse des donnes.
Voir cette formation comme un cadre
dchange.
finalit: apprendre mettre en uvre
lessentiel des mthodes danalyse
des donnes.

2. Dure
La

formation

stale

sur

jours.
La

contrainte

de

dure

fait

quelle sera surtout pratique.

3. Difficults

Contraintes de temps

Htrognit des participants


(en termes de formation, de
domaine dactivit, etc.)

4. Logiciels utiliss
Nous utiliserons:
SPAD ET EXCEL.

Fin introduction

Notions lmentaires
de traitement statistique des
donnes
Les points abords
1. Domaines dapplication du traitement
des donnes.
2. Dmarche dans le travail du statisticien.
3. Quelques lments de la statistique
descriptive.

1. Domaines dapplication du traitement des


donnes.

Dmographie , conomie, tudes de march

Assurances, Agriculture, Finance,

Transport , Communications etc.

2. Dmarche dans le travail du statisticien.

Conception: dfinition de la population, des units, des


caractres (variables), questionnaires

Collecte des donnes: excution de lenqute

Apurement: vrification, contrle, redressement

Analyse: statistique descriptive, analyse des donnes


multidimensionnelle, mthodes conomtriques, etc.

Publication des rsultats

3. Quelques lments de la statistique descriptive.

La description des donnes par


la statistique descriptive
utilise des indicateurs
simples:

3. Quelques lments de la statistique descriptive.

Tendance centrale ou position

Dispersion
Forme
Concentration

Tendance centrale ou position ou localisation

Mdiane
Mode
Moyenne

Dispersion

tendue
cart-type
Coefficient de variation

Forme
Coefficient

dasymtrie
Coefficient daplatissement

Concentration

Courbe de concentration
Coefficient de Gini
Mdiale

FIN de quelques lments de la statistique descriptive.

Principe dADD
Les points abords

Les limites de la statistique


descriptive

Le principe dADD

Limites de la statistique
descriptive
La statistique descriptive tudie
une, deux ou trois variables.
On sintresse aux caractristiques
de tendance centrale, de
dispersion, de forme, les liaisons
entre deux variables.

Limites de la statistique
descriptive
Cependant, le statisticien peut se
trouver devant un tableau
contenant plusieurs variables et
individus.
Dans ce tableau, il cherche
dgager par exemple le tendance
globale des donnes.

Limites de la statistique
descriptive
Par exemple: les variables qui
sont lies, les individus qui se
ressemble.
Par exemple: regrouper les
individus suivant leur
proximit au vue des variables.

Limite de la statistique
descriptive
Dans ces situations, la statistique
descriptive reste limite.
On passe donc aux mthodes
danalyse des donnes
multidimensionnelles: cest la
grande statistique descriptive.

Limite de la statistique
descriptive
Les mthodes ADD sont donc pour la
plupart des temps des mthodes
descriptives (il existe quelques mthodes
ayant en partie des objectifs explicatifs).
Fin limite de la statistique descriptive

2. Principe gnrale
dADD
Exemple introductif:
On dispose de deux variables: revenu
et consommation sur 100
mnages.
Voir tableau

2. Principe gnrale
dADD
MENAG REVEN CONSOMMATIO
E
U
N
1
10
9
2
25
20
3
12
10
4
7
5
5
26
17
6
5
5
.
30
30
.
24
14
.
10
4
.
8
6
.
15
8
99
12
8
100
17
12

2. Principe gnrale
dADD

2. Principe gnrale
dADD
Si nous avons trois variables : Revenu,
Consommation et nombre personnes dans
le mnage.
On peut faire un graphique trois
dimensions.

2. Principe gnrale
dADD
Si nous avons plusieurs variables (par exemple
plus de 15 ) sur plusieurs individus alors on ne
peut plus faire des graphique 15 dimensions.
Do lutilisation des mthodes de projection.

2. Principe gnrale
dADD
Projeter:
cest faire de bonne photo.
On se pose donc la question de savoir sur
quelle direction projeter.

2. Principe gnrale
dADD

2. Principe gnrale
dADD
Les diffrents types de tableaux:
Tableau de variables quantitatives dcrit sur des individus.
Tableau croisant deux variables qualitatives.
Tableau de variables qualitatives dcrit sur les individus.
Autre type de tableaux (tableau de paquets de variables).

2. Principe gnrale
dADD
Les mthodes danalyse des donnes suivant le type de
tableau:
Tableau de variables quantitatives dcrit sur des individus
(ACP)
Tableau croisant deux variables qualitatives (AFC).
Tableau de variables qualitatives dcrit sur les individus
(ACM).
Autre type de tableaux (tableau de paquets de variables):
les mthodes AFM

2. Principe gnrale
dADD
De limage la ralit: les outils dinterprtation.
Ce que nous observons sur les photos peuvent
tre trompeuse. Il nous faut des outils daide
interprtation.

2. Principe gnrale
dADD
Les outils:
Les Cosinus carr: (CO2), qualit de la
reprsentation.
Le contribution (CTR): permet de mesurer la part
des variables ou individus dans la formation des
axes.
Disto: distance dun individu lindividu moyen.

2. Principe gnrale
dADD
Cette formation va consister lapplication des
mthodes : ACP, ACM, CLASSIFICATION, EXEMPLE
DE CONSTRUCTION DINDICATEUR COMPOSITE.

Fin principe gnrale dADD

Analyse en composantes
principales (ACP)
Les points abords
Objectif de lACP
Nuage des individus, nuage des variables
Prsentation du tableau de lexercice
Premire mise en pratique de lACP.
Elments supplmentaires, lments actifs.

Objectif de lACP
On est suppos tre devant un tableau de variables
quantitatives dcrit par des individus.
Sur ce tableau, on veut savoir quelles sont les
variables qui sont lie entre elles, quels sont les
individus qui se ressembles.

Nuage des individus, nuage des variables:

On prsentera deux nuages, celui des


variables et celui des individus.

Prsentation du tableau de lexercice

Voir fichier Excel.


Ncessit dune normalisation.

Premire mise en pratique de lACP

Prsentation sommaire de SPAD.


Importation des donnes
Lancer une premire analyse.

Elments supplmentaires, lments actifs.

Mettre certains individus en supplmentaires.


Interprter les rsultats.

Analyse des correspondances


multiples (ACM)
Les points abords
Objectif de lACM
Prsentation du tableau de lexercice
Lien entre ACM et ACP.
Interprtation des rsultats.

Objectif de lACM
On est suppos tre devant un tableau de
variables qualitatives

dcrit par des

individus.
Sur

ce

tableau,

on

veut

savoir

les

diffrents regroupement suivant certains


aspects.

Prsentation du tableau de lexercice

Voir fichier Excel.


Le tableau disjonctif complet, le tableau
de BURT.

Lien entre ACM et ACP.

Mme principe de base (projection).


ACM = 2ACP sur le tableau
disjonctif complet.

Interprtation des rsultats.

Mise en uvre de la mthode


Interprtation des rsultats.

Les mthodes de
classification
Les points abords
Objectif de la classification
explosion combinatoire
Les deux grandes mthodes de
classification
Description des classes

Objectif de la classification
On est suppos tre devant un tableau de
variables quantitatives ou qualitatives mlang
(en termes de la nature des variables).
On cherche regrouper les individus qui se
ressembles.
On se pose deux questions: combien de groupe
former, o mettre les coupures.

Explosion combinatoire

Idalement, il sagit de former toutes les


partitions fin de choisir la meilleures.
Cette situation aboutie une explosion
combinatoire.
Do les mthodes hirarchiques ou non
hirarchiques.

Les deux grandes mthodes de classification

La CAH, La CDH.
Les mthodes de partitionnement

Description des classes.

Les variables quantitatives.


Les variances qualitatives
Les axes dune autre analyse.
Les individus types.

Mise en uvre de la mthode.

Application des mthodes classification sur


le tableau de lexercice.