Professional Documents
Culture Documents
24h
Université d’Evry
Ekaterina Kalugina
Bureau 303, bâtiment Ile-de-France
Ekaterina.Kalugina@univ-evry.fr
1
Plan du cours
Chapitre 1. Nature des données et analyse
univariée.
Chapitre 2. Analyse bivariée.
Chapitre 3. Analyse en composantes principales
(ACP)
Chapitre 4. Classification hiérarchique
ascendante
3
Références bibliographiques
Jean-Marie Bouroche et Gilbert Saporta , Analyse
des données, 8ème édition, Collection « Que sais-je? »,
PUF, 2002
Emmanuel Duguet, Introduction à SAS, Collection «
Economie et Statistiques Avancées ». Economica,
Mars 2004
Brigitte Escofier et Jérôme Pagès, Analyse
factorielles simples et multiples: objectifs, méthodes
et interprétation, 4ème édition, Dunod, Paris, 2008
Analyse des données avec SAS, documents de la
formation continue CEPE, INSEE
4
Pour télécharger les données pour les chapitres 1 & 2:
https://emedia2018.univ-evry.fr/
5
Téléchargement SAS
https://lad.education-recherche.fr/liste_des_offres
6
La nature des données:
Caractériser les données
Variable qualitative
Tableau de fréquence: compter le nombre d’individus dans
chaque modalité
Variable quantitative
Histogramme, moyenne, variance, écart type…
7
Procédure FREQ
La procédure freq est dédiée à l'analyse des
variables catégorielles.
La procédure freq pour une seule variable
donne un tri à plat, c’est-à-dire un tableau des
effectifs ( ), des fréquences , et des
fréquences cumulées. Si est l’effectif total on
a:
= ∑ = et ∑ = 1
+
=
11
La nature des données:
Caractériser les données
Variable quantitative: moyenne et barycentre
Sur l’axe de représentation du nuage, le point
d’abscisse ̅ est le barycentre (ou le centre de
gravité ou point moyen du nuage) des points
muni des poids .
Ce barycentre est la traduction géométrique de la
notion statistique de moyenne.
12
La nature des données:
Caractériser les données
Variable quantitative
La variance empirique:
= ∑ − ̅
= ∑ − ̅
14
La nature des données:
Caractériser les données
Variable quantitative
Les écarts-types empiriques
=
=
Pour obtenir à partir de :
−1
= ×
15
La nature des données:
Caractériser les données
Variable quantitative
Coefficient de variation empirique:
= ̅
est une des deux définitions de l’écart-type
données plus haut
̅ - la définition correspondante de la moyenne
mesure le degré de variation de autour de sa
moyenne
16
La nature des données:
Caractériser les données
Variable quantitative: variance et inertie
La notion statistique de variance correspond à la notion
mécanique d’inertie d’un nuage de points par rapport à son
barycentre
L’inertie d’un point i de poids par rapport à un point A de
coordonnée ! est, par définition, le produit du poids de i
par le carré de sa distance à A:
− !
L’inertie d’un nuage de points est la somme des inerties des
points du nuage. L’inertie d’un nuage de points représenté
sur un axe, par rapport au point G d’abscisse ̅ , est égale à:
∑ − ̅
17
La nature des données:
Caractériser les données
Variance: formule utile
Pour le calcul « à la main » de la variance:
1
= " −
18
La nature des données:
Caractériser les données
Variance: variance intra-population et variance inter-population
Si la population est partagée en deux sous-
populations de moyennes respectives et ,
d’effectifs respectifs et et de variances
respectives # et # , on a:
# + # − + −
#= +
# = $%&' ' )' *+,-+ ' + *+,-+ ' )' $%&' '
19
La nature des données:
Caractériser les données
Variance: variance intra-population et variance inter-
population
La moyenne des variances s’appelle la variance
intra-population = # ./! . Elle traduit la
dispersion à l’intérieur des sous-populations.
La variance des moyennes traduit la dispersion
entre les 2 sous-populations, on l’appelle la
variance inter-population=# .0/
# = # ./! + # .0/
20
La nature des données:
Caractériser les données
D’autres indicateurs numériques caractéristiques de dispersion
Les quartiles
Il y a trois quartiles, 1 , 1 et 13 . Ce sont les valeurs de
la variable statistique telles que, les observations étant
rangées par ordre croissant, un quart des observations sont
inférieures à 1 , un quart des observations sont comprises
entre 1 '4 1 , un quart des observations sont comprises
entre 1 et 13 et un quart des observations sont
supérieures à 13
L’intervalle interquartile est 1 , 13 , il contient donc
50% des observations, en laissant 25% à droite et 25% à
gauche, sa longueur est 13 − 1
21
La nature des données:
Caractériser les données
Les indicateurs de forme
L’asymétrie (Skewness)
Les coefficients d’asymétrie permettent de préciser si la courbe est étalée à
droite ou à gauche.
Un coefficient positif correspond à une distribution étalée à droite
Un coefficient négatif correspond à une distribution étalée à gauche
L’aplatissement (Kurtosis)
Le coefficient d’aplatissement permet de comparer l’aplatissement de la
courbe de la distribution à celle de la loi normale centrée réduite
Le coefficient 0 correspond à la distribution normale (de même moyenne et
de même écart-type)
Un coefficient positif correspond à une distribution moins aplatie que la
normale (de même moyenne et de même écart-type) avec des queues de
distribution épaisses, elle est dite aussi leptocurtique
Un coefficient négatif à une distribution plus aplatie que la normale (de
même moyenne et de même écart-type) avec des queues de distribution
fines, elle est dite platicurtique
22
Applications sur SAS
23
Procédure MEANS
Elle permet d'avoir quelques grandeurs statistiques
sur la ou les variables spécifiées
Par défaut, SAS prend toutes les variables de la
base
Pour chaque variable, SAS calcule 5 grandeurs
N = le nb d'obs
MEAN = la moyenne arithmétique
STD = l'écart-type
Min = la valeur min
Max = la valeur max
Par défaut, SAS prend la définition de la variance de
type et l’utilise dans toutes les statistiques où
cette quantité intervient
24
Procédure MEANS
Syntaxe de base:
proc means data=Temp2; var ; run;
Pour obtenir des calculs pondérés par une
variable 5 située dans Temp2:
proc means data=Temp2; var ; weight 5; run;
25
Procédure MEANS
On peut obtenir d'autres statistiques
min – la plus petite valeur de la série ou minimum
max – la plus grande valeur de la série ou maximum
range – l’étendue de la série, égale à la différence du
maximum et du minimum
cv – coefficient de variation ⁄ ̅
var – variance empirique ;
mean – la moyenne arithmétique
std – écart-type empirique
proc means var cv data=Temp2; var 3 ; run;
26
Procédure MEANS
Application sur les données “HER”
Obtenir les tableaux de base sur les variables “age”,
“taille”, “poids”
• PROC MEANS DATA=TEMP; VAR AGE TAILLE POIDS; RUN;
• PROC MEANS MEAN STD MIN MAX VAR CV DATA=TEMP; VAR AGE
TAILLE POIDS; CLASS SEXE; RUN;