You are on page 1of 29

Statistiques & analyses données

24h
Université d’Evry

Ekaterina Kalugina
Bureau 303, bâtiment Ile-de-France
Ekaterina.Kalugina@univ-evry.fr

1
Plan du cours
 Chapitre 1. Nature des données et analyse
univariée.
 Chapitre 2. Analyse bivariée.
 Chapitre 3. Analyse en composantes principales
(ACP)
 Chapitre 4. Classification hiérarchique
ascendante

Nous allons utiliser le logiciel SAS pour illustrer ce


cours
2
Le déroulement du cours
Chaque jeudi pendant 12 semaines:
 entre 8h30 et 10h30
 entre 10h45 et 12h45
 Sauf jeudi 30 octobre (vacances).
 Deux contrôles continus :
 Début novembre
 Mi décembre

3
Références bibliographiques
 Jean-Marie Bouroche et Gilbert Saporta , Analyse
des données, 8ème édition, Collection « Que sais-je? »,
PUF, 2002
 Emmanuel Duguet, Introduction à SAS, Collection «
Economie et Statistiques Avancées ». Economica,
Mars 2004
 Brigitte Escofier et Jérôme Pagès, Analyse
factorielles simples et multiples: objectifs, méthodes
et interprétation, 4ème édition, Dunod, Paris, 2008
 Analyse des données avec SAS, documents de la
formation continue CEPE, INSEE

4
 Pour télécharger les données pour les chapitres 1 & 2:

 https://emedia2018.univ-evry.fr/

 Cours « Analyse des Données »

5
Téléchargement SAS

 La procédure pour les étudiants et enseignants est de


télécharger SAS à cette adresse :

 https://lad.education-recherche.fr/liste_des_offres

6
La nature des données:
Caractériser les données
 Variable qualitative
 Tableau de fréquence: compter le nombre d’individus dans
chaque modalité
 Variable quantitative
 Histogramme, moyenne, variance, écart type…

7
Procédure FREQ
 La procédure freq est dédiée à l'analyse des
variables catégorielles.
 La procédure freq pour une seule variable
donne un tri à plat, c’est-à-dire un tableau des
effectifs ( ), des fréquences , et des
fréquences cumulées. Si est l’effectif total on
a:
= ∑ = et ∑ = 1

proc freq data=Temp; tables X; run;


8
Procédure FREQ
 Application sur données HER
 Obtenir le tableau de fréquence pour la variable SEXE
• PROC FREQ DATA=TEMP; TABLES SEXE; RUN;

 Application sur données RONFLE


 Ouvrir le fichier « RONFLE » en créant un nouveau tableau
nommé « Temp2 »
 Obtenir le tableau de fréquence pour la variable TABAC

• DATA TEMP2; SET LIB.Donnees_ronfle; RUN;


• PROC FREQ DATA=TEMP2; TABLES TABAC; RUN;
9
La nature des données:
Caractériser les données
 Variable quantitative
 La moyenne:
̅= ∑
Soit:
+ ⋯+ + ⋯+
̅=
ou si la moyenne de la série x, pondérée par la
série :

̅ =

10
La nature des données:
Caractériser les données
 Moyenne: formule utile
 Si l’ensemble des individus est partagé en 2 sous-
populations de moyennes et et d’effectifs
et + = , on a:

+
=

 La moyenne est la moyenne des moyennes des


sous-populations, pondérées par leur effectif

11
La nature des données:
Caractériser les données
 Variable quantitative: moyenne et barycentre
 Sur l’axe de représentation du nuage, le point
d’abscisse ̅ est le barycentre (ou le centre de
gravité ou point moyen du nuage) des points
muni des poids .
 Ce barycentre est la traduction géométrique de la
notion statistique de moyenne.

12
La nature des données:
Caractériser les données
 Variable quantitative
La variance empirique:
= ∑ − ̅

= ∑ − ̅

Dans la seconde définition de la variance, on change


juste n en n-1. Ce changement permet d’obtenir un
estimateur sans biais, contrairement à la première
définition, qui donne un estimateur convergent.
13
La nature des données:
Caractériser les données
 Variable quantitative
Les variances pondérées:
∑ − ̅
=

∑ − ̅
=
(∑ ) −1
 Les écarts-types empiriques correspondants
=

14
La nature des données:
Caractériser les données
 Variable quantitative
 Les écarts-types empiriques
=

=
Pour obtenir à partir de :
−1
= ×
15
La nature des données:
Caractériser les données
 Variable quantitative
 Coefficient de variation empirique:
= ̅
est une des deux définitions de l’écart-type
données plus haut
̅ - la définition correspondante de la moyenne
 mesure le degré de variation de autour de sa
moyenne

16
La nature des données:
Caractériser les données
 Variable quantitative: variance et inertie
 La notion statistique de variance correspond à la notion
mécanique d’inertie d’un nuage de points par rapport à son
barycentre
 L’inertie d’un point i de poids par rapport à un point A de
coordonnée ! est, par définition, le produit du poids de i
par le carré de sa distance à A:
− !
 L’inertie d’un nuage de points est la somme des inerties des
points du nuage. L’inertie d’un nuage de points représenté
sur un axe, par rapport au point G d’abscisse ̅ , est égale à:
∑ − ̅

17
La nature des données:
Caractériser les données
Variance: formule utile
 Pour le calcul « à la main » de la variance:
1
= " −

18
La nature des données:
Caractériser les données
 Variance: variance intra-population et variance inter-population
 Si la population est partagée en deux sous-
populations de moyennes respectives et ,
d’effectifs respectifs et et de variances
respectives # et # , on a:

# + # − + −
#= +

# = $%&' ' )' *+,-+ ' + *+,-+ ' )' $%&' '

19
La nature des données:
Caractériser les données
 Variance: variance intra-population et variance inter-
population
 La moyenne des variances s’appelle la variance
intra-population = # ./! . Elle traduit la
dispersion à l’intérieur des sous-populations.
 La variance des moyennes traduit la dispersion
entre les 2 sous-populations, on l’appelle la
variance inter-population=# .0/
# = # ./! + # .0/
20
La nature des données:
Caractériser les données
 D’autres indicateurs numériques caractéristiques de dispersion
 Les quartiles
 Il y a trois quartiles, 1 , 1 et 13 . Ce sont les valeurs de
la variable statistique telles que, les observations étant
rangées par ordre croissant, un quart des observations sont
inférieures à 1 , un quart des observations sont comprises
entre 1 '4 1 , un quart des observations sont comprises
entre 1 et 13 et un quart des observations sont
supérieures à 13
 L’intervalle interquartile est 1 , 13 , il contient donc
50% des observations, en laissant 25% à droite et 25% à
gauche, sa longueur est 13 − 1

21
La nature des données:
Caractériser les données
 Les indicateurs de forme
 L’asymétrie (Skewness)
 Les coefficients d’asymétrie permettent de préciser si la courbe est étalée à
droite ou à gauche.
 Un coefficient positif correspond à une distribution étalée à droite
 Un coefficient négatif correspond à une distribution étalée à gauche
 L’aplatissement (Kurtosis)
 Le coefficient d’aplatissement permet de comparer l’aplatissement de la
courbe de la distribution à celle de la loi normale centrée réduite
 Le coefficient 0 correspond à la distribution normale (de même moyenne et
de même écart-type)
 Un coefficient positif correspond à une distribution moins aplatie que la
normale (de même moyenne et de même écart-type) avec des queues de
distribution épaisses, elle est dite aussi leptocurtique
 Un coefficient négatif à une distribution plus aplatie que la normale (de
même moyenne et de même écart-type) avec des queues de distribution
fines, elle est dite platicurtique
22
Applications sur SAS

23
Procédure MEANS
 Elle permet d'avoir quelques grandeurs statistiques
sur la ou les variables spécifiées
 Par défaut, SAS prend toutes les variables de la
base
 Pour chaque variable, SAS calcule 5 grandeurs
 N = le nb d'obs
 MEAN = la moyenne arithmétique
 STD = l'écart-type
 Min = la valeur min
 Max = la valeur max
Par défaut, SAS prend la définition de la variance de
type et l’utilise dans toutes les statistiques où
cette quantité intervient
24
Procédure MEANS
 Syntaxe de base:
proc means data=Temp2; var ; run;
 Pour obtenir des calculs pondérés par une
variable 5 située dans Temp2:
proc means data=Temp2; var ; weight 5; run;

25
Procédure MEANS
On peut obtenir d'autres statistiques
 min – la plus petite valeur de la série ou minimum
 max – la plus grande valeur de la série ou maximum
range – l’étendue de la série, égale à la différence du
maximum et du minimum
cv – coefficient de variation ⁄ ̅
 var – variance empirique ;
 mean – la moyenne arithmétique
 std – écart-type empirique
proc means var cv data=Temp2; var 3 ; run;
26
Procédure MEANS
 Application sur les données “HER”
 Obtenir les tableaux de base sur les variables “age”,
“taille”, “poids”
• PROC MEANS DATA=TEMP; VAR AGE TAILLE POIDS; RUN;

 Pour les mêmes variables en plus des statistiques de


base, la variance empirique et le coefficient de
variation empirique

• PROC MEANS MEAN STD MIN MAX VAR CV


DATA=TEMP; VAR AGE TAILLE POIDS; RUN;
27
Procédure MEANS
 Traitement par groupe
 Il est fréquent d’avoir dans un tableau une ou plusieurs
variables de classement.
 L’instruction class: il suffit de l’ajouter aux autres
instruction.
 Par exemple, pour calculer la moyenne et l’écart-type des variables
et séparément pour chaque valeur d’une variable Z:
proc means mean std data=Temp2; var ; class Z; run;
 Les calculs sont effectués séparément sur les différentes modalités de
la variable Z.
 L’instruction by:
 plus générale, convient surtout pour les grandes bases de données car
permet de ne conserver qu’une seule des sous-population étudiée en
mémoire
 Il faut d’abord trier les données par la procédure sort avant de lancer
la procédure means
proc sort data=Temp2; by Z;
proc means mean std data=Temp2; var ; by Z; run; 28
Procédure MEANS
 Applications sur les données « HER »
 Obtenir les moyennes, écarts-type, min, max, variance
et le coefficient de variation pour les variables « age »,
« taille », « poids » séparément pour les hommes et
pour les femmes
 En utilisant l’instruction « class »
 En utilisant l’instruction « by »

• PROC MEANS MEAN STD MIN MAX VAR CV DATA=TEMP; VAR AGE
TAILLE POIDS; CLASS SEXE; RUN;

• PROC SORT DATA=TEMP; BY SEXE;


• PROC MEANS MEAN STD MIN MAX VAR CV DATA=TEMP; VAR AGE
TAILLE POIDS; BY SEXE; RUN;
29

You might also like