You are on page 1of 94

Introduction à SPSS

Technique d’analyse quantitative des
données I
Professeur: Karim DOUMI

Karim DOUMI
SPSS

1

Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
– …analyses simples:
• Statistiques descriptives,statistiques inférentielle….
tests d’hypothèse…….

– …analyses plus sophistiquées:
• Analyses multivariées

– … des graphiques

• Les analyses se font à partir des données
saisies!!!
– La qualité des analyses statistiques est fonction de
la qualité des données saisies
Karim DOUMI
SPSS

2

Fonctionnement de SPSS:
Généralités

• Quatre types de fichiers utilisés:
– Un fichier des données de l’étude
• Fichier texte (.txt) ou excel (.xls)
• BD (access, Mysql, oracle…..)

– Un fichier d’édition des données (.sav)
– Un fichier de syntaxe (.sps)
– Un fichier de résultats (.spo)

Karim DOUMI
SPSS

3

– Création du fichier texte: • Utilisation du bloc-notes ou enregistrement dans WORD ou EXCEL sous le format texte Karim DOUMI SPSS 4 . – Avantages du fichier texte: • Utilisation sur PC ou Macintosh. base de données.…). fichier texte. • Peut être lu par n’importe quel programme de traitement de texte. • Résiste au temps et à l’évolution des diverses versions des logiciels.Fonctionnement de SPSS: Fichier de données • Ce fichier n’appartient pas à SPSS: – Peut prendre diverses formes (Excel.

Karim DOUMI SPSS 5 .

: copier. enregistrer.). coller. corrélations.). • Data : traite tout ce qui est lié à la gestion de la barre de données (ex. etc. : ouvrir un nouveau fichier. : infos sur les fichiers. Help : outil d’aide à l’utilisation du logiciel. insérer une variable.). : histogrammes. • Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. infos sur les variables. etc. régressions.). fermer. • Windows : permet la gestion des fenêtres.). : définir une variable. • Transform : permet d’effectuer les différentes opérations de transformation des variables (ex. catégorisation. : barres d’outils). Karim DOUMI SPSS 6 . : analyses descriptives. • View : permet de définir les options de l’écran (ex. : recodification. etc. création d’indices. etc. etc. • Graphs : présente tous les types de graphiques que SPSS permet de créer (ex.). • Edit : permet d’effectuer les opérations de traitement de texte (ex. couper.Description des principales fenêtres : • File : permet la gestion des fichiers (ex.). • Utilities : comprend les utilitaires sur le programme (ex. etc. etc.

vous pouvez les laisser égales à 2 ou les mettre à 0. : 9. Type : sert à décrire la variable et le format de la colonne. Il doit bien représenter la variable pour vous permettre de la reconnaître facilement. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne pas utiliser de caractères accentués. Remarque : la saisie des données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode recommandée). Karim DOUMI SPSS 7 . Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents calculs statistiques. il faut les définir dans «missing». etc. Pour les décimales «decimal places». Columns : permet de terminer la largeur de la colonne.La définition des variables Name : sert à donner un nom à la variable. Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Values : permet de définir les valeurs que peuvent prendre la variable. 99. Il est recommandé de laisser l’option «numeric» qui est indiquée par défaut. Align : sert à aligner les données à l’intérieur des cellules. ordinale. Vous pouvez augmenter ou réduire la taille de la colonne. selon la situation.). intervalles et ratio). Scale : permet de définir le type de l’échelle (nominale. Si vous avez prévu d’utiliser des codes spécifiques (ex.

où f=1. une espace ou une tabulation. Karim DOUMI SPSS 8 . » ou une espace – Exemple: • Variables: identification (id). ».Fonctionnement de SPSS: Fichier de données • Dans un fichier texte. h=2) et âge (age) on entrera: 1 1 28  participant 1 est une femme de 28 ans 2 2 33  participant 2 est un homme de 33 ans 3 2 32  participant 3 est un homme de 32 ans etc. sexe du sujet (sexe. » une « . séparées par un « . – Il est préférable d’utiliser un « . les données de chaque sujet sont entrées successivement.

Fonctionnement de SPSS: Fichier de données • Le fichier de données inclut les valeurs numériques associées à vos données • Ex. 7 pour signifier “totalement en accord” ou 1 pour signifier que le participant est un homme • Principes généraux de saisie: – Chaque ligne = 1 participant – Chaque colonne = 1 variable Karim DOUMI SPSS 9 .

2 ANNEE A8 .txt' /DELCASE = LINE /DELIMITERS = "\t" /ARRANGEMENT = DELIMITED /FIRSTCASE = 2 /IMPORTCASE = FIRST 1000 /VARIABLES = ID F3.2 ORIGIN F3.2 CHEVAPEU F3.2 NBCYL F3.Fonctionnement de SPSS: Fichier d’édition des données • Pour insérer les données dans ce fichier: – Saisie des données manuellement – Importation du fichier avec la syntaxe: GET DATA /TYPE = TXT /FILE = 'C:\Ex2. CACHE.2 L100KM F6.2 POIDS A9 ACCEL F5. Karim DOUMI SPSS 10 . GET DATA /TYPE=XLS /FILE='C:\Ex2.xls' /SHEET=name 'Ex2' /CELLRANGE=full /READNAMES=on . EXECUTE.

Fonctionnement de SPSS: Fichier d’édition des données • Pour insérer les données dans ce fichier: – Avec le menu • Suivre les étapes affichées à l’écran Karim DOUMI SPSS 11 .

max de 8 lettres/chiffres.Fonctionnement de SPSS: Fichier d’édition des données • Attribuer un nom/code à chaque variable – Pour SPSS 12 et moins. mais débutant nécessairement par une lettre – Choisir des codes significatifs – Conserver par écrit les codes des variables!!! Karim DOUMI SPSS 12 .

Code variable Signification ID identification du participant motivation à supprimer ses émotions Karim DOUMI SPSS 13 .

On peut dans SPSS attribuer une étiquette (label).Fonctionnement de SPSS: Fichier d’édition des données • Attribuer une étiquette à chaque variable – Les codes sont limités. laquelle permet de mieux se retrouver • Onglet “variable view” pour modifier les paramètres des variables Karim DOUMI SPSS 14 .

Fonctionnement de SPSS: Fichier d’édition des données • Les données à saisir dans SPSS sont numériques: – Chaque modalité de réponse peut se voir attribuer une étiquette (Values) Karim DOUMI SPSS 15 .

Fonctionnement de SPSS: Fichier d’édition des données • Valeurs manquantes: – Il importe d’attribuer un code pour les valeurs manquantes. ceci facilite la vérification du fichier de données – On doit spécifier à SPSS un code pour signaler l’existence d’une valeur manquante • Ex. Karim DOUMI SPSS 16 . -999 pour une échelle allant de 1 à 7.

Par les menus ou 2. – En spécifiant tous les paramètres de votre analyse vous êtes plus à même de contrôler les résultats obtenus.Par les syntaxes • Plus complexe à première vue. elle comporte des avantages majeurs: – Certains types d’analyses ou de sous-commandes ne sont pas disponibles via le menu. Karim DOUMI SPSS 17 .Fonctionnement de SPSS: Fichier syntaxe • Les analyses avec SPSS se font: 1.

Karim DOUMI SPSS 18 . sous-commandes et noms de variables – Il ne faut pas oublier que les commandes SPSS se terminent toujours par un point. guide en .Fonctionnement de SPSS: Fichier syntaxe • Le logiciel SPSS reconnaît un ensemble défini de commandes et de sous-commandes.pdf dans le menu d’aide • Le fichier syntaxe est un fichier de commandes – Elles indiquent à SPSS quoi faire avec les données – Les commandes et sous-commandes sont séparées par une barre oblique (/) – Aucun accent ne doit être employé dans les commandes. – Plusieurs d'entre elles seront vues lors des cours – Sinon.

Fonctionnement de SPSS: Fichier syntaxe Karim DOUMI SPSS 19 .

Fonctionnement de SPSS: Fichier syntaxe Karim DOUMI SPSS 20 .

Fonctionnement de SPSS: Fichier résultats Karim DOUMI SPSS 21 .

On peut avoir besoin de créer une ou des nouvelles variables à partir des variables existantes. statistiques ou logiques.Calculer une Variable Il arrive très souvent que les variables brutes d'une base de données ne soient pas suffisantes pour effectuer certaines analyses. comme dans les cas suivants : • Créer une variable qui contient la racine carrée d'une variable existante • Calculer la moyenne ou la somme d'une série de variables existantes… La commande Compute sert à créer de nouvelles variables sur la base de fonctions arithmétiques. Karim DOUMI SPSS 22 .

Calculer une Variable Exemple Karim DOUMI SPSS 23 .

Q02. Ensuite. Dans la boite de dialogue. Allez dans le menu Transformer et choisissez Calculer la variable. Vous verrez dans la boite Fonctions et variables spéciales la fonction Mean sur laquelle vous devez aussi cliquer à deux reprises. dans Variable cible (étiquette). Dans la boite du haut. ?). Q03 dans la parenthèse Karim DOUMI SPSS 24 . allez dans la boite Groupe de fonctions et cliquez à deux reprises sur Statistiques (il est dans le bas de la liste. écrivez.Calculer une Variable Exemple • • • • • Cette nouvelle variable sera la moyenne des réponses données par chaque sujet aux questions Q01. MOYSAT (c’est le nom de la variable). vous verrez apparaître MEAN (?. Q03. Vous devez alors insérer les variables Q01. vous devez utiliser l’ascenseur à droite). Q02.

Calculer une Variable Exemple • Vous pouvez également écrire à la main la commande dans la boite… Karim DOUMI SPSS 25 .

cliquez sur Effacer ou.Calculer une Variable Exemple Exercice sur la commande CALCULER : par syntaxe • Maintenant. sur le bouton effacer ou supprimer de votre clavier). • Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les étapes précédentes et remplacez le par • Le texte copié dans cette fenêtre devrait se lire comme suit : Karim DOUMI SPSS 26 . plus simplement. puis dans le menu Édition. éliminez la variable MOYSAT de la matrice de données (cliquez au haut de la colonne sur le nom de la variable.

Calculer une Variable Exemple faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu) Voici ce que devrait contenir maintenant votre fichier Syntaxe Karim DOUMI SPSS 27 .

. A.Création d’une variable La commande recode sert à créer de nouvelles variables (ou à modifier des variables existantes) sur la base d’un regroupement des valeurs qu'on appelle aussi clé de recodage. créer une nouvelle variable qui recode la note en lettre (A+. etc. Voici quelques situations dans lesquelles vous pouvez utiliser le recodage : • À partir d'une variable contenant la note d'examen sur 20. A.) • Recoder les valeurs d'items inversés dans une échelle de mesure • Diminuer le nombre de catégories d'une variable catégorielle en les regroupant différemment Karim DOUMI SPSS 28 .

Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré. : Allez encore une fois dans le menu Transformer.Création d’une Variable Exemple Imaginons que nous voulons réaliser des analyses comparant les gens en formation (STATUT = 1) et les autres (STATUT = 2. 3 ou 4). puis sélectionnez Création de variables Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la valeur 1 (en formation) alors que ceux qui ont la valeur 2. Cliquez sur Karim DOUMI SPSS 29 . il nous faut créer une variable qui diminue le nombre de catégories de 4 à 2. Dans la boite de dialogue principale. 3 ou 4 auront maintenant la valeur 2 (autres). inscrivez STATUTX dans la boite Nom de l’encadré. Pour cela.

Karim DOUMI SPSS 30 .Création d’une Variable Exemple Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.

Création d’une Variable Exemple Exercice sur la commande Recode : par syntaxe Pour les 3 variables a la fois la syntaxe est la suivante: Karim DOUMI SPSS 31 .

Karim DOUMI SPSS 32 . La résultante des expressions conditionnelles peut créer une nouvelle variable ou bien transformer les valeurs d'une variable existante. donc qui s’applique à des sujets ou des observations (lignes) qui répondent à certains critères que nous allons définir selon nos besoins avec cette commande. il faut s'assurer que l'écrasement des valeurs originales ne porte pas à conséquence Voici l’apparence Syntaxe la commande de cet exercice. Q03 et Q05.Expression conditionnelle (IF) Les expressions conditionnelles permettent de calculer des variables selon une condition. q05). Littéralement. la valeur de la variable SATIS1 sera égale à la moyenne des valeurs des variables Q01. q03. IF (sexe = 1) satis1=MEAN (q01. elle signifie que SI la valeur de la variable SEXE est égale à « 1 ». Dans le dernier cas.

Expression conditionnelle (IF) En utilisant le langage SPS: Karim DOUMI SPSS 33 .

Dans le cas d’une seule condition. <=. puis cliquez sur Sélectionnez des observations. >=. • Les conditions de sélection peuvent être uniques ou multiples. soit par la boite de dialogue. • Toutes les conditions multiples (deux variables ou plus) doivent utiliser les opérateurs logiques (AND et OR) pour séparer les conditions. >. =. • Pour faire une sélection de cas de manière interactive. on inscrit la variable sur laquelle repose la sélection avec la condition formulée grâce aux conditions arithmétiques (<.Sélection de cas: • Pour certaines analyses. • Il est possible de sélectionner une ou des observations à l’aide de un ou d'une combinaison de critères. il peut être nécessaire de filtrer une partie des observations (cas) pour obtenir des résultats auprès d'un sous-groupe spécifique d'observations. allez dans le menu Données. Karim DOUMI SPSS 34 . soit en utilisant une commande SYNTAXE. <>).

Karim DOUMI SPSS 35 . puis cliquez sur Sélectionnez des observations.Sélection de cas: Pour faire une sélection de cas de manière interactive. allez dans le menu Données.

vous devez déterminer la stratégie de sélection que vous allez utiliser. Nous allons donc voir cette stratégie en premier et préciser les autres par la suite Karim DOUMI SPSS 36 . la sélection se fait à partir de la condition que vous énoncez. Vous avez plusieurs choix. mais le plus populaire est sans contredit Selon une condition logique. Dans ce cas.Sélection de cas: Dans la première boite de dialogue.

Sélection de cas Exemple : pour choisir les hommes de plus de 30 ans. on entrerait dans la boite: Sexe = 1 AND age > 30 Karim DOUMI SPSS 37 .

vous devriez créer la syntaxe suivante: Karim DOUMI SPSS 38 .Sélection de cas: Si vous préférez taper la commande manuellement.

Sélection de cas: Karim DOUMI SPSS 39 .

Très utile quand vous voulez revenir à la base initiale et annuler une condition préalablement établie. vous avez bien sûr la stratégie Si que nous venons de voir.Les autres stratégies de sélection • • • • Dans la boite de dialogue Sélection de cas. soit en pourcentage (Environ _ % de toutes les observations). Utiliser une variable de filtre : enfin. soit en précisant un nombre d'observations parmi les X premiers (Exactement _ observations à partir des premières _ Observations). Vous n'avez qu'à transférer la variable filtre dans la boite Karim DOUMI prévue à cet effet. Par échantillonnage aléatoire : sélection d'observations aléatoire. vous utilisez toutes les observations. vous pouvez faire une sélection en ne conservant que les cas qui ont des valeurs valides pour une variable filtre. Voici une brève description pour chacun. mais aussi d’autres choix. SPSS 40 . Vous choisissez à ce moment combien de cas vous voulez dans votre échantillon. Toutes les observations : vous ne faites pas de sélection.

régression linéaire simple avec SPSS Karim DOUMI SPSS 41 .Corrélation.

Ainsi l’analyse de régression fournit une fonction entière (une droite par exemple) alors que l’analyse de corrélation fournit un simple nombre – un indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent ensemble.Chapitre 2 : Corrélation. L’analyse causale enfin va plus loin en précisant le sens de la relation. régression et causalité Introduction : précisions sémantiques La régression simple indique la nature de la liaison linéaire entre deux variables (quantitatives). le chemin de la cause à l’effet. La corrélation indique le degré de linéarité entre deux variables (quantitatives). Karim DOUMI SPSS 42 . Ces 2 techniques sont donc complémentaires.

Chapitre 2 : Corrélation. • L’analyse causale détermine le sens de la relation : ex « temps de travail  note au partiel » Karim DOUMI SPSS 43 . régression et causalité Exemple Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la note obtenue au partiel (Y) : • L’analyse de régression permet de déterminer une fonction qui lie les deux variables : ex : « Y = aX + b » • L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables : ex : « le lien est fort et très significatif ».

l’autre a également une valeur élevée) ? Karim DOUMI SPSS 44 . mesurées sur le même ensemble d’observations.Chapitre 2 : Corrélation.1. régression et causalité 5. varient-elles de façon analogue (si pour une observation. Analyse bivariée Corrélation entre deux variables quantitatives – Le coefficient de corrélation de Pearson r est une mesure d’association (d’interdépendance) entre deux variables métriques – Il mesure l’intensité de la co-variation entre les deux variables : les deux variables. l’une prend une valeur élevée.

Analyse bivariée Calcul du coefficient de corrélation de Pearson : cov(xy) r (x).1. alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente. régression et causalité 5. l’autre augmente aussi) • si r est proche de 0 alors il n’y a pas de lien entre x et y Karim DOUMI SPSS 45 .Chapitre 2: Corrélation.(y) • r est toujours compris entre –1 et 1 • si r est proche de –1 alors le lien est fort et négatif (quand 1 des 2 variables augmente l’autre diminue).

il peut également représenter la décomposition de la variation totale (en étant au carré). régression et causalité 5. • r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y est la même que la corrélation entre Y et X.Chapitre 2: Corrélation. On retiendra que r2 = variation expliquée  variation totale  r2 mesure la proportion de la variation d’une variable qui est expliquée par l’autre. Il n’est pas important de savoir quelle est la variable indépendante et quelle est la variable dépendante. Karim DOUMI SPSS 46 . Analyse bivariée r et r2 : • Comme r indique le degré de la relation entre la variation d’une variable et celle d’une autre variable.1.

Analyse bivariée Interprétation du R2 : Variance expliquée : R². ou encore proportion de la variance de Y expliquée par la variance de X) –R² = 0 : la variable indépendante n’explique rien –R² = 1 : la variable explique complètement Y –R² = 0. coefficient de détermination (proportion de variance totale de Y qui n’est pas due à l’erreur.Chapitre 2: Corrélation.1. régression et causalité 5.11 : 11% des variations de Y sont expliquées par le modèle Karim DOUMI SPSS 47 .

Analyse bivariée Précisons tout de suite que r indique la force d’une relation linéaire. Si on a r = 0. Ici r=0 X Karim DOUMI SPSS 48 .Chapitre 2: Corrélation. cela signifie qu’il n’y a pas de relation linéaire entre X et Y.  Faites un graph ! Y Illustration : Il existe bien une relation entre X et Y. mais cela ne signifie pas que les 2 variables ne sont pas liées !!! Il peut très bien y avoir une relation non linéaire entre elles non traduite par r. régression et causalité 5. mais non linéaire.1.

1. (bilatérale) » Karim DOUMI SPSS 49 .Chapitre 2: Corrélation. Analyse bivariée Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2 variables quantitatives. n22 1r Remarque : sous SPPS. On utilise pour cela un test t : t r. régression et causalité 5. Il doit être complété afin de déterminer si l’éventuel lien mis à jour est significatif ou non. la probabilité critique du test est fournie par la rubrique « sig.

Chapitre 2: Corrélation.1. Analyse bivariée Exemple SPSS : y a-t-il un lien entre la taille de l’unité sociale de visite (le nombre de personnes qui forment le groupe) et le temps passé dans le musée d’art ? • H0 : il n’y a aucun lien entre ces deux variables (r=0) • H1 : il existe un lien entre ces deux variables (r0) Analyse  Corrélation Bivariée Résultat : coefficient de corrélation linéaire de Pearson : r (entre -1 et 1) Karim DOUMI SPSS 50 . régression et causalité 5.

542 . On conclut qu’il n’existe pas de lien entre la durée de la visite et la taille de l’unité sociale de visite Karim DOUMI SPSS 51 . régression et causalité 5.Chapitre 2: Corrélation. (bilatérale) N taille de l'unité s ociale Corrélat ion de Pears on Sig.078 . 613 Le coefficient de Pearson est faible et non significatif. (bilatérale) N durée est imée de la v isite 1 .071 538 1 .071 538 taille de l'unité soc iale .1. Analyse bivariée Corrélati ons durée estimée de la v isit e Corrélat ion de Pears on Sig.078 .

Chapitre 2: Corrélation. régression et causalité 5.1. Analyse bivariée Exercice BDD Employes de SPSS : y’a-t-il une corrélation positive significative entre salaire actuel et salaire à l’embauche ? Entre salaire actuel et nombre de mois d’ancienneté ? Karim DOUMI SPSS 52 .

. régression et causalité 5.880** . (bilatérale) N Corrélat ion de Pearson Sig.668 474 474 474 .084 -.084 . 474 474 474 **.880** 1.000 .067 474 474 474 . 020 1.000 . 01 (bilat éral). . Corrélation positive faible et non significative Corrélation positive forte et significative Karim DOUMI SPSS 53 . (bilatérale) N Ancienneté Salaire Salaire (nombre de courant d'embauche mois) 1. Analyse bivariée Corrélations Salaire courant Salaire d'embauc he Ancienneté (nombre de mois ) Corrélat ion de Pearson Sig. La corrélat ion est s ignif icativ e au niv eau 0.067 .668 . 000 -. 000 .Chapitre 2: Corrélation.1. (bilatérale) N Corrélat ion de Pearson Sig. 000 . 020 .

Chapitre 2: Corrélation.7334 rXZ = 0. régression et causalité 5.1. Analyse bivariée Réponse : On veut calculer la corrélation entre Y (attitude envers la ville) et X (durée de résidence dans la ville). après contrôle d’une troisième variable Z (l’importance du climat).5495 Karim DOUMI SPSS 54 . On commence par calculer les corrélations simples entre chaque variables : rYX = 0.9361 rYZ = 0.

936** . (bilatérale) N ATT_VILL DURÉE_RÉ IMP_CLIM 1. 01 (bilatéral).007 .000 .000 .733** . 12 12 12 **.550 . (bilatérale) N Corrélat ion de Pearson Sig.936** 1.064 12 12 12 . Analyse bivariée Analyse  Corrélation  Bivariée Corrélations ATT_VILL DURÉE_RÉ IMP_CLIM Corrélat ion de Pearson Sig. La corrélat ion est s ignif icativ e au niv eau 0. . (bilatérale) N Corrélat ion de Pearson Sig.550 1.007 12 12 12 . régression et causalité 5. 000 .064 . 000 .1.Chapitre 2: Corrélation. 000 . Karim DOUMI SPSS 55 .733** . .

Contrairement à la corrélation simple. Remarquons tout de même que cette méthode n’implique pas de causalité. régression et causalité 5.1. elle nécessite d’identifier l’une des 2 variables comme étant dépendante (à expliquer) et l’autre comme étant indépendante (explicative). Analyse bivariée La régression simple : Elle consiste à déterminer une équation qui relie 2 variables quantitatives. Le modèle type est de la forme : Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer) X = variable indépendante (ou explicative) β0 = ordonnée à l’origine de la droite β1 = pente de la droite ei = terme d’erreur associé à la ième observation Karim DOUMI SPSS 56 .Chapitre 2: Corrélation.

• Erreur type (SEb): estimation de l’écart-type de b Karim DOUMI SPSS 57 . • L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles Y moins valeurs estimées Ŷ).1. • Coefficient de régression : le paramètre b est appelé coefficient de régression non standardisé. Analyse bivariée La régression simple. vocabulaire : •Coefficient de détermination r2 : proportion de la variation totale de Y expliquée par la variation de X • Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée de Yi et a et b les estimateurs respectifs de β0 et β1.Chapitre 2: Corrélation. régression et causalité 5.

Cette statistique est associée à sa probabilité critique (significative lorsqu’elle est < 0. • Somme des erreurs au carré : les distances de tous les points à la droite de régression sont élevées au carré et additionnées pour obtenir la somme des erreurs au carré. qui est une mesure de l’erreur totale • Statistique t : valeur du t de Student à n-2 degrés de liberté.Chapitre 2: Corrélation.05) Karim DOUMI SPSS 58 . afin de rejeter ou non H0. vocabulaire (suite) : •Coefficient de régression standardisé (coefficient bêta) : il correspond à la pente obtenue par la régression de Y sur X lorsque les données sont standardisées. régression et causalité 5. Analyse bivariée La régression simple.1.

Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les éventuelles valeurs extrêmes qui risquent de perturber l’analyse.Chapitre 2: Corrélation. Sous SPSS : Graph  Diagramme de dispersion  Simple Karim DOUMI SPSS 59 . La première étape consiste à représenter le nuage de points. Analyse bivariée Les étapes d’une analyse de régression simple : 1.1. régression et causalité 5. variable dépendante sur l’axe vertical et variable indépendante sur l’axe horizontal.

1. Analyse bivariée 12 10 8 6 ATT_VILL 4 2 0 0 10 20 DURÉE_RÉ Karim DOUMI SPSS 60 . régression et causalité 5.Chapitre 2: Corrélation.

Elle consiste à déterminer la droite de régression qui minimise le carré des distances verticales entre les points et la droite.Chapitre 2: Corrélation. régression et causalité 5. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le mieux les données. ou « erreur totale ». Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à la droite est représenté par ei. notée 2 e j  Le but est que cette valeur soit minimale (que les distances verticales soient minimisées) Karim DOUMI SPSS 61 . Analyse bivariée 2.1. On utilise généralement la méthode des moindres carrés. Les distances de tous les points à la droite élevés au carrés et additionnés forment la somme des carrés des erreurs.

y = β0 + β1x 12 Yi 10 ei 8 6 Ŷi 4 2 0 0 DURÉE_RÉ 10 Karim DOUMI SPSS 20 62 .

Chapitre 2: Corrélation, régression et causalité

5.1. Analyse bivariée
3. Estimation des paramètres de la droite :

Dans la plupart des cas, β0 et β1 sont inconnues et estimées à partir des observations de l’échantillon
en utilisant l’équation : Ŷi = a + bxi
Où Ŷi est la valeur estimée ou prédite de Yi et a et b sont les estimateurs respectifs de β0 et β1. La
constante b, qui est la pente de la droite de régression est généralement appelée coefficient de
régression non standardisé. C’est la variation attendue de Y quand X varie d’une unité.

cov(XY)
b
V(X)

aY bX
Karim DOUMI
SPSS

63

Chapitre 2: Corrélation, régression et causalité

5.1. Analyse bivariée
4. Estimation du coefficient de régression standardisé :
La standardisation est le procédé par lequel les données brutes sont transformées en nouvelles
variables, ayant une moyenne de 0 et une variance de 1. L’ordonnée à l’origine prend alors une valeur
de 0. La pente obtenue par la régression de Y par rapport à X (BYX) est alors la même que celle
obtenue par la régression de X par rapport à Y (BXY).
En outre, chacun de ces coefficients de régression standardisés (bêta) est égal au coefficient de
régression simple entre X et Y : BYX = BXY = rXY
Il existe une relation simple entre les coefficients de régression standardisés et non standardisés : BYX
= bXY(SX/SY)

Karim DOUMI
SPSS

64

Chapitre 2: Corrélation, régression et causalité

5.1. Analyse bivariée
5. Test d’hypothèse :
En toute rigueur, la signification statistique de la relation linéaire entre X et Y doit faire l’objet d’un
test d’hypothèse. On pose :
H0 : β1 = 0

et

H1 : β1  0

H0 implique qu’il n’y a pas de relation linéaire entre X et Y, tandis que l’hypothèse alternative H1 en
suppose une, positive ou négative. On utilise un test bilatéral t à n-2 degrés de liberté associé à une
probabilité critique pour déterminer la significativité de β1.

Avec b coefficient de régression et SEb l’estimation de l’écart-type de b.

t b
SEb
Karim DOUMI
SPSS

65

1. Analyse  Régression  Linéaire Karim DOUMI SPSS 66 .Chapitre 2: Corrélation. réalisez une étude de corrélation et de régression entre la variable dépendante attitude envers la ville et la variable indépendante durée de résidence. régression et causalité 5. Analyse bivariée Exercice En utilisant la BDD SPSS « attitude envers la ville ».

1.Chapitre 2: Corrélation. Valeurs prédites : (constantes ). DURÉE_RÉ Karim DOUMI SPSS 67 .864 Erreur st andard de l'est imat ion 1. Analyse bivariée Analyse de corrélation : Récapi tulatif du modèl e Modèle 1 R .876 R-deux ajust é .936a R-deux . 2233 a. régression et causalité 5.

Valeurs prédites : (constantes ). régression et causalité 5. Karim DOUMI SPSS 68 .Chapitre 2: Corrélation. Analyse bivariée Coefficient de Pearson Analyse de corrélation : Récapi tulatif du modèl e Modèle 1 R . 2233 SEE a. Ici.936a R-deux .864 Erreur st andard de l'est imat ion 1. DURÉE_RÉ La durée de résidence dans la ville explique à 87. pas d’incidence.876 R-deux ajust é .6 % l’attitude Le R2 ajustée permet de corriger le R2 en fonction du nombre de variable.1.

917 ddl 1 10 11 Carré moy en 105. 496 F 70. Valeurs prédites : (constantes ). régression et causalité 5.1.952 1. Variable dépendante : ATT_VI LL Karim DOUMI SPSS 69 .Chapitre 2: Corrélation. Analyse bivariée Significativité du modèle de corrélation : ANOVAb Modèle 1 Régress ion Rés idu Tot al Somme des carrés 105. 803 Signif ication . 964 120.000a a.952 14. DURÉE_R É b.

964 120.917 ddl 1 10 11 Carré moy en 105.Chapitre 2: Corrélation. Analyse bivariée Somme des carrés  ddl Significativité du modèle de corrélation : ANOVAb Modèle 1 Régress ion Rés idu Tot al Somme des carrés 105. Valeurs prédites : (constantes ). régression et causalité 5.05. 496 F 70.952 1. 803 Signif ication . Variable dépendante : ATT_VI LL SSY = SSreg + SSres La statistique F calculée pour 1 et 10 ddl correspond à une proba critique < 0. La relation entre X et Y est positive et significative.952 14. Karim DOUMI SPSS 70 . DURÉE_R É b.000a a.1.

452 8.000 a. 414 Signif ication .1.743 .936 t 1. Variable dépendante : ATT_VI LL Karim DOUMI SPSS 71 . Analyse bivariée Paramètres du modèle de corrélation : Coeffici entsa Modèle 1 (c onst ante) DURÉE_RÉ Coef f icients non st andardisés Erreur B st andard 1.177 .590 . 079 .070 Coef f icien ts st andardi sés Bêta . régression et causalité 5.Chapitre 2: Corrélation.

070 Coef f icien ts st andardi sés Bêta . régression et causalité 5.414 avec 12-2 ddl.05 ce qui confirme le test F : relation positive significative entre X et Y Karim DOUMI SPSS 72 .590 (durée de résidence) T = 0. Variable dépendante : ATT_VI LL Attitude (Ŷ) = 1.936 t 1.079 + 0.1.177 . 452 8. 079 . Proba critique associée < 0. 414 Signif ication .Chapitre 2: Corrélation.5900.590 .000 a.743 . Analyse bivariée Paramètres du modèle de corrélation : BYX = BXY = rXY Coeffici entsa Modèle 1 (c onst ante) DURÉE_RÉ Coef f icients non st andardisés Erreur B st andard 1.070=8.

Exemple Karim DOUMI SPSS 73 .

H3 : La moyenne du terme d’erreur est 0. H4 : La variance du terme d’erreur est constante. H2 : Les moyennes de toutes ces distributions normales de Y. et ne dépend pas des valeurs prises par X.Chapitre 2: Corrélation. Analyse bivariée Hypothèses implicites posées lors de l’estimation des paramètres : H1 : Le terme d’erreur est normalement distribué (pour chaque valeur fixe de X la distribution de Y est normale). H5 : Les termes d’erreur ne sont pas corrélés (les observations ont été réalisées indépendamment les unes des autres). forment une droite dont la pente est b. pour X donné.1. Karim DOUMI SPSS 74 . régression et causalité 5.

Analyse bivariée Exercice 1) Réalisez une analyse de corrélation et de régression dans BDD « employés » entre salaire et salaire embauche. régression et causalité 5. 2) BDD « enquête du comportement des américains en 1993 » : peut-on expliquer la tendance à être libéral ou conservateur (variable métrique à 7 modalités « affilpol ») en fonction du revenu du répondant ? 3) Reprenez la BDD « enquête du comportement des américains en 1993 » et réalisez une nouvelle analyse de corrélation et de régression susceptibles de présenter un intérêt. Karim DOUMI SPSS 75 .1. entre les variables de votre choix.Chapitre 2: Corrélation.

1. régression et causalité 5. le carré de r)  On choisira la régression lorsque l’objectif est d’estimer un modèle de prédiction (ex : prédire les ventes par les dépenses publicitaires) Karim DOUMI SPSS 76 . et les conclusions qui peuvent en être tirées sont identiques (R² est. dans le cas de la régression simple. Analyse bivariée Corrélation ou régression simple ? Les deux méthodes donnent des résultats totalement équivalents.Chapitre 2: Corrélation.

analyse discriminante Descriptive : analyse factorielle des correspondances (AFC). analyse en composantes principales (ACP) Nature des variables : Métrique : régression multiple (explicative) et ACP (descriptive) Nominale : analyse discriminante (explicative). analyse factorielle (descriptive) Karim DOUMI SPSS 77 . régression et causalité 5.Chapitre 2: Corrélation.2. Analyse multivariée Principe : étudier les relations entre n variables prises simultanément (n>2) Méthodes : Explicative : régression multiple.

le budget force de vente. régression et causalité 5. La régression multiple permet. de confirmer une relation de cause à effet entre variables. Analyse multivariée Pourquoi réaliser des régressions multivariées ? Limite de la régression simple : un phénomène a rarement une seule cause. Par exemple. Karim DOUMI SPSS 78 . etc.Chapitre 2: Corrélation. il faut alors évaluer son intensité. qu’est-ce qui explique les ventes d’un produit ? Le budget pub. elle. Si cette relation est confirmée.2. le prix. c’est-àdire expliquer les variations d’une variable par plusieurs autres variables. le nombre de points de vente.

Analyse multivariée Méthode : Y est la variable quantitative à expliquer (dépendante). les i variables explicatives (indépendantes) quantitatives (à la rigueur binaires). + bi Xi Karim DOUMI SPSS 79 . La forme générale du modèle est : Y = β0 + β1 X1 + β2 X2 + …. régression et causalité 5. …. et X1. Xi.2. X2. + βi Xi + ε avec ε minimum. On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que f(Xi) soit le « plus proche possible » de Y. on calcule l’équation : Ŷ = b0 + b1 X1 + b2 X2 + …. Dans la pratique.Chapitre 2: Corrélation.

régression et causalité 5. vers 0 lorsqu’elle 2 est nulle 2 2 k(1R ) R ajusté R  nk 1 Karim DOUMI SPSS 80 .Chapitre 2: Corrélation.2. Analyse multivariée Présentation des résultats sous SPSS (1/4): Analyse  Régression  Linéaire • La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité associée • Le R² ajusté indique le % de variance de Y expliquée par l’équation (ajustée au nombre de variables indépendantes et à la taille de l’échantillon) • Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte.

Chapitre 2: Corrélation.) Karim DOUMI SPSS 81 . nombre de produits en promo. A chacun d’entre eux est associé un tests t pour en estimer la significativité. il suffit de comparer les valeurs absolues des t associés ou de lire les coefficients de régression partiels standardisés Bêta (moyenne=0 et écarttype=1) qui permettent la comparaison entre Xi alors même que celles-ci ont des unités de mesure différentes (exemple. Analyse multivariée Présentation des résultats sous SPSS (2/4) : • Les coefficients β. proximité du centre ville en km etc. dits coefficients de régression partiels représentent la variation attendue de Y quand Xi varie d’une unité mais que les autres variables indépendantes sont maintenues constantes.2. • Pour comparer la contribution relative des Xi à Y. pour estimer les ventes d’un magasin : surface en m². régression et causalité 5.

et en tout cas > 0. Analyse multivariée Présentation des résultats sous SPSS (3/4) : • Il est nécessaire de tester la colinéarité. régression et causalité 5.Chapitre 2: Corrélation.2. car la multicolinéarité entre variables explicatives biaisent les estimations de R² :  Il faut étudier la tolérance : pourcentage de la variable explicative non expliquée par les autres variables explicatives (elle doit être proche de 1.3)  Il faut aussi étudier le VIF (variance inflation factor) : degré d’augmentation de l’erreur lié à la multicolinéarité (le VIF doit être inférieur à 4) Karim DOUMI SPSS 82 .

Ces erreurs ei s’expliquent d’une part par l’effet des variables non prises en compte dans le modèle. Analyse multivariée Présentation des résultats sous SPSS (4/4) : • Enfin. il est nécessaire d’examiner les résidus. il faut que les résidus se répartissent de manière aléatoire autour de la valeur calculée. Pour vérifier ce dernier point.Chapitre 2: Corrélation. Le résidu ei est la différence entre la valeur observée yi et la valeur calculée par le modèle Ŷi. et d’autre part par des variations aléatoires.2. il suffit d’examiner le diagramme PPGaussien : il ne doit y avoir aucune forme apparente dans la distribution des résidus Karim DOUMI SPSS 83 . régression et causalité 5. Pour que l’interprétation du modèle soit valide.

2.Chapitre 2: Corrélation. Analyse multivariée Exercice Peut-on expliquer l’attitude envers la ville en fonction de la durée de résidence et de l’importance accordée au climat ? Karim DOUMI SPSS 84 . régression et causalité 5.

Valeurs prédites : (constantes ). IMP_CLIM.Chapitre 2: Corrélation.945 R-deux ajust é .972a R-deux .8597 a.2. DUR ÉE_RÉ Karim DOUMI SPSS 85 . Analyse multivariée Réponse : Sous SPSS : Analyse  Régression  Linéaire Récapi tulatif du modèl e Modèle 1 R .933 Erreur st andard de l'est imat ion . régression et causalité 5.

Chapitre 2: Corrélation, régression et causalité

5.2. Analyse multivariée
Réponse :

La relation est forte

Modèle
1

Récapi tulatif du modèl e

R
,972a

R-deux
,945

R-deux ajust é
,933

Erreur
st andard de
l'est imat ion
,8597

a. Valeurs prédites : (constantes ), IMP_CLIM, DUR ÉE_RÉ
Le modèle « explique » 93,3 % de la variance
de Y
Karim DOUMI
SPSS

SEE
86

Chapitre 2: Corrélation, régression et causalité

5.2. Analyse multivariée
Réponse :
Sous SPSS : Analyse  Régression  Linéaire
Statistiques : test de colinéarité
Diagrammes : diagramme P-P gaussien

ANOVAb

Modèle
1

Régress ion
Rés idu
Tot al

Somme
des carrés
114,264
6, 652
120,917

ddl
2
9
11

Carré moy en
57, 132
,739

F
77, 294

Signif ication
,000a

a. Valeurs prédites : (constantes ), IMP_CLI M, DU RÉE_RÉ
b. Variable dépendante : ATT_VI LL
Karim DOUMI
SPSS

87

Chapitre 2: Corrélation, régression et causalité

5.2. Analyse multivariée
Réponse :

ANOVAb

Modèle
1

Régress ion
Rés idu
Tot al

Somme
des carrés
114,264
6, 652
120,917

ddl
2
9
11

Carré moy en
57, 132
,739

F
77, 294

Signif ication
,000a

a. Valeurs prédites : (constantes ), IMP_CLI M, DU RÉE_RÉ
b. Variable dépendante : ATT_VI LL

Le test F est associé à une probabilité d’erreur < 5 %. Le modèle
est donc globalement significatif

Karim DOUMI
SPSS

88

160 3.2.086 Coef f icien ts st andardi sés Bêta .314 Stat is tiques de colinéarité t .481 . 433 1.567 .764 .008 Toléranc e . Variable dépendante : ATT_VI LL Karim DOUMI SPSS 89 . Analyse multivariée Réponse : Coeffici entsa Modèle 1 (c onst ante) DURÉE_RÉ IMP_CLIM Coef f icients non st andardisés Erreur B st andard .Chapitre 2: Corrélation.059 .567 . régression et causalité 5.289 .698 .698 VIF 1.595 8.337 .000 . 433 a. 353 Signif ication .

698 VIF 1.Chapitre 2: Corrélation.481X1 + 0. 353 Signif ication .086 Coef f icien ts st andardi sés Bêta .337 + 0. 433 1.567 . 160 3.337 .008 Toléranc e .698 .764 . 433 a. régression et causalité 5. Analyse multivariée Réponse : L’équation de la droite de régression est : Ŷ = 0.059 . Ces 2 facteurs sont donc importants pour expliquer Y Pas de problème de multicolinéarité Karim DOUMI SPSS 90 .314 Stat is tiques de colinéarité t . Variable dépendante : ATT_VI LL β1 et β2 sont significatifs.481 .595 8.000 .567 .289X2 Coeffici entsa Modèle 1 (c onst ante) DURÉE_RÉ IMP_CLIM Coef f icients non st andardisés Erreur B st andard .2.289 .

Chapitre 2: Corrélation.00 Probabilité cumulée observée Karim DOUMI SPSS Yi observés 91 . Analyse multivariée Réponse : on de deRésidu résidu standardisé Diagramme gaussien P-P de régression Ŷi (Yi calculé) Variable dépendante: ATT_VILL 1.50 .75 .75 1.00 .00 0.25 0. on estime ei par la distance entre le point et la droite Y=y .25 .2. régression et causalité 5.50 .00 Pour l’observation i.

à partir d’un grand nombre de variables explicatives. Analyse multivariée La régression pas à pas : Le but de la régression pas à pas est de sélectionner.2. un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation de la variable dépendante (à expliquer). régression et causalité 5. Les variables explicatives sont introduites ou retirées une à une de l’équation que l’on cherche à optimiser. 2 méthodes sont possibles : Karim DOUMI SPSS 92 .Chapitre 2: Corrélation.

régression et causalité 5. Analyse multivariée • Régression pas à pas ascendante : les variables sont entrées dans le modèle les unes après les autres. puis celle qui explique le moins la variance restant à expliquer etc.Chapitre 2: Corrélation. Karim DOUMI SPSS 93 .2. en recherchant d’abord la variable Xi la plus explicative. puis celle qui explique le plus la part de variance restant à expliquer etc. en éliminant d’abord la variable Xi la moins explicative de Y. • Régression pas à pas descendante : les variables sont éliminées du modèle global les unes après les autres.

•Ne retenir que les β significatifs.2. •Éviter les données avec des valeurs extrêmes ou aberrantes Karim DOUMI SPSS 94 . régression et causalité 5.Chapitre 2: Corrélation. Analyse multivariée Conclusion sur la régression multiple : •Choisir la régression si l’objectif est un modèle de prédiction •Bien réfléchir au statut des variables dépendante et indépendantes •Disposer de variances suffisantes sur les variables introduites dans le modèle.