You are on page 1of 134

Programmation

Python & R
ENSA de Kenitra

Pr. Aniss MOUMEN (ENSA – Kenitra)


amoumen@gmail.com
06.65.36.63.70
Facebook - Linkedin - Researchgate
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4- Regression

2
DEMARCHE D’ETUDE STATISTIQUE

ÉCHANTILLON
POPULATION Problème

Enquête

OBSERVATION
ANALYSE DESCRIPTIVE Analyse

Interprétation

GÉNERALISATION
ANALYSE INFÉRENTIELLE Rapport
3
DEMARCHE D’ETUDE STATISTIQUE

Rappel – Statistique
Vocabulaire Statistique

La population est l’ensemble des sujets observés.


L’échantillon c’est un sous ensemble représentatif d’une population donnée.
L’individu (l’unité),c’est l’élément d’une population, défini par un ou plusieurs
caractères possédés en commun avec le reste de la population
Le caractère, c’est la propriété étudiée sur ces sujets (individus).
La modalité, c’est une valeur ou une situation possible prise par le caractère
(modalité quantitative ou qualitative)
La variable, c’est un caractère qui peut prendre des valeurs ou des modalités
variables.
L’Effectif, c’est le nombre de fois qu’un phénomène apparait dans une population.

4
DEMARCHE D’ETUDE STATISTIQUE

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de


méthodes permettant de décrire et d’analyser
Représentations
des observations (ou mesures, ou données). Ces graphiques
observations consistent généralement en la
Descriptive
mesure d’une ou plusieurs caractéristiques
Résumés
communes, appelées variables, sur un numériques
ensemble de personnes ou d’objets équivalents,
Stat. Ou AD
appelé un échantillon.
Test
d’hypothèse
Statistique Inférentielle, est l’ensemble des
Inférentielle
tests statistiques et techniques d’analyse,
Modèles
permettant de généraliser les hypothèses d’un mathématiques
échantillon sur une population.

5
DEMARCHE D’ETUDE STATISTIQUE

Méthodes Quanti/Quali :

Quantitative Qualitative

-Interprétation qualitative
-Mesure quantitative
- En recherche la motivation, les
-Appliquer sur les phénomènes
raisons humaines, les opinions, les
mesurables
avis…
-Enquêtes
-Interviews
-Analyse quantitative
-Analyse textuelle
(Statistique)
DEMARCHE D’ETUDE STATISTIQUE

Observation, phénomène
nouveau, perspective, limite,
Formuler le
problème
validation….

Etude
Résultats, documentaire
Etat d’art ou
Interprétation,
revue de
Discussion et
littérature
Conclusion
Modèle théorique

Etude Exploratoire

Collecte &
Méthodologie
Analyse des
de recherche
données
Démarche Quanti/Quali,
Expériences….
DEMARCHE D’ETUDE STATISTIQUE

CONSTRUITS-ENTITÉS CONSTRUITS-
VARIABLES EXPLICATIFS ENTITÉS
Xi MODÈLE VARIABLES
F(Xi) A
EXPLIQUER
Yi

Recherche
documentaire

Etude exploratoire
(Etude de cas – Etude
pilote…)
Etude exploratoire > Méthodes et techniques

Collecte des ETAPES


données Collecte des données : d’une manière directe ou indirecte

Retranscription : après la réalisation des interviews, il faut les convertir


Retranscription fidèlement en texte

Définition des unités d’analyse :


Définition des
unités d’analyse Après la lecture des documents  repérer les mots, les phrases, thèmes… qui
vont servir de base pour le codage.

Codage ou  Classification ou codage :


classification
Création des catégories ou des attributs ou code (ou nœud chez NVIVO) pour
classifier les documents et leurs contenus.
Grille d’analyse
Grille d’analyse :
Lister le contenu recueillis dans un tableau, par interviewé/auteur en fonction
des thématiques.
Quantification
Quantification : calcul du nombre d’apparition des mots/codes…, co-
occurance…  Création des requêtes
Représentation
graphique Représentation graphique : Nuage des mots, analyse des similitudes….
Etude exploratoire > Méthodes et techniques

Focus groupes
Directes
Entretiens en
profondeur

Etudes Techniques
qualitatives d’expression

Techniques de
construction
Techniques
Indirectes
projectives
Phrases à
compléter

Techniques
d’association
Etude exploratoire > Méthodes et techniques

Techniques projectives :
Une approche de collecte des données auprès des répondants, d’une manière indirecte et
ouverte, sans dévoiler explicitement et en détail le but de l’étude.
Intérêt :
-Découvrir les opinions, les avis, les motivations, les attitudes, les sentiments cachés du
répondant
Techniques d’association : Un stimulus est présenté pour le répondant et on lui demande d’y
associer sa premier pensée.
Exemple : l’association des mots (proposer une liste des mots aux répondants)
On analyse la fréquence des mots des répondants.
Techniques d’éléments à compléter : Le répondant complète une phrase ou une histoire
(incomplète).
Techniques de construction : Le répondant construit une histoire, dialogue ou une
description.
Exemple :
- On propose une image et on laisse le répondant décrire ou raconter une histoire (test
d’image)
- On propose une bande dessiné et on laisse le répondant décrire le dialogue (test de bandes
dessinées)
Techniques d’expression : Le répondant décrit ce que pourrait penser une autre personne
(Technique de jeux de rôle, Technique de la tierce personne)
Etude exploratoire
Etude exploratoire
Etude exploratoire > Méthodes et techniques

Définition :
Un focus group (ou groupe de discussion) est une forme de recherche qualitative qui prend
forme au sein d'un groupe spécifique (cible), afin de déterminer la réponse de ce groupe et
l'attitude qu'il adopte au regard d'un concept, problématique, phénomène, événement….
L’intérêt :
-Récolter de l’information en écoutant l’échange entre les participants
- Révéler des résultats inattendus
-Une technique très utilisé en recherche qualitative

Caractéristiques :
Taille du groupe 8 – 12 participants
Composition Homogène (présélection)
Cadre Atmosphère favorisant l’échange
Durée 1 à 3 Heures
Enregistrement Audio/Vidéo
Animateur (*) Compétences en interaction et de
communication
Etude exploratoire > Méthodes et techniques
Etude exploratoire > Méthodes et techniques

Définition :
Un entretien en profondeur consiste à collecter des informations laissant au répondant
la liberté de détailler au maximum son opinion sur un sujet spécifique. Selon cette
méthode, le rôle de l’intervieweur est de guider et de canaliser le flux d’informations en
fonction de l’objet de l’étude ; on parle d’une interaction semi-directive. Ce type
d’entretien se concentre sur les éléments pertinents qui correspondent à l’objectif de
l’étude en question.

Intérêt :
-Découvrir les opinions, les avis, les motivations, les attitudes, les sentiments du
répondant
Mode de l’Entretien Face à face et individuelle
Durée 30 min à plus d’une heure
Enquêteur (*) Favorise l’expression du répondant,
avec des questions ouverts (à votre avis
est ce que …, voulez vous ajoutez
quelque chose….)

Enregistrement Audio/vidéo
Etude exploratoire > Méthodes et techniques
Entretien : Exemples

ENTRETIEN NON
DIRECTIF
Guide d’entretien : Exemples

ENTRETIEN
DIRECTIF
Etude exploratoire > Méthodes et techniques

Guide d’entretien (Scénario de l’entretien groupe ou individuel):

Un ensemble de directives spécifiées (écrites) en support à l'entretien (interview) de


recherche qualitatif ou semi-directif
C’est le mode opératoire des entretiens et une aide mémoire pour l’animateur/enquêteur
Le guide d’entretien est dynamique, il peut évoluer et changer.

C’est une préparation et une planification des entretiens en écrit : Espace - Temps

 Sélection des interviewées


 Accueil et réception (mot de remerciement, prise de contact…)
 Préambule – Introduction
 Présentations - Questions - Discussion & prise de note
 Restituer et synthétiser les réponses
Etude exploratoire > Méthodes et techniques

Guide d’entretien avec la technique de l’entonnoir

Phase introductive

Phase centrage

Phase approfondissement

Phase conclusion
Etude exploratoire > Méthodes et techniques

Guide d’entretien avec la technique de l’entonnoir


PRÉSENTATION : l’interviewer présente le sujet, son intérêt,
les motivations… et demande l’autorisation d’enregistrer ou
pas l’interview.
PHASE INTRODUCTIVE :
Introductive Introduire l’interviewé dans le sujet, avec des questions en
relation avec les problèmes étudiés. Rester négative dés le
départ, pour provoquer le débat
Centrage
PHASE DE CENTRAGE :
Approfondissement Suggérer des solutions possibles pour l’interviewé, et poser
des questions sur son avis, sa réaction, ses propositions
Conclusion PHASE D’APPROFONDISSEMENT :
Approfondir le sujet, en imaginant des scénarios où
l’interviewé est lui-même en charge de la mise en
œuvre d’une des solutions proposées, pour solliciter
son point de vue sur le cadre général….
PHASE DE CONCLUSION :
Conclure en proposant à l’interviewé son avis si l’une des
solutions est réel, et revenir sur la réalité pour
confirmer sur son point de vue sur l’existant
Etude exploratoire > Méthodes et techniques

Guide d’entretien (Scénario de l’entretien groupe ou individuel), un exemple


Une étude sur les motivations et frein des étudiants vis-à-vis des voyages organisés.

PHASE INTRODUCTIVE :
Objectif : évacuer les stéréotypes sur les vacances organisées .
Questions possibles :
1. Voulez vous me raconter vos dernières vacances ?
2. Comment cela c’est passé ?
3. Raconter une journée type ?
4. Quelle serait une journée idéal ?
PHASE DE CENTRAGE :
Objectif : Suggérer, crédibiliser une éventualité de vacances organisées.
Questions possibles :
5. Quelle serait votre réaction si vous gagner un prix pour un voyage organisée ?
6. Comment vous allez vous organisez ?

Sous thème : l’organisation > quel mode de transport ?, le rôle de l’animateur ?, raconter nous
une journée type ? Une semaine type ?
Sous thème : les compagnons de voyage > combien seront-ils ? Leurs catégories ? Leurs
origines ?
Etude exploratoire > Méthodes et techniques

Guide d’entretien (Scénario de l’entretien groupe ou individuel), un exemple


Une étude sur les motivations et frein des étudiants vis-à-vis des voyages organisés.

PHASE D’APPROFONDISSEMENT :
Objectif : Construire le produit « vacances organisées idéales »
Imaginons que vous êtes l’organisateur
Sous-thème 1 : accueil, lieu > comment les accueilleriez-vous ? Qu’est ce qui serait bien de
faire ? Les difficultés qu’on pourrait rencontrer ?
Sous-thème 2 : formule, activités, animation > raconter une journée type ? Une semaine ? Les
activités possibles ? Quel serait l’étudiant idéal intéressé ?
Sous-thème 3 : Prix à prévoir > quel budget ? Quelles options ? Quelles facilités de
paiement?
PHASE DE CONCLUSION:
Objectif : Retour à la réalité
Est-ce que vous serez intéressé par les formules existantes ? Vous les conseilleriez à qui ?...

Nous sommes parvenus à la fin de notre entretien, je voudrais vous remercier pour votre
participation.
Etude exploratoire > Méthodes et techniques

Les outils à utiliser lors de l’entretien (à utiliser sans modération)


Etude exploratoire > Méthodes et techniques

Les outils à utiliser lors de l’entretien (à utiliser avec modération)


Etude exploratoire > Méthodes et techniques

Les outils à utiliser après l’entretien (sans modération)


Etude exploratoire > Méthodes et techniques

APRÈS L’ENTRETIEN : RETRANSCRIPTION


DÉFINITION :
Reproduire fidèlement l’entretien audio ou vidéo en texte, c’est une étape qui
vient juste après la réalisation de l’entretien.

TYPE DE RETRANSCRIPTION :
• La retranscription sociologique ou In extenso.
• La retranscription mot pour mot ou compte rendu intégrale reformulé.
• La retranscription Ubiqus ou compte rendu reformulé.
• La retranscription en synthèse

DUREE :
De quelques minutes à des heurs, de retranscription pour chaque citation.
DEMARCHE D’ETUDE STATISTIQUE

SYNTHÈSE

Choix de la
Définition de la Cadre de Taille de
méthode
population l’échantillonnage l’échantillon
d’échantillonnage

Nettoyage des Saisie et codification


données : données des données – Pré-test de
manquantes, Transformation - l’appareil de mesure
Travail de terrain…
données aberrante, – Analyse de
Test de Exploration des fiabilité
représentativité données - Graphiques

Tests des hypothèses


• Tests de normalité
• Tests sur l’échantillon Réduction des
Prédiction Classification
unique/deux données
échantillons
• Tests d’association
29
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Choix de la méthode de l’échantillonnage >> Comment ?
population

Cadre de
l’échantillonnage
Aléatoire simple
Systématique
Choix de la méthode Oui Probabiliste Stratifié
d’échantillonnage
Grappes
Liste de la Phases multiples
Taille de population ? De convenance
l’échantillon De jugement
Boule de neige
Non Non-probabiliste
Par quota
Pré-test de l’appareil
de mesure Volontaire
Structurée aléatoire

Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Choix de la méthode de l’échantillonnage >> Comment choisir ?
population
Argumentaire

Cadre de
l’échantillonnage Probabiliste Non-Probabiliste

-La liste de la population n’est pas


Choix de la méthode -Disponibilité de la liste de connu d’avance
d’échantillonnage -Travaux antérieurs similaires
population
-Si la taille de l’échantillon obtenu
est importante  Niveau de
Taille de
l’échantillon confiance est important et la
marge d’erreur est moindre.
-Si le choix des répondants est
Pré-test de l’appareil resté aléatoire
de mesure

Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Taille de l’échantillon
population
Plan d’échantillonnage

Cadre de
l’échantillonnage Probabiliste Non-Probabiliste

Taille de l’échantillon (E) est une fonction du : (1) % des chances qu’un
Choix de la méthode individu répond (A) ou pas (B) (en général 0.5), (2) Marge d’erreur (ER) si la
d’échantillonnage même question est reposée pour un autre échantillon (3%, 5%...), (3) Niveau
de confiance (Z) (les niveaux usuelles : 99%, 95%, 90% et 68%)

Taille de Population inconnue


l’échantillon

A B
Pré-test de l’appareil
de mesure
E 2
 ER 
 
Travail de terrain…  Z 
ECHANTILLONNAGE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Taille de l’échantillon
population
Plan d’échantillonnage

Cadre de Probabiliste Non-Probabiliste


l’échantillonnage
Taille de l’échantillon (E) est une fonction du : (1) proportion de la
population (si inconnue , en général 0.5), (2) Marge d’erreur (ER) si la
Choix de la méthode même question est reposée pour un autre échantillon (3%, 5%...), (3)
d’échantillonnage
Niveau de confiance (Z) (trois niveaux : 99%, 95% et 68%  pour un
niveau de confiance de 95%, z = 1.96, pour un niveau de confiance de
Taille de 99%, z = 2.575)
l’échantillon Dans le cas d’une population inconnue
p  (1  p) 2
Pré-test de l’appareil E 1  Z 
de mesure
 ER 
2
E   
  4  ER 
Travail de terrain…  Z 
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Taille de l’échantillon
population
Plan d’échantillonnage

Cadre de
l’échantillonnage Probabiliste Non-Probabiliste

Taille de l’échantillon (E) est une fonction du : (1) % des chances qu’un
Choix de la méthode individu répond (A) ou pas (B) (en général 0.5), (2) Marge d’erreur (ER) si la
d’échantillonnage même question est reposée pour un autre échantillon (3%, 5%...), (3) Niveau
de confiance (Z) (les niveaux usuelles : 99%, 95%, 90% et 68%)

Taille de Population connue


l’échantillon
Théorème Centrale
Pré-test de l’appareil Limite
de mesure

Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Taille de l’échantillon – Exemples (à chance égale A = B = 0.5)
population
Taille de l’échantillon Niveau de confiance Marge d’erreur
Cadre de
l’échantillonnage
2 450 99% 1%
261 97% 3%
Choix de la méthode
d’échantillonnage 251 95% 3%
90 95% 5%
Taille de 46 68% 5%
l’échantillon
Le seuil est fonction du niveau de confiance et marge d’erreur 
plus il est important (proche de 200), plus c’est bien
Pré-test de l’appareil
de mesure  En fonction du but de la recherche, cadre théorique et la catégorie
de modélisation à utiliser
 Le couple Niveau de confiance & marge d’erreur est à choisir par
rapport aux études antérieurs et les limites de la collecte de donnée
Travail de terrain… (pas moins de 70% pour l’IC et pas plus de 10% de ME)
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Taille de l’échantillon – Calculatrice à population connue
population
 La taille minimale pour une étude quantitative est : 30.
 La taille optimale quelque soit la taille de la population : 385.
Cadre de  Quand les populations sont importante = Le stratifié s’impose
l’échantillonnage

Choix de la méthode
d’échantillonnage

Taille de
l’échantillon

Pré-test de l’appareil
de mesure

Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la  Taille de l’échantillon – en fonction du cadre théorique, modèle
population et but de recherche

Cadre de
l’échantillonnage AMOS PLS

Cadre théorique Fort (Science exacte, Flexible (Social,


Choix de la méthode Eco-gestion…) humaine…)
d’échantillonnage
But de la recherche
Confirmatoire/Explicatif Prédictive/Exploratoire
Taille de Seuil sur la taille de
l’échantillon l’échantillon Large (plus de 200) Petit (plus de 30)

Pré-test de l’appareil
de mesure

Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE

PROCESSUS (2) : DU TERRAIN A L’ANALYSE DE DONNE


 Saisie : Il s’agit de regrouper les réponses des répondants dans des tableaux
>>
Codification : pour les réponses à multiple choix, il s’agit de convertir
l’échelle de mesure textuelle en y attribuant une valeur numérique (Femme
 0, Homme  1)
Travail de terrain RQ : ces deux phases de saisie et de codification, peuvent être faite aussi
lors de l’intégration des données sous R

Saisie Intégration ou importation des données : Soit que les données sont à saisir
manuellement au niveau du logiciel d’analyse de donnée ou à importer depuis
un fichier externe (Excel…)
Analyse de donnée : Il s’agit des différents opérations effectuées sur les
Codification données, permettant d’avoir une vue et une visualisation synthétique de ces
données.
 Exploration des données : Les données manquantes &redondantes 
Intégration des données Epuration des données  statistique descriptive uni-variée
 1er test : Test de normalité, Test de représentativité
 Tests d’hypothèse – H0 et H1
 Corrélation/Régression/Analyse factorielle
Analyse de donnée
 Modèle statistique

>> 38
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4-Regression

39
INTRDODUCTION

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de


méthodes permettant de décrire et Représentations
d’analyser des observations (ou mesures, graphiques
ou données). Ces observations consistent Descriptive
généralement en la mesure d’une ou Résumés
numériques
plusieurs caractéristiques communes,
Stat. Ou AD
appelées variables, sur un ensemble de
Test
personnes ou d’objets équivalents, appelé d’hypothèse
un échantillon. Inférentielle
Modèles
mathématiques

40
STATISTIQUE DESCRIPTIVE > DONNEES

 Les DONNÉES sont les résultats d’une


Données
collecte ou une observation, sur un sujet ou un
phénomène ou un problème impactant une
POPULATION.

 Les DONNEES sont soit de caractère :


Primaire Secondaire  QUANTITATIF (une mesure, une valeur,
une quantité…)
 QUALITATIVE (un avis, une opinion, un
texte…)

Qualitative Quantitative
Recherche  COLLECTE DES DONNÉES (en science
documentaire
sociale, gestion et humaine) se fait via des
ENQUÊTES (QUESTIONNAIRES et/ou
ENTRETIENS). Deux catégories de collecte :
Données
Données non structurées 
structurées (Texte, Tableaux (Variable  Recensement : toute la population est
Image, Sons, quantitative, étudiée
Vidéo…) Variable
qualitative)
 Sondage : un échantillon de la
population qui est étudiée
41
STATISTIQUE DESCRIPTIVE > VARIABLES

Variables :
Variable : Tout phénomène qui varie, soit naturellement ou artificiellement,
et qui peut être décrit et mesuré sur une échelle (quantitative, qualitative).

Une variable = une colonne


Un individu = une ligne
Modalité = la valeur que peut L’échantillon = {individu}
42
prendre une variable
STATISTIQUE DESCRIPTIVE > VARIABLES

Exemple : Déterminer les variables Quanti/Quali

Variables qualitatives ?
Variable quantitatives ?

43
STATISTIQUE DESCRIPTIVE > VARIABLES

Echelle de mesure :

 Une échelle de mesure est un ensemble de gradations permettant


d’attribuer une valeur attendue à une question (variable).

 L’utilisation d’une échelle de mesure pour obtenir une réponse à une


question oriente le répondant sur les nuances souhaitées à sa réponse et
facilite le traitement.

 Le choix d’une échelle de mesure a des conséquences multiples sur les


résultats, une échelle doit :
 Permettre au répondant d’exprimer adéquatement son opinion.

 Etre conviviale pour le répondant (simple, facile d’utilisation,


permettant de faire un choix rapide…).
 Produire des mesures de qualité (exactes et minimisant l’erreur de
mesure).
44
STATISTIQUE DESCRIPTIVE > VARIABLES

Collecte de données :

Validité d'un outil de mesure/évaluation :


Qualité d'un outil de collecte de données : grille d'observation, d'analyse de contenu,
test, questionnaire,
appareils de mesures… qui mesure ce qu'il est censé mesurer (Pré-test)

45
STATISTIQUE DESCRIPTIVE > VARIABLES

Echelle de mesure qualitative :

Échelle nominale : Échelle qualitative qui consiste à classer et nommer les variations
d'un phénomène en fonction de catégories

Échelle ordinale : Échelle qualitative qui consiste à classer et à mettre en ordre les variations
d'un phénomène selon un critère connu.

46
STATISTIQUE DESCRIPTIVE > VARIABLES

Echelle de mesure quantitative:

Échelle d'intervalles : Échelle quantitative qui consiste à repérer des variations


d'un phénomène dont les intervalles sont constants. EX: La température : L'écart entre 10 et
12°C est identique à l'écart entre 14° et 16°C.

Échelle de rapports : Échelle quantitative qui consiste à mesurer les variations


d'un phénomène dont les intervalles et les rapports sont constants. EX: Le temps. L'écart entre 5
et 10 secondes est identique à l'écart qui existe entre 15 et 20 secondes.

47
STATISTIQUE DESCRIPTIVE > VARIABLES

Variables :

ON DISTINGUE :

 Variable Indépendante (VI) ou exogène : C’est le phénomène ou le facteur présumé


responsable du phénomène étudié (variable dépendante). la VI est la variable X,
variable explicative.
 Variable Dépendante (VD) ou endogènes : Variable observée/décrite et mesurée/évaluée
qui peut être modifiée par la variable indépendante.  la VD est la variable Y, la variable
expliquée, la variable mesurée.

 Variable contrôlé (VC) : est toute variable indépendante exclue de la situation de recherche
par le chercheur, dans le but d’isoler l’effet de la variable indépendante (de recherche)– elle
est utilisée pour agir sur la variance en situation de corrélation entre VD et VI.

 Variable intermédiaire : n'est pas un phénomène en soi, mais plutôt un concept


scientifique qui a pour but d'établir une relation entre deux ou plusieurs phénomènes (X et
Y), c’est à l’intermédiaire des deux variables « Indépendante et dépendante ». La variable
intermédiaire n’est pas directement observables (exemple : variable modératrice,
48
médiatrice et latente)
STATISTIQUE DESCRIPTIVE > VARIABLES

Variables :
Il y a aussi :

Des variables intermédiaires (VT) :

Variable modératrice : Variable parasite qui atténue ou augmente la relation


entre la variable indépendante (X) et la variable dépendante (Y).

Variable médiatrice : Tout facteur qui explique la relation entre X et Y. Il peut


s'agir d'une variable intermédiaire ou d'un construit hypothétique.

Variable latente : est une variable qui ne peut pas être mesurée directement,
mais qui est supposée être à la base des variables observées.

Source :
http://pagesped.cahuntsic.ca/sc_sociales/psy/introsite/lexique/lexique.htm 49
STATISTIQUE DESCRIPTIVE > VARIABLES

Variables/Modèle :

VARIABLE D’ENTRÉE MODELE VARIABLE DE


Xi Vi Vj SORTIE
VARIABLE Yi
INDEPENDANTE VM Vj VARIABLE
(VI) DEPENDANTE
(VD)

RELATION ENTRE LES VARIABLES D’ENTRÉE ET LES


VARIABLES DE SORTIE

50
STATISTIQUE DESCRIPTIVE > GRAPHIQUES

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de


méthodes permettant de décrire et Représentations
d’analyser des observations (ou mesures, graphiques
ou données). Ces observations consistent Descriptive
généralement en la mesure d’une ou Résumés
numériques
plusieurs caractéristiques communes,
Stat. Ou AD
appelées variables, sur un ensemble de
Test
personnes ou d’objets équivalents, appelé d’hypothèse
un échantillon. Inférentielle
Modèles
mathématiques

51
STATISTIQUE DESCRIPTIVE > GRAPHIQUES

Variable \ Représentation graphique

Histogramme

Continue Courbe
Quantitative
Boite à
Discrète
moustache
Variable
Diagramme
Nominale en bâtonnets
Qualitative
Ordonnale
Diagramme
en bâtons

Diagramme
en barre

Diagramme
circulaire 52
STATISTIQUE DESCRIPTIVE > GRAPHIQUES

Descriptive > Représentation graphique

Source : Julien Labreuche, «Les différents types de variables, leurs représentations graphiques et
paramètres descriptifs », STV, vol. 22, n° 10, décembre 2010

53
STATISTIQUE DESCRIPTIVE > NUMERIQUE

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de


méthodes permettant de décrire et Représentations
d’analyser des observations (ou mesures, graphiques
ou données). Ces observations consistent Descriptive
généralement en la mesure d’une ou Résumés
numériques
plusieurs caractéristiques communes,
Stat. Ou AD
appelées variables, sur un ensemble de
Test
personnes ou d’objets équivalents, appelé d’hypothèse
un échantillon. Inférentielle
Modèles
mathématiques

54
STATISTIQUE DESCRIPTIVE > NUMERIQUE

Descriptive > Résumés numériques

Indicateurs statistiques

 Indicateurs de position :

Moyenne : est la valeur obtenue lorsque toutes les valeurs sont égales (la
distribution est équitable). On distingue plusieurs types de moyennes,
exemple : Moyenne arithmétique (simple ou d’une série classé)
Médiane : qui permet de déterminer le point milieu d'une distribution.
Mode : est la valeur ou modalité ou classe, la plus fréquente d’une la
variable.
Quantile : divise la distribution en n parties égales en nombre
d’observation  la médiane est un quantile d’ordre deux (elle divise la
distribution en deux).

55
STATISTIQUE DESCRIPTIVE > NUMERIQUE

Descriptive > Résumés numériques

Indicateurs statistiques
 Indicateurs de dispersion :
L’étendue : est l’amplitude entre les valeurs extrêmes (minimum et maximum) d’une
distribution
Variance (s2) : Il s'agit de la moyenne arithmétique des carrés des écarts à la moyenne. C’est
une mesure de la dispersion des observations par rapport à la moyenne.
RQ : la somme des écarts à la moyenne est toujours nulle, c’est pour cette raison, qu’on
introduit la moyenne des carrés des écarts à la moyenne. La variance est aussi appelé le
moment centré d’ordre deux. La variance est toujours positive.
Ecart-type : Cette mesure évalue l'écart-moyen entre chaque résultat d'une distribution et la
moyenne de cette distribution, c’est la racine carré de la variance. Quand l’écart-type des
valeurs de X est petit (par rapport à la moyenne et à l’étendu), ceci signifie que les valeurs de X
sont susceptible d’être centrées sur la moyenne.
La covariance : caractérise les variations simultanées de deux variables aléatoires. Deux
variables indépendantes  leurs covariances est nulle

56
STATISTIQUE DESCRIPTIVE > NUMERIQUE

Descriptive > Résumés numériques

Théorie de la tendance centrale


paramètres statistiques de position

57
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 VARIABLE QUANTITATIVE | QUALITATIVE :

58
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 VARIABLE QUANTITATIVE | QUALITATIVE :


 Pour les variables qualitatives, la structure est imposée au moyen de la
fonction as.factor() et levels().
 Pour une variable discrète, la structure est imposée au moyen de la fonction
as . integer ()
 Pour une variable continue, la structure est imposée au moyen d e la fonction
as . double ().

59
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 TABLEAUX DE DONNEES :
 Tableaux des données individuelles : on dispose des mesures d'une ou de plusieurs
variables pour chacun des N individus constitutifs d'une certaine population. Les données
sont en général organisées dans un data.frame.

le tableau des effectifs ou des fréquences (appelé tri à plat) permet d'appréhender
plus facilement la distribution d'une variable, notamment qualitative ou ordinale.
Il s'obtient au moyen de la fonction table().

60
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 TABLEAUX DE DONNEES :
 Tableaux de données regroupées en classes, représente un tableau de données
individuelles, récoltées sur une ou plusieurs variables quantitatives, sous une forme plus
condensée. On utilise la fonction hist() pour récupérer les classes, puis on manipule la
variable « breaks ».

61
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 TABLEAUX CROISANT DEUX VARIABLES :


 Tableaux de contingence : la fonction table() pour obtenir le tableau de contingence
observé du couple (X,Y) ou le tri croisé en effectifs du couple (X, Y).

 Tableau de contingence avec les marges

 Le tableau de la distribution
conjointe ou tri croisé en fréquences
relatives du couple (X, Y) 62
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 TABLEAUX CROISANT DEUX VARIABLES :


Distribution marginale : s'obtient au moyen de la fonction margin. table ().

 Distributions conditionnelles s'obtiennent au moyen de la fonction prop. table () .

63
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 RÉSUMÉS NUMÉRIQUES :
 Résumés de position d'une distribution : le ou les modes (la valeur la plus fréquente)

 Résumés de position d'une distribution : la médiane (la valeur qui coupe la distribution
statistique en deux partie, si l'effectif total N de la série est impair. Dans ce cas, la médiane
est la valeur à la position (N+1)/2, sinon si l'effectif total N de la série est pair. Dans ce cas,
n'importe quelle valeur comprise entre les valeurs aux positions (N/2) et (N/2) + 1

(*) Les résumés numériques ne peuvent être


calculés en présence de données manquant
 Résumés de position d'une distribution : ( NA) :
la moyenne > x <- na.omit(taille)
64
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 RÉSUMÉS NUMÉRIQUES :
 Résumés de position d'une distribution : les fractiles (les quantiles) d'ordre p (0 < p < 1)
est la valeur qp de la variable X qui coupe l'échantillon en deux portions, l'une ayant un
nombre d'éléments égal à p % du nombre total d'éléments dans x (ce sont les éléments
inférieurs à qp) , l'autre à (1 - p) % (ce sont les éléments supérieurs à qp). Il ne se calcule pas
pour des variables purement qualitatives.

65
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

 RÉSUMÉS NUMÉRIQUES :
 Résumés de dispersion d'une distribution : la variance et l’écart type

 RÉSUMÉS NUMÉRIQUES :
 Résumés de forme d'une distribution : les coefficients d'asymétrie (skewness) et
d'aplatissement (kurtosis)

66
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

MESURE D’ASSOCIATION
 Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson : il mesure le dégrée d’indépendance entre deux
variables qualitative, en se basant sur les effectives observées et les effectives théoriques

« La valeur de Khi-deux est un calcule de la


distance entre les effectives observées et les
effectives théoriques attendues en cas
d’indépendance »
Modèle d’indépendance (théorique) Observations

Le modèle d’indépendance théorique Si il y a pas d’écart significatif, alors


(supposé)  quand il y a pas de lien l’indépendance entre les variables est
entre les résultats scolaires et le genre prouvé (H0), sinon il y aurait un lien entre
des étudiants les variables (H1) 67
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

MESURE D’ASSOCIATION
 Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson :
la fonction chisq.test () permet de calculer le Khi-deux.

68
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

MESURE D’ASSOCIATION
 Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson :
Après le calcul de dégrée de correspondance entre deux variables qualitatives, si il y a une
association, nous pouvons apprécier la force de cette association, par le calcul de V-deux
de Cramer

 V de Cramer : nous renseigne sur la force de la relation entre les deux variables
catégorielle : La valeur de V est généralement comprise entre 0 (pas de relation) et 1
(relation compléte).
 V de cramer = 0.067  relation faible
69
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

MESURE D’ASSOCIATION
 Mesures de liaison entre deux variables quantitative (corrélation)

Covariance et coefficient de corrélation de Pearson :


La covariance mesure la variabilité mutuelle de deux variables quantitatives, la corrélation
entre deux variables quantitatives est basé sur la covariance. Mais d’abord il faut tester
l’hypothèse de corrélation avec la fonction cor.test() ou avec un graphique

Coefficient de corrélation

70
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

MESURE D’ASSOCIATION
 Mesures de liaison entre deux variables quantitative (corrélation)

Covariance et coefficient de corrélation de Pearson :

RÈGLE D’OR POUR UN


ALPHA DE 5%
Si p-value > 0.05 (5%)
H0 n’est pas à rejeter (H1
est rejeté)
Si Sig. ≤ 0.05 (5%)  H0
est rejeté (H1 est accepté) 71
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R

MESURE D’ASSOCIATION
 Mesures de liaison entre une variables quantitative Y et une variable qualitative X

Le degré de liaison entre une variable quantitative Y et une variable qualitative X, est
mesuré par le rapport de corrélation par modalité de la variable X, appelé eta2.

La fonction eta2() du package « BioStatR », permet de calculer ce coefficient.

72
EXERCICES

TP

73
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4-Regression

74
INTRDODUCTION

Statistique descriptive est l’ensemble de méthodes


permettant de décrire et d’analyser des observations Analyse descriptive | Inférentielle
(ou mesures, ou données). Ces observations consistent
généralement en la mesure d’une ou plusieurs
caractéristiques communes, appelées variables, sur un
Représentations
ensemble de personnes ou d’objets équivalents, appelé
graphiques
un échantillon.
Statistique Inférentielle, est l’ensemble des tests Descriptive
statistiques et techniques d’analyse, permettant de Résumés
généraliser les hypothèses d’un échantillon sur une numériques
population. Stat. Ou AD
Test
ÉCHANTILLON d’hypothèse
POPULATION Problème
Inférentielle
Modèles
Enquête
mathématiques

OBSERVATION
ANALYSE DESCRIPTIVE Analyse

Interprétation

GÉNERALISATION
ANALYSE INFÉRENTIELLE Rapport
75
VARIABLE, LOI & PHENOMENE

PHENOMENE & LOI

Théorie Réalité

Plusieurs phénomène naturel suit un modèle mathématique appelé loi normale (loi de
Laplace – Gauss). C’est l’une des lois de probabilités les plus adaptées pour modéliser des
phénomènes naturels issus de plusieurs évènements aléatoires, exemple :
Quasiment tout ce qui est humain : taille, poids, pousse des cheveux, des ongles,
paramètres biologiques, durée du sommeil, etc.
Quasiment tout le vivant : taille et poids des graines, vitesse de pousse, rendement à
l'hectare, poids des animaux, etc.
Toute la production industrielle de masse : prenons des balles de tennis, donc le poids, la
76
résistance à l'usure, la pression, etc.
VARIABLE, LOI & PHENOMENE

X1 X2
Selon les mathématiciens Georges Darmois (1951) et Sergeï Bernstein (1954) : pour deux
variable aléatoire indépendantes X1 et X2 qui suivent la loi normale, et Si (X1 + X2) et (X1 –
X2), sont aussi deux variables aléatoires indépendantes, alors la loi commune de X1 et X2 est
une loi normale  LA LOI NORMALE EST UTILISÉE POUR LES TESTS DES HYPOTHÈSES
X1
F(X1, X2) Y
X2 77
VARIABLE, LOI & PHENOMENE

La loi normale est une fonction de l’écart type σ et


de l’espérance μ, noté N(μ, σ2) . C’est une fonction
continue, qui tend vers zéro à l’infinie (-/+).
L’équation de la loi normale centrée réduite (les
valeurs de la variable aléatoire sont auteur de
Zéro et l’écart type est 1 ) :

78
VARIABLE, LOI & PHENOMENE

Loi normale Loi N.C.R Loi binomiale Loi de Khi 2 Loi de Student Loi de Fisher

Proche de la Loi normale La loi binomiale, la loi de la Est le quotient est le quotient de
réalité centrée sur Zéro et d’une variable somme de entre une deux variables
dont l’écart-type aléatoire est carré de k lois variable VI aléatoires (VI),
est égale à 1 fonction du N.C.R suivant une loi distribuées
n épreuves, et N.C.R et chacune selon
p probabilité la racine une Loi du Khi -
de succès. Elle carrée d'une 2 et ajustées
devient une variable (VI) pour leurs ddl
N.C.R, si n est suivant la loi du
important Khi – 2 ajusté
par k ddl

79
ECHANTILLONNAGE

SUPPOSANT QUE N EST LE NOMBRE DES ÉCHANTILLONS D’UNE POPULATION CONFORME


À LA LOI NORMALE,
A PARTIR DE QUELLE VALEUR DE N, ON DEVRAIT S’ARRÊTER ?  EN PRATIQUE, QUAND N
EST SUPÉRIEUR À
« 30 »
 LA LOI NORMALE EST UTILISÉE POUR LE TEST DE REPRÉSENTATIVITÉ & DU PRÉ-TEST

80
HYPOTHESES

DE L’HYPOTHÈSE DE RECHERCHE À L’HYPOTHÈSE


STATISTIQUE
H0 est l'hypothèse nulle.
Elle stipule qu'il n'y a pas de différence significative entre les deux groupes/mesures de
votre recherche, donc A = B.

H1 est l'hypothèse alternative.


C'est généralement l'hypothèse/objectif du chercheur, celle/celui qu'il soutient dans sa
problématique.
Cette hypothèse alternative stipule qu'il y a une différence significative entre les deux
groupes/mesures de votre recherche, donc qu'un groupe est plus grand ou plus petit qu'un
autre (A > B ou A < B).

81
TEST D’HYPOTHÈSE

Seuil de significativité

H0 est l'hypothèse nulle : DONC DEUX POSSIBILITÉS :


Elle stipule qu'il n'y a pas de différence  Ne pas rejeter l'hypothèse nulle, donc
significative entre les deux groupes/mesures l'accepter, ce qui signifie que l'hypothèse
de votre recherche, donc A = B. de votre recherche est fausse, et donc que
X n'a pas d'effet sur Y.
H1 est l'hypothèse alternative :  Rejeter l'hypothèse nulle et donc
Cette hypothèse alternative stipule qu'il y accepter l'hypothèse alternative, ce qui
a une différence significative entre les deux signifie que l'hypothèse de votre
groupes/mesures de votre recherche. recherche est vraie, et donc que X
influence Y.

Le test d’hypothèse consiste à déterminer entre quelles valeurs peut varier la variable
aléatoire, en supposant l’hypothèse vraie.
82
TEST D’HYPOTHÈSE

Seuil ou Niveau de significativité

Pour rejeter ou pas l’hypothèse nulle H0, on définit un seuil appelé aussi niveau de
significativité alpha, au delà du quel (c-a-d, supérieur) on peut pas rejeter l’hypothèse
nulle.

C’est-à-dire :

H0 est retenu si on dépasse alpha


H0 est rejeté si on est inférieur à l’alpha

Le test de l’hypothèse nulle, consiste à se poser la question, « si on répète l’expérience ,


ou on repose la question à d’autres individus, est ce qu’on trouvera des données
fortement similaires, aux données produites sous l’hypothèse nulle ? »  le test
d’hypothèse est une mesure de la probabilité de reproduire quasiment les mêmes
réponses, pour une variable aléatoire x, sous l’hypothèse nulle (H0)  p = P(x|H0)
83
TEST D’HYPOTHÈSE

Seuil de signification du test d’hypothèse

La valeur de P (P-value) correspond à la Probabilité de commettre une erreur lorsque l'on


prend une décision statistique (probabilité critique). Elle correspond au risque de se
tromper en rejetant l'hypothèse nulle. Généralement, Il y a trois niveaux de significativité
alpha : 5%, 1% ou 0,1 %(en général on choisie 5%).

Avec SPSS , il s’agit de comparé la


valeur de Sig. Bilatérale (pour éviter le
risque maximal)
RÈGLE D’OR POUR UN ALPHA DE 5%
Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%)  H0 est rejeté (H1 est accepté) 84
TEST D’HYPOTHÈSE

RÈGLE D’OR POUR UN ALPHA DE 5%


Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%)  H0 est rejetée (H1 est acceptée)

Remarque : Le choix du niveau de


significativité est conventionnel et H0 n’est pas à rejeter
dépend du domaine d’application.
Dans certaine discipline du science
exacte, on peut exiger un niveau de
significativité inférieur à 0,1 % (voir H0 est rejetée
moins de 0.01%)  impacte sur la taille
de l’échantillon  la méthode
proposée par « Neyman-Pearson »:
consiste à fixer d’avance la p-value, soit
à l’issue des travaux antérieurs ou d’une
étude de cas (pilote), pour estimer la
taille de l’échantillon.
85
S est l’écart type, I.C est l’intervalle de confiance
TEST D’HYPOTHÈSE

DEFINITION

Test graphique
paramétrique (plus fort) : distributions
statistiques supposées dans les données. Il
Test d’hypothèse faut vérifié la validité.
Adapté pour les échantillons importants
(>30)
Numérique

non paramétrique : ne se basant pas sur


des distributions statistiques
Adapté pour les échantillons moins
importants (<30)

1) Le passage de la population à l’échantillon, suppose que le choix


Estimation
de l’ Erreur des échantillons est resté aléatoire ou quasi-aléatoire.
2) Le retour de l’échantillon vers la population, se fait soit en
supposant que la distribution des données dans toute la
population, suit une loi connue (test paramétrique) d’avance ou
pas (test non paramétrique). 86
TEST D’HYPOTHÈSE

DEFINITION

Les tests paramétriques, visent à tester l’adéquation de la


loi de distribution observée des variables aléatoires sur
l’échantillon par rapport à la loi de distribution statistique
connue et préétablit (supposée) de la population (soit la
loi normale ou ses approximations).

Le but est de comparer les paramètres observés par


Test paramétrique rapport aux paramètres théoriques , pour faire des
généralisations depuis l’échantillon vers la population,
avec une estimation de l’erreur. Il y a une contrainte sur l’
homogénéité de la variance.

Ces tests dépendent des catégories des données


(variables) issues de l’échantillon : Quantitative ou
Qualitative ou les deux à la fois. Deux variables ou plus.
87
TEST D’HYPOTHÈSE

Comparaison de la moyenne : Comparaison


Comparaison de la d’une moyenne observée sur un échantillon
moyenne issu d’une population de moyenne inconnue
(µ) à une valeur moyenne théorique connue
(µH0) d’une population de référence. Ou
Comparaison de la comparaison des moyennes sur deux
Test paramétrique variance ou échantillons.
ANOVA Comparaison de la variance : comparaison
de l’homogénéité de la variation des variables
entre un, deux ou plusieurs échantillons.
Khi-deux Test Khi-deux : utiliser pour déterminer la
nature d'une répartition statistique, par
rapport à une distribution théorique.

88
TEST D’HYPOTHÈSE

DEFINITION

Les tests non paramétriques, ne nécessitent pas une


hypothèse sur la distribution statistique des données. Donc
on fait pas de test sur les moyennes, variances…

Le but de ce test reste le même que les tests


paramétriques, c’est-à-dire, on vérifie nos hypothèses par
rapport aux seuils de significativité alpha, en choisissant l’un
Test non paramétrique
des tests

Ces tests sont plutôt adaptés aux petits échantillons (<30)


et quand nos variables sont plutôt qualitative : Nominal et
Ordinal.
On générale, si on a un échantillon important et qu’on a
une estimation sur la distribution des données dans la
population, on choisie d’effectuer des tests paramétriques.
89
TEST D’HYPOTHÈSE

Table de contingence et test Khi-deux : permet


de représenter la répartition d’effectifs d’un
échantillon en fonction de la valeur d’une
observation. Et on utilise le test Khi-deux pour
Tests de rang les variables qualitatives.
Test sur le rang : il s’agit de comparer le rang
plutôt que la valeur, des variables aléatoire, dans
Test sur la un échantillon qui ne suit pas la loi normale (ou
Test non
médiane (Test approximé). Il existe plusieurs tests : Test de
paramétrique
des signes)
Wilcoxon, Test de Kruskal et Wallis, Test de
Spearman.
Table de
contingence et Test des signes : Appliquer dans le cas des
Test de Khi-2 échantillons appariés, Il utilise les signes + et -,
au lieu de données quantitatives. Il est
particulièrement utile dans les cas où il n'est
possible que de ranger l'un par rapport à l'autre
les membres de chaque paire.
90
TEST D’HYPOTHÈSE

Test d’hypothèse

Paramétrique Non-paramétrique

Table de
Comparaison Comparaison
contingence Test sur le Test des
de la de la variance Khi-deux
& Test Khi- rang signes
moyenne et ANOVA
deux
En fonction de nos objectifs de recherche et sa méthodologie, Nous pouvons appliquer ces
tests , soit à UN ÉCHANTILLON UNIQUE OU À DEUX ÉCHANTILLONS (SIMILAIRES OU
DIFFÉRENTS)

EXEMPLES D’APPLICATION DES TESTS D’HYPOTHÈSE :


Comparaison de la performance avant et après l’application d’une nouvelle méthode
d’apprentissage sur un même groupe d’étudiant, ou encore l’application de la même
expérience sur deux groupes d’étudiants 91
TEST D’HYPOTHÈSE

Le choix entre les tests


paramétriques et non
paramétriques, dépends de
la réponse à la question : «
Est-ce que l’information sur
la population (Liste, taille,
distributions statistiques…)
est connue d’avance ou pas
? », Si oui, le choix est : «
les tests paramétriques »,
sinon, ça serait « les tests
EQUIVALENCE DES TESTS non-paramétriques »

92
Source : https://keydifferences.com/difference-between-parametric-and-nonparametric-test.html
TEST D’HYPOTHÈSE

SYNTHÈSE

PROCÉDURE DU TEST D’HYPOTHÈSE

Choix du test
adéquats en Définition de
Choix du test Détermination
fonction des l’intervalle de Calcul du p-
en fonction de des
variables : confiance et value & Interprétation
la distribution hypothèses H0
continue, niveau de comparaison α
de l’échantillon et H1
nominale, significativité α
ordinale

93
ANALYSE DE DONNÉE

SYNTHÈSE

Définition de la Cadre de Choix de la méthode


Taille de l’échantillon
population l’échantillonnage d’échantillonnage

Nettoyage des
données : données Saisie et codification Pré-test de l’appareil
Travail de terrain…
manquantes, des données de mesure
données aberrante

Tests des hypothèses


• Tests de normalité
• Tests sur l’échantillon Réduction des
Prédiction Classification
unique/deux données
échantillons
• Tests d’association

94
TEST D’HYPOTHÈSE AVEC R

TEST D’HYPOTHESE DE NORMALITE

Il s’agit de tester si la distribution d’une variable suit la loi normale ou pas :
 H0 : Il n’y a pas de différence significative entre la loi normale et notre distribution
 H1 : il y a une différence significative entre la loi normale et notre distribution
 En R, la fonction shapiro.test() permet de réaliser ce test.

p-value > 5%  H0 à retenir : la normalité est


respectée
La valeur de W est comprise entre 0 et 1, tant
que W tant vers 1, la normalité est respectée

95
TEST D’HYPOTHÈSE AVEC R

TEST D’AJUSTEMENT DE KHI-DEUX – TEST DE REPRESENTATIVITE

Il s’agit de tester si les proportionnalités d’une variable d’un échantillon sont
significativement les mêmes que dans une population :
 H0 : Il n’y a pas de différence significative entre les proportionnalités dans
l’échantillon et la population
 H1 : il y a une différence significative entre les proportionnalités dans l’échantillon
et la population
 En R, la fonction chisq.test() permet de réaliser ce test.

Les proportions
dans la
population par
niveau

p-value > 5%  H0 à retenir : les proportionnalités sont


respectées  La représentativité de l’échantillon
96
TEST D’HYPOTHÈSE AVEC R

TEST DE COMPARAISON DES MOYENNES – ECHANTILLON UNIQUE (TEST DE


REPRESENTATIVITE PAR RAPPORT A LA MOYENNE)
Il s’agit de tester si les moyennes d’une variable d’un échantillon unique/indépendant
ou apparié, sont significativement les mêmes
 H0 : Il n’y a pas de différence significative entre les moyennes
 H1 : il y a une différence significative entre les moyennes
La normalité est un pré-requis pour ce test
R, la fonction t.test() permet de réaliser ce test.
Ce test peut être utiliser pour tester la représentativité d’un échantillon par rapport à la
moyenne de la population

Il s’agit d’un test t, sur un


échantillon unique, en fournissant
la moyenne de référence (mu)
pour comparer

p-value > 5%  H0 à retenir : les deux moyennes ne sont pas significativement différent
97
TEST D’HYPOTHÈSE AVEC R

ECHANTILLONS INDÉPENDANTS
ECHANTILLONS APPARIÉS

On a deux sous groupes du même Pour le même échantillon on répète la


échantillon prise de mesure en deux moments
différents

COMPARAISON
DE LA MOYENNE
98
TEST D’HYPOTHÈSE AVEC R

TEST DE COMPARAISON DES MOYENNES – ECHANTILLON INDEPENDANT (TEST DE


D’EGALITE DE LA VARIANCE OU TEST F)
En R, la fonction t.test() permet de réaliser le test, en précisant le paramètre var.equal,
si c’est à variance égale ou à variance ingale et aussi la variable à expliquer (quantitative)
et la variable de regroupement (qualitative).
Dans le cas des tests à échantillon indépendant ou apparié, il faut précéder ce test par le
test de Fisher (Test F), pour déterminer si il y a une différence significative de la variance
ou pas  Le test F (Test sur la variance), est réaliser sous R, avec la fonction var.test()

Il s’agit d’un test F, sur


l’égalité de la variance :
H0 : il y a pas de
différence significative
entre les variances
H1 : il y a une différence
significative entre les
variances

p-value > 5%  H0 à retenir : les deux variance ne sont pas significativement différents
donc on peut conclure que pour le test t  var.equal = TRUE
(*) ce test ne peut être utiliser qu’après la vérification de la normalité 99
TEST D’HYPOTHÈSE AVEC R

TEST DE COMPARAISON DES MOYENNES – ECHANTILLON INDEPENDANT

TEST T A ECHANTILLON INDEPENDANT ET EGALITE


DE LA VARIANCE

p-value < 5%  H1 à retenir : les deux moyennes sont significativement différents 


on le constate aussi sur les valeurs des moyennes
100
TEST D’HYPOTHÈSE AVEC R

TEST DE COMPARAISON DES MOYENNES – ECHANTILLON APPARIEE

En R, la fonction t.test() permet de réaliser le test à échantillon appariée, en précisant le


paramètre paired à TRUE
Pour ce test, il s’agit de comparer les moyennes de la même variable mesurer à
plusieurs reprises

Il s’agit d’un test, sur les


moyennes :
H0 : il y a pas de
différence significative
entre les moyennes
H1 : il y a une différence
significative entre les
moyennes

p-value < 5%  H1 à retenir : les deux moyenne sont significativement différents donc
(*) ce test ne peut être utiliser qu’après la vérification de la normalité
101
TEST D’HYPOTHÈSE AVEC R

TEST DE COMPARAISON DES PROPORTIONNALITES UNIVARIEES


Ce test est réalisé pour vérifier la différence entre deux proportionnalités, les
proportionnalités d’un échantillon par rapport à un autre échantillon/la population.
Ce test est possible sur les variables qualitatives de deux niveaux (binomial)
 Si ce test est utilisé pour comparer les proportionnalités de l’échantillon par rapport à
la population  C’EST UN TEST DE REPRÉSENTATIVITÉ
En R, la fonction qui permet de réaliser ce test est : prop.test(), pour préciser la
proportionnalité du premier niveau on renseigne le paramètre p de cette fonction

Il s’agit d’un test sur les


proportionnalités :
H0 : il y a pas de
différence significative
entre les proportionnalités
H1 : il y a une différence
significative entre les
proportionnalités
p-value < 5%  H1 à retenir : les deux proportionnalités sont significativement
différents, vu que la proportionnalité définit pour le premier niveau est de 30% (donc
l’autre niveau est à 70%), qu’alors au niveau de l’échantillon les proportionnalités sont à
102
50%/50%
TEST D’HYPOTHÈSE AVEC R

TEST DE COMPARAISON DES PROPORTIONNALITES BI-VARIEE


Ce test est réalisé pour vérifier la différence entre deux proportionnalités dans les
réponses pour deux variables qualitatives de deux niveaux (binomial)
En R, la fonction qui permet de réaliser ce test est : prop.test(), en fournissant la table
croisé des deux variables. Le calcul se fera sans correction.

Trie à plat des deux variables qualitatives de deux niveaux , il parait


qu’il y a pas de différence entre les réponses des hommes et des
femmes pour la même réponse sur la question1 (par colonne)
Il s’agit d’un test sur les proportionnalités
:
H0 : il y a pas de différence significative
entre les proportionnalités
H1 : il y a une différence significative
entre les proportionnalités

p-value > 5%  H0 à retenir : les deux proportionnalités (au niveau des lignes) ne sont
pas significativement différents (par colonne)
103
ANALYSE DE DONNEE AVEC R/RSTUDIO

Participantes Sexe Age Scolarité Fonction Revenuen$ Questionno1


1 1 45 17 1 56784 1
2 2 22 14 3 34342 2
3 1 47 19 1 67564 2
4 2 23 17 3 23456 1
5 1 40 13 2 56453 2
ETUDE DE CAS 6 2 41 17 2 45634 2
« Les chercheurs de cette étude 7
8
2
2
37
23
18
17
2
3
56789
23443
2
1
croient que les hommes ont un 9 2 25 16 3 36544 2
10 1 45 16 1 89098 1
revenu moyen supérieur à celui des 11 1 47 17 1 76876 2
femmes même si ces dernières ont 12 1 30 18 1 67875 2
13 2 22 14 3 34564 2
un niveau de scolarité & fonction 14 1 28 14 2 43221 2
équivalent à celui des hommes » (*). 15
16
2
1
28
31
14
18
2
2
45654
67567
2
1
17 1 25 19 2 52567 1
Question 1 : Selon vous, y-a-t’il 18 2 55 17 3 25678 2
19 2 30 17 1 57567 2
une différence entre les revenus 20 1 22 11 3 34567 2
des hommes et des femmes ? 21
22
1
1
22
21
19
12
3
3
43567
43234
2
2
(*) Données issues et adaptés du site 23 1 24 16 2 67897 1
http://pagesped.cahuntsic.ca/sc_sociales/p 24 1 22 14 2 45654 2
sy/methosite/accueil.htm 25 1 27 15 1 52123 2
26 2 24 15 1 63454 2
27 2 20 2 3 34444 1
Sexe Question no 1
28 2 18 13 3 43445 2
H=1- F=2 Oui= 1-Non= 2 29 2 22 17 1 64567 1041
30 2 22 18 1 59878 2
ANALYSE DE DONNEE AVEC R/RSTUDIO

Atelier pratique > R Commander :

R Commander

“R Commander” est une extention R, sous licence GNU GPL, développer par
John Fox du departement de sociologie de l’univerité McMaster. “Rcmdr” est
similaire à l’interface graphique de SPSS avec des menus permettant de réaliser
différent analyse et des productions graphiques au niveau de la console R, sans
écrire presque aucune ligne de code R.

Installation :
install.packages(“Rcmdr", dep = TRUE)
Utilisation :
library(Rcmdr)

105
ANALYSE DE DONNEE AVEC R/RSTUDIO

Atelier pratique > R Commander :

106
ANALYSE DE DONNEE AVEC R/RSTUDIO

Atelier pratique > R Commander :

107
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

R Commander
R commander permet de réaliser plusieurs analyses statistiques (descriptive uni-
varié/bi-varié, multi-varié, test d’hypothèse, régression et classification….)
Après installation et lancement du « R Commander », nous allons passer à l’atelier. Il
s’agit de réaliser les étapes ci-dessous, pour confirmer ou rejeter l’hypothèse de
l’atelier :
Test de
comparaison
Importation des Test de Test de des moyennes
Nettoyage
données normalité représentativité sur deux
échantillons
indépendants

Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes ont
un revenu moyen supérieur à celui des femmes même si ces dernières ont un niveau
de scolarité & fonction équivalent à celui des hommes ».
108
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Hypothèse de recherche & les sous-hypothèses


Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes (H) ont un
Revenu Moyen (RM) supérieur à celui des femmes (F) même si ces dernières ont un niveau de
scolarité & fonction équivalent à celui des hommes ».

D’où on devrait d’abord tester les hypothèses suivantes :

H1 : Il y a pas de différence significative entre le nombre des Hommes & Femmes dans l’échantillon
H2 : Il y a pas de différence significative entre les années scolaires des Hommes et Femmes
H3 : Il y a pas de différence significative entre la répartition des hommes et femmes par fonction

Après, on devrait tester l’hypothèse :


H4 : Il y a une différence significative entre la moyenne du revenu des hommes et celui des femmes

Tous ces hypothèses de recherche, il faut les traduire en hypothèse statistique 


H1 : l’hypothèse alternative et H0 : l’hypothèse nul, pour chacune des hypothèses de recherche
 puis appliquer la règle d’or pour accepter ou rejeté l’hypothèse (p-value > 5%  H0 accepté, si
p-value < 5%  H1 accepté) 109
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

2 Les différents
formats pris en
compte par R
Commander
3
4 Nommé la dataset, puis préciser l’emplacement des
noms des variables et la conversion de la variable texte
5
en variable catégorielle (factor) et enfin préciser
110
l’indicateur de la valeur manquante, si ils en existent
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

Génération de la
commande R

Résultats de l’exécution de la
commande sur la console RStudio

111
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

2 4
Résultats de l’exécution de la
commande sur la console RStudio

Génération de la
commande R pour
la détection des
3 valeurs
manquantes
112
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

Pas de valeur
aberrante
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

1
3
4

2
5

p-value > 5 %  H0 accepté


Il n’y pas de différence significative
entre la loi normale 115
et la
distribution du revenu 
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

Nous disposons
d’une information
1 2 sur la population
3
 le revenu
moyen dans la
population est de
50000

116
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

P-value > 5 %  H0
accepté  Il y a pas de
différence significative
entre la moyenne de la
population et la
moyenne de
l’échantillon  Test de
représentativité OK !

117
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

3
Saisir les proportionnalités par rapport à la population pour
lancer la comparaison avec ceux de l’échantillon 118
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

P-value > 5 %  H0
acceptée  Il y a pas
de différence
significative entre les
proportionnalités de la
population et ceux de
l’échantillon  Test de
représentativité OK !

119
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

120
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

Il faudrait passer par le test de Fisher pour


identifier si les variances dans les deux groupes
sont égaux ou pas

H0 est retenu  il y a pas de différence significative


entre la moyenne des années scolaire des femmes et
celui des hommes.  idem pour la fonction

121
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

1
2

122
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

P-value < 5 %  H1 est retenu  il y a une


différence significative entre la moyenne
des revenus des hommes et celui des
femmes. Et en plus, la moyenne du revenu
des hommes (group 1) est supérieur à celui
des femmes (group 2)

La différence des moyennes des revenus est constatée, aussi par


123
niveau de fonction chez les hommes et les femmes.
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4-Regression

124
REGRESSION

DEFINITIONS

REGRESSION

La régression est un ensemble de méthodes statistiques utilisées pour


analyser la relation d'une variable VD par rapport à une ou plusieurs VI.

Quand il s’agit des variables quantitatives (VD et VI), on parle plutôt de


régression, par contre quand il s’agit de l’analyse de la relation entre des
variables qualitatives on parle de classification.

Cette relation entre le vecteur aléatoire Y sachant X, peut se faire par


toute élément définissant la distribution de Y sachant X : soit par rapport à
la moyenne, la médiane, le mode, la variance…. 125
REGRESSION

DEFINITIONS

REGRESSION | CORRELATION

La régression tente d’établir un modèle mathématique de la relation


entre les VI et VD, dont le but est de prédire les VD sachant les VI, alors que
la corrélation est une évaluation de cette relation (existe ou pas) et une
appréciation de son niveau (forte relation, faible relation) et son sens
(positive, négative).
La corrélation est un préalable à la régression.

126
REGRESSION

DEFINITIONS

MODELE DE
X REGRESSION Y
F(X)

MODELES DE REGRESSION

Régression linéaire (simple ou multiple) : la relation entre Y sachant une


(simple) ou plusieurs (multiple) X, est plutôt linéaire.
Régression non linéaire (régression approchée) : la relation est non linéaire,
on utilise des algorithmes d’approximation.
Régression logistique (Y est binomiale) : le cas ou on a la variable Y est une
variable de niveau (Oui ou non, Vrais ou faux, Homme ou Femme…)
Régression non paramétrique : quand la forme de la relation entre Y
sachant X, est inconnue. 127
REGRESSION

DEFINITIONS

RÉGRESSION SIMPLE
LINÉAIRE Technique d’estimation de la droite de
régression par la méthode des moindres
Y = b0 + b1 X +  carrées, il s’agit de réduire le résidus entre
la valeur estimée et la valeur mesurée

128
REGRESSION

DEFINITIONS

RÉGRESSION LINÉAIRE
MULTIPLE  UNE MATRICE

129
REGRESSION

DEFINITIONS
La régression polynomiale (c’est une régression linéaire
multiple) est une analyse statistique qui décrit la variation de
la variable expliquée, en fonction d'une variable explicative
par un polynôme de degré n.

SACHANT QUE :

130
REGRESSION

DEFINITIONS

La régression elliptique (régression circulaire) consiste à


trouver la « meilleure ellipse », décrivant un ensemble de
points. c'est-à-dire que la distance point-courbe modèle est
une distance perpendiculaire à la courbe.

C’est un cas d’une régression polynomiale (régression


multiple)

AVEC

131
REGRESSION

DEFINITIONS

La régression logistique est cas du modèle linéaire, ou il y a une relation linéaire entre
une ou plusieurs variables explicatives (prédictives) X et la variable à expliquer (à prédire)
Y, qui prend deux valeurs possibles (0 ou 1) (variable binomiale).
La régression est logistique, vu que la probabilité est modélisé par une loi logarithmique
(logistique).

132
REGRESSION

DEFINITIONS

La régression non linéaire, la relation entre Y et X ne suit pas une loi linéaire. Il s’agit
d’utiliser des algorithmes itérative d’approximation : Gauss-Newton, Levenberg-
Marquardt, algorithme de gradient . Le but de ces calculs, est de minimiser la valeur
résiduel entre les grandeurs estimées et observées, en utilisant des méthodes de calcul
numérique itérative, la solution finale retenu (converge) est celle qui produit un écart le
plus réduit.

133
REGRESSION

EXEMPLES

Exemple 1 : Prédiction des recettes d’un film hollywoodien titre


d’un livre sur base de :
Couts de production
 Couts publicitaires
Recettes du livres
Exemple 2 : Prédire la taille d’une personne à partir de :
la taille du père,
La taille de la mère
de son genre
Exemple 3 : Prédire le groupe (0 ou 1) d’appartenance des
individus en fonction de leurs :
 Tailles
 Ages
 Genres 134

You might also like