R - Partie 2

Programmation
Python & R
ENSA de Kenitra
Pr. Aniss MOUMEN (ENSA – Kenitra)

amoumen@gmail.com
06.65.36.63.70
Facebook - Linkedin - Researchgate
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4- Regression
2
DEMARCHE D’ETUDE STATISTIQUE
ÉCHANTILLON
POPULATION Problème
Enquête
OBSERVATION
ANALYSE DESCRIPTIVE Analyse
Interprétation
GÉNERALISATION
ANALYSE INFÉRENTIELLE Rapport
3
Rappel – Statistique
Vocabulaire Statistique
La population est l’ensemble des sujets observés.

L’échantillon c’est un sous ensemble représentatif d’une population donnée.
L’individu (l’unité),c’est l’élément d’une population, défini par un ou plusieurs
caractères possédés en commun avec le reste de la population
Le caractère, c’est la propriété étudiée sur ces sujets (individus).
La modalité, c’est une valeur ou une situation possible prise par le caractère
(modalité quantitative ou qualitative)
La variable, c’est un caractère qui peut prendre des valeurs ou des modalités
variables.
L’Effectif, c’est le nombre de fois qu’un phénomène apparait dans une population.
4
Analyse descriptive | Inférentielle
Statistique descriptive est l’ensemble de

méthodes permettant de décrire et d’analyser
Représentations
des observations (ou mesures, ou données). Ces graphiques
observations consistent généralement en la
Descriptive
mesure d’une ou plusieurs caractéristiques
Résumés
communes, appelées variables, sur un numériques
ensemble de personnes ou d’objets équivalents,
Stat. Ou AD
appelé un échantillon.
Test
d’hypothèse
Statistique Inférentielle, est l’ensemble des
Inférentielle
tests statistiques et techniques d’analyse,
Modèles
permettant de généraliser les hypothèses d’un mathématiques
échantillon sur une population.
5
Méthodes Quanti/Quali :
Quantitative Qualitative
-Interprétation qualitative
-Mesure quantitative
- En recherche la motivation, les
-Appliquer sur les phénomènes
raisons humaines, les opinions, les
mesurables
avis…
-Enquêtes
-Interviews
-Analyse quantitative
-Analyse textuelle
(Statistique)
Observation, phénomène
nouveau, perspective, limite,
Formuler le
problème
validation….
Etude
Résultats, documentaire
Etat d’art ou
Interprétation,
revue de
Discussion et
littérature
Conclusion
Modèle théorique
Etude Exploratoire
Collecte &
Méthodologie
Analyse des
de recherche
données
Démarche Quanti/Quali,
Expériences….
CONSTRUITS-ENTITÉS CONSTRUITS-
VARIABLES EXPLICATIFS ENTITÉS
Xi MODÈLE VARIABLES
F(Xi) A
EXPLIQUER
Yi
Recherche
documentaire
Etude exploratoire
(Etude de cas – Etude
pilote…)
Etude exploratoire > Méthodes et techniques
Collecte des ETAPES

données Collecte des données : d’une manière directe ou indirecte
Retranscription : après la réalisation des interviews, il faut les convertir

Retranscription fidèlement en texte
Définition des unités d’analyse :

Définition des
unités d’analyse Après la lecture des documents  repérer les mots, les phrases, thèmes… qui
vont servir de base pour le codage.
Codage ou  Classification ou codage :

classification
Création des catégories ou des attributs ou code (ou nœud chez NVIVO) pour
classifier les documents et leurs contenus.
Grille d’analyse
Grille d’analyse :
Lister le contenu recueillis dans un tableau, par interviewé/auteur en fonction
des thématiques.
Quantification
Quantification : calcul du nombre d’apparition des mots/codes…, co-
occurance…  Création des requêtes
Représentation
graphique Représentation graphique : Nuage des mots, analyse des similitudes….
Focus groupes
Directes
Entretiens en
profondeur
Etudes Techniques
qualitatives d’expression
Techniques de
construction
Techniques
Indirectes
projectives
Phrases à
compléter
Techniques
d’association
Techniques projectives :
Une approche de collecte des données auprès des répondants, d’une manière indirecte et
ouverte, sans dévoiler explicitement et en détail le but de l’étude.
Intérêt :
-Découvrir les opinions, les avis, les motivations, les attitudes, les sentiments cachés du
répondant
Techniques d’association : Un stimulus est présenté pour le répondant et on lui demande d’y
associer sa premier pensée.
Exemple : l’association des mots (proposer une liste des mots aux répondants)
On analyse la fréquence des mots des répondants.
Techniques d’éléments à compléter : Le répondant complète une phrase ou une histoire
(incomplète).
Techniques de construction : Le répondant construit une histoire, dialogue ou une
description.
Exemple :
- On propose une image et on laisse le répondant décrire ou raconter une histoire (test
d’image)
- On propose une bande dessiné et on laisse le répondant décrire le dialogue (test de bandes
dessinées)
Techniques d’expression : Le répondant décrit ce que pourrait penser une autre personne
(Technique de jeux de rôle, Technique de la tierce personne)
Etude exploratoire
Etude exploratoire
Définition :
Un focus group (ou groupe de discussion) est une forme de recherche qualitative qui prend
forme au sein d'un groupe spécifique (cible), afin de déterminer la réponse de ce groupe et
l'attitude qu'il adopte au regard d'un concept, problématique, phénomène, événement….
L’intérêt :
-Récolter de l’information en écoutant l’échange entre les participants
- Révéler des résultats inattendus
-Une technique très utilisé en recherche qualitative
Caractéristiques :
Taille du groupe 8 – 12 participants
Composition Homogène (présélection)
Cadre Atmosphère favorisant l’échange
Durée 1 à 3 Heures
Enregistrement Audio/Vidéo
Animateur (*) Compétences en interaction et de
communication
Définition :
Un entretien en profondeur consiste à collecter des informations laissant au répondant
la liberté de détailler au maximum son opinion sur un sujet spécifique. Selon cette
méthode, le rôle de l’intervieweur est de guider et de canaliser le flux d’informations en
fonction de l’objet de l’étude ; on parle d’une interaction semi-directive. Ce type
d’entretien se concentre sur les éléments pertinents qui correspondent à l’objectif de
l’étude en question.
Intérêt :
-Découvrir les opinions, les avis, les motivations, les attitudes, les sentiments du
répondant
Mode de l’Entretien Face à face et individuelle
Durée 30 min à plus d’une heure
Enquêteur (*) Favorise l’expression du répondant,
avec des questions ouverts (à votre avis
est ce que …, voulez vous ajoutez
quelque chose….)
Enregistrement Audio/vidéo
Entretien : Exemples
ENTRETIEN NON
DIRECTIF
Guide d’entretien : Exemples
ENTRETIEN
DIRECTIF
Guide d’entretien (Scénario de l’entretien groupe ou individuel):
Un ensemble de directives spécifiées (écrites) en support à l'entretien (interview) de

recherche qualitatif ou semi-directif
C’est le mode opératoire des entretiens et une aide mémoire pour l’animateur/enquêteur
Le guide d’entretien est dynamique, il peut évoluer et changer.
C’est une préparation et une planification des entretiens en écrit : Espace - Temps
 Sélection des interviewées

 Accueil et réception (mot de remerciement, prise de contact…)
 Préambule – Introduction
 Présentations - Questions - Discussion & prise de note
 Restituer et synthétiser les réponses
Guide d’entretien avec la technique de l’entonnoir
Phase introductive
Phase centrage
Phase approfondissement
Phase conclusion
Guide d’entretien avec la technique de l’entonnoir

PRÉSENTATION : l’interviewer présente le sujet, son intérêt,
les motivations… et demande l’autorisation d’enregistrer ou
pas l’interview.
PHASE INTRODUCTIVE :
Introductive Introduire l’interviewé dans le sujet, avec des questions en
relation avec les problèmes étudiés. Rester négative dés le
départ, pour provoquer le débat
Centrage
PHASE DE CENTRAGE :
Approfondissement Suggérer des solutions possibles pour l’interviewé, et poser
des questions sur son avis, sa réaction, ses propositions
Conclusion PHASE D’APPROFONDISSEMENT :
Approfondir le sujet, en imaginant des scénarios où
l’interviewé est lui-même en charge de la mise en
œuvre d’une des solutions proposées, pour solliciter
son point de vue sur le cadre général….
PHASE DE CONCLUSION :
Conclure en proposant à l’interviewé son avis si l’une des
solutions est réel, et revenir sur la réalité pour
confirmer sur son point de vue sur l’existant
Guide d’entretien (Scénario de l’entretien groupe ou individuel), un exemple

Une étude sur les motivations et frein des étudiants vis-à-vis des voyages organisés.
PHASE INTRODUCTIVE :
Objectif : évacuer les stéréotypes sur les vacances organisées .
Questions possibles :
1. Voulez vous me raconter vos dernières vacances ?
2. Comment cela c’est passé ?
3. Raconter une journée type ?
4. Quelle serait une journée idéal ?
PHASE DE CENTRAGE :
Objectif : Suggérer, crédibiliser une éventualité de vacances organisées.
Questions possibles :
5. Quelle serait votre réaction si vous gagner un prix pour un voyage organisée ?
6. Comment vous allez vous organisez ?
…
Sous thème : l’organisation > quel mode de transport ?, le rôle de l’animateur ?, raconter nous
une journée type ? Une semaine type ?
Sous thème : les compagnons de voyage > combien seront-ils ? Leurs catégories ? Leurs
origines ?
Guide d’entretien (Scénario de l’entretien groupe ou individuel), un exemple

Une étude sur les motivations et frein des étudiants vis-à-vis des voyages organisés.
PHASE D’APPROFONDISSEMENT :
Objectif : Construire le produit « vacances organisées idéales »
Imaginons que vous êtes l’organisateur
Sous-thème 1 : accueil, lieu > comment les accueilleriez-vous ? Qu’est ce qui serait bien de
faire ? Les difficultés qu’on pourrait rencontrer ?
Sous-thème 2 : formule, activités, animation > raconter une journée type ? Une semaine ? Les
activités possibles ? Quel serait l’étudiant idéal intéressé ?
Sous-thème 3 : Prix à prévoir > quel budget ? Quelles options ? Quelles facilités de
paiement?
PHASE DE CONCLUSION:
Objectif : Retour à la réalité
Est-ce que vous serez intéressé par les formules existantes ? Vous les conseilleriez à qui ?...
Nous sommes parvenus à la fin de notre entretien, je voudrais vous remercier pour votre
participation.
Les outils à utiliser lors de l’entretien (à utiliser sans modération)

Les outils à utiliser lors de l’entretien (à utiliser avec modération)

Les outils à utiliser après l’entretien (sans modération)

APRÈS L’ENTRETIEN : RETRANSCRIPTION

DÉFINITION :
Reproduire fidèlement l’entretien audio ou vidéo en texte, c’est une étape qui
vient juste après la réalisation de l’entretien.
TYPE DE RETRANSCRIPTION :
• La retranscription sociologique ou In extenso.
• La retranscription mot pour mot ou compte rendu intégrale reformulé.
• La retranscription Ubiqus ou compte rendu reformulé.
• La retranscription en synthèse
DUREE :
De quelques minutes à des heurs, de retranscription pour chaque citation.
SYNTHÈSE
Choix de la
Définition de la Cadre de Taille de
méthode
population l’échantillonnage l’échantillon
d’échantillonnage
Nettoyage des Saisie et codification

données : données des données – Pré-test de
manquantes, Transformation - l’appareil de mesure
Travail de terrain…
données aberrante, – Analyse de
Test de Exploration des fiabilité
représentativité données - Graphiques
Tests des hypothèses

• Tests de normalité
• Tests sur l’échantillon Réduction des
Prédiction Classification
unique/deux données
échantillons
• Tests d’association
29
PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Définition de la  Choix de la méthode de l’échantillonnage >> Comment ?
population
Cadre de
l’échantillonnage
Aléatoire simple
Systématique
Choix de la méthode Oui Probabiliste Stratifié
Grappes
Liste de la Phases multiples
Taille de population ? De convenance
l’échantillon De jugement
Boule de neige
Non Non-probabiliste
Par quota
Pré-test de l’appareil
de mesure Volontaire
Structurée aléatoire

Définition de la  Choix de la méthode de l’échantillonnage >> Comment choisir ?
population
Argumentaire
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste
-La liste de la population n’est pas

Choix de la méthode -Disponibilité de la liste de connu d’avance
d’échantillonnage -Travaux antérieurs similaires
population
-Si la taille de l’échantillon obtenu
est importante  Niveau de
Taille de
l’échantillon confiance est important et la
marge d’erreur est moindre.
-Si le choix des répondants est
Pré-test de l’appareil resté aléatoire
de mesure

Définition de la  Taille de l’échantillon
population
Plan d’échantillonnage
Cadre de
Taille de l’échantillon (E) est une fonction du : (1) % des chances qu’un
Choix de la méthode individu répond (A) ou pas (B) (en général 0.5), (2) Marge d’erreur (ER) si la
d’échantillonnage même question est reposée pour un autre échantillon (3%, 5%...), (3) Niveau
de confiance (Z) (les niveaux usuelles : 99%, 95%, 90% et 68%)
Taille de Population inconnue

l’échantillon
A B
de mesure
E 2
 ER 
 
Travail de terrain…  Z 
ECHANTILLONNAGE

population
Cadre de Probabiliste Non-Probabiliste

Taille de l’échantillon (E) est une fonction du : (1) proportion de la
population (si inconnue , en général 0.5), (2) Marge d’erreur (ER) si la
Choix de la méthode même question est reposée pour un autre échantillon (3%, 5%...), (3)
Niveau de confiance (Z) (trois niveaux : 99%, 95% et 68%  pour un
niveau de confiance de 95%, z = 1.96, pour un niveau de confiance de
Taille de 99%, z = 2.575)
l’échantillon Dans le cas d’une population inconnue
p  (1  p) 2
Pré-test de l’appareil E 1  Z 
de mesure
 ER 
2
E   
  4  ER 
Travail de terrain…  Z 

population
Cadre de
Taille de l’échantillon (E) est une fonction du : (1) % des chances qu’un
Choix de la méthode individu répond (A) ou pas (B) (en général 0.5), (2) Marge d’erreur (ER) si la
d’échantillonnage même question est reposée pour un autre échantillon (3%, 5%...), (3) Niveau
de confiance (Z) (les niveaux usuelles : 99%, 95%, 90% et 68%)
Taille de Population connue

l’échantillon
Théorème Centrale
Pré-test de l’appareil Limite
de mesure

Définition de la  Taille de l’échantillon – Exemples (à chance égale A = B = 0.5)
population
Taille de l’échantillon Niveau de confiance Marge d’erreur
Cadre de
2 450 99% 1%
261 97% 3%
Choix de la méthode
d’échantillonnage 251 95% 3%
90 95% 5%
Taille de 46 68% 5%
l’échantillon
Le seuil est fonction du niveau de confiance et marge d’erreur 
plus il est important (proche de 200), plus c’est bien
de mesure  En fonction du but de la recherche, cadre théorique et la catégorie
de modélisation à utiliser
 Le couple Niveau de confiance & marge d’erreur est à choisir par
rapport aux études antérieurs et les limites de la collecte de donnée
Travail de terrain… (pas moins de 70% pour l’IC et pas plus de 10% de ME)

Définition de la  Taille de l’échantillon – Calculatrice à population connue
population
 La taille minimale pour une étude quantitative est : 30.
 La taille optimale quelque soit la taille de la population : 385.
Cadre de  Quand les populations sont importante = Le stratifié s’impose
Choix de la méthode
Taille de
l’échantillon
de mesure

Définition de la  Taille de l’échantillon – en fonction du cadre théorique, modèle
population et but de recherche
Cadre de
l’échantillonnage AMOS PLS
Cadre théorique Fort (Science exacte, Flexible (Social,

Choix de la méthode Eco-gestion…) humaine…)
But de la recherche
Confirmatoire/Explicatif Prédictive/Exploratoire
Taille de Seuil sur la taille de
l’échantillon l’échantillon Large (plus de 200) Petit (plus de 30)
de mesure
PROCESSUS (2) : DU TERRAIN A L’ANALYSE DE DONNE

 Saisie : Il s’agit de regrouper les réponses des répondants dans des tableaux
>>
Codification : pour les réponses à multiple choix, il s’agit de convertir
l’échelle de mesure textuelle en y attribuant une valeur numérique (Femme
 0, Homme  1)
Travail de terrain RQ : ces deux phases de saisie et de codification, peuvent être faite aussi
lors de l’intégration des données sous R
Saisie Intégration ou importation des données : Soit que les données sont à saisir
manuellement au niveau du logiciel d’analyse de donnée ou à importer depuis
un fichier externe (Excel…)
Analyse de donnée : Il s’agit des différents opérations effectuées sur les
Codification données, permettant d’avoir une vue et une visualisation synthétique de ces
données.
 Exploration des données : Les données manquantes &redondantes 
Intégration des données Epuration des données  statistique descriptive uni-variée
 1er test : Test de normalité, Test de représentativité
 Tests d’hypothèse – H0 et H1
 Corrélation/Régression/Analyse factorielle
Analyse de donnée
 Modèle statistique
>> 38
4-Regression
39
INTRDODUCTION

méthodes permettant de décrire et Représentations
d’analyser des observations (ou mesures, graphiques
ou données). Ces observations consistent Descriptive
généralement en la mesure d’une ou Résumés
numériques
plusieurs caractéristiques communes,
Stat. Ou AD
appelées variables, sur un ensemble de
Test
personnes ou d’objets équivalents, appelé d’hypothèse
un échantillon. Inférentielle
Modèles
mathématiques
40
STATISTIQUE DESCRIPTIVE > DONNEES
 Les DONNÉES sont les résultats d’une

Données
collecte ou une observation, sur un sujet ou un
phénomène ou un problème impactant une
POPULATION.
 Les DONNEES sont soit de caractère :

Primaire Secondaire  QUANTITATIF (une mesure, une valeur,
une quantité…)
 QUALITATIVE (un avis, une opinion, un
texte…)
Qualitative Quantitative
Recherche  COLLECTE DES DONNÉES (en science
documentaire
sociale, gestion et humaine) se fait via des
ENQUÊTES (QUESTIONNAIRES et/ou
ENTRETIENS). Deux catégories de collecte :
Données
Données non structurées 
structurées (Texte, Tableaux (Variable  Recensement : toute la population est
Image, Sons, quantitative, étudiée
Vidéo…) Variable
qualitative)
 Sondage : un échantillon de la
population qui est étudiée
41
STATISTIQUE DESCRIPTIVE > VARIABLES
Variables :
Variable : Tout phénomène qui varie, soit naturellement ou artificiellement,
et qui peut être décrit et mesuré sur une échelle (quantitative, qualitative).
Une variable = une colonne

Un individu = une ligne
Modalité = la valeur que peut L’échantillon = {individu}
42
prendre une variable
Exemple : Déterminer les variables Quanti/Quali
Variables qualitatives ?
Variable quantitatives ?
43
Echelle de mesure :
 Une échelle de mesure est un ensemble de gradations permettant

d’attribuer une valeur attendue à une question (variable).
 L’utilisation d’une échelle de mesure pour obtenir une réponse à une

question oriente le répondant sur les nuances souhaitées à sa réponse et
facilite le traitement.
 Le choix d’une échelle de mesure a des conséquences multiples sur les

résultats, une échelle doit :
 Permettre au répondant d’exprimer adéquatement son opinion.
 Etre conviviale pour le répondant (simple, facile d’utilisation,

permettant de faire un choix rapide…).
 Produire des mesures de qualité (exactes et minimisant l’erreur de
mesure).
44
Collecte de données :
Validité d'un outil de mesure/évaluation :

Qualité d'un outil de collecte de données : grille d'observation, d'analyse de contenu,
test, questionnaire,
appareils de mesures… qui mesure ce qu'il est censé mesurer (Pré-test)
45
Echelle de mesure qualitative :
Échelle nominale : Échelle qualitative qui consiste à classer et nommer les variations
d'un phénomène en fonction de catégories
Échelle ordinale : Échelle qualitative qui consiste à classer et à mettre en ordre les variations
d'un phénomène selon un critère connu.
46
Echelle de mesure quantitative:
Échelle d'intervalles : Échelle quantitative qui consiste à repérer des variations

d'un phénomène dont les intervalles sont constants. EX: La température : L'écart entre 10 et
12°C est identique à l'écart entre 14° et 16°C.
Échelle de rapports : Échelle quantitative qui consiste à mesurer les variations

d'un phénomène dont les intervalles et les rapports sont constants. EX: Le temps. L'écart entre 5
et 10 secondes est identique à l'écart qui existe entre 15 et 20 secondes.
47
Variables :
ON DISTINGUE :
 Variable Indépendante (VI) ou exogène : C’est le phénomène ou le facteur présumé

responsable du phénomène étudié (variable dépendante). la VI est la variable X,
variable explicative.
 Variable Dépendante (VD) ou endogènes : Variable observée/décrite et mesurée/évaluée
qui peut être modifiée par la variable indépendante.  la VD est la variable Y, la variable
expliquée, la variable mesurée.
 Variable contrôlé (VC) : est toute variable indépendante exclue de la situation de recherche
par le chercheur, dans le but d’isoler l’effet de la variable indépendante (de recherche)– elle
est utilisée pour agir sur la variance en situation de corrélation entre VD et VI.
 Variable intermédiaire : n'est pas un phénomène en soi, mais plutôt un concept

scientifique qui a pour but d'établir une relation entre deux ou plusieurs phénomènes (X et
Y), c’est à l’intermédiaire des deux variables « Indépendante et dépendante ». La variable
intermédiaire n’est pas directement observables (exemple : variable modératrice,
48
médiatrice et latente)
Variables :
Il y a aussi :
Des variables intermédiaires (VT) :
Variable modératrice : Variable parasite qui atténue ou augmente la relation

entre la variable indépendante (X) et la variable dépendante (Y).
Variable médiatrice : Tout facteur qui explique la relation entre X et Y. Il peut

s'agir d'une variable intermédiaire ou d'un construit hypothétique.
Variable latente : est une variable qui ne peut pas être mesurée directement,
mais qui est supposée être à la base des variables observées.
Source :
http://pagesped.cahuntsic.ca/sc_sociales/psy/introsite/lexique/lexique.htm 49
Variables/Modèle :
VARIABLE D’ENTRÉE MODELE VARIABLE DE

Xi Vi Vj SORTIE
VARIABLE Yi
INDEPENDANTE VM Vj VARIABLE
(VI) DEPENDANTE
(VD)
RELATION ENTRE LES VARIABLES D’ENTRÉE ET LES

VARIABLES DE SORTIE
50
STATISTIQUE DESCRIPTIVE > GRAPHIQUES

numériques
Stat. Ou AD
Test
Modèles
mathématiques
51
Variable \ Représentation graphique
Histogramme
Continue Courbe
Quantitative
Boite à
Discrète
moustache
Variable
Diagramme
Nominale en bâtonnets
Qualitative
Ordonnale
Diagramme
en bâtons
Diagramme
en barre
Diagramme
circulaire 52
Descriptive > Représentation graphique
Source : Julien Labreuche, «Les différents types de variables, leurs représentations graphiques et
paramètres descriptifs », STV, vol. 22, n° 10, décembre 2010
53
STATISTIQUE DESCRIPTIVE > NUMERIQUE

numériques
Stat. Ou AD
Test
Modèles
mathématiques
54
Descriptive > Résumés numériques
Indicateurs statistiques
 Indicateurs de position :
Moyenne : est la valeur obtenue lorsque toutes les valeurs sont égales (la
distribution est équitable). On distingue plusieurs types de moyennes,
exemple : Moyenne arithmétique (simple ou d’une série classé)
Médiane : qui permet de déterminer le point milieu d'une distribution.
Mode : est la valeur ou modalité ou classe, la plus fréquente d’une la
variable.
Quantile : divise la distribution en n parties égales en nombre
d’observation  la médiane est un quantile d’ordre deux (elle divise la
distribution en deux).
55
Indicateurs statistiques
 Indicateurs de dispersion :
L’étendue : est l’amplitude entre les valeurs extrêmes (minimum et maximum) d’une
distribution
Variance (s2) : Il s'agit de la moyenne arithmétique des carrés des écarts à la moyenne. C’est
une mesure de la dispersion des observations par rapport à la moyenne.
RQ : la somme des écarts à la moyenne est toujours nulle, c’est pour cette raison, qu’on
introduit la moyenne des carrés des écarts à la moyenne. La variance est aussi appelé le
moment centré d’ordre deux. La variance est toujours positive.
Ecart-type : Cette mesure évalue l'écart-moyen entre chaque résultat d'une distribution et la
moyenne de cette distribution, c’est la racine carré de la variance. Quand l’écart-type des
valeurs de X est petit (par rapport à la moyenne et à l’étendu), ceci signifie que les valeurs de X
sont susceptible d’être centrées sur la moyenne.
La covariance : caractérise les variations simultanées de deux variables aléatoires. Deux
variables indépendantes  leurs covariances est nulle
56
Théorie de la tendance centrale

paramètres statistiques de position
57
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
 VARIABLE QUANTITATIVE | QUALITATIVE :
58
 VARIABLE QUANTITATIVE | QUALITATIVE :

 Pour les variables qualitatives, la structure est imposée au moyen de la
fonction as.factor() et levels().
 Pour une variable discrète, la structure est imposée au moyen de la fonction
as . integer ()
 Pour une variable continue, la structure est imposée au moyen d e la fonction
as . double ().
59
 TABLEAUX DE DONNEES :
 Tableaux des données individuelles : on dispose des mesures d'une ou de plusieurs
variables pour chacun des N individus constitutifs d'une certaine population. Les données
sont en général organisées dans un data.frame.
le tableau des effectifs ou des fréquences (appelé tri à plat) permet d'appréhender
plus facilement la distribution d'une variable, notamment qualitative ou ordinale.
Il s'obtient au moyen de la fonction table().
60
 TABLEAUX DE DONNEES :
 Tableaux de données regroupées en classes, représente un tableau de données
individuelles, récoltées sur une ou plusieurs variables quantitatives, sous une forme plus
condensée. On utilise la fonction hist() pour récupérer les classes, puis on manipule la
variable « breaks ».
61
 TABLEAUX CROISANT DEUX VARIABLES :

 Tableaux de contingence : la fonction table() pour obtenir le tableau de contingence
observé du couple (X,Y) ou le tri croisé en effectifs du couple (X, Y).
 Tableau de contingence avec les marges
 Le tableau de la distribution
conjointe ou tri croisé en fréquences
relatives du couple (X, Y) 62
 TABLEAUX CROISANT DEUX VARIABLES :

Distribution marginale : s'obtient au moyen de la fonction margin. table ().
 Distributions conditionnelles s'obtiennent au moyen de la fonction prop. table () .
63
 RÉSUMÉS NUMÉRIQUES :
 Résumés de position d'une distribution : le ou les modes (la valeur la plus fréquente)
 Résumés de position d'une distribution : la médiane (la valeur qui coupe la distribution
statistique en deux partie, si l'effectif total N de la série est impair. Dans ce cas, la médiane
est la valeur à la position (N+1)/2, sinon si l'effectif total N de la série est pair. Dans ce cas,
n'importe quelle valeur comprise entre les valeurs aux positions (N/2) et (N/2) + 1
(*) Les résumés numériques ne peuvent être

calculés en présence de données manquant
 Résumés de position d'une distribution : ( NA) :
la moyenne > x <- na.omit(taille)
64
 Résumés de position d'une distribution : les fractiles (les quantiles) d'ordre p (0 < p < 1)
est la valeur qp de la variable X qui coupe l'échantillon en deux portions, l'une ayant un
nombre d'éléments égal à p % du nombre total d'éléments dans x (ce sont les éléments
inférieurs à qp) , l'autre à (1 - p) % (ce sont les éléments supérieurs à qp). Il ne se calcule pas
pour des variables purement qualitatives.
65
 Résumés de dispersion d'une distribution : la variance et l’écart type
 Résumés de forme d'une distribution : les coefficients d'asymétrie (skewness) et
d'aplatissement (kurtosis)
66
MESURE D’ASSOCIATION
 Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson : il mesure le dégrée d’indépendance entre deux
variables qualitative, en se basant sur les effectives observées et les effectives théoriques
« La valeur de Khi-deux est un calcule de la

distance entre les effectives observées et les
effectives théoriques attendues en cas
d’indépendance »
Modèle d’indépendance (théorique) Observations
Le modèle d’indépendance théorique Si il y a pas d’écart significatif, alors

(supposé)  quand il y a pas de lien l’indépendance entre les variables est
entre les résultats scolaires et le genre prouvé (H0), sinon il y aurait un lien entre
des étudiants les variables (H1) 67
La statistique du Khi-2 de Pearson :
la fonction chisq.test () permet de calculer le Khi-deux.
68
La statistique du Khi-2 de Pearson :
Après le calcul de dégrée de correspondance entre deux variables qualitatives, si il y a une
association, nous pouvons apprécier la force de cette association, par le calcul de V-deux
de Cramer
 V de Cramer : nous renseigne sur la force de la relation entre les deux variables
catégorielle : La valeur de V est généralement comprise entre 0 (pas de relation) et 1
(relation compléte).
 V de cramer = 0.067  relation faible
69
 Mesures de liaison entre deux variables quantitative (corrélation)
Covariance et coefficient de corrélation de Pearson :

La covariance mesure la variabilité mutuelle de deux variables quantitatives, la corrélation
entre deux variables quantitatives est basé sur la covariance. Mais d’abord il faut tester
l’hypothèse de corrélation avec la fonction cor.test() ou avec un graphique
Coefficient de corrélation
70
 Mesures de liaison entre deux variables quantitative (corrélation)
Covariance et coefficient de corrélation de Pearson :
RÈGLE D’OR POUR UN

ALPHA DE 5%
Si p-value > 0.05 (5%)
H0 n’est pas à rejeter (H1
est rejeté)
Si Sig. ≤ 0.05 (5%)  H0
est rejeté (H1 est accepté) 71
 Mesures de liaison entre une variables quantitative Y et une variable qualitative X
Le degré de liaison entre une variable quantitative Y et une variable qualitative X, est
mesuré par le rapport de corrélation par modalité de la variable X, appelé eta2.
La fonction eta2() du package « BioStatR », permet de calculer ce coefficient.
72
EXERCICES
TP
73
4-Regression
74
INTRDODUCTION
Statistique descriptive est l’ensemble de méthodes

permettant de décrire et d’analyser des observations Analyse descriptive | Inférentielle
(ou mesures, ou données). Ces observations consistent
généralement en la mesure d’une ou plusieurs
caractéristiques communes, appelées variables, sur un
Représentations
ensemble de personnes ou d’objets équivalents, appelé
graphiques
un échantillon.
Statistique Inférentielle, est l’ensemble des tests Descriptive
statistiques et techniques d’analyse, permettant de Résumés
généraliser les hypothèses d’un échantillon sur une numériques
population. Stat. Ou AD
Test
ÉCHANTILLON d’hypothèse
POPULATION Problème
Inférentielle
Modèles
Enquête
mathématiques
OBSERVATION
ANALYSE DESCRIPTIVE Analyse
Interprétation
GÉNERALISATION
ANALYSE INFÉRENTIELLE Rapport
75
VARIABLE, LOI & PHENOMENE
PHENOMENE & LOI
Théorie Réalité
Plusieurs phénomène naturel suit un modèle mathématique appelé loi normale (loi de
Laplace – Gauss). C’est l’une des lois de probabilités les plus adaptées pour modéliser des
phénomènes naturels issus de plusieurs évènements aléatoires, exemple :
Quasiment tout ce qui est humain : taille, poids, pousse des cheveux, des ongles,
paramètres biologiques, durée du sommeil, etc.
Quasiment tout le vivant : taille et poids des graines, vitesse de pousse, rendement à
l'hectare, poids des animaux, etc.
Toute la production industrielle de masse : prenons des balles de tennis, donc le poids, la
76
résistance à l'usure, la pression, etc.
X1 X2
Selon les mathématiciens Georges Darmois (1951) et Sergeï Bernstein (1954) : pour deux
variable aléatoire indépendantes X1 et X2 qui suivent la loi normale, et Si (X1 + X2) et (X1 –
X2), sont aussi deux variables aléatoires indépendantes, alors la loi commune de X1 et X2 est
une loi normale  LA LOI NORMALE EST UTILISÉE POUR LES TESTS DES HYPOTHÈSES
X1
F(X1, X2) Y
X2 77
La loi normale est une fonction de l’écart type σ et

de l’espérance μ, noté N(μ, σ2) . C’est une fonction
continue, qui tend vers zéro à l’infinie (-/+).
L’équation de la loi normale centrée réduite (les
valeurs de la variable aléatoire sont auteur de
Zéro et l’écart type est 1 ) :
78
Loi normale Loi N.C.R Loi binomiale Loi de Khi 2 Loi de Student Loi de Fisher
Proche de la Loi normale La loi binomiale, la loi de la Est le quotient est le quotient de
réalité centrée sur Zéro et d’une variable somme de entre une deux variables
dont l’écart-type aléatoire est carré de k lois variable VI aléatoires (VI),
est égale à 1 fonction du N.C.R suivant une loi distribuées
n épreuves, et N.C.R et chacune selon
p probabilité la racine une Loi du Khi -
de succès. Elle carrée d'une 2 et ajustées
devient une variable (VI) pour leurs ddl
N.C.R, si n est suivant la loi du
important Khi – 2 ajusté
par k ddl
79
ECHANTILLONNAGE
SUPPOSANT QUE N EST LE NOMBRE DES ÉCHANTILLONS D’UNE POPULATION CONFORME

À LA LOI NORMALE,
A PARTIR DE QUELLE VALEUR DE N, ON DEVRAIT S’ARRÊTER ?  EN PRATIQUE, QUAND N
EST SUPÉRIEUR À
« 30 »
 LA LOI NORMALE EST UTILISÉE POUR LE TEST DE REPRÉSENTATIVITÉ & DU PRÉ-TEST
80
HYPOTHESES
DE L’HYPOTHÈSE DE RECHERCHE À L’HYPOTHÈSE

STATISTIQUE
H0 est l'hypothèse nulle.
Elle stipule qu'il n'y a pas de différence significative entre les deux groupes/mesures de
votre recherche, donc A = B.
H1 est l'hypothèse alternative.

C'est généralement l'hypothèse/objectif du chercheur, celle/celui qu'il soutient dans sa
problématique.
Cette hypothèse alternative stipule qu'il y a une différence significative entre les deux
groupes/mesures de votre recherche, donc qu'un groupe est plus grand ou plus petit qu'un
autre (A > B ou A < B).
81
TEST D’HYPOTHÈSE
Seuil de significativité
H0 est l'hypothèse nulle : DONC DEUX POSSIBILITÉS :

Elle stipule qu'il n'y a pas de différence  Ne pas rejeter l'hypothèse nulle, donc
significative entre les deux groupes/mesures l'accepter, ce qui signifie que l'hypothèse
de votre recherche, donc A = B. de votre recherche est fausse, et donc que
X n'a pas d'effet sur Y.
H1 est l'hypothèse alternative :  Rejeter l'hypothèse nulle et donc
Cette hypothèse alternative stipule qu'il y accepter l'hypothèse alternative, ce qui
a une différence significative entre les deux signifie que l'hypothèse de votre
groupes/mesures de votre recherche. recherche est vraie, et donc que X
influence Y.
Le test d’hypothèse consiste à déterminer entre quelles valeurs peut varier la variable
aléatoire, en supposant l’hypothèse vraie.
82
TEST D’HYPOTHÈSE
Seuil ou Niveau de significativité
Pour rejeter ou pas l’hypothèse nulle H0, on définit un seuil appelé aussi niveau de
significativité alpha, au delà du quel (c-a-d, supérieur) on peut pas rejeter l’hypothèse
nulle.
C’est-à-dire :
H0 est retenu si on dépasse alpha

H0 est rejeté si on est inférieur à l’alpha
Le test de l’hypothèse nulle, consiste à se poser la question, « si on répète l’expérience ,

ou on repose la question à d’autres individus, est ce qu’on trouvera des données
fortement similaires, aux données produites sous l’hypothèse nulle ? »  le test
d’hypothèse est une mesure de la probabilité de reproduire quasiment les mêmes
réponses, pour une variable aléatoire x, sous l’hypothèse nulle (H0)  p = P(x|H0)
83
TEST D’HYPOTHÈSE
Seuil de signification du test d’hypothèse
La valeur de P (P-value) correspond à la Probabilité de commettre une erreur lorsque l'on

prend une décision statistique (probabilité critique). Elle correspond au risque de se
tromper en rejetant l'hypothèse nulle. Généralement, Il y a trois niveaux de significativité
alpha : 5%, 1% ou 0,1 %(en général on choisie 5%).
Avec SPSS , il s’agit de comparé la

valeur de Sig. Bilatérale (pour éviter le
risque maximal)
RÈGLE D’OR POUR UN ALPHA DE 5%
Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%)  H0 est rejeté (H1 est accepté) 84
TEST D’HYPOTHÈSE
RÈGLE D’OR POUR UN ALPHA DE 5%

Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%)  H0 est rejetée (H1 est acceptée)
Remarque : Le choix du niveau de

significativité est conventionnel et H0 n’est pas à rejeter
dépend du domaine d’application.
Dans certaine discipline du science
exacte, on peut exiger un niveau de
significativité inférieur à 0,1 % (voir H0 est rejetée
moins de 0.01%)  impacte sur la taille
de l’échantillon  la méthode
proposée par « Neyman-Pearson »:
consiste à fixer d’avance la p-value, soit
à l’issue des travaux antérieurs ou d’une
étude de cas (pilote), pour estimer la
taille de l’échantillon.
85
S est l’écart type, I.C est l’intervalle de confiance
TEST D’HYPOTHÈSE
DEFINITION
Test graphique
paramétrique (plus fort) : distributions
statistiques supposées dans les données. Il
Test d’hypothèse faut vérifié la validité.
Adapté pour les échantillons importants
(>30)
Numérique
non paramétrique : ne se basant pas sur

des distributions statistiques
Adapté pour les échantillons moins
importants (<30)
1) Le passage de la population à l’échantillon, suppose que le choix

Estimation
de l’ Erreur des échantillons est resté aléatoire ou quasi-aléatoire.
2) Le retour de l’échantillon vers la population, se fait soit en
supposant que la distribution des données dans toute la
population, suit une loi connue (test paramétrique) d’avance ou
pas (test non paramétrique). 86
TEST D’HYPOTHÈSE
DEFINITION
Les tests paramétriques, visent à tester l’adéquation de la

loi de distribution observée des variables aléatoires sur
l’échantillon par rapport à la loi de distribution statistique
connue et préétablit (supposée) de la population (soit la
loi normale ou ses approximations).
Le but est de comparer les paramètres observés par

Test paramétrique rapport aux paramètres théoriques , pour faire des
généralisations depuis l’échantillon vers la population,
avec une estimation de l’erreur. Il y a une contrainte sur l’
homogénéité de la variance.
Ces tests dépendent des catégories des données

(variables) issues de l’échantillon : Quantitative ou
Qualitative ou les deux à la fois. Deux variables ou plus.
87
TEST D’HYPOTHÈSE
Comparaison de la moyenne : Comparaison

Comparaison de la d’une moyenne observée sur un échantillon
moyenne issu d’une population de moyenne inconnue
(µ) à une valeur moyenne théorique connue
(µH0) d’une population de référence. Ou
Comparaison de la comparaison des moyennes sur deux
Test paramétrique variance ou échantillons.
ANOVA Comparaison de la variance : comparaison
de l’homogénéité de la variation des variables
entre un, deux ou plusieurs échantillons.
Khi-deux Test Khi-deux : utiliser pour déterminer la
nature d'une répartition statistique, par
rapport à une distribution théorique.
88
TEST D’HYPOTHÈSE
DEFINITION
Les tests non paramétriques, ne nécessitent pas une

hypothèse sur la distribution statistique des données. Donc
on fait pas de test sur les moyennes, variances…
Le but de ce test reste le même que les tests

paramétriques, c’est-à-dire, on vérifie nos hypothèses par
rapport aux seuils de significativité alpha, en choisissant l’un
Test non paramétrique
des tests
Ces tests sont plutôt adaptés aux petits échantillons (<30)

et quand nos variables sont plutôt qualitative : Nominal et
Ordinal.
On générale, si on a un échantillon important et qu’on a
une estimation sur la distribution des données dans la
population, on choisie d’effectuer des tests paramétriques.
89
TEST D’HYPOTHÈSE
Table de contingence et test Khi-deux : permet

de représenter la répartition d’effectifs d’un
échantillon en fonction de la valeur d’une
observation. Et on utilise le test Khi-deux pour
Tests de rang les variables qualitatives.
Test sur le rang : il s’agit de comparer le rang
plutôt que la valeur, des variables aléatoire, dans
Test sur la un échantillon qui ne suit pas la loi normale (ou
Test non
médiane (Test approximé). Il existe plusieurs tests : Test de
paramétrique
des signes)
Wilcoxon, Test de Kruskal et Wallis, Test de
Spearman.
Table de
contingence et Test des signes : Appliquer dans le cas des
Test de Khi-2 échantillons appariés, Il utilise les signes + et -,
au lieu de données quantitatives. Il est
particulièrement utile dans les cas où il n'est
possible que de ranger l'un par rapport à l'autre
les membres de chaque paire.
90
TEST D’HYPOTHÈSE
Test d’hypothèse
Paramétrique Non-paramétrique
Table de
Comparaison Comparaison
contingence Test sur le Test des
de la de la variance Khi-deux
& Test Khi- rang signes
moyenne et ANOVA
deux
En fonction de nos objectifs de recherche et sa méthodologie, Nous pouvons appliquer ces
tests , soit à UN ÉCHANTILLON UNIQUE OU À DEUX ÉCHANTILLONS (SIMILAIRES OU
DIFFÉRENTS)
EXEMPLES D’APPLICATION DES TESTS D’HYPOTHÈSE :

Comparaison de la performance avant et après l’application d’une nouvelle méthode
d’apprentissage sur un même groupe d’étudiant, ou encore l’application de la même
expérience sur deux groupes d’étudiants 91
TEST D’HYPOTHÈSE
Le choix entre les tests

paramétriques et non
paramétriques, dépends de
la réponse à la question : «
Est-ce que l’information sur
la population (Liste, taille,
distributions statistiques…)
est connue d’avance ou pas
? », Si oui, le choix est : «
les tests paramétriques »,
sinon, ça serait « les tests
EQUIVALENCE DES TESTS non-paramétriques »
92
Source : https://keydifferences.com/difference-between-parametric-and-nonparametric-test.html
TEST D’HYPOTHÈSE
SYNTHÈSE
PROCÉDURE DU TEST D’HYPOTHÈSE
Choix du test
adéquats en Définition de
Choix du test Détermination
fonction des l’intervalle de Calcul du p-
en fonction de des
variables : confiance et value & Interprétation
la distribution hypothèses H0
continue, niveau de comparaison α
de l’échantillon et H1
nominale, significativité α
ordinale
93
ANALYSE DE DONNÉE
SYNTHÈSE
Définition de la Cadre de Choix de la méthode

Taille de l’échantillon
population l’échantillonnage d’échantillonnage
Nettoyage des
données : données Saisie et codification Pré-test de l’appareil
manquantes, des données de mesure
données aberrante
Tests des hypothèses

• Tests de normalité
• Tests sur l’échantillon Réduction des
Prédiction Classification
unique/deux données
échantillons
• Tests d’association
94
TEST D’HYPOTHÈSE AVEC R
TEST D’HYPOTHESE DE NORMALITE
Il s’agit de tester si la distribution d’une variable suit la loi normale ou pas :
 H0 : Il n’y a pas de différence significative entre la loi normale et notre distribution
 H1 : il y a une différence significative entre la loi normale et notre distribution
 En R, la fonction shapiro.test() permet de réaliser ce test.
p-value > 5%  H0 à retenir : la normalité est

respectée
La valeur de W est comprise entre 0 et 1, tant
que W tant vers 1, la normalité est respectée
95
TEST D’AJUSTEMENT DE KHI-DEUX – TEST DE REPRESENTATIVITE
Il s’agit de tester si les proportionnalités d’une variable d’un échantillon sont
significativement les mêmes que dans une population :
 H0 : Il n’y a pas de différence significative entre les proportionnalités dans
l’échantillon et la population
 H1 : il y a une différence significative entre les proportionnalités dans l’échantillon
et la population
 En R, la fonction chisq.test() permet de réaliser ce test.
Les proportions
dans la
population par
niveau
p-value > 5%  H0 à retenir : les proportionnalités sont

respectées  La représentativité de l’échantillon
96
TEST DE COMPARAISON DES MOYENNES – ECHANTILLON UNIQUE (TEST DE

REPRESENTATIVITE PAR RAPPORT A LA MOYENNE)
Il s’agit de tester si les moyennes d’une variable d’un échantillon unique/indépendant
ou apparié, sont significativement les mêmes
 H0 : Il n’y a pas de différence significative entre les moyennes
 H1 : il y a une différence significative entre les moyennes
La normalité est un pré-requis pour ce test
R, la fonction t.test() permet de réaliser ce test.
Ce test peut être utiliser pour tester la représentativité d’un échantillon par rapport à la
moyenne de la population
Il s’agit d’un test t, sur un

échantillon unique, en fournissant
la moyenne de référence (mu)
pour comparer
p-value > 5%  H0 à retenir : les deux moyennes ne sont pas significativement différent
97
ECHANTILLONS INDÉPENDANTS
ECHANTILLONS APPARIÉS
On a deux sous groupes du même Pour le même échantillon on répète la

échantillon prise de mesure en deux moments
différents
COMPARAISON
DE LA MOYENNE
98
TEST DE COMPARAISON DES MOYENNES – ECHANTILLON INDEPENDANT (TEST DE

D’EGALITE DE LA VARIANCE OU TEST F)
En R, la fonction t.test() permet de réaliser le test, en précisant le paramètre var.equal,
si c’est à variance égale ou à variance ingale et aussi la variable à expliquer (quantitative)
et la variable de regroupement (qualitative).
Dans le cas des tests à échantillon indépendant ou apparié, il faut précéder ce test par le
test de Fisher (Test F), pour déterminer si il y a une différence significative de la variance
ou pas  Le test F (Test sur la variance), est réaliser sous R, avec la fonction var.test()
Il s’agit d’un test F, sur

l’égalité de la variance :
H0 : il y a pas de
différence significative
entre les variances
H1 : il y a une différence
significative entre les
variances
p-value > 5%  H0 à retenir : les deux variance ne sont pas significativement différents
donc on peut conclure que pour le test t  var.equal = TRUE
(*) ce test ne peut être utiliser qu’après la vérification de la normalité 99
TEST DE COMPARAISON DES MOYENNES – ECHANTILLON INDEPENDANT
TEST T A ECHANTILLON INDEPENDANT ET EGALITE

DE LA VARIANCE
p-value < 5%  H1 à retenir : les deux moyennes sont significativement différents 

on le constate aussi sur les valeurs des moyennes
100
TEST DE COMPARAISON DES MOYENNES – ECHANTILLON APPARIEE
En R, la fonction t.test() permet de réaliser le test à échantillon appariée, en précisant le

paramètre paired à TRUE
Pour ce test, il s’agit de comparer les moyennes de la même variable mesurer à
plusieurs reprises
Il s’agit d’un test, sur les

moyennes :
entre les moyennes
moyennes
p-value < 5%  H1 à retenir : les deux moyenne sont significativement différents donc
(*) ce test ne peut être utiliser qu’après la vérification de la normalité
101
TEST DE COMPARAISON DES PROPORTIONNALITES UNIVARIEES

Ce test est réalisé pour vérifier la différence entre deux proportionnalités, les
proportionnalités d’un échantillon par rapport à un autre échantillon/la population.
Ce test est possible sur les variables qualitatives de deux niveaux (binomial)
 Si ce test est utilisé pour comparer les proportionnalités de l’échantillon par rapport à
la population  C’EST UN TEST DE REPRÉSENTATIVITÉ
En R, la fonction qui permet de réaliser ce test est : prop.test(), pour préciser la
proportionnalité du premier niveau on renseigne le paramètre p de cette fonction
Il s’agit d’un test sur les

proportionnalités :
entre les proportionnalités
proportionnalités
p-value < 5%  H1 à retenir : les deux proportionnalités sont significativement
différents, vu que la proportionnalité définit pour le premier niveau est de 30% (donc
l’autre niveau est à 70%), qu’alors au niveau de l’échantillon les proportionnalités sont à
102
50%/50%
TEST DE COMPARAISON DES PROPORTIONNALITES BI-VARIEE

Ce test est réalisé pour vérifier la différence entre deux proportionnalités dans les
réponses pour deux variables qualitatives de deux niveaux (binomial)
En R, la fonction qui permet de réaliser ce test est : prop.test(), en fournissant la table
croisé des deux variables. Le calcul se fera sans correction.
Trie à plat des deux variables qualitatives de deux niveaux , il parait

qu’il y a pas de différence entre les réponses des hommes et des
femmes pour la même réponse sur la question1 (par colonne)
Il s’agit d’un test sur les proportionnalités
:
H0 : il y a pas de différence significative
H1 : il y a une différence significative
p-value > 5%  H0 à retenir : les deux proportionnalités (au niveau des lignes) ne sont
pas significativement différents (par colonne)
103
ANALYSE DE DONNEE AVEC R/RSTUDIO
Participantes Sexe Age Scolarité Fonction Revenuen$ Questionno1

1 1 45 17 1 56784 1
2 2 22 14 3 34342 2
3 1 47 19 1 67564 2
4 2 23 17 3 23456 1
5 1 40 13 2 56453 2
ETUDE DE CAS 6 2 41 17 2 45634 2
« Les chercheurs de cette étude 7
8
2
2
37
23
18
17
2
3
56789
23443
2
1
croient que les hommes ont un 9 2 25 16 3 36544 2
10 1 45 16 1 89098 1
revenu moyen supérieur à celui des 11 1 47 17 1 76876 2
femmes même si ces dernières ont 12 1 30 18 1 67875 2
13 2 22 14 3 34564 2
un niveau de scolarité & fonction 14 1 28 14 2 43221 2
équivalent à celui des hommes » (*). 15
16
2
1
28
31
14
18
2
2
45654
67567
2
1
17 1 25 19 2 52567 1
Question 1 : Selon vous, y-a-t’il 18 2 55 17 3 25678 2
19 2 30 17 1 57567 2
une différence entre les revenus 20 1 22 11 3 34567 2
des hommes et des femmes ? 21
22
1
1
22
21
19
12
3
3
43567
43234
2
2
(*) Données issues et adaptés du site 23 1 24 16 2 67897 1
http://pagesped.cahuntsic.ca/sc_sociales/p 24 1 22 14 2 45654 2
sy/methosite/accueil.htm 25 1 27 15 1 52123 2
26 2 24 15 1 63454 2
27 2 20 2 3 34444 1
Sexe Question no 1
28 2 18 13 3 43445 2
H=1- F=2 Oui= 1-Non= 2 29 2 22 17 1 64567 1041
30 2 22 18 1 59878 2
Atelier pratique > R Commander :
R Commander
“R Commander” est une extention R, sous licence GNU GPL, développer par
John Fox du departement de sociologie de l’univerité McMaster. “Rcmdr” est
similaire à l’interface graphique de SPSS avec des menus permettant de réaliser
différent analyse et des productions graphiques au niveau de la console R, sans
écrire presque aucune ligne de code R.
Installation :
install.packages(“Rcmdr", dep = TRUE)
Utilisation :
library(Rcmdr)
105
106
107
Ateliers pratiques :
R Commander
R commander permet de réaliser plusieurs analyses statistiques (descriptive uni-
varié/bi-varié, multi-varié, test d’hypothèse, régression et classification….)
Après installation et lancement du « R Commander », nous allons passer à l’atelier. Il
s’agit de réaliser les étapes ci-dessous, pour confirmer ou rejeter l’hypothèse de
l’atelier :
Test de
comparaison
Importation des Test de Test de des moyennes
Nettoyage
données normalité représentativité sur deux
échantillons
indépendants
Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes ont
un revenu moyen supérieur à celui des femmes même si ces dernières ont un niveau
de scolarité & fonction équivalent à celui des hommes ».
108
Hypothèse de recherche & les sous-hypothèses

Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes (H) ont un
Revenu Moyen (RM) supérieur à celui des femmes (F) même si ces dernières ont un niveau de
scolarité & fonction équivalent à celui des hommes ».
D’où on devrait d’abord tester les hypothèses suivantes :
H1 : Il y a pas de différence significative entre le nombre des Hommes & Femmes dans l’échantillon
H2 : Il y a pas de différence significative entre les années scolaires des Hommes et Femmes
H3 : Il y a pas de différence significative entre la répartition des hommes et femmes par fonction
Après, on devrait tester l’hypothèse :

H4 : Il y a une différence significative entre la moyenne du revenu des hommes et celui des femmes
Tous ces hypothèses de recherche, il faut les traduire en hypothèse statistique 

H1 : l’hypothèse alternative et H0 : l’hypothèse nul, pour chacune des hypothèses de recherche
 puis appliquer la règle d’or pour accepter ou rejeté l’hypothèse (p-value > 5%  H0 accepté, si
p-value < 5%  H1 accepté) 109
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
2 Les différents
formats pris en
compte par R
Commander
3
4 Nommé la dataset, puis préciser l’emplacement des
noms des variables et la conversion de la variable texte
5
en variable catégorielle (factor) et enfin préciser
110
l’indicateur de la valeur manquante, si ils en existent
Test de
comparaison des
deux échantillons
indépendants
Génération de la
commande R
Résultats de l’exécution de la
commande sur la console RStudio
111
Test de
comparaison des
deux échantillons
indépendants
2 4
Résultats de l’exécution de la
commande sur la console RStudio
Génération de la
commande R pour
la détection des
3 valeurs
manquantes
112
Test de
comparaison des
deux échantillons
indépendants
Test de
comparaison des
deux échantillons
indépendants
Pas de valeur
aberrante
Test de
comparaison des
deux échantillons
indépendants
1
3
4
2
5
p-value > 5 %  H0 accepté

Il n’y pas de différence significative
entre la loi normale 115
et la
distribution du revenu 
Test de
comparaison des
deux échantillons
indépendants
Nous disposons
d’une information
1 2 sur la population
3
 le revenu
moyen dans la
population est de
50000
116
Test de
comparaison des
deux échantillons
indépendants
P-value > 5 %  H0
accepté  Il y a pas de
entre la moyenne de la
population et la
moyenne de
l’échantillon  Test de
représentativité OK !
117
Test de
comparaison des
deux échantillons
indépendants
3
Saisir les proportionnalités par rapport à la population pour
lancer la comparaison avec ceux de l’échantillon 118
Test de
comparaison des
deux échantillons
indépendants
P-value > 5 %  H0
acceptée  Il y a pas
de différence
proportionnalités de la
population et ceux de
l’échantillon  Test de
représentativité OK !
119
Test de
comparaison des
deux échantillons
indépendants
120
Test de
comparaison des
deux échantillons
indépendants
Il faudrait passer par le test de Fisher pour

identifier si les variances dans les deux groupes
sont égaux ou pas
H0 est retenu  il y a pas de différence significative

entre la moyenne des années scolaire des femmes et
celui des hommes.  idem pour la fonction
121
Test de
comparaison des
deux échantillons
indépendants
1
2
122
Test de
comparaison des
deux échantillons
indépendants
P-value < 5 %  H1 est retenu  il y a une

différence significative entre la moyenne
des revenus des hommes et celui des
femmes. Et en plus, la moyenne du revenu
des hommes (group 1) est supérieur à celui
des femmes (group 2)
La différence des moyennes des revenus est constatée, aussi par

123
niveau de fonction chez les hommes et les femmes.
4-Regression
124
REGRESSION
DEFINITIONS
REGRESSION
La régression est un ensemble de méthodes statistiques utilisées pour

analyser la relation d'une variable VD par rapport à une ou plusieurs VI.
Quand il s’agit des variables quantitatives (VD et VI), on parle plutôt de

régression, par contre quand il s’agit de l’analyse de la relation entre des
variables qualitatives on parle de classification.
Cette relation entre le vecteur aléatoire Y sachant X, peut se faire par

toute élément définissant la distribution de Y sachant X : soit par rapport à
la moyenne, la médiane, le mode, la variance…. 125
REGRESSION
DEFINITIONS
REGRESSION | CORRELATION
La régression tente d’établir un modèle mathématique de la relation

entre les VI et VD, dont le but est de prédire les VD sachant les VI, alors que
la corrélation est une évaluation de cette relation (existe ou pas) et une
appréciation de son niveau (forte relation, faible relation) et son sens
(positive, négative).
La corrélation est un préalable à la régression.
126
REGRESSION
DEFINITIONS
MODELE DE
X REGRESSION Y
F(X)
MODELES DE REGRESSION
Régression linéaire (simple ou multiple) : la relation entre Y sachant une

(simple) ou plusieurs (multiple) X, est plutôt linéaire.
Régression non linéaire (régression approchée) : la relation est non linéaire,
on utilise des algorithmes d’approximation.
Régression logistique (Y est binomiale) : le cas ou on a la variable Y est une
variable de niveau (Oui ou non, Vrais ou faux, Homme ou Femme…)
Régression non paramétrique : quand la forme de la relation entre Y
sachant X, est inconnue. 127
REGRESSION
DEFINITIONS
RÉGRESSION SIMPLE
LINÉAIRE Technique d’estimation de la droite de
régression par la méthode des moindres
Y = b0 + b1 X +  carrées, il s’agit de réduire le résidus entre
la valeur estimée et la valeur mesurée
128
REGRESSION
DEFINITIONS
RÉGRESSION LINÉAIRE
MULTIPLE  UNE MATRICE
129
REGRESSION
DEFINITIONS
La régression polynomiale (c’est une régression linéaire
multiple) est une analyse statistique qui décrit la variation de
la variable expliquée, en fonction d'une variable explicative
par un polynôme de degré n.
SACHANT QUE :
130
REGRESSION
DEFINITIONS
La régression elliptique (régression circulaire) consiste à

trouver la « meilleure ellipse », décrivant un ensemble de
points. c'est-à-dire que la distance point-courbe modèle est
une distance perpendiculaire à la courbe.
C’est un cas d’une régression polynomiale (régression

multiple)
AVEC
131
REGRESSION
DEFINITIONS
La régression logistique est cas du modèle linéaire, ou il y a une relation linéaire entre
une ou plusieurs variables explicatives (prédictives) X et la variable à expliquer (à prédire)
Y, qui prend deux valeurs possibles (0 ou 1) (variable binomiale).
La régression est logistique, vu que la probabilité est modélisé par une loi logarithmique
(logistique).
132
REGRESSION
DEFINITIONS
La régression non linéaire, la relation entre Y et X ne suit pas une loi linéaire. Il s’agit
d’utiliser des algorithmes itérative d’approximation : Gauss-Newton, Levenberg-
Marquardt, algorithme de gradient . Le but de ces calculs, est de minimiser la valeur
résiduel entre les grandeurs estimées et observées, en utilisant des méthodes de calcul
numérique itérative, la solution finale retenu (converge) est celle qui produit un écart le
plus réduit.
133
REGRESSION
EXEMPLES
Exemple 1 : Prédiction des recettes d’un film hollywoodien titre

d’un livre sur base de :
Couts de production
 Couts publicitaires
Recettes du livres
Exemple 2 : Prédire la taille d’une personne à partir de :
la taille du père,
La taille de la mère
de son genre
Exemple 3 : Prédire le groupe (0 ou 1) d’appartenance des
individus en fonction de leurs :
 Tailles
 Ages
 Genres 134

R - Partie 2

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

R - Partie 2

Uploaded by

Copyright:

Available Formats

Programmation

Pr. Aniss MOUMEN (ENSA – Kenitra)

La population est l’ensemble des sujets observés.

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de

Collecte des ETAPES

Retranscription : après la réalisation des interviews, il faut les convertir

Définition des unités d’analyse :

Codage ou  Classification ou codage :

Guide d’entretien (Scénario de l’entretien groupe ou individuel):

Un ensemble de directives spécifiées (écrites) en support à l'entretien (interview) de

 Sélection des interviewées

Guide d’entretien avec la technique de l’entonnoir

Guide d’entretien avec la technique de l’entonnoir

Guide d’entretien (Scénario de l’entretien groupe ou individuel), un exemple

Guide d’entretien (Scénario de l’entretien groupe ou individuel), un exemple

Les outils à utiliser lors de l’entretien (à utiliser sans modération)

Les outils à utiliser lors de l’entretien (à utiliser avec modération)

Les outils à utiliser après l’entretien (sans modération)

APRÈS L’ENTRETIEN : RETRANSCRIPTION

Nettoyage des Saisie et codification

Tests des hypothèses

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

-La liste de la population n’est pas

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Taille de Population inconnue

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Cadre de Probabiliste Non-Probabiliste

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Taille de Population connue

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Cadre théorique Fort (Science exacte, Flexible (Social,

PROCESSUS (2) : DU TERRAIN A L’ANALYSE DE DONNE

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de

 Les DONNÉES sont les résultats d’une

 Les DONNEES sont soit de caractère :

Une variable = une colonne

Exemple : Déterminer les variables Quanti/Quali

 Une échelle de mesure est un ensemble de gradations permettant

 L’utilisation d’une échelle de mesure pour obtenir une réponse à une

 Le choix d’une échelle de mesure a des conséquences multiples sur les

 Etre conviviale pour le répondant (simple, facile d’utilisation,

Validité d'un outil de mesure/évaluation :

Echelle de mesure qualitative :

Echelle de mesure quantitative:

Échelle d'intervalles : Échelle quantitative qui consiste à repérer des variations

Échelle de rapports : Échelle quantitative qui consiste à mesurer les variations

 Variable Indépendante (VI) ou exogène : C’est le phénomène ou le facteur présumé

 Variable intermédiaire : n'est pas un phénomène en soi, mais plutôt un concept

Des variables intermédiaires (VT) :

Variable modératrice : Variable parasite qui atténue ou augmente la relation

Variable médiatrice : Tout facteur qui explique la relation entre X et Y. Il peut

VARIABLE D’ENTRÉE MODELE VARIABLE DE

RELATION ENTRE LES VARIABLES D’ENTRÉE ET LES

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de

Variable \ Représentation graphique

Descriptive > Représentation graphique

Analyse descriptive | Inférentielle

Statistique descriptive est l’ensemble de