Professional Documents
Culture Documents
R - Partie 2
R - Partie 2
Python & R
ENSA de Kenitra
2
DEMARCHE D’ETUDE STATISTIQUE
ÉCHANTILLON
POPULATION Problème
Enquête
OBSERVATION
ANALYSE DESCRIPTIVE Analyse
Interprétation
GÉNERALISATION
ANALYSE INFÉRENTIELLE Rapport
3
DEMARCHE D’ETUDE STATISTIQUE
Rappel – Statistique
Vocabulaire Statistique
4
DEMARCHE D’ETUDE STATISTIQUE
5
DEMARCHE D’ETUDE STATISTIQUE
Méthodes Quanti/Quali :
Quantitative Qualitative
-Interprétation qualitative
-Mesure quantitative
- En recherche la motivation, les
-Appliquer sur les phénomènes
raisons humaines, les opinions, les
mesurables
avis…
-Enquêtes
-Interviews
-Analyse quantitative
-Analyse textuelle
(Statistique)
DEMARCHE D’ETUDE STATISTIQUE
Observation, phénomène
nouveau, perspective, limite,
Formuler le
problème
validation….
Etude
Résultats, documentaire
Etat d’art ou
Interprétation,
revue de
Discussion et
littérature
Conclusion
Modèle théorique
Etude Exploratoire
Collecte &
Méthodologie
Analyse des
de recherche
données
Démarche Quanti/Quali,
Expériences….
DEMARCHE D’ETUDE STATISTIQUE
CONSTRUITS-ENTITÉS CONSTRUITS-
VARIABLES EXPLICATIFS ENTITÉS
Xi MODÈLE VARIABLES
F(Xi) A
EXPLIQUER
Yi
Recherche
documentaire
Etude exploratoire
(Etude de cas – Etude
pilote…)
Etude exploratoire > Méthodes et techniques
Focus groupes
Directes
Entretiens en
profondeur
Etudes Techniques
qualitatives d’expression
Techniques de
construction
Techniques
Indirectes
projectives
Phrases à
compléter
Techniques
d’association
Etude exploratoire > Méthodes et techniques
Techniques projectives :
Une approche de collecte des données auprès des répondants, d’une manière indirecte et
ouverte, sans dévoiler explicitement et en détail le but de l’étude.
Intérêt :
-Découvrir les opinions, les avis, les motivations, les attitudes, les sentiments cachés du
répondant
Techniques d’association : Un stimulus est présenté pour le répondant et on lui demande d’y
associer sa premier pensée.
Exemple : l’association des mots (proposer une liste des mots aux répondants)
On analyse la fréquence des mots des répondants.
Techniques d’éléments à compléter : Le répondant complète une phrase ou une histoire
(incomplète).
Techniques de construction : Le répondant construit une histoire, dialogue ou une
description.
Exemple :
- On propose une image et on laisse le répondant décrire ou raconter une histoire (test
d’image)
- On propose une bande dessiné et on laisse le répondant décrire le dialogue (test de bandes
dessinées)
Techniques d’expression : Le répondant décrit ce que pourrait penser une autre personne
(Technique de jeux de rôle, Technique de la tierce personne)
Etude exploratoire
Etude exploratoire
Etude exploratoire > Méthodes et techniques
Définition :
Un focus group (ou groupe de discussion) est une forme de recherche qualitative qui prend
forme au sein d'un groupe spécifique (cible), afin de déterminer la réponse de ce groupe et
l'attitude qu'il adopte au regard d'un concept, problématique, phénomène, événement….
L’intérêt :
-Récolter de l’information en écoutant l’échange entre les participants
- Révéler des résultats inattendus
-Une technique très utilisé en recherche qualitative
Caractéristiques :
Taille du groupe 8 – 12 participants
Composition Homogène (présélection)
Cadre Atmosphère favorisant l’échange
Durée 1 à 3 Heures
Enregistrement Audio/Vidéo
Animateur (*) Compétences en interaction et de
communication
Etude exploratoire > Méthodes et techniques
Etude exploratoire > Méthodes et techniques
Définition :
Un entretien en profondeur consiste à collecter des informations laissant au répondant
la liberté de détailler au maximum son opinion sur un sujet spécifique. Selon cette
méthode, le rôle de l’intervieweur est de guider et de canaliser le flux d’informations en
fonction de l’objet de l’étude ; on parle d’une interaction semi-directive. Ce type
d’entretien se concentre sur les éléments pertinents qui correspondent à l’objectif de
l’étude en question.
Intérêt :
-Découvrir les opinions, les avis, les motivations, les attitudes, les sentiments du
répondant
Mode de l’Entretien Face à face et individuelle
Durée 30 min à plus d’une heure
Enquêteur (*) Favorise l’expression du répondant,
avec des questions ouverts (à votre avis
est ce que …, voulez vous ajoutez
quelque chose….)
Enregistrement Audio/vidéo
Etude exploratoire > Méthodes et techniques
Entretien : Exemples
ENTRETIEN NON
DIRECTIF
Guide d’entretien : Exemples
ENTRETIEN
DIRECTIF
Etude exploratoire > Méthodes et techniques
C’est une préparation et une planification des entretiens en écrit : Espace - Temps
Phase introductive
Phase centrage
Phase approfondissement
Phase conclusion
Etude exploratoire > Méthodes et techniques
PHASE INTRODUCTIVE :
Objectif : évacuer les stéréotypes sur les vacances organisées .
Questions possibles :
1. Voulez vous me raconter vos dernières vacances ?
2. Comment cela c’est passé ?
3. Raconter une journée type ?
4. Quelle serait une journée idéal ?
PHASE DE CENTRAGE :
Objectif : Suggérer, crédibiliser une éventualité de vacances organisées.
Questions possibles :
5. Quelle serait votre réaction si vous gagner un prix pour un voyage organisée ?
6. Comment vous allez vous organisez ?
…
Sous thème : l’organisation > quel mode de transport ?, le rôle de l’animateur ?, raconter nous
une journée type ? Une semaine type ?
Sous thème : les compagnons de voyage > combien seront-ils ? Leurs catégories ? Leurs
origines ?
Etude exploratoire > Méthodes et techniques
PHASE D’APPROFONDISSEMENT :
Objectif : Construire le produit « vacances organisées idéales »
Imaginons que vous êtes l’organisateur
Sous-thème 1 : accueil, lieu > comment les accueilleriez-vous ? Qu’est ce qui serait bien de
faire ? Les difficultés qu’on pourrait rencontrer ?
Sous-thème 2 : formule, activités, animation > raconter une journée type ? Une semaine ? Les
activités possibles ? Quel serait l’étudiant idéal intéressé ?
Sous-thème 3 : Prix à prévoir > quel budget ? Quelles options ? Quelles facilités de
paiement?
PHASE DE CONCLUSION:
Objectif : Retour à la réalité
Est-ce que vous serez intéressé par les formules existantes ? Vous les conseilleriez à qui ?...
Nous sommes parvenus à la fin de notre entretien, je voudrais vous remercier pour votre
participation.
Etude exploratoire > Méthodes et techniques
TYPE DE RETRANSCRIPTION :
• La retranscription sociologique ou In extenso.
• La retranscription mot pour mot ou compte rendu intégrale reformulé.
• La retranscription Ubiqus ou compte rendu reformulé.
• La retranscription en synthèse
DUREE :
De quelques minutes à des heurs, de retranscription pour chaque citation.
DEMARCHE D’ETUDE STATISTIQUE
SYNTHÈSE
Choix de la
Définition de la Cadre de Taille de
méthode
population l’échantillonnage l’échantillon
d’échantillonnage
Cadre de
l’échantillonnage
Aléatoire simple
Systématique
Choix de la méthode Oui Probabiliste Stratifié
d’échantillonnage
Grappes
Liste de la Phases multiples
Taille de population ? De convenance
l’échantillon De jugement
Boule de neige
Non Non-probabiliste
Par quota
Pré-test de l’appareil
de mesure Volontaire
Structurée aléatoire
Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste
Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste
Taille de l’échantillon (E) est une fonction du : (1) % des chances qu’un
Choix de la méthode individu répond (A) ou pas (B) (en général 0.5), (2) Marge d’erreur (ER) si la
d’échantillonnage même question est reposée pour un autre échantillon (3%, 5%...), (3) Niveau
de confiance (Z) (les niveaux usuelles : 99%, 95%, 90% et 68%)
A B
Pré-test de l’appareil
de mesure
E 2
ER
Travail de terrain… Z
ECHANTILLONNAGE
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste
Taille de l’échantillon (E) est une fonction du : (1) % des chances qu’un
Choix de la méthode individu répond (A) ou pas (B) (en général 0.5), (2) Marge d’erreur (ER) si la
d’échantillonnage même question est reposée pour un autre échantillon (3%, 5%...), (3) Niveau
de confiance (Z) (les niveaux usuelles : 99%, 95%, 90% et 68%)
Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE
Choix de la méthode
d’échantillonnage
Taille de
l’échantillon
Pré-test de l’appareil
de mesure
Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE
Cadre de
l’échantillonnage AMOS PLS
Pré-test de l’appareil
de mesure
Travail de terrain…
DEMARCHE D’ETUDE STATISTIQUE
Saisie Intégration ou importation des données : Soit que les données sont à saisir
manuellement au niveau du logiciel d’analyse de donnée ou à importer depuis
un fichier externe (Excel…)
Analyse de donnée : Il s’agit des différents opérations effectuées sur les
Codification données, permettant d’avoir une vue et une visualisation synthétique de ces
données.
Exploration des données : Les données manquantes &redondantes
Intégration des données Epuration des données statistique descriptive uni-variée
1er test : Test de normalité, Test de représentativité
Tests d’hypothèse – H0 et H1
Corrélation/Régression/Analyse factorielle
Analyse de donnée
Modèle statistique
>> 38
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4-Regression
39
INTRDODUCTION
40
STATISTIQUE DESCRIPTIVE > DONNEES
Qualitative Quantitative
Recherche COLLECTE DES DONNÉES (en science
documentaire
sociale, gestion et humaine) se fait via des
ENQUÊTES (QUESTIONNAIRES et/ou
ENTRETIENS). Deux catégories de collecte :
Données
Données non structurées
structurées (Texte, Tableaux (Variable Recensement : toute la population est
Image, Sons, quantitative, étudiée
Vidéo…) Variable
qualitative)
Sondage : un échantillon de la
population qui est étudiée
41
STATISTIQUE DESCRIPTIVE > VARIABLES
Variables :
Variable : Tout phénomène qui varie, soit naturellement ou artificiellement,
et qui peut être décrit et mesuré sur une échelle (quantitative, qualitative).
Variables qualitatives ?
Variable quantitatives ?
43
STATISTIQUE DESCRIPTIVE > VARIABLES
Echelle de mesure :
Collecte de données :
45
STATISTIQUE DESCRIPTIVE > VARIABLES
Échelle nominale : Échelle qualitative qui consiste à classer et nommer les variations
d'un phénomène en fonction de catégories
Échelle ordinale : Échelle qualitative qui consiste à classer et à mettre en ordre les variations
d'un phénomène selon un critère connu.
46
STATISTIQUE DESCRIPTIVE > VARIABLES
47
STATISTIQUE DESCRIPTIVE > VARIABLES
Variables :
ON DISTINGUE :
Variable contrôlé (VC) : est toute variable indépendante exclue de la situation de recherche
par le chercheur, dans le but d’isoler l’effet de la variable indépendante (de recherche)– elle
est utilisée pour agir sur la variance en situation de corrélation entre VD et VI.
Variables :
Il y a aussi :
Variable latente : est une variable qui ne peut pas être mesurée directement,
mais qui est supposée être à la base des variables observées.
Source :
http://pagesped.cahuntsic.ca/sc_sociales/psy/introsite/lexique/lexique.htm 49
STATISTIQUE DESCRIPTIVE > VARIABLES
Variables/Modèle :
50
STATISTIQUE DESCRIPTIVE > GRAPHIQUES
51
STATISTIQUE DESCRIPTIVE > GRAPHIQUES
Histogramme
Continue Courbe
Quantitative
Boite à
Discrète
moustache
Variable
Diagramme
Nominale en bâtonnets
Qualitative
Ordonnale
Diagramme
en bâtons
Diagramme
en barre
Diagramme
circulaire 52
STATISTIQUE DESCRIPTIVE > GRAPHIQUES
Source : Julien Labreuche, «Les différents types de variables, leurs représentations graphiques et
paramètres descriptifs », STV, vol. 22, n° 10, décembre 2010
53
STATISTIQUE DESCRIPTIVE > NUMERIQUE
54
STATISTIQUE DESCRIPTIVE > NUMERIQUE
Indicateurs statistiques
Indicateurs de position :
Moyenne : est la valeur obtenue lorsque toutes les valeurs sont égales (la
distribution est équitable). On distingue plusieurs types de moyennes,
exemple : Moyenne arithmétique (simple ou d’une série classé)
Médiane : qui permet de déterminer le point milieu d'une distribution.
Mode : est la valeur ou modalité ou classe, la plus fréquente d’une la
variable.
Quantile : divise la distribution en n parties égales en nombre
d’observation la médiane est un quantile d’ordre deux (elle divise la
distribution en deux).
55
STATISTIQUE DESCRIPTIVE > NUMERIQUE
Indicateurs statistiques
Indicateurs de dispersion :
L’étendue : est l’amplitude entre les valeurs extrêmes (minimum et maximum) d’une
distribution
Variance (s2) : Il s'agit de la moyenne arithmétique des carrés des écarts à la moyenne. C’est
une mesure de la dispersion des observations par rapport à la moyenne.
RQ : la somme des écarts à la moyenne est toujours nulle, c’est pour cette raison, qu’on
introduit la moyenne des carrés des écarts à la moyenne. La variance est aussi appelé le
moment centré d’ordre deux. La variance est toujours positive.
Ecart-type : Cette mesure évalue l'écart-moyen entre chaque résultat d'une distribution et la
moyenne de cette distribution, c’est la racine carré de la variance. Quand l’écart-type des
valeurs de X est petit (par rapport à la moyenne et à l’étendu), ceci signifie que les valeurs de X
sont susceptible d’être centrées sur la moyenne.
La covariance : caractérise les variations simultanées de deux variables aléatoires. Deux
variables indépendantes leurs covariances est nulle
56
STATISTIQUE DESCRIPTIVE > NUMERIQUE
57
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
58
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
59
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
TABLEAUX DE DONNEES :
Tableaux des données individuelles : on dispose des mesures d'une ou de plusieurs
variables pour chacun des N individus constitutifs d'une certaine population. Les données
sont en général organisées dans un data.frame.
le tableau des effectifs ou des fréquences (appelé tri à plat) permet d'appréhender
plus facilement la distribution d'une variable, notamment qualitative ou ordinale.
Il s'obtient au moyen de la fonction table().
60
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
TABLEAUX DE DONNEES :
Tableaux de données regroupées en classes, représente un tableau de données
individuelles, récoltées sur une ou plusieurs variables quantitatives, sous une forme plus
condensée. On utilise la fonction hist() pour récupérer les classes, puis on manipule la
variable « breaks ».
61
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
Le tableau de la distribution
conjointe ou tri croisé en fréquences
relatives du couple (X, Y) 62
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
63
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
RÉSUMÉS NUMÉRIQUES :
Résumés de position d'une distribution : le ou les modes (la valeur la plus fréquente)
Résumés de position d'une distribution : la médiane (la valeur qui coupe la distribution
statistique en deux partie, si l'effectif total N de la série est impair. Dans ce cas, la médiane
est la valeur à la position (N+1)/2, sinon si l'effectif total N de la série est pair. Dans ce cas,
n'importe quelle valeur comprise entre les valeurs aux positions (N/2) et (N/2) + 1
RÉSUMÉS NUMÉRIQUES :
Résumés de position d'une distribution : les fractiles (les quantiles) d'ordre p (0 < p < 1)
est la valeur qp de la variable X qui coupe l'échantillon en deux portions, l'une ayant un
nombre d'éléments égal à p % du nombre total d'éléments dans x (ce sont les éléments
inférieurs à qp) , l'autre à (1 - p) % (ce sont les éléments supérieurs à qp). Il ne se calcule pas
pour des variables purement qualitatives.
65
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
RÉSUMÉS NUMÉRIQUES :
Résumés de dispersion d'une distribution : la variance et l’écart type
RÉSUMÉS NUMÉRIQUES :
Résumés de forme d'une distribution : les coefficients d'asymétrie (skewness) et
d'aplatissement (kurtosis)
66
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
MESURE D’ASSOCIATION
Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson : il mesure le dégrée d’indépendance entre deux
variables qualitative, en se basant sur les effectives observées et les effectives théoriques
MESURE D’ASSOCIATION
Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson :
la fonction chisq.test () permet de calculer le Khi-deux.
68
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
MESURE D’ASSOCIATION
Mesures de liaison entre deux variables qualitatives (correspondance)
La statistique du Khi-2 de Pearson :
Après le calcul de dégrée de correspondance entre deux variables qualitatives, si il y a une
association, nous pouvons apprécier la force de cette association, par le calcul de V-deux
de Cramer
V de Cramer : nous renseigne sur la force de la relation entre les deux variables
catégorielle : La valeur de V est généralement comprise entre 0 (pas de relation) et 1
(relation compléte).
V de cramer = 0.067 relation faible
69
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
MESURE D’ASSOCIATION
Mesures de liaison entre deux variables quantitative (corrélation)
Coefficient de corrélation
70
STATISTIQUE DESCRIPTIVE UNIVARIEE AVEC R
MESURE D’ASSOCIATION
Mesures de liaison entre deux variables quantitative (corrélation)
MESURE D’ASSOCIATION
Mesures de liaison entre une variables quantitative Y et une variable qualitative X
Le degré de liaison entre une variable quantitative Y et une variable qualitative X, est
mesuré par le rapport de corrélation par modalité de la variable X, appelé eta2.
72
EXERCICES
TP
73
STATISTIQUE & ANALYSE DE DONNEE AVEC R – PARTIE 2
1- Démarche d’une étude statistique
2 – Statistique descriptive
3 - Statistique inférentielle
4-Regression
74
INTRDODUCTION
OBSERVATION
ANALYSE DESCRIPTIVE Analyse
Interprétation
GÉNERALISATION
ANALYSE INFÉRENTIELLE Rapport
75
VARIABLE, LOI & PHENOMENE
Théorie Réalité
Plusieurs phénomène naturel suit un modèle mathématique appelé loi normale (loi de
Laplace – Gauss). C’est l’une des lois de probabilités les plus adaptées pour modéliser des
phénomènes naturels issus de plusieurs évènements aléatoires, exemple :
Quasiment tout ce qui est humain : taille, poids, pousse des cheveux, des ongles,
paramètres biologiques, durée du sommeil, etc.
Quasiment tout le vivant : taille et poids des graines, vitesse de pousse, rendement à
l'hectare, poids des animaux, etc.
Toute la production industrielle de masse : prenons des balles de tennis, donc le poids, la
76
résistance à l'usure, la pression, etc.
VARIABLE, LOI & PHENOMENE
X1 X2
Selon les mathématiciens Georges Darmois (1951) et Sergeï Bernstein (1954) : pour deux
variable aléatoire indépendantes X1 et X2 qui suivent la loi normale, et Si (X1 + X2) et (X1 –
X2), sont aussi deux variables aléatoires indépendantes, alors la loi commune de X1 et X2 est
une loi normale LA LOI NORMALE EST UTILISÉE POUR LES TESTS DES HYPOTHÈSES
X1
F(X1, X2) Y
X2 77
VARIABLE, LOI & PHENOMENE
78
VARIABLE, LOI & PHENOMENE
Loi normale Loi N.C.R Loi binomiale Loi de Khi 2 Loi de Student Loi de Fisher
Proche de la Loi normale La loi binomiale, la loi de la Est le quotient est le quotient de
réalité centrée sur Zéro et d’une variable somme de entre une deux variables
dont l’écart-type aléatoire est carré de k lois variable VI aléatoires (VI),
est égale à 1 fonction du N.C.R suivant une loi distribuées
n épreuves, et N.C.R et chacune selon
p probabilité la racine une Loi du Khi -
de succès. Elle carrée d'une 2 et ajustées
devient une variable (VI) pour leurs ddl
N.C.R, si n est suivant la loi du
important Khi – 2 ajusté
par k ddl
79
ECHANTILLONNAGE
80
HYPOTHESES
81
TEST D’HYPOTHÈSE
Seuil de significativité
Le test d’hypothèse consiste à déterminer entre quelles valeurs peut varier la variable
aléatoire, en supposant l’hypothèse vraie.
82
TEST D’HYPOTHÈSE
Pour rejeter ou pas l’hypothèse nulle H0, on définit un seuil appelé aussi niveau de
significativité alpha, au delà du quel (c-a-d, supérieur) on peut pas rejeter l’hypothèse
nulle.
C’est-à-dire :
DEFINITION
Test graphique
paramétrique (plus fort) : distributions
statistiques supposées dans les données. Il
Test d’hypothèse faut vérifié la validité.
Adapté pour les échantillons importants
(>30)
Numérique
DEFINITION
88
TEST D’HYPOTHÈSE
DEFINITION
Test d’hypothèse
Paramétrique Non-paramétrique
Table de
Comparaison Comparaison
contingence Test sur le Test des
de la de la variance Khi-deux
& Test Khi- rang signes
moyenne et ANOVA
deux
En fonction de nos objectifs de recherche et sa méthodologie, Nous pouvons appliquer ces
tests , soit à UN ÉCHANTILLON UNIQUE OU À DEUX ÉCHANTILLONS (SIMILAIRES OU
DIFFÉRENTS)
92
Source : https://keydifferences.com/difference-between-parametric-and-nonparametric-test.html
TEST D’HYPOTHÈSE
SYNTHÈSE
Choix du test
adéquats en Définition de
Choix du test Détermination
fonction des l’intervalle de Calcul du p-
en fonction de des
variables : confiance et value & Interprétation
la distribution hypothèses H0
continue, niveau de comparaison α
de l’échantillon et H1
nominale, significativité α
ordinale
93
ANALYSE DE DONNÉE
SYNTHÈSE
Nettoyage des
données : données Saisie et codification Pré-test de l’appareil
Travail de terrain…
manquantes, des données de mesure
données aberrante
94
TEST D’HYPOTHÈSE AVEC R
Il s’agit de tester si la distribution d’une variable suit la loi normale ou pas :
H0 : Il n’y a pas de différence significative entre la loi normale et notre distribution
H1 : il y a une différence significative entre la loi normale et notre distribution
En R, la fonction shapiro.test() permet de réaliser ce test.
95
TEST D’HYPOTHÈSE AVEC R
Il s’agit de tester si les proportionnalités d’une variable d’un échantillon sont
significativement les mêmes que dans une population :
H0 : Il n’y a pas de différence significative entre les proportionnalités dans
l’échantillon et la population
H1 : il y a une différence significative entre les proportionnalités dans l’échantillon
et la population
En R, la fonction chisq.test() permet de réaliser ce test.
Les proportions
dans la
population par
niveau
p-value > 5% H0 à retenir : les deux moyennes ne sont pas significativement différent
97
TEST D’HYPOTHÈSE AVEC R
ECHANTILLONS INDÉPENDANTS
ECHANTILLONS APPARIÉS
COMPARAISON
DE LA MOYENNE
98
TEST D’HYPOTHÈSE AVEC R
p-value > 5% H0 à retenir : les deux variance ne sont pas significativement différents
donc on peut conclure que pour le test t var.equal = TRUE
(*) ce test ne peut être utiliser qu’après la vérification de la normalité 99
TEST D’HYPOTHÈSE AVEC R
p-value < 5% H1 à retenir : les deux moyenne sont significativement différents donc
(*) ce test ne peut être utiliser qu’après la vérification de la normalité
101
TEST D’HYPOTHÈSE AVEC R
p-value > 5% H0 à retenir : les deux proportionnalités (au niveau des lignes) ne sont
pas significativement différents (par colonne)
103
ANALYSE DE DONNEE AVEC R/RSTUDIO
R Commander
“R Commander” est une extention R, sous licence GNU GPL, développer par
John Fox du departement de sociologie de l’univerité McMaster. “Rcmdr” est
similaire à l’interface graphique de SPSS avec des menus permettant de réaliser
différent analyse et des productions graphiques au niveau de la console R, sans
écrire presque aucune ligne de code R.
Installation :
install.packages(“Rcmdr", dep = TRUE)
Utilisation :
library(Rcmdr)
105
ANALYSE DE DONNEE AVEC R/RSTUDIO
106
ANALYSE DE DONNEE AVEC R/RSTUDIO
107
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
R Commander
R commander permet de réaliser plusieurs analyses statistiques (descriptive uni-
varié/bi-varié, multi-varié, test d’hypothèse, régression et classification….)
Après installation et lancement du « R Commander », nous allons passer à l’atelier. Il
s’agit de réaliser les étapes ci-dessous, pour confirmer ou rejeter l’hypothèse de
l’atelier :
Test de
comparaison
Importation des Test de Test de des moyennes
Nettoyage
données normalité représentativité sur deux
échantillons
indépendants
Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes ont
un revenu moyen supérieur à celui des femmes même si ces dernières ont un niveau
de scolarité & fonction équivalent à celui des hommes ».
108
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
H1 : Il y a pas de différence significative entre le nombre des Hommes & Femmes dans l’échantillon
H2 : Il y a pas de différence significative entre les années scolaires des Hommes et Femmes
H3 : Il y a pas de différence significative entre la répartition des hommes et femmes par fonction
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
2 Les différents
formats pris en
compte par R
Commander
3
4 Nommé la dataset, puis préciser l’emplacement des
noms des variables et la conversion de la variable texte
5
en variable catégorielle (factor) et enfin préciser
110
l’indicateur de la valeur manquante, si ils en existent
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
Génération de la
commande R
Résultats de l’exécution de la
commande sur la console RStudio
111
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
2 4
Résultats de l’exécution de la
commande sur la console RStudio
Génération de la
commande R pour
la détection des
3 valeurs
manquantes
112
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
Pas de valeur
aberrante
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
1
3
4
2
5
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
Nous disposons
d’une information
1 2 sur la population
3
le revenu
moyen dans la
population est de
50000
116
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
P-value > 5 % H0
accepté Il y a pas de
différence significative
entre la moyenne de la
population et la
moyenne de
l’échantillon Test de
représentativité OK !
117
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
3
Saisir les proportionnalités par rapport à la population pour
lancer la comparaison avec ceux de l’échantillon 118
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
P-value > 5 % H0
acceptée Il y a pas
de différence
significative entre les
proportionnalités de la
population et ceux de
l’échantillon Test de
représentativité OK !
119
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
120
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
121
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
1
2
122
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
124
REGRESSION
DEFINITIONS
REGRESSION
DEFINITIONS
REGRESSION | CORRELATION
126
REGRESSION
DEFINITIONS
MODELE DE
X REGRESSION Y
F(X)
MODELES DE REGRESSION
DEFINITIONS
RÉGRESSION SIMPLE
LINÉAIRE Technique d’estimation de la droite de
régression par la méthode des moindres
Y = b0 + b1 X + carrées, il s’agit de réduire le résidus entre
la valeur estimée et la valeur mesurée
128
REGRESSION
DEFINITIONS
RÉGRESSION LINÉAIRE
MULTIPLE UNE MATRICE
129
REGRESSION
DEFINITIONS
La régression polynomiale (c’est une régression linéaire
multiple) est une analyse statistique qui décrit la variation de
la variable expliquée, en fonction d'une variable explicative
par un polynôme de degré n.
SACHANT QUE :
130
REGRESSION
DEFINITIONS
AVEC
131
REGRESSION
DEFINITIONS
La régression logistique est cas du modèle linéaire, ou il y a une relation linéaire entre
une ou plusieurs variables explicatives (prédictives) X et la variable à expliquer (à prédire)
Y, qui prend deux valeurs possibles (0 ou 1) (variable binomiale).
La régression est logistique, vu que la probabilité est modélisé par une loi logarithmique
(logistique).
132
REGRESSION
DEFINITIONS
La régression non linéaire, la relation entre Y et X ne suit pas une loi linéaire. Il s’agit
d’utiliser des algorithmes itérative d’approximation : Gauss-Newton, Levenberg-
Marquardt, algorithme de gradient . Le but de ces calculs, est de minimiser la valeur
résiduel entre les grandeurs estimées et observées, en utilisant des méthodes de calcul
numérique itérative, la solution finale retenu (converge) est celle qui produit un écart le
plus réduit.
133
REGRESSION
EXEMPLES