Résumé Théorique : Régression Linéaire et
Logistique
Amine Khouildi
September 25, 2024
Introduction
Processus
Régression Linéaire Simple
▶ Objectif : Prédire une variable continue y à partir d’une seule
variable explicative x.
▶ Modèle : y = β0 + β1 x + ε
▶ Estimation des coecients β0 et β1 avec :
▶ Moindres carrés : Minimisation de la somme des carrés des
erreurs (SEC).
▶ Descente de gradient : Optimisation itérative pour minimiser
l’erreur.
Formule pratique :
ŷ = βˆ0 + βˆ1 x
Régression Linéaire Multiple
▶ Objectif : Prédire une variable continue y à partir de plusieurs
variables explicatives x1 , x2 , . . . , xn .
▶ Modèle : y = β0 + β1 x1 + β2 x2 + · · · + βn xn + ε
▶ Estimation des coecients avec la méthode des moindres
carrés ou la descente de gradient.
Formule pratique :
ŷ = βˆ0 + βˆ1 x1 + βˆ2 x2 + · · · + βˆn xn
Coefcient de Détermination R 2
▶ Le coecient de détermination R 2 mesure la proportion de la
variance de y expliquée par le modèle.
▶ Calcul basé sur les sommes des carrés :
▶ SCT (Somme des Carrés Totale) : Variabilité totale de y .
▶ SEC (Somme des Carrés des Erreurs) : Variabilité non
expliquée par le modèle.
▶ Formule :
SEC
R2 = 1 −
SCT
Où :
m
m
2
SCT = (yi − ȳ ) , SEC = (yi − ŷi )2
i=1 i=1
Descente de gradient
Interprétation de R 2
▶ Si R 2 = 1, le modèle explique parfaitement la variabilité de y .
▶ Si R 2 = 0, le modèle n’explique aucune variabilité.
▶ En pratique, un R 2 élevé (proche de 1) indique une bonne
adéquation du modèle.
▶ Attention à l’”overtting” : un R 2 très élevé sur l’échantillon
d’entraı̂nement peut indiquer un modèle trop complexe.
Tests Complémentaires
▶ Test de signicativité globale (F-statistique) : Vérie si au
moins une des variables explicatives a un eet signicatif sur
y.
▶ Tests de signicativité individuelle (t-tests) : Vérient si
chaque coecient β̂i est signicatif.
▶ Vérication des hypothèses :
▶ Linéarité
▶ Indépendance des erreurs
▶ Homoscédasticité (variance constante des erreurs)
▶ Normalité des erreurs
Test de Signicativité Globale (F-Statistique)
▶ Objectif : Vérier si au moins une des variables explicatives
(x1 , x2 , . . . , xn ) a un eet signicatif sur y .
▶ Hypothèses du test :
▶ H0 : Tous les coecients β1 , β2 , . . . , βn = 0 (pas d’eet des
variables explicatives).
▶ H1 : Au moins un des coecients βi ̸= 0.
▶ Formule de la F-statistique :
(SCT − SEC)/k
F =
SEC/(n − k − 1)
Où :
▶ k est le nombre de variables explicatives.
▶ n est la taille de l’échantillon.
▶ Si la F-statistique est supérieure à la valeur critique, on rejette
H0 et on conclut que le modèle est globalement signicatif.
Tests de Signicativité Individuelle (t-tests)
▶ Objectif : Vérier si chaque coecient β̂i est signicatif
individuellement.
▶ Hypothèses du test :
▶ H0 : βi = 0 (la variable xi n’a pas d’eet signicatif sur y ).
▶ H1 : βi =
̸ 0 (la variable xi a un eet signicatif).
▶ Formule de la statistique t :
β̂i
t=
erreur standard(β̂i )
▶ Si la statistique t est supérieure à la valeur critique (ou si la
p-valeur est inférieure à un seuil donné, généralement 0.05),
on rejette H0 et on conclut que la variable xi est signicative.
Vérication des Hypothèses : Linéarité
▶ Objectif : Vérier que la relation entre les variables
explicatives et la variable dépendante est linéaire.
▶ Méthode :
▶ Visualiser un graphique des résidus (diérences entre les
valeurs observées et prédites) par rapport aux valeurs prédites.
▶ Un modèle linéaire est approprié si les résidus sont distribués
de manière aléatoire autour de zéro, sans schéma particulier.
▶ Si les résidus montrent un schéma (comme une courbe), cela
suggère que la relation n’est pas linéaire, et une
transformation des variables ou un modèle non linéaire
pourrait être plus approprié.
Vérication des Hypothèses : Indépendance des Erreurs
▶ Objectif : Vérier que les erreurs (ou résidus) sont
indépendantes les unes des autres.
▶ Méthode :
▶ Utiliser le test de Durbin-Watson : Ce test détecte la
corrélation sérielle (autocorrélation) des erreurs.
▶ Hypothèses du test de Durbin-Watson :
▶ H0 : Pas d’autocorrélation des résidus.
▶ H1 : Autocorrélation présente.
▶ Valeurs de Durbin-Watson proches de 2 indiquent une absence
d’autocorrélation. Des valeurs proches de 0 ou 4 suggèrent
une autocorrélation positive ou négative, respectivement.
Vérication des Hypothèses : Homoscédasticité
▶ Objectif : Vérier que la variance des erreurs est constante à
travers toutes les valeurs de la variable explicative.
▶ Méthode :
▶ Tracer un graphique des résidus par rapport aux valeurs
prédites.
▶ Si les résidus sont distribués de façon homogène autour de
zéro, cela indique l’homoscédasticité.
▶ Si un motif en ”éventail” apparaı̂t (des résidus croissants ou
décroissants en fonction des valeurs prédites), cela indique de
l’hétéroscédasticité.
▶ Le test de Breusch-Pagan peut également être utilisé pour
tester l’homoscédasticité.
Vérication des Hypothèses : Normalité des Erreurs
▶ Objectif : Vérier que les erreurs suivent une distribution
normale.
▶ Méthode :
▶ Tracer un histogramme des résidus pour voir s’ils suivent une
courbe en cloche.
▶ Utiliser un **Q-Q plot** (Quantile-Quantile) : Un Q-Q plot
compare la distribution des résidus à une distribution normale.
Si les points se situent le long de la ligne diagonale, cela
indique une normalité.
▶ Si les erreurs ne sont pas normalement distribuées, cela peut
aecter la validité des tests t et F. Des transformations de
données (comme un logarithme) peuvent être nécessaires.