0% found this document useful (0 votes)
181 views15 pages

Régression Linéaire Cours - Machine Learning

Uploaded by

so9ratcrypto
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
181 views15 pages

Régression Linéaire Cours - Machine Learning

Uploaded by

so9ratcrypto
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd

Résumé Théorique : Régression Linéaire et

Logistique

Amine Khouildi

September 25, 2024


Introduction
Processus
Régression Linéaire Simple

▶ Objectif : Prédire une variable continue y à partir d’une seule


variable explicative x.
▶ Modèle : y = β0 + β1 x + ε
▶ Estimation des coecients β0 et β1 avec :
▶ Moindres carrés : Minimisation de la somme des carrés des
erreurs (SEC).
▶ Descente de gradient : Optimisation itérative pour minimiser
l’erreur.
Formule pratique :
ŷ = βˆ0 + βˆ1 x
Régression Linéaire Multiple

▶ Objectif : Prédire une variable continue y à partir de plusieurs


variables explicatives x1 , x2 , . . . , xn .
▶ Modèle : y = β0 + β1 x1 + β2 x2 + · · · + βn xn + ε
▶ Estimation des coecients avec la méthode des moindres
carrés ou la descente de gradient.
Formule pratique :

ŷ = βˆ0 + βˆ1 x1 + βˆ2 x2 + · · · + βˆn xn


Coefcient de Détermination R 2

▶ Le coecient de détermination R 2 mesure la proportion de la


variance de y expliquée par le modèle.
▶ Calcul basé sur les sommes des carrés :
▶ SCT (Somme des Carrés Totale) : Variabilité totale de y .
▶ SEC (Somme des Carrés des Erreurs) : Variabilité non
expliquée par le modèle.
▶ Formule :
SEC
R2 = 1 −
SCT
Où :

m 
m
2
SCT = (yi − ȳ ) , SEC = (yi − ŷi )2
i=1 i=1
Descente de gradient
Interprétation de R 2

▶ Si R 2 = 1, le modèle explique parfaitement la variabilité de y .


▶ Si R 2 = 0, le modèle n’explique aucune variabilité.
▶ En pratique, un R 2 élevé (proche de 1) indique une bonne
adéquation du modèle.
▶ Attention à l’”overtting” : un R 2 très élevé sur l’échantillon
d’entraı̂nement peut indiquer un modèle trop complexe.
Tests Complémentaires

▶ Test de signicativité globale (F-statistique) : Vérie si au


moins une des variables explicatives a un eet signicatif sur
y.
▶ Tests de signicativité individuelle (t-tests) : Vérient si
chaque coecient β̂i est signicatif.
▶ Vérication des hypothèses :
▶ Linéarité
▶ Indépendance des erreurs
▶ Homoscédasticité (variance constante des erreurs)
▶ Normalité des erreurs
Test de Signicativité Globale (F-Statistique)
▶ Objectif : Vérier si au moins une des variables explicatives
(x1 , x2 , . . . , xn ) a un eet signicatif sur y .
▶ Hypothèses du test :
▶ H0 : Tous les coecients β1 , β2 , . . . , βn = 0 (pas d’eet des
variables explicatives).
▶ H1 : Au moins un des coecients βi ̸= 0.
▶ Formule de la F-statistique :

(SCT − SEC)/k
F =
SEC/(n − k − 1)

Où :
▶ k est le nombre de variables explicatives.
▶ n est la taille de l’échantillon.
▶ Si la F-statistique est supérieure à la valeur critique, on rejette
H0 et on conclut que le modèle est globalement signicatif.
Tests de Signicativité Individuelle (t-tests)

▶ Objectif : Vérier si chaque coecient β̂i est signicatif


individuellement.
▶ Hypothèses du test :
▶ H0 : βi = 0 (la variable xi n’a pas d’eet signicatif sur y ).
▶ H1 : βi =
̸ 0 (la variable xi a un eet signicatif).
▶ Formule de la statistique t :

β̂i
t=
erreur standard(β̂i )
▶ Si la statistique t est supérieure à la valeur critique (ou si la
p-valeur est inférieure à un seuil donné, généralement 0.05),
on rejette H0 et on conclut que la variable xi est signicative.
Vérication des Hypothèses : Linéarité

▶ Objectif : Vérier que la relation entre les variables


explicatives et la variable dépendante est linéaire.
▶ Méthode :
▶ Visualiser un graphique des résidus (diérences entre les
valeurs observées et prédites) par rapport aux valeurs prédites.
▶ Un modèle linéaire est approprié si les résidus sont distribués
de manière aléatoire autour de zéro, sans schéma particulier.
▶ Si les résidus montrent un schéma (comme une courbe), cela
suggère que la relation n’est pas linéaire, et une
transformation des variables ou un modèle non linéaire
pourrait être plus approprié.
Vérication des Hypothèses : Indépendance des Erreurs

▶ Objectif : Vérier que les erreurs (ou résidus) sont


indépendantes les unes des autres.
▶ Méthode :
▶ Utiliser le test de Durbin-Watson : Ce test détecte la
corrélation sérielle (autocorrélation) des erreurs.
▶ Hypothèses du test de Durbin-Watson :
▶ H0 : Pas d’autocorrélation des résidus.
▶ H1 : Autocorrélation présente.
▶ Valeurs de Durbin-Watson proches de 2 indiquent une absence
d’autocorrélation. Des valeurs proches de 0 ou 4 suggèrent
une autocorrélation positive ou négative, respectivement.
Vérication des Hypothèses : Homoscédasticité

▶ Objectif : Vérier que la variance des erreurs est constante à


travers toutes les valeurs de la variable explicative.
▶ Méthode :
▶ Tracer un graphique des résidus par rapport aux valeurs
prédites.
▶ Si les résidus sont distribués de façon homogène autour de
zéro, cela indique l’homoscédasticité.
▶ Si un motif en ”éventail” apparaı̂t (des résidus croissants ou
décroissants en fonction des valeurs prédites), cela indique de
l’hétéroscédasticité.
▶ Le test de Breusch-Pagan peut également être utilisé pour
tester l’homoscédasticité.
Vérication des Hypothèses : Normalité des Erreurs

▶ Objectif : Vérier que les erreurs suivent une distribution


normale.
▶ Méthode :
▶ Tracer un histogramme des résidus pour voir s’ils suivent une
courbe en cloche.
▶ Utiliser un **Q-Q plot** (Quantile-Quantile) : Un Q-Q plot
compare la distribution des résidus à une distribution normale.
Si les points se situent le long de la ligne diagonale, cela
indique une normalité.
▶ Si les erreurs ne sont pas normalement distribuées, cela peut
aecter la validité des tests t et F. Des transformations de
données (comme un logarithme) peuvent être nécessaires.

You might also like