You are on page 1of 3

###################### chp2 ################################

med=read.csv2(file.choose())
View(med)
reg1=lm(y~x1,data=med)
summary(reg1)

commentaire du summary :

On sait que la constante alpha0=…… existe et Alpha1=(cov(Y1,x1)/variance(Y1)) très


significative puisque leurs P-values est inferieur a 5%

L'ecart-type de l'erreur etant egale a (…………) et qui est egale a la variance residuel diviser par
son degrée de liberté (SCR/n-p-1) avec p:le nombre de variable et donc n-p-1 = 36-1-1 = 34 qui
est donnée dans le summary
La statistique de Fisher (F= ((SCE/p)/(SCR/n-p-1))=…………….) pour un degrée de liberté (ddl =
……..) et qui nous donne une p-value = ………. du modèle très inferieur a 5% et donc notre
modèle est très significatif Finalement, on a le coefficient de determination
R²=SCE/SCT=………et le coefficient de determination ajusté R(bar)²=((1-((n-1)/(n-p-1)))*(1-
R²))=………..qui est assez proche de 1 et donc une bonne qualité d'explication du modèle Et
donc, on a une bonne qualité et un modèle très significatif.

anova(reg1)

#Le tableau ANOVA est utilisé pour tester: H0 :b1 =b2 =…=bp-1 =0 versus H1: Ǝj=1…p-1: bj
#diffèrent de0
#H0 signifie que la relation observée entre Y et X est due au hasard, le modèle est alors: H0 :y=
#b0 +e . si >p-value, alors on rejette l’hypothèse que H0 : ‘b 1 =b 2 =…=b p-1=0’, donc on
#affirme que le modèle explique significativement la variation de Y.

#L’intervalle de confiance et de prévision :

confint(reg10, interval = "confidence")


confint(reg1, interval = "prediction")

#si les paramètres est appartient à l’intervalle de confiance on dit que le modèle est significatif
#sinon pas significatif.

#validation de model et étude des résidus

par(mfrow=c(3,2))
plot(reg1)
hist(reg1$residuals)
boxplot(reg1$residuals)

#Normal QQ :doit être sous forme d’un droite pour dire qu’il y a une ajustement normale des
#résidus.

#Residual vs leverage : on detecte les points qui sortent de l’intervalle.

#Scale-location et residuals vs fited : la relation avec les résidus doivent etre aléatoire pas de
#relation linéaire sinon on a une variable qui manque dans le modèle.

#Test d’autocorrelation des residus

require(car)
durbinWatsonTest

#exemple : nous remarquons que la statistique de DW = 2,19 proche de 2, Donc on accepte


#l’hypothèse nulle (l’absence d’autocorrélation des erreurs).

#Selection de modele:

#Par RegBest

attach(med)
require(FactoMineR)
rb=RegBest(y=med[,1],x=med[,-1])
rb$best

#le meilleur modéle est y~x1+x2

par ANOVA

reg2=lm(y~.,data=med)
summary(reg2)
par(mfrow=c(3,2))
plot(reg2)
hist(reg2$residuals)
boxplot(reg2$residuals)
#
reg3=lm(y~x1+x2,data=med)
summary(reg3)
par(mfrow=c(3,2))
plot(reg3)
hist(reg3$residuals)
boxplot(reg3$residuals)
anova(reg3,reg2) #on commence par le plus significatif

#on verifie la validation de modele par avona sous les hypotheses H0 :res3 est le meilleur------
#H1 :res2 est le meilleur
#si p-valu>0.05 ---on non rejette H0 sinon on RH0

Creation d’un factor:

fac=as.factor(c(rep(1,15),rep(2,15),rep(3,16))) #noveau facteur


reg4=lm(y~fac,data=med)
reg5=lm(y~x3,data=med)
anova(reg5,reg4)

#Region de confiance

reg10=aov(y~fac,data=med)
TukeyHSD(reg10)

La comparaison de plusieur moyennes

Exemple : on a trois modalités 0 ; 1 et 2 et on doit verifier que les moyyenes des 3 echantillons sont
egaux ou pas.

La formulation des hypotheses : h0 : mu1=mu2 ----**--- h1 : mu1 different de mu2. Si p-


value>0.05RH0 sinon NRH0. On peut préciser aussi les bornes de l’intervalle

You might also like