You are on page 1of 4

Exercici 3

En l'arxiu adjunt teniu dades de diverses variables relatives a característiques de


la població de diversos estats dels Estats Units.
Construeix un correlograma per analitzar les correlacions entre les diferents
variables i ajusta un model de regressió multiple per la variable
depenent Analfabetismo aplicant tècniques de Stepwise o all subsets per
determinar el millor model.
Indica si l'ajust del model es bó i el percentatge de la variança de la variable
depenent explicada pel mateix.

Sergi Hermosilla Porras

2022/23

En primer lloc, carreguem el fitxer txt desde openfile, i tot seguit estableixo el directori
de treball. Un cop ho tenim, fem:
data<-read.delim("estat C.txt") perquè se’ns llegeixin correctament les dades.
A continuació, per tal de crear un correlograma fem el seguent:

library(corrgram)
corrgram(data, order=TRUE,
lower.panel=panel.shade,upper.panel=panel.pie,col.regions=colorRampPalette(c("
blue","green")) ,text.panel=panel.txt)
Això ens donarà el nostre primer correlograma.
En verd podem observar les correlacions positives i en blau les negatives, on tant la
intensitat del color com els diagrames de proporcions mostren la intensitat de la correlació
A continuació, mostraré el segon correlograma, amb:
corrgram(data, order=TRUE,

lower.panel=panel.ellipse,upper.panel=panel.cor,diag.panel=panel.minmax,col.regi
ons=colorRampPalette(c("blue","green")) ,text.panel=panel.txt)

El

triangle superior mostra els coeficients de correlació i l'inferior conté línies de millor
ajustament suavitzat i el·lipses de confiança.
Un cop tenim els dos correlogrames que podem generar amb aquest dataset, crearem un
model multivariant de totes les variables a partir de la tècnica stepwise
En aquest cas, si analitzem la tècnica stepwise, les variables s'agreguen o eliminen d'un
model una per una, fins que s'assoleix algun criteri de detenció. En el meu cas he utilitzat
la regressió backward stepwise, que comença amb un model que inclou totes les variables
predictores, i després les elimina una alhora fins que l'eliminació de les variables
degradaria la qualitat del model.

En el nostre cas, utilitzarem la funció stepAIC () del paquet MASS que vam instal·lar
prèviament en una sessió, per a poder realitzar la selecció del model per passos.

Per començar, crearem un model stepwise amb totes les variables, per “filtrar”, i poder
aconseguir les variables amb una major correlació amb la nostra variable dependent.
library(MASS)
fit<-lm(Analfabetismo ~ Poblacio + ingresos + Esp..Vida + Asesinatos + Graduados +
Vegetarianos + Area, data=data)
stepAIC(fit, direction="backward")
Un cop fet el stepwise amb totes les variables, escolliré quines si estan dins el model, és
a dir, les que s’han anomenat al final a Coefficients: Població, Esp.. Vida, Asesinatos,
Graduados i Vegetarianos
Així doncs, ara construiré un nou fit amb aquestes variables. D’aquest li faré el
summary(fit), com en l’anàlisi de residus, per tal d’establir amb més precisió si l'ajust
del model es bó i el percentatge de la variança de la variable depenent explicada pel
mateix:

Un cop fet això, podem extreure altres resultats com la variable Multiple R-squared, la
qual ens indica com s'ajusta el model de regressió a les dades observades. Per exemple,
un r quadrat del 60% revela que el 60% de les dades s'ajusten al model de regressió. En
general, un r quadrat més alt indica un millor ajust per al models.

En el nostre cas, tenim un valor de 0,5287, això vol dir q el 87% de les variables expliquen
la variança de la variable independent Analfabetismo. Això es deu a que he fet el
summary segons les variables independents que tenien més relació amb la variable
dependent Analfabetismo.

També he de comentar el p-value, que si es baix com aquest cas, amb un valor de 0,00084,
ens indica que tenim un ajust molt bo.

You might also like