You are on page 1of 10

PRÁCTICA 6…: Regresión lineal simple i múltiple.

Regressió lineal simple


Obri el fitxer de dades “Subescales regressió lineal simple” d'Aula Virtual i selecciona les
dades del grup VM.

MENU ⇒ Dades ⇒Seleccionar casos⇒ Si se satisfà la condició Grup=1

Pregunta: A partir del diagrama de dispersió de l'Autoestima en funció de l'Aparença, indica


quin tipus de model de regressió seria el més adequat.

MENU → Gràfics → Generador de gràfics →Dispersió/Punts


Definir: Eix I: autoest Eix X: aparien

Resposta: Els punts, encara que bastant escampats, sembla que se situen entorn d'una línia
recta, per la qual cosa el model de regressió lineal sembla el més adequat.

Quan no s'està segur que la regressió lineal siga la millor podem provar amb diversos models
de regressió i utilitzar el que presente major coeficient de determinació.

MENU → Analitzar → Regressió → Estimació curvilínia


Dependents: autoest Independents: aparien
Model: Lineal, quadràtic, compost, creixement, logarítmic,
cúbic, G, exponencial, invers, potència, logística

1
Els millors models són el logarítmic i l'invers amb un coeficient de determinació (R quadrat)
de 0,236. Però per simplicitat triaríem el model lineal, perquè la diferència és solament de
0,004 (R quadrat 0,232).

Donada la importància dels models de regressió lineals, SPSS té l'opció específica de


Regressió Lineal, on podem obtenir un output molt més complet:

MENU → Analitzar → Regressió → Linealés


Dependent: autoest
Independents: aparien

Els valors que apareixen remarcats són els mateixos que apareixien en el primer output quan es
comparaven tots els models.

L'equació de la línia de regressió és:

Autoestima’ = 2,568 + 0,508Apariencia

2
1. El valor del Coeficient de Determinació (R quadrat) apareix corregit en funció de la
quantitat de variables independents introduïdes en el model (p) i el nombre de dades (n;
en el nostre exemple, hi ha 52 alumnes en el grup VM), segons l'expressió:

2 2 p (1 − r 2 ) 1(1 − 0,232 )
rcorregida =r − = 0,232 − = 0,216
n − p −1 52 − 1 − 1
Aquest valor obtingut indica que la variable Apariencia només explica una proporció de 0,216,
o el que és el mateix en termes de percentatges: el model de regresió només aconsegueix
explicar el 21,6% de les diferències observades en autoestima. La variància d'error o no
explicada pel model representa el 78,4% del total.

2. L'Error Típic d’Estimació (desviació típica dels errors d'estimació) és de 0,67. Si es


tenen diversos models per a una mateixa variable criteri hem d'utilitzar el que presenta
menor error típic.

La representació gràfica de la línia de regressió, juntament amb el Coeficient de Determinació,


es poden obtenir directament en el Diagrama de Dispersió a través de l'Editor de Gràfics.

MENU → Gràfics → Generador de gràfics →Dispersió/Punts


Definir: Eix I: autoest Eix X: aparien

Editar el gràfic (clicar dues vegades damunt): Menú → Elements


Línia d'ajust total → Lineal

• Pregunta: Quines puntuacions pronostica el model per a les persones de la mostra? Quin és
el valor pronosticat de la persona núm. 5 de la mostra? Quin és el seu error d'estimació?
3
MENU → Analitzar → Regressió → Lineals
Dependent: autoest
Independents: aparien
Guardar: Valors pronosticats no tipificats
Residus no tipificats

Resposta: Cal mirar tant els valors pronosticats com els errors (residus) en el fitxer de dades
(no en el de resultats), ja que els afegeix com a variables noves al final del fitxer de dades. Per
a la persona 5 de la mostra, el model pronostica una puntuació en autoestima de 4,515 amb un
error d'estimació o residual de 0,515, ja que el valor real d'aquesta persona en autoestima és de
4,00 punts.

• Pregunta: Comprova amb aquestes dades la descomposició de la variància:


Variància total = Varianza explicada + Varianza no explicada.
2
Variància total ( SY ): Variància de les dades en la variable Y, en aquest cas, autoestima.
2
Variància explicada ( SY ' ): Variància de les puntuacions pronosticades Y’.
2
Variància no explicada o d'error ( S e ): Variància dels errors d'estimació.

Simplement hem de calcular la variància de les tres columnes del fitxer:

MENU → Analitzar → Estadístics descriptius → Freqüències


Variables: autoest, unestandardized predicted value, unestandardized residual,
Estadístics: Mitjana, desviació típica i variància

Resposta: Variància total = Variància explicada + Variància no explicada


0,585 = 0,135 + 0,449

4
• Pregunta: Comprova mitjançant les variàncies obtingudes el valor del coeficient de
determinació i l'error típic d'estimació:

Resposta:

Es pot apreciar que el valor coincideix amb el quadrat del Coeficient de Correlació:

Això vol dir que aproximadament el 23% de les diferències observades en autoestima es poden
pronosticar o explicar a partir de la puntuació en aparença física.

Com als errors d'estimació SPSS els nomena “unstandardized residual”, la desviació típica
d'aquesta columna és l'error típic → 0,67.
Hi ha una petita diferència de mil·lèsimes amb el valor que trau SPSS en la Taula Resum,
perquè utilitza una fórmula lleugerament modificada, ja que calcula la desviació típica dividint
per N-2.

Si volguerem saber que percentatge de variància no és explicada pel model, lògicament seria
l'error típic d'estimació al quadrat (variància no explicada) i en dividir aquesta per la
variància total obtindríem la proporció/percentatge de la variància I que no és explicat pel
model.

Regressió lineal múltiple


En un article publicat en la revista Psicothema (Vol. 20, núm. 4, Pàg. 563-570, 2008) es
demostra que la “ansietat davant els exàmens”, sobre tot entre la població escolar que afronta
5
una pressió social molt centrada en l'obtenció d'un gran èxit acadèmic, depèn de variables
personals i educatives. En aquest treball s'analitza , en estudiants de ESO , l'impacte o de les
variables sociopersonals“Genere (xic/xica)”, i “nivell d'estudis dels pares” (primària, ESO,
llicenciatura i postgrau),” i las variables académiques “cantidat de cursos suspesos (0, 1, 2,
3)” i “nota en matemàtiques (mitjana de les notes dels últims exàmens en una escala de 5
punts” sobre l'ansietat en els exàmens.
Obri el fitxer "Ansiedad_Examenes regressió múltiple” i fes la matriu de correlacions lineals
bivariades de Pearson.

Tant els Cursos Suspesos como la Nota en matemàtiques correlacionen significativament amb
l'ansietat. Farem el modelo de regressió incloent al as dos.

ANALISIS DE CORRELACIÓ MÚLTIPLE

MENU → Analitzar → Regressió → Lineals


Dependent: ansiedad Independents: cursos.suspesos, nota.matmaticas
6
De la tabla de Coeficients s'obté el següent modelo de regressió :
Puntuacions directes → Ansietat’ = 33,596 + 0,713Cursos - 2,303Nota
Puntuacions típicas → z’Ansietat = 0,100 zCursos - 0,874 zNota

• Indica l'ordre d'importància de les variables predictores dins del model.


Hem de mirar els coeficients estandaritzats (Beta), ja que ens indiquen el pes de cada
variable dins del model (en valor absolut, no importa el signe). En aquest model el factor
més important és la Nota en matemàtiques (β= -0,874) i després els Cursos suspesos (β
=0,100).

• Quina puntuació directa en Ansietat li pronosticarà el model a una persona amb una
Nota de 4,3 punts i amb 1 Curs suspès?
Ansietat’ = 33,596 + 0,713(1) - 2,303(4,3) = 24,4 punts

• És un bon model de regressió ?


Sí, perquè explica quasi el 90% de les diferències observades en ansietat.

7
• Si un altre model de regressió permet explicar l'ansietat davant els exàmens amb un
Error Típic de 2,54, quin triaries?
Triaria el nostre, perquè l'error típic és 1,989 i per tant menor que el d'aquest altre.

• Quin és el valor de la correlació entre Ansietat i el conjunt format por la Nota en


matemàtiques i els Cursos suspesos?
Coeficient de Correlació Múltiple RA.nc=0,944

• Quin és el valor de la relació entre Ansietat i Nota en Matemàtiques controlant la


influència de los Cursos suspesos?
Coeficient de Correlació Parcial RAN.C = -0,89

ANALISIS DE CORRELACIÓ PARCIAL

MENU → Analitzar → Regressió → Lineals


Dependent: ansietat Independents: cursos.suspesos, nota.matmatiques
Estadístics: Correlacions parcials i semiparcials

8
PRACTICA 6
Exercici 1:
Un psicòleg creu que el “Rendiment en Estadística (R)” és funció de les variables: Motivació
(M), Intel·ligència (I), Interès per les Matemàtiques (IM) i Edat (E). Per a investigar-ho passa
un test de motivació i un d'intel·ligència a una mostra de 10 estudiants d'Estadística del curs
passat, als quals pregunta també la seva nota, la seva edat i el seu interès per les matemàtiques.

Les dades estan en el fitxer “P9_Rendiment” d'Aula Virtual:

1. Quines són les dues variables que correlacionen millor amb el Rendiment?
2. Indica l'equació de regressió lineal per a pronosticar el Rendiment incloent només
aquestes dues variables, tant en puntuacions directes com típiques.
3. Per a quin dels 10 alumnes el pronòstic del model de regresió és més encertat
4. Indica el valor del Coeficient de Correlació múltiple.
5. Quin percentatge de variància explica el model de regressió?
6. Indica l'ordre d'importància de les dues variables en el model.
7. Imagina que a principi del curs següent, un alumne que cursarà l'assignatura et demana
que li pronostiques la nota que traurà. Sabent que en Motivació té 25 i que el seu Interès
per les Matemàtiques és de 3 punts, què li pronosticaràs?
8. Si aquest alumne trau a final de curs un 6,7, quin és el valor de l'error d'estimació?
9. Calcula la columna de les puntuacions pronosticades i residuals corresponents a les 10
persones de la mostra i indica la mitjana i la variància d'aquestes columnes. Comprova
que la suma d'ambdues és la variància total (variància del criteri).
10. Diagrama de dispersió prenent només la variable que més variància explica, indicant la
recta i el coeficient de determinació.

Exercici 2. No és necessari tenir cap base de dades, les qüestions es contesten


a partir de les dades de la taula.

Un psicòleg creu que l'habilitat per a resoldre problemes de matemàtiques (Habilidad) està
relacionada amb la pràctica (Práctica). Fa una recerca en la qual manipula diferents temps de
pràctica (hores) d'uns subjectes que mai havien fet problemes d'aquest tipus. Després els
passava una prova d'habilitat numèrica (major puntuació indica major habilitat). S'obté aquest
output del SPSS:

9
1. Quin és el valor de la correlació lineal entre les dues variables?
2. Indica el valor del Coeficient de Determinació.
3. Quin percentatge de la variància del criteri NO explica el model de regressió?
4. Indica l'equació de regressió lineal per a pronosticar l'habilitat en funció de les hores de
pràctica, en puntuacions directes i típiques.
5. Quin és el valor de la pendent de l'equació de regressió?
6. Hauries d'avaluar la possible existència de colinealitat en aquesta recerca? Perquè?

10

You might also like