El Análisis de la Regresión a través de SPSS

M . D olores M artínez M iranda
Profesora del D pto. E stadística e I.O. U niversidad de G ranada

Referencias bibliográficas
1. 2. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Análisis Multivariante (5ª edición). Ed. Prentice Hall. Pérez, C. (2001) Técnicas estadísticas con SPSS. Ed. Prentice Hall.

INTRODUCCIÓN
El Análisis de Regresión tiene como objetivo estudiar la relación entre variables. Permite expresar dicha relación en términos de una ecuación que conecta una variable de respuesta Y, con una o más variables explicativas X1,X2,…,Xk. Finalidad:
Determinación explícita del funcional que relaciona las variables. (Predicción) Comprensión por parte del analista de las interrelaciones entre las variables que intervienen en el análisis.

PLANTEAMIENTO GENERAL
Notación: Y variable de respuesta (dependiente, endógena, explicada) X1,X2,…,Xk variables explicativas (independientes, exógenas,
regresores)

Modelo general de Regresión: Y = m (X1,X2,…,Xk ) + m función de regresión
residuos del modelo (errores de observación, inadecuación del modelo)

Variantes del Análisis de Regresión en SPSS Según el número de v. etc. exponencial. Supuestos sobre la función de regresión Regresión lineal Y= 0+ 1 X1+ 2 X2 +…+ k Xk + Estimación curvilínea (Potencial. hiperbólica. explicativas: Simple o Múltiple.) Y = exp (a + b X) Linealización ln Y = a + b X Regresión no lineal (Algoritmos de estimación iterativos) .

Variantes del Análisis de Regresión en SPSS Tipo de datos Regresión logística. Modelos Probit (La variable de respuesta es binaria) Regresión ordinal (La variable de respuesta es de tipo ordinal) Escalamiento óptimo o regresión categórica (Las variables explicativas y/o explicada. pueden ser nominales) Situaciones especiales en la estimación del modelo lineal: Mínimos cuadrados en dos fases (correlación entre residuos y v. explicativas). estimacion ponderada (situación de heterocedasticidad) .

Submenú REGRESIÓN Regresión lineal múltiple Ajuste de curvas mediante linealización Modelos de regresión con respuestas binarias u ordinales Modelos de regresión no lineales Modelos de regresión con variables categóricas Correcciones en el modelo lineal .

Contenidos: Aplicaciones con SPSS Regresión lineal (múltiple) Estimación ponderada Mínimos cuadrados en dos fases Escalamiento óptimo Regresión curvilínea Regresión no lineal .

error del modelo) 0 Datos (observaciones. estimar los coeficientes ( j ) utilizando la información proporcionada por la muestra .Regresión lineal múltiple -Modelo teóricoModelo lineal Parámetros j Y= 0+ 1 X1+ 2 X2 +…+ k Xk + (1) magnitud del efecto que Xj tienen sobre Y (incremento en la media de Y cuando Xj aumenta una unidad) término constante (promedio de Y cuando las v.…. X1i. muestra) { (Yi. explicativas valen 0) residuos (perturbaciones aleatorias.n } PROBLEMA Suponiendo que la relación entre las variables es como en (1).Xki) : i = 1.….

a.a. con media 0 e independientes de las Xj j j Homocedasticidad: No autocorrelación: j tienen varianzas iguales ( son incorreladas entre sí 2) son normales e independientes (Inferencia sobre el modelo) No multicolinealidad: Las columnas de X son linealmente independientes ( rango(X) = k+1 ) .v.Regresión lineal múltiple -Modelo teóricoExpresión matricial Y  X  1   11  Y2   X12  M = M  Y      n   X1n X 21 L Xk1  0   1      X 22 L Xk 2  1   2  +     M O M M M          X 2n L Xkn  k   n   Y=X HIPÓTESIS j + son v.

.. + k X ik )} 2 Suma residual de cuadrados Residuo estimado : ˆi ˆ i = Yi − Y ˆ= ˆ 0 ( ˆ T T X)-1 XT Y ˆ (X L = 1 k ) Estimación de los coeficientes ..Estimación del modelo ^ Problema de mínimos cuadrados Minimizar Solución ( n > k+1 ) 0 . k Yi valor predicho ∑ { Yi − ( i=1 n 0 + 1X i1 + . 1....

Ejemplo con SPSS función de motor.sav) Objetivo: Ajustar un modelo lineal que permita predecir el consumo en CONSUMO MOTOR CV PESO ACEL Consumo (l/100Km) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleración 0 a 100 km/h (segundos) Variables independientes . cv. peso y acel Variable dependiente (Coches.

166 3.000 .386E-02 .134 .948E-03 Peso + 2. Variable dependiente: Consumo (l/100Km) ˆ = ˆ (0 ˆ ˆ T L k 2 ) Consumo = 0.Analizar Regresión Lineal Coeficientesa Coeficientes estandarizad os Beta . .432 1.424 .000 4.424 Sig.370 1.711 .386E-02 CV + + 4.355 .000 .093E-04 Motor + 4.612 5.432 + 3.504E-02 Acel Significación individual de las variables y de la constante (Inferencia) .404 .582 4.018 Modelo 1 (Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleración 0 a 100 km/h (segundos) Coeficientes no estandarizados B Error típ. .093E-04 .008 4.059 Coeficientes tipificados t .504E-02 .001 2.108 .948E-03 .672 Comparación de los efectos b = j Xj Y ˆ j a.

Inferencia sobre el modelo Significación individual de las variables Utilidad: Verficar si cada variable aporta información significativa al análisis Nota: Depende de las interrelaciones entre las variables. no es concluyente Aceptar H0 significa que la variable “no aporta información significativa” en el análisis de regresión realizado Contraste de hipótesis ( Xj ) H0 : H1 : Resolución T= j j =0 0 ˆj SE( ˆ j )  → t n-k -1 Bajo H 0 .

2 Bajo H0 ˆ SE( 0 ) .Inferencia sobre el modelo Significación de la constante Utilidad: Verficar si la v.explicativas se anulan Contraste de hipótesis Aceptar H0 significa que “no es conveniente incluir un término constante” en el análisis de regresión realizado H0 : H1 : Resolución 0 0 =0 0 ˆ0 T=  → t n.dependiente tiene media 0 cuando las v.

582 4.008 4. Variable dependiente: Consumo (l/100Km) H0 : j j =0 0 Al nivel de significación del 5%: H1 : Motor (0.093E-04 .404 . .504E-02 .672) “no son significativas” CV (0.386E-02 .711 .sav) Interpretación del p-valor (en un contraste al nivel de significación ) Si p-valor < Coeficientesa Coeficientes estandarizad os Beta .948E-03 .370 1.424 .134 .000 .000 4.108 .000) y Peso (0.000 .432 1.166 3. .424 Sig.018 entonces se rechaza la hipótesis nula H0 : H1 : t .612 5.001 2.059 Al 5% se puede no incluir constante en el modelo a.355 .000) “sí son significativas” .672 0 0 =0 0 Modelo 1 (Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleración 0 a 100 km/h (segundos) Coeficientes no estandarizados B Error típ.Ejemplo (Coches.108) y Acel (0.

Inferencia sobre el modelo Bondad de ajuste Descomposición de la variabilidad ∑ ( Yi − y ) VT ˆ i − y ) + ∑ ˆ i2 =∑ (Y i=14 i=14 i=1 1 4 244 3 1 4 244 3 1 2 3 2 2 VE VNE n n n Coeficiente de determinación R2 = VE VNE = 1VT VT R: Coeficiente correlación lineal múltiple Indica la mayor correlación entre Y y las c.k -1 .l. explicativas Inconveniente: Sobrevalora la bondad del ajuste Coeficiente de determinación corregido R = 12 n -1 2 R n . de las v.

755 Consumo queda explicada en un 75.5% por las variables explicativas según el modelo lineal considerado (siempre algo menor que R2) R2 corregido = 0. Cilindrada en cc b.869a . Variable dependiente: Consumo (l/100Km) R2 = 0.752 .752 Error típ. Variables predictoras: (Constante). Peso total (kg). de la estimación 1.Ejemplo (Coches.sav) b Resumen del modelo Modelo 1 R R cuadrado .755 R cuadrado corregida . Aceleración 0 a 100 km/h (segundos). Potencia (CV).970 a.

explicativas aportan información en la explicación de la variable de respuesta Contraste: H0 : 1 = 2 =… = j k =0 H0 : R = 0 H1 : R 0 H1 : Algún 0 Aceptar H0 significa que “las v.Inferencia sobre el modelo Contraste de regresión (ANOVA) Utilidad: Verificar que (de forma conjunta) las v.k .1) .explicativas no están relacionadas linealmente con Y” Resolución (ANOVA) F= VE / k  H → Fk. n-k -1 Bajo 0 VNE / (n .

882 Modelo 1 gl 4 387 391 F 297.408 Media cuadrática 1156. Peso total (kg).Ejemplo (Coches.555 3. Variables predictoras: (Constante). Cilindrada en cc b. Potencia (CV). . VE / k VNE / (n-k-1) .220 1502. Variable dependiente: Consumo (l/100Km) Fuente de variabilidad Modelo Residual Total Suma de cuadrados VE VNE VT Grados de libertad k n-k-1 n-1 Media cuadrática VE / k VNE / (n-k-1) F exp.sav) Contraste de regresión ANOVAb Suma de cuadrados 4626. Aceleración 0 a 100 km/h (segundos).956 Sig.000a Regresión Residual Total Al 5% se rechaza H0 (las variables explicativas influyen de forma conjunta y lineal sobre Y) a.188 6128.

x 2 .Predicción Bandas de confianza Predicciones para Y Regresión Valor pronosticado tipificado Gráfico de dispersión Variable dependiente: Consumo (l/100Km) 3 (dentro del rango de predicción) ˆ ( x1...C... x k ) = Y 0 + 1x 1 + .. + k xk 2 1 I.7549 Consumo (l/100Km) . para los valores predichos de Y I.C.. para la media de Y 0 -1 -2 0 10 20 30 R² = 0.

Normalidad de los residuos 2. No multicolinealidad Posibles correcciones: • Detección de atípicos y puntos influyentes • Transformaciones • Variables ficticias • Ajustes polinomiales • Términos de interacción . Falta de linealidad 5. No autocorrelación 3. Homocedasticidad 4.El análisis de los residuos Objetivo: Verificar que no se violan las hipótesis sobre las que se estima el modelo y se realiza la inferencia 1.

75 60 .25 Frecuencia 20 Desv. Normalidad de los residuos Herramientas disponibles en SPSS Gráficos: Histograma.00 0. = .00 .00 Residuo tipificado Prob acum observada Contrastes: Kolmogorov-Smirknov.00 80 .00 0 N = 392.25 .50 40 Prob acum esperada . típ.75 1.1.99 Media = 0.50 .1. gráfico probabilístico normal Histograma 100 Gráfico P-P normal de regresión Residuo tipificado 1. Shapiro-Wilks.… .00 0.

18<d<1.18 rechazar.970 Durbin-W atson 1. de la estimación 1. 1 H0: No hay autocorrelación Standardized Residual 0 • Si d<1.4 no es concluyente 0 100 200 300 400 500 -2 -3 -100 Número de orden de las observaciones Posibles soluciones: .1. Aceleración 0 a 100 km/h (segundos). No autocorrelación Hace referencia a los efectos de la inercia de una observación a otra que pueda indicar la no independencia entre los residuos.2. -1 • Si d>1.Añadir variables . Se trata de buscar modelos o pautas en los gráficos residuales frente al número de caso (incluso con cada variable independiente). Herramientas disponibles en SPSS: Gráficos residuales y el estadístico de Durbin-Watson 4 3 Error típ. • Si 1.228 2 Variables predictoras: (Constante).4 no rechazar.Transformaciones .

Homocedasticidad Hace referencia a la constancia de los residuos para los valores que van tomando las variables independientes.3. Herramientas disponibles en SPSS: Gráficos residuales 4 4 30 3 3 2 2 1 1 Standardized Residual 20 -1 Standardized Residual 0 100 200 300 0 0 -1 -2 -2 -3 -3 1000 2000 3000 4000 5000 6000 7000 8000 Potencia (CV) Cilindrada en cc Consumo (l/100Km) 10 4 4 3 3 2 2 0 Standardized Residual 1 1 Regresión Valor pronosticado tipificado -1 Standardized Residual 600 800 1000 1200 1400 1600 1800 -2 -1 0 1 2 3 0 0 -1 -2 -2 -3 400 -3 0 10 20 30 Peso total (kg) Aceleración 0 a 100 km/h (segundos) .1.

independiente y los residuos de la v. dependiente cuando se regresan ambas por separado sobre las restantes v. independientes.1. Falta de linealidad Hace referencia a las posibles desviaciones de los datos desde el modelo lineal que se está ajustando.4. 20 20 Consumo (l/100Km) 10 10 0 Consumo (l/100Km) -20 0 20 40 60 80 0 -10 -40 -10 -6 -4 -2 0 2 4 6 8 Potencia (CV) Aceleración 0 a 100 km/h (segundos) . Herramientas disponibles en SPSS: Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) 30 20 Gráficos de regresión parcial y gráficos residuales Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) 20 10 10 Consumo (l/100Km) Consumo (l/100Km) 0 0 -10 -2000 -1000 0 1000 2000 3000 -10 -800 -600 -400 -200 0 200 400 Cilindrada en cc Peso total (kg) Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) 30 Gráfico de regresión parcial Variable dependiente: Consumo (l/100Km) 30 Son diagramas de dispersión de los residuos de cada v.

FIV a Diagnósticos de colinealidad 1.22 . .29 Identificar los índices que estén por encima del umbral: 30 Para los índices identificados. .00 .265E-03 3. Variable dependiente: Consumo (l/100Km) Posibles soluciones: .00 .00 .440 27.76 Potencia (CV) .268E-02 6.5. Herramientas disponibles en SPSS: Índices de condicionamiento.29 .238 2.01 .1.02 .00 .474 36. identificar las variables con proporciones de varianza por encima del 90%: Habrá multicolinealidad si ocurre con dos o más coeficientes.185 Cilindrada en cc .00 .75 .00 .70 .00 . Impacto de la multicolinealidad Reducción del poder explicativo de cualquier v.454 14.69 2. entre dos variables explicativas (el término multicolinealidad se utiliza para tres o más variables explicativas).01 Peso total (kg) . explicativa individual en la medida en que está correlada con las otras v.729 .00 . Aceleración 0 a 100 km/h (segundos) .612E-03 (Constante) . medida como correlación.00 .92 Proporciones de la varianza Indice de condición 1.20 .06 . Modelo 1 Dimensión 1 2 3 4 5 Autovalor 4.000 4.03 .ACP y utilizar las componentes principales como regresores.A la vista de las correlaciones eliminar variables “redundantes”. explicativas presentes en el modelo. a.03 . No multicolinealidad Colinealidad es la asociación.02 .

Datos anómalos Medidas de influencia Objetivo: Detectar datos anómalos y datos influyentes Datos anómalos (atípicos) Individuos cuyo residuos tipificado es superior a 3 (en valor absoluto) Datos influyentes Individuos cuya omisión produce cambios notables en los resultados del análisis Herramientas estadísticas (medidas de influencia) • Identificación de puntos de apalancamiento (observaciones aisladas del resto sobre una o más v. medidas globales de influencia.independientes) • Observaciones influyentes: influencias sobre coeficientes individuales. .

Medidas para identificar puntos de apalancamiento: Leverage o medida de influencia: Límite: 2(k+1) / n (Si n>50. 3(k+1) / n) Distancia de Mahalanobis: Considera la distancia de cada observación desde los valores medios de las v. Límites para la versión estandarizada: ± 2 [ (k+2) / (n-k-2) ]1 / 2 COVRATIO Representa el grado al que una observación tiene impacto sobe los errores estándar de los coeficientes.1 / 2 (si n<50 usar los límites de la normal) • Medidas globales de influencia: DFITTS Mide el efecto del dato i-ésimo ejerce en su propia predicción.independientes. Medidas para identificar observaciones influyentes: • Influencias sobre coeficientes individuales: DFBETA Mide el efecto del dato i-ésimo ejerce sobre j. pero en general se procede a identificar valores considerablemente altos respecto al resto. Límites para la versión estandarizada: ± 2 n . Límites: 1 ± 3(k+1) / n Distancia de Cook: Localizar valores que exceden a 4 / (n-k-1) . Existen tablas para contrastar.

866 .831 21.520 . Dist.26 .990 . 10. De Mahalanobis.628 1.077 .433 68.960 .43 12.011 2.05 10.006 3. de Mahalanobis Distancia de Cook Valor de influencia centrado Mínimo 5.440 1.001 . Límite (k=4): 0.176 Consumo (l/100Km) 26 Valor pronosticado 5.843 .007 .995 1.010 Medida de influencia. Variable dependiente: Consumo (l/100Km) Detección de puntos influyentes: Dist.00 .05 2. Residuo estud.641 -5.661 . valor de influencia a Estadísticos sobre los residuos Valor pronosticado Valor pronosticado tip.012 N 392 392 392 392 392 392 392 392 392 392 392 392 El rango de valores para la distancia de Mahalanobis es elevado Hay valores de la distancia de Cook superiores a 4 / (n-k-1) = 0. 3.166 .000 .000 Máximo 21.067 4.95 -1. Cook.Detección de residuos atípicos: Los valores tipificados deben estar entre -3 y 3 a Diagnósticos por caso SPSS Número de caso 35 Residuo tip.08 20.000 .618 -2.00 .05 a.176 Media 11.000 .95 Residuo bruto 20.447 1.000 . Residuo eliminado Residuo eliminado estud.024 1.25 -2.57 -5.27 .075 3. Variable dependiente: Consumo (l/100Km) Posible solución: Eliminar observaciones .545 .038 a. Error típico del valor pronosticado Valor pronosticado corregido Residuo bruto Residuo tip.16 -2.107 4.520 21.010 Desviación típ.210 11.176 10.

Pasos sucesivos En términos muy muy generales… …Evalúan estadísticos F que controlan la entrada y salida de variables. dependiente con cada regresor. Métodos secuenciales en SPSS: Hacia atrás. Hacia delante.Selección de un subconjunto óptimo de variables independientes Objetivo: Seleccionar aquellas variables que sin ser redundantes proporcionen la mejor explicación de la v. . además de las correlaciones parciales de la v. dependiente.

053 Cambio en F 909. dependiente y que son significativos (valor F-entrar). del cambio en F .753 R cuadrado corregida .972 Cambio en R cuadrado . a Variables introducidas/eliminadas Modelo 1 2 Variables introducidas Peso total (kg) Potencia (CV) Variables eliminadas .000 . de F para entrar <= .752 Error típ.868b . de F para entrar <= . Peso total (kg). .700 .085 84. se van introduciendo uno a uno aquellos que tienen alta correlación parcial con la v. Variables predictoras: (Constante).050) Hacia adelante (criterio: Prob.214 gl1 1 1 gl2 390 389 Sig. Potencia (CV) .172 1.000 a.699 .837a . Variable dependiente: Consumo (l/100Km) Resumen del modelo Estadísticos de cambio Modelo 1 2 R R cuadrado .050) a.Método forward (hacia delante) Inicialmente no hay regresores.700 . Método Hacia adelante (criterio: Prob. de la estimación 2. Peso total (kg) b. Variables predictoras: (Constante).

Cilindrada en cc c. independientes. . Variables predictoras: (Constante).755 .755 .755 b . Variables predictoras: (Constante). Variables eliminadas . del cambio en F . Potencia (CV).956 . Cilindrada en cc b. Variables predictoras: (Constante).869 .672 . Peso total (kg). Cilindrada en cc .753 .972 Cambio en R cuadrado . a Potencia (CV). Peso total (kg). de la estimación 1. de F para eliminar >= .180 2. a.100). de F para eliminar >= . Potencia (CV). Peso total (kg).869a . Aceleración 0 a 100 km/h (segundos) Cilindrada en cc Introducir Método 2 3 Hacia atrás (criterio: Prob.000 .753 R cuadrado corregida .752 Error típ.118 a. Todas las variables solicitadas introducidas b. Potencia (CV) .100). Peso total (kg).000 -. se van eliminando una a una las que van resultando significativas (valor F-salir).970 1.456 gl1 4 1 1 gl2 387 389 390 Sig.968 1. Aceleración 0 a 100 km/h (segundos).752 .868c .002 Cambio en F 297.Método backward (hacia atrás) Inicialmente se incluyen todos las v. b Variables introducidas/eliminadas Modelo 1 Variables introducidas Aceleración 0 a 100 km/h (segundos). Variable dependiente: Consumo (l/100Km) Resumen del modelo Estadísticos de cambio Modelo 1 2 3 R R cuadrado . Hacia atrás (criterio: Prob.

868b . Por pasos (criterio: Prob. Variables predictoras: (Constante). Prob.050. Método Por pasos (criterio: Prob. Peso total (kg). Prob.Método Stepwise (pasos sucesivos) Combina los dos métodos anteriores definiendo un procedimiento en el que las variables independientes entran o salen del modelo dependiendo de su significación (valores F-entrar y F-salir). Peso total (kg) b.172 1. de F para entrar <= . de F para salir >= . a.752 Error típ. de F para salir >= . Potencia (CV) .100).753 R cuadrado corregida . de F para entrar <= . del cambio en F .700 .214 gl1 1 1 gl2 390 389 Sig.050. . Variables predictoras: (Constante). de la estimación 2.000 a. a Variables introducidas/eliminadas Modelo 1 2 Variables introducidas Peso total (kg) Potencia (CV) Variables eliminadas .100).837a .972 Cambio en R cuadrado .085 84.700 .000 . Variable dependiente: Consumo (l/100Km) Resumen del modelo Estadísticos de cambio Modelo 1 2 R R cuadrado .053 Cambio en F 909.699 .

Estimación del modelo de regresión y valoración global del ajuste Paso 5. Interpretación y validación de los resultados. Objetivos del análisis Paso 2.Resumen Pasos a seguir en un análisis de regresión Paso 1. Supuestos del análisis Paso 4. Diseño de la investigación mediante regresión múltiple Paso 3. .

Sign up to vote on this title
UsefulNot useful