You are on page 1of 6

REGRESIÓN JERÁRQUICA O POR PASOS

En muchas ocasiones cuando se elabora un modelo de regresión solemos contemplar todas las
variables que hemos medido por carecer de una hipótesis teórica sobre la relevancia que cada una tiene
en el modelo. Al proceder incluyendo todas lo que solemos hacer es posteriormente eliminar todas
aquellas variables cuyos coeficientes de parciales regresión no son significativos y proceder volviendo
hace el análisis completo. Este procedimiento tiene varios inconvenientes dada la interrelación entre los
coeficientes. En estos casos, falta de hipótesis teóricas sobre la relevancia de las variables, se
recomienda utilizar la Regresión Jerárquica o por pasos.

Básicamente el procedimiento consiste en ir eliminado (o introduciendo) una variable de cada vez


utilizando para introducir o eliminar bailes criterio estadístico, por ejemplo eliminar aquella variable cuyo
coeficiente de regresión es no significativo y en caso de haber varios que no lo son aquel cuyo valor (el
del coeficiente) es el menor y así sucesivamente hasta que los coeficientes de regresión son significativos
y esas variables son las que se consideran en el modelo.

Este modo de proceder denominado “paso a paso” tiene por objetivo aplicar el principio de parsimonia
intentando obtener la mayor cantidad de varianza explicada con el menor número de variables aportando
la mayor cantidad de información (principio de parsimonia) y mejor explicación de la variable dependiente
(principio de ajuste máximo).

Aunque este procedimiento pueda resultar en principio como el más útil e informativo no es la panacea,
funciona bien cuando el objetivo principal es predicativo y no ha hipótesis teóricas previas, cuando el
objetivo es explicativo y hay hipótesis previas es menos útil ya que el máximo ajuste puede incluir
variables teóricamente irrelevantes con una mejora del ajuste pequeña en relación al uso de únicamente
variables relevantes (Pardeo y San Martin 2010).

CRITERIOS DE SELECCIÓN DE VARIBLES

Existen distintos criterios para determinar cuáles serán las variables que definirán el modelo final.
Basados en la maximización del ajuste

2
Incremento de R .
 Valor (absoluto) de la correlación parcial.
 Reducción del error típico de los residuales.

Basado en contribución significativamente a mejorar el ajuste de las variables



2
Cambios en R : Se valora a través la diferencia entre el coeficiente de determinación de las p
variables menos el coeficiente de determinación de las (p-1) variables. Formalmente:
Donde corresponde al coeficiente de de
correlación semiparcial múltiple.

Que puede avaluarse mediante el estadístico de contraste:

Que sigue una distribución F con 1 y n-p-1 grados de libertad.

METODO DE SELECCIÓN DE VARIABLES:

Pasos sucesivos (stepwise)

En cada paso se introduce la variable independiente que no está en la ecuación y que tenga la menor
1
probabilidad correspondiente al valor de t (o F) , siempre que dicha probabilidad indique significación. El
análisis finaliza cuando ya no hay más variables que den lugar a valores de t significativos.

EJECUCCIÓN

Seleccionar en Método la opción “Pasos suc”

1
O aquella que mayor correlación (en valor absoluto) presenta con la VI y sucesivamente las siguientes
RESULTADOS

TABLA 2

Modelo Variables Variables Método


introducidas eliminadas
1 VAR00008 . Por pasos (criterio: Prob. de F para entrar <=
,050, Prob. de F para salir >= ,100).
2 VAR00006 . Por pasos (criterio: Prob. de F para entrar <=
,050, Prob. de F para salir >= ,100).
3 VAR00009 . Por pasos (criterio: Prob. de F para entrar <=
,050, Prob. de F para salir >= ,100).
a Variable dependiente: VAR00007

TABLA 2 Resumen del modelo

R cuadrado
Modelo R R cuadrado corregida Error típ. de la estimación
1 ,707(a) ,499 ,488 1,42009
2 ,819(b) ,671 ,656 1,16375
3 ,876(c) ,768 ,752 ,98943
a Variables predictoras: (Constante), VAR00008
b Variables predictoras: (Constante), VAR00008, VAR00006
c Variables predictoras: (Constante), VAR00008, VAR00006, VAR00009

TABLA 3: ANOVA

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 92,507 1 92,507 45,872 ,000(a)
Residual 92,766 46 2,017
Total 185,273 47
2 Regresión 124,328 2 62,164 45,901 ,000(b)
Residual 60,944 45 1,354
Total 185,273 47
3 Regresión 142,199 3 47,400 48,418 ,000(c)
Residual 43,074 44 ,979
Total 185,273 47

a Variables predictoras: (Constante), VAR00008


b Variables predictoras: (Constante), VAR00008, VAR00006
c Variables predictoras: (Constante), VAR00008, VAR00006, VAR00009
d Variable dependiente: VAR00007

TABLA 1: Variables introducidas/eliminadas(a)

La tabla nos indica en los resultados correspondientes al modelo 1 que la primera variable en entrar al
2
modelo es VAR0008. Si acudimos a la TABLA 2 vemos que R es 0,449
2
En el modelo 2 se añade la variable VAR0006, en la TABLA 2 vemos que R se ha incrementado mucho,
hemos pasado de un 50% (49,9) a un 67,1% de varianza explicada (17%).
2
En el modelo 3 también indica un incremento de R relativamente importante 9,7% de incremento).

Finalmente, de acuerdo con la TABLA 3 vemos que los tres modelos son significativos, por tanto nos
quedaremos con el modelo tres ya que todas las variables son relevantes.

Hacia delante (forward)


2
Se selecciona la variable, entre las que superan al criterio seleccionado , la que presenta mayor
correlación (en valor absoluto) con la V.D., en los paso siguientes se van añadiendo las variables que,
además de superar el criterio de selección, posee le coeficiente de correlación parcial más alto en valor
absoluto y así sucesivamente hasta que las variables restantes no superan el criterio de selección.

EJECUCIÓN

Seleccionar en Método la opción “Hacia delante ” (forward)

En estadísticos seleccionamos además de los estadísticos ya comentados para el presente análisis


pediremos las opciones Cambio en R cuadrado y correlación parcial y semiparcial.

Pulsar continuar

2 2
Incremento significativo de R
Comentaremos a continuación los resultados que corresponden a esta opción ya que los demas esta ya
comentado.

TABLA 1: Resumen del modelo

Estadísticos de cambio
2 2
R R Error Sig. del Cambio en R Cambio
Modelo R cuadrado corregida típico cambio en F cuadrado en F gl1 gl2
1 ,591(a) ,350 ,336 1,87244 ,350 25,831 1 48 ,000
2 ,701(b) ,492 ,470 1,67288 ,142 13,135 1 47 ,001
3 ,754(c) ,568 ,540 1,55952 ,076 8,081 1 46 ,007

a Variables predictoras: (Constante), VAR00008


b Variables predictoras: (Constante), VAR00008, VAR00009
c Variables predictoras: (Constante), VAR00008, VAR00009, VAR00006

La tabla 1 indica que el procedimiento que estamos empleando “Hacia delante” ha hecho el
ajuste en tres pasos (modelo 1,2 3,), en el primer paso, según indica el pie de tabla, se
selecciona la variable 008 (que es la que más correlaciona), en el segundo paso se añade la
variable 009) y en el tercero incorpora la variable 006. Además la tabla ofrece los valores de R 2
y R2 corregida de cada paso y el error de estimación, en relación con la tabla similar que vimos
en la parte general aquí se incluyen los estadísticos de cambio, el estadístico F cuya
significación permite valorar si el cambio en R2 (cuyo valor es el cuadrado del coeficiente de
correlación semiparcial) supone que la variable añadida al modelo es relevante. Como vemos
en nuestro caso las tres variables añadidas son relevantes lo que nos lleva a considerar como
mejor modelo el 3.
2
La Tabla 2 (también ya conocida) valora la varianza explicada en cada modelo, es decir si el R si es
significativo en la población (importante no confundir esta F con la de la tabla anterior, la primera valora el
2
cambio en R ya la segunda la validez explicativa del modelo en su conjunto.

TABLA 2: ANOVA

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 90,564 1 90,564 25,831 ,000(a)
Residual 168,289 48 3,506
Total 258,853 49
2 Regresión 127,321 2 63,661 22,748 ,000(b)
Residual 131,532 47 2,799
Total 258,853 49
3 Regresión 146,976 3 48,992 20,144 ,000(c)
Residual 111,877 46 2,432
Total 258,853 49
a Variables predictoras: (Constante), VAR00008
b Variables predictoras: (Constante), VAR00008, VAR00009
c Variables predictoras: (Constante), VAR00008, VAR00009, VAR00006
d Variable dependiente: VAR00007

TABLA 3: Coeficientes de regresión

En esta tabla se muestran los valores de los coeficientes de la regresión en cada uno de los tres modelos
que estamos analizando con su significación.

La tabla 4 muestra las variables que han sido excluidas en cada paso (modelo), así vemos que en el paso
1 (modelo 1) se excluyen las variables 009 y 006 , cuyos coeficientes de regresión tipificados (en caso de
ser elegidas para entrar en el siguiente paso) son ,0401 y ,267 ambos significativos. En el ejemplo la
variable 009 cuyo coeficiente de correlación parcial es ,467 es mayor que el de la variable 006 que es
,330, por tanto al elegir la variable 009 queda fuera la 006 que finalmente entra en el 3 paso (modelo)
siendo su coeficiente de correlación parcial ,387.
TABLA 4: VARIABLES EXCLUIDAS

Estadísticos de
colinealidad
Correlación
Modelo Beta dentro t Sig. parcial Tolerancia
1 VAR00009 ,401(a) 3,624 ,001 ,467 ,884
VAR00006 ,267(a) 2,396 ,021 ,330 ,993
2 VAR00006 ,277(b) 2,843 ,007 ,387 ,992

a Variables predictoras en el modelo: (Constante), VAR00008


b Variables predictoras en el modelo: (Constante), VAR00008, VAR00009
c Variable dependiente: VAR00007