You are on page 1of 13

ANÁLISIS DE REGRESION

ANALISIS DE REGRESION LINEAL

Regresion lineal en Excel


Resolveremos el Ejemplo 1.
Seleccione: herramientas > análisis de datos > Regresion
En la ventana seleccione el rango de entrada para X y Y, el rango de salida y seleccione la opción:
gráfico de residuales y curva de Regresion ajustada.

Página 1
ANÁLISIS DE REGRESION

Página 3
ANÁLISIS DE REGRESION

Análisis de resultados:

Analizando los resultados:

 En la sección Estadísticas de la Regresion vemos que el coeficiente de correlación = .5873


comparando este valor con la tabla de correlaciones observamos que el valor .5873 < .71
lo cual indica una relación débil entre las variables. En la gráfica “de Regresion ajustada”
observamos que la correlación es negativa ya que al aumentar X, Y disminuye; Cabe
mencionar que el coeficiente de correlación calculado por el sistema siempre es positivo,
por lo cual debemos basarnos la gráfica de Regresion para determinar el signo.

 Ecuación de la Regresion: Para obtener la ecuación de Regresion usamos los coeficientes


de los renglones Intercepción y variable X1, estos son 46.3909 y – 0.1347
respectivamente, siendo la ecuación de Regresion: y = 46.3909- 0.1347X1.

 Análisis de Varianza: La tabla muestra la suma de cuadrados de la Regresion SSR =


28.5901, la suma de cuadrados de los residuos o error SSE = 54.2806, El promedio de
2
los cuadrados de la Regresion que es la varianza residual S e = 9.0468 . El sistema
2
calcula el valor de F dividiendo SSR/ S e como ya se trato anteriormente. El valor crítico F
es menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la
H0:  1  0 , en consecuencia el modelo de Regresion no es apropiado.

 Análisis de residuos: muestra los pronósticos y residuos para cada observación, así como
el gráfico de residuales, en el cual observamos inconsistencias ya que la mayoría de los
puntos se encuentran en la región positiva.

Página 5
ANÁLISIS DE REGRESION

ANÁLISIS DE REGRESION MULTIPLE

Cuando se usa más de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama análisis de Regresion múltiple, incluye el uso de ecuaciones
lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de Regresion lineales.

Ejemplo 6 Muchos programas de estudios premédicos usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las
variables que se sabe influencian esos promedios del MCAT(y) son: la combinación de las
calificaciones del SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos.
La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de
premedicina y que han presentado el MCAT

Calificación Calificación pro-


Estudiante SAT (X1) GPA (X2) medio del MCAT (Y)
1 1200 3.8 12.4
2 1350 3.4 13.3
3 1000 2.9 9.2
4 1250 3.3 10.6
5 1425 3.9 13.2
6 1340 3.1 11.2

Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada
del SAT.
La ecuación lineal para los datos del ejemplo tiene la forma yˆ  b0  b1 x1  b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el
método de Regresion lineal simple. El método en este caso requiere resolver tres ecuaciones
lineales con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:

 y  nb 0  b1  x1   b2  x 2 

 x y  b  x   b  x   b  x 
1 0 1 1
2
1 2
2
2

x 2 y  b0  x 2   b1  x1 x 2   b2  x 2
2

Página 6
ANÁLISIS DE REGRESION

La siguiente tabla organiza los cálculos para obtener las ecuaciones:

X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y


1200 3.8 12.4 1440000 14.44 4560 14880 47.12
1350 3.4 13.3 1822500 11.56 4590 17955 45.22
1000 2.9 9.2 1000000 8.41 2900 9200 26.68
1250 3.3 10.6 1562500 10.89 4125 13250 34.98
1425 3.9 13.2 2030625 15.21 5557.5 18810 51.48
1340 3.1 11.2 1795600 9.61 4154 15008 34.72
7565 20.4 69.9 9651225 70.12 25886.5 89103 240.2

Las ecuaciones normales para este ejemplo son:

69.9  6b0  7,565b1  20.4b2


89,103  7565b0  9,651,225b1  25,886.5b2
240.2  20.4b0  25,886.5b1  70.12b2

Resolviendo el sistema de ecuaciones lineales obtenemos:

b0 = -2.537, b1=0.005425, b2 = 2.161.

La ecuación de Regresion es:

yˆ  2.537  0.005425 x1  2.161 x 2

Suma de cuadrados

La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para
la Regresion, y suma de cuadrados del error.

SST = SSR + SSE

La suma de cuadrados para la Regresion es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.

SST    y  y   12.9950
2

SSE    y  yˆ   2.2403
2

SSR  SST  SSE  10 .7547

Grados de libertad para la Regresion:

glT  gl R  gl E
glT  n  1
gl R  k
gl E  n  (k  1)

donde:
k = número de variables independientes

Página 7
ANÁLISIS DE REGRESION

Cálculo de cuadrados medios:

SSR 10.7547
MSR    5.3773
gl R 2
SSE 2.2403
MSE    0.7468
gl E 3

Donde:
MSR= Cuadrado medio de la Regresion
MSE= Cuadrado medio del error.

Prueba de hipótesis

Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hipótesis son:

H 0 : 1   2   0
H 1 : 1  0 o  2  0

El valor del estadístico F se encuentra dividiendo MSR entre MSE.

MSR 5.3773
F   7.20
MSE 0.7468

Buscando el valor crítico para F (1, n  2)  F0.05 1,4  =7.71.


Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podría ser arriesgado utilizar la
ecuación de Regresion con propósitos predictivos.

Coeficiente de determinación múltiple

SSR
R2 
SST
Utilizando los datos del ejemplo:

10.7547
R2   0.8276  82.8%
12.995
Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se
atribuye a la variación de las variables independientes y solamente el 17% de la variación de la
variable dependiente no se atribuye a eso.

Página 8
ANÁLISIS DE REGRESION

Regresion múltiple en Minitab

Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones
normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis
coches deportivos modelo 1990.

Coche deportivo Capacidad Peso Consumo


Chevrolet 5735 3330 17,9
Kagiar XJ-S 5344 4015 18,7
Mercedes-Benz 500 SL 2174 2865 16,5
Porsche 911 3600 3320 17
Maserrati 228 2790 3020 15,5
BMW 325i 2494 3100 22

a) Determine una ecuación de Regresion para predecir el promedio de consumo de


combustible usando la capacidad del motor y el peso, y calcule el coeficiente de
determinación R2.

Una vez capturados los datos de las variables en Minitab seleccionamos


STAT>REGRESION>REGRESION y se presenta la siguiente pantalla

Página 9
ANÁLISIS DE REGRESION

Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las


variables de predicción (predictors): C1 y C2.

Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la
opción que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y
normal plot of residuals. También existen otras opciones de gráficos que podemos usar en caso de
ser necesario.

Página 10
ANÁLISIS DE REGRESION

En la opción Resultados “Results” seleccionamos el circulo: Regresion equation....

Damos clic en ok.

Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2

Predictor Coef StDev T P


Constant 10,91 12,90 0,85 0,460
C1 -0,000496 0,001329 -0,37 0,734
C2 0,002702 0,004982 0,54 0,625

S = 2,805 R-2 = 9,1% R-2(adj) = 0,0%

Analysis of Variance

Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973

Analizando los resultados tenemos:

De la tabla resultante podemos determinar que la ecuación de Regresion es Y = 10.9 –


0.00050X1+.00270X2
Donde X1 representa el tamaño del motor (capacidad) y X2 el peso del coche, Y representa el
rendimiento predicho para el consumo del combustible.

Página 11
ANÁLISIS DE REGRESION

El coeficiente de determinación R-2 o R2 es 9.1% y esto indica que el 9.1% de la variación en el


consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas
variables.
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos
que el modelo no es adecuado para fines de predicciòn en un nivel   0.05

Normal Probability Plot of the Residuals


(response is C3)

1
Normal Score

-1

-2 -1 0 1 2 3 4

Residual

Residuals Versus the Fitted Values


(response is C3)

2
Residual

-1

-2

17 18 19

Fitted Value

Analizando los gráficos anteriores, podemos observar en el grafico de probabilidad que las
observaciones aparentan ser normales. Sin embargo en el gráfico de residuales observamos una
tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.

Página 12
ANÁLISIS DE REGRESION

Página 13