You are on page 1of 9

10.

Relaciones entre dos variables cuantitativas (Inferencia) Ya revisamos la descripcin de variables cuantitativas ahora veremos la manera de hacer inferencia a partir de los resultados muestrales. Problema: Existe relacin entre las notas en la Prueba Final Acumulativa y las notas de la Prueba 1 en cursos de Estadstica en la UTAL
7

Examen

1 1 2 3 4 5 6 7

Prueba 1

Inferencia en Regresin Lineal Simple Modelo de regresin lineal simple: Se tienen n observaciones de una variable explicativa x y de una variable respuesta y, ( x1 , y1 ), ( x 2 , y 2 ), ..., ( x n , y n ) el modelo estadstico de regresin lineal simple es:
y i = + x i + ei

donde
y = E (Y ) = + x es la respuesta promedio para cada x.

representa el intercepto de la funcin lineal que usa todos los valores de la poblacin y representa la pendiente de la funcin lineal que usa todos los valores de la poblacin. y son parmetros El modelo estadstico de regresin lineal simple asume que para cada valor de x, los valores de la respuesta y son normales con media (que depende de x) y desviacin estndar que no depende de x. Esta desviacin estndar es la desviacin estndar de todos los valores de y en la poblacin para un mismo valor de x. Estos supuestos se pueden resumir como: Para cada x, Y ~ N ( y , ) Podemos visualizar el modelo con la siguiente figura: donde y = E (Y ) = + x

Los datos nos darn estimadores puntuales de los parmetros poblacionales. Estimadores de los parmetros de regresin:
= a + bx El estimador de la respuesta media est dado por E (Y ) = y El estimador del intercepto es: =a =b El estimador de la pendiente es: El estimador de la desviacin estndar est dado por:

SCRes donde n 2

SCRes

es la suma de cuadrados de los residuos

( y

y i ) = ei 2
2

es un estimador puntual de la correlacin poblacional El coeficiente de correlacin muestral r =

Probando la hiptesis acerca de la existencia de relacin lineal En el modelo de regresin lineal simple => E (Y ) = + x . Si = 0 entonces las variables x e y no estn asociadas linealmente y la respuesta es una constante E(Y) = .
E(Y) =

Es decir, conocer el valor de x no nos va a ayudar a conocer y. Para docimar la significancia de la relacin lineal realizamos el test de hiptesis:
2

Ho: = 0 (la pendiente de la recta de regresin en la poblacin es cero) H1: 0 Existen hiptesis de una cola, donde H1: < 0 o H1: > 0, pero lo usual es hacer el test bilateral. Para docimar la hiptesis podemos usar el test t:
t= estimador puntual valor hipottico error estndar del estimador

El estimador puntual de es b, y el valor hipottico es 0. El error estndar de b es:


EE (b) =

( x

x)

El estadstico para docimar la hiptesis acerca de la pendiente de la poblacin es:


t= b 0 ~ t ( n 2) EE (b)

Intervalo de confianza para la pendiente: Un intervalo de confianza ( 1 )*100% para la pendiente est dado por:
2) b t1(-n [ EE (b )] 2

donde t1-

( n 2 )
2

es el percentil apropiado de la distribucin t con (n-2) grados de libertad.

Suponga que se rechaza al 5% la hiptesis nula del test t: Ho: = 0 H1: 0 El intervalo de 95% de confianza para la verdadera pendiente contiene el cero? Ejemplo: Test 1 versus Test 2 revisitado Revisemos la salida de SPSS con lo que hemos visto hasta ahora:
Coeficientes(a) Modelo Coeficientes no estandarizados B .800 1.100 Error tp. 2.135 .173 Coeficientes estandarizados Beta .965 .375 6.351 .733 .008 t Sig. Intervalo de confianza para B al 95% Lmite inferior -5.996 .549 Lmite superior 7.596 1.651

(Constante) Test 1

a Variable dependiente: Test 2

Anlisis de varianza y regresin lineal* El estimador de la varianza utilizado, se interpreta como la variabilidad residual alrededor de la recta, vale decir, la variabilidad que queda despus de haber sustrado la variabilidad de los valores observados de la variable respuesta (yi) respecto de su promedio, que es la variacin que se puede explicar por la relacin entre x e y. Se corrobora as que la descripcin de una variable gana en precisin cuando existe una relacin con otra variable que explica parte de su comportamiento.
yi y-y
y y -y y =y

y- y

y
E (Y ) = y = a + bx

xi

En el grfico se muestran las fuentes de variacin mencionadas:


2 La variacin total est dada por SCT = ( yi y ) . i =1 n

La variacin explicada por la inclinacin de la recta, o en otras palabras, explicada por la relacin entre las 2 y) . variables y y x, es SC Re g = ( y
2 i ) . Por ltimo, la variacin no explicada, o residual es SC Re s = ( y i y i =1 n

Podemos hacer una tabla, llamada tabla de anlisis de varianza, para la regresin lineal simple y es la siguiente:
Fuente de variacin gl Grados de libertad 1 SC Suma de Cuadrados
2 SC Re g = ( y y)

CM Cuadrados Medios SC Re g

Regresin

Residuo

n 2 n 1

2 SC Re s = ( y i y i ) i =1

SC Re s n 2

Total

SCT = ( y i y )
i =1

Adaptado de captulo 21 del libro Bioestadstica de Erica Taucher 4

Ejemplo: Test 1 versus Test 2 re-revisitado


ANOVA(b) Modelo 1 Suma de cuadrados 48.400 3.600 gl 1 3 4 Media cuadrtica 48.400 1.200 F 40.333 Sig. .008(a)

Regresin Residual Total

52.000 a Variables predictoras: (Constante), Test 1 b Variable dependiente: Test 2

Coeficiente de determinacin o bondad de ajuste (r2) La correlacin entre el test 1 y test 2 del ejemplo es de r = 0,965 , este coeficiente de correlacin cuantifica el grado de asociacin lineal y la direccin de la asociacin entre dos variables cuantitativas x y y. Se puede demostrar que: 2 y) SCReg ( y r2 = = SCTotal ( yi y ) 2 este coeficiente se llama coeficiente de determinacin, y representa la proporcin de la variacin total de y que es explicada por la relacin lineal entre x e y. A este coeficiente se le usa entonces como medida de bondad de ajuste, es decir que tan buena es la variable explicativa x para explicar la respuesta y. El rango del coeficiente de determinacin es naturalmente entre cero y uno ( 0 r 2 +1 ), lo que nos indica que mientras ms cercano a uno sea el coeficiente de determinacin (r2) mejor es el ajuste de la regresin. En el caso del ejemplo del test 1 y test 2, el r 2 = (0,965) 2 = 0,931 , que nos indica que el test 1 explica el 93,1% de la variacin total del test 2. Verificando supuestos en la Regresin lineal simple 1. Examine el grfico de dispersin de y versus x para decidir si el modelo lineal parece razonable. 2. Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos deben ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar . Cuando examine los residuos verifique: a) que provienen de una muestra aleatoria: Grafique los residuos versus x. El supuesto de que provienen de una muestra aleatoria ser razonable si el grfico muestra los puntos al azar, sin una forma definida.

A veces es posible detectar falta de independencia cuando los datos recogidos en el tiempo. Para verificar este supuesto grafique los residuos versus el tiempo y los puntos no deben mostrar una distribucin definida.
5

b) Normalidad Para verificar normalidad haga el histograma de los residuos, este debera aparecer como normal sin valores extremos si tenemos un nmero grande de observaciones. En el caso de tener pocas observaciones puede hacer un grfico de tallo y hoja y verificar que no haya observaciones extremas.

c) desviacin estndar comn (que no depende de x) El grfico de los residuos versus x, debe tener aproximadamente una banda del mismo ancho.

El grfico muestra evidencia de que la variabilidad en la respuesta tiende a aumentar cuando x aumenta.

Ejemplo: Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) est relacionada con el tiempo de reaccin a un estmulo en segundos.
Droga (ml) Tiempo (segs) 1,0 1,0 1,5 0,8 2,0 1,8 2,5 1,4 3,0 2,1 3,5 1,8 4,0 2,2 4,5 5,0 5,5 3,0 2,75 3,0 6,0 4,1 6,5 4,9

Grfico de dispersin del tiempo de reaccin a estmulo versus dosis de droga:


5

Tiempo de reaccin (seg)

0 0 1 2 3 4 5 6 7

R = 0.8824

Dosis de droga (ml)

Estadsticos descriptivos Media 2.4042 3.750 Desviacin tp. 1.21925 1.8028 N 12 12

Tiempo de reaccin (seg) Dosis de droga (ml)

Correlaciones Tiempo de reaccin (seg) Correlacin de Pearson Tiempo de reaccin (seg) 1.000 Dosis de droga (ml) .939 Sig. (unilateral) Tiempo de reaccin (seg) . Dosis de droga (ml) .000 N Tiempo de reaccin (seg) 12 Dosis de droga (ml) 12 Dosis de droga (ml) .939 1.000 .000 . 12 12

a Coeficientes

Modelo 1

Coeficientes no estandarizados B Error tp. (Constante) 2.174E-02 .303 Dosis de droga (ml) .635 .073

Coeficientes estandarizad os Beta .939

t .072 8.663

Sig. .944 .000

a. Variable dependiente: Tiempo de reaccin (seg)

b ANOVA

Modelo 1

Regresin Residual Total

Suma de cuadrados 14.430 1.923 16.352

gl 1 10 11

Media cuadrtica 14.430 .192

F 75.048

Sig. .000 a

a. Variables predictoras: (Constante), Dosis de droga (ml) b. Variable dependiente: Tiempo de reaccin (seg)

Grfico de residuos de la regresin versus dosis de droga:


.8

.6

.4

.2

Unstandardized Residual

-.0

-.2

-.4 -.6 0 1 2 3 4 5 6 7

Dosis de droga (ml)

Histograma Variable dependiente: Tiempo de reaccin (seg)


5

Frecuencia

Desv. tp. = .95 Media = 0.00 N = 12.00 -1.00 -.50 0.00 .50 1.00 1.50

Regresin Residuo tipificado

Tallo y hoja de los residuos Unstandardized Residual Stem-and-Leaf Plot Frequency 1.00 5.00 4.00 2.00 Stem width: Each leaf: Stem & -0 -0 0 0 . . . . Leaf 5 12344 1123 57

1.00000 1 case(s)