You are on page 1of 12

ANALISIS DE CORRELACIN

El anlisis de correlacin es la herramienta estadstica que podemos usar para describir el grado en el que una variable est linealmente relacionada con otra. El anlisis de correlacin se utiliza junto con el de regresin para medir que tan bien la lnea de regresin explica los cambios de la variable independiente Y. Tambin puede usarse la correlacin para medir el grado de asociacin que existe entre dos variables. Los estadsticos han desarrollado dos medidas para describir la correlacin entre dos variables: El coeficiente de determinacin. El coeficiente de correlacin.

ELCOEFICIENTE DE DETERMINACIN.
El coeficiente de determinacin es la principal forma en que podemos medir el grado, o fuerza, de las asociacin que existe entre dos variables X y Y. El coeficiente de determinacin muestral se deriva de la relacin entre dos tipos de variacin: la variacin de los valores Y en un conjunto de datos alrededor de: 1. La recta de regresin lineal. 2. Su propia media. 3. El trmino de variacin en estos dos casos se utiliza en su sentido estadstico usual para expresar la suma de los cuadrados de un grupo de desviaciones. Usando esta definicin, entonces, es razonable expresar la variacin de los valores Y de la recta de regresin con esta ecuacin: VARIACIN DE LOS VALORES DE Y ALREDOR DE LA RECTA DE REGRESIN Variacin de los valores de Y alrededor de la recta de regresin:

La segunda variacin, de los valores de Y alrededor de su propia media, est determinada por: VARIACIN DE LOS VALORES DE Y ALREDEDOR DE SU PROPIA MEDIA Variacin de los valores de Y de su propia media

Uno menos la razn entre estas dos variaciones es el coeficiente de determinacin muestral, que se denota por : COEFICIENTE DE DETERMINACIN MUESTRAL

Las siguientes dos secciones mostraremos que r2, segn la definicin de la ecuacin anterior, es una medida del grado de asociacin lineal entre X y Y.

UNA INTERPRETACIN INTUITIVA DE r2


Considera las dos formas extremas en las que las variables X y Y puede relacionarse. En la tabla siguiente, cada valor observado de Y cae en la lnea de estimacin, como puede verse en la grfica. Punto de datos 1 2 3 4 5 6 7 8 Valor de X 1 2 3 4 5 6 7 8
ESTA ES UNA CORRELACIN PERFECTA
36 32 28 24 20 16 12 8 4 0 0 1 2 3 4 5 6 7 8 9

Valor de Y 4 8 12 16 20 24 28 32

La ecuacin de estimacin apropiada para estos datos es fcil de determinar. Dado que la recta de regresin pasa por el origen, sabemos qu Y es cero; como Y se incrementa en 4 cada vez que x se incrementa 1, la pendiente debe ser igual a 4. Por lo tanto, la recta de regresin es: Ahora para establecer el coeficiente de determinacin de la muestra para la recta de regresin de la figura anterior, primero calculamos el numerador de la fraccin en la ecuacin del coeficiente de determinacin muestral. Calculando Y alrededor de la recta de regresin:

Calculando Y alrededor de su propia media:


Al sustituir los resultados en la ecuacin, podemos encontrar el coeficiente de determinacin de la muestra:

TAREA. Punto de datos6 1 2 3 4 5 6 7 8 Valor de X 1 1 3 3 5 5 7 7 Valor de Y 6 12 6 12 6 12 6 12

r2 se encontrara entre esos dos extremos de 1 y 0. Pero no se olviden que un r 2 cercano a 1 indica una fuerte correlacin entre X y Y, mientras que un r2 cercano a 0 significa que esas dos variables tienen poca correlacin. Un punto en que hemos de insistir mucho es que r 2 mide exclusivamente la fuerza de una relacin lineal entre dos variables.

OTRA MANERA DE INTERPRETAR r


Y

Un valor observado de la variable dependiente (Y)

Desviacin total de esta Y respecto de su media (


Desviacin inexplicada de esta Y respecto de su media Desviacin explicada de esta Y respecto de su media

Valor de estimacin de esta Y a partir de la lnea de regresin ()

Para interpretar el coeficiente muestral de determinacin examinando la magnitud de la variacin de Y que es explicada por la lnea de regresin. Con objeto de entender el significado de r2, observemos la lnea de regresin de la figura anterior. Aqu hemos escogido un valor observado de Y que aparece en el crculo superior. Si usamos la media de los valores de Y, , para estimar ese valor de y, entonces la desviacin total de Y . Ntese que, si usramos la lnea de regresin para estimar respecto a su media ser
dicho valor de Y, conseguiramos una mejor estimacin. Sin embargo, aun cuando la lnea de . regresin explica de la desviacin total, la parte restante de la desviacin total,

Pero consideremos un conjunto entero de valores observados de Y y no slo uno. La variacin total, o sea la suma de los cuadrados de las desviaciones totales, de esos puntos respecto de su media ser:

y la parte inexplicada de la variacin (la suma de los cuadrados de las desviaciones no explicadas) de estos puntos de la lnea de regresin ser:

y por ltimo, si restamos a 1 la fraccin de la variacin total que queda sin explicar, tendremos la formula con que calculamos la fraccin de la variacin total de Y, la cual es explicada por la lnea de regresin. ( )

o sea la misma ecuacin que hemos aplicado antes para calcular r2. Asi pues, es en este sentido que r2 mide la eficiencia con que X explica Y; es decir, el grado de asociacin entre ellas. Para obtener r2 mediante las ecuaciones se requiere una serie de clculos tediosos. Con el propsito de no tener que hacerlos, se han ideado una versin abreviada, empleando valores que ya habran obtenido en el anlisis de regresin. La frmula es: Dnde: r2= Coeficiente muestral de la determinacin. a= Interseccin en Y
b= Pendiente de la lnea de estimacin n= Nmero de datos X= Valores de la variable independiente. Y= Valores de la variable dependiente. = Media de los valores de la variable dependiente.

Ejemplo. Aplicaremos esta frmula del mtodo abreviado, a nuestra regresin anterior que relaciona los gastos de investigacin y desarrollo con las utilidades. En la tabla siguiente hemos repetido las columnas ya antes calculadas y agregando una columna Y 2.
AO 1986 1985 1984 1983 1982 1981 GASTOS EN UTILIDAD INVESTIGACION ANUAL (Y) 5 11 4 5 3 2 X=30 31 40 30 34 25 20 Y=180 XY 155 440 120 170 75 40 XY=1,000 X2 25 121 16 25 9 4 X2=200 Y2

Recordemos que, cuando calculamos los valores de a y b, de la lnea de regresin de este problema fue descrita por:

EL COEFICIENTE DE CORRELACIN El coeficiente de correlacin es la segunda medida con que puede describirse la eficiencia con que una variable es explicada por otra. Cuando estamos trabajando con muestras, el coeficiente muestral de correlacin se denota con r y es la raz cuadrada del coeficiente de determinacin: Cuando la pendiente de la ecuacin de estimacin es positiva, r es la raz cuadrada positiva; pero si b es negativa, r es la raz cuadrada negativa. As pues, el signo de r indica la direccin de la relacin entre las dos variables X y Y. Si existe una relacin inversa estos es, si Y disminuye al aumentar X, entonces r caer entre 0 y -1. De manera similar, si existe una relacin directa (si Y aumenta al aumentar X), entonces r ser un valor en el intervalo de 0 a 1 la siguiente figura ilustra estas caractersticas de r.

El coeficiente de correlacin es ms difcil de interpretar que r2 suponiendo r=0.9 es lo mismo que r2= 0.81, este ltimo nos dice que el 81% de la variacin Y es explicada por la recta de regresin. Vamos que r es solo la raz cuadrada y su significado es que tanto se relaciona X y Y por lo tanto que r=0.9 significa que el 90% de los datos se relacionan entre s. Ejemplo. Ahora calcularemos el coeficiente de correlacin del problema que relacin los gastos de investigacin y desarrollo con las utilidades anuales. En la seccin anterior descubrimos que el coeficiente muestral de determinacin es r2=0.866, por lo cual podemos sustituir este valor en la ecuacin. INFERENCIAS SOBRE LOS PARAMETROS DE LA POBLACIN. Hasta ahora hemos empleado los anlisis de regresin y correlacin para relacionar dos variables a partir de la informacin referente a la muestra. Pero estos datos representan nicamente una parte de la poblacin total. Por ello podemos concebir la lnea de regresin estimada de la muestra como una estimacin de la lnea de regresin verdadera, pero desconocida, de la poblacin con la siguiente forma

Recurdese lo dicho acerca del director del departamento de salubridad que trataba de usar la edad de un camin para explicar los gastos anuales de su reparacin. Ese gasto probablemente conste de dos partes: 1. El mantenimiento regular que no depende de la edad del camin: afinaciones, cambios de aceite y lubricacin. Este gasto se observa en el trmino interseccin A en la ecuacin anterior. 2. Los gastos por reparacin debidas el envejecimiento: realineacin de los frenos, reparacin general del motor y la transmisin as como la pintura. Tales gastos tendrn a aumentar con la edad del camin y se incluye en termino BX. Claro est que no todos los frenos de todos los camiones se desgastaran al mismo tiempo, algunos de los camiones funcionaran durante aos sin revisiones de motor. Debido a estos, los puntos individuales probablemente no caern exactamente en la recta de regresin de poblacin de poblacin. Algunos estarn arriba otros abajo, as que en lugar de satisfacer la ecuacin anterior los puntos individuales satisfarn la siguiente formula:

Donde e es una perturbacin o variacin aleatoria de la recta de regresin. En promedio e es igual a 0, porque las variaciones arriba de la recta de regresin poblacional se anulan con las variaciones debajo de esa recta. Podemos expresar esa desviacin estndar de estas variaciones individuales mediante es una estimacin de el error estndar de la estimacin entonces,

, la desviacin estndar de las variaciones.

Analizando las dos ecuaciones la ecuacin expresa los valores de Y (gasto anual) en trminos de los valores individuales de X (antigedad de los camiones) y la variacin (e). Puesto que las variaciones arriba de la recta de regresin de poblacin se anulan por aquellas situadas abajo, sabemos que el valor esperado de e es cero, y vemos que si tuviramos varios camiones de la misma antigedad, X, esperaramos que el gasto anual de reparacin para estos camiones fuera . Esto nos muestra que la recta de regresin de la poblacin proporciona el valor medio de Y asociado con cada valor de X. Puesto que nuestra recta de regresin de la muestra , estima la recta de regresin de la poblacin, Y=A+BX, deberas poder usarla para hacer inferencia acerca de la recta de regresin de la poblacin. Entonces, en esta seccin haremos inferencias respecto a la pendiente B de la ecuacin de regresin verdadera (de toda la poblacin), basadas en la pendiente b de la ecuacin de regresin estimada a partir de una muestra de valores.

Pendiente de la recta de regresin. La recta de regresin se deriva de una muestra y no de una poblacin. Como resultado, no podemos esperar que la ecuacin de la recta de regresin, (de toda la poblacin), sea exactamente la misma que la ecuacin estimada a partir de observaciones de la muestra, o . Aun as, podemos usar el valor de b, la pendiente que calculamos a partir de una muestra para probar la hiptesis respecto al valor de B, la pendiente de la recta de regresin para toda la poblacin. Para comprender este proceso, regresaremos al problema de la relacin entre los gastos anuales de investigacin y desarrollo, y la las ganancias, donde sealamos que b=2. El primer paso es escoger un valor de B con el fin de compararlo con b=2. Supongamos que durante un periodo extenso la pendiente de la relacin entre X y Y fue 2.1. Para probar si este es todava el caso, podramos definir la hiptesis como:

Para encontrar el estadstico de prueba par B, es necesario primero encontrar el error estndar del coeficiente de regresin. Aqu, el coeficiente de regresin con el que estamos trabajando es b, as que el error estndar de este coeficiente se expresa como S b. Error estndar de b

Dnde: Sb=Error estndar del coeficiente de regresin. Se=Error estndar de la estimacin. X=Valores de la variable independiente.

=Media de los valores de la variable independiente n=Nmero de datos. Una vez calculado Sb, podemos utilizar la siguiente ecuacin para estandarizar la pendiente de nuestra ecuacin de regresin:

Valor estandarizado de b

Dnde: b=Pendiente de la regresin ajustada. = Pendiente real hipottica para la poblacin. Sb=Error estndar del coeficiente de regresin. Recordando que utilizando el mtodo abreviado para calcular Se nos da de la siguiente manera: Se=3.24 Ahora podemos determinar el error estndar del coeficiente de regresin:

Ahora usamos el error estndar del coeficiente de regresin para calcular el estadstico de prueba estandarizado:

Supongamos que tenemos razones para probar nuestra hiptesis al 10% de nivel de significancia. Como tenemos seis observaciones en nuestra muestra, sabemos que tenemos 4 grados de libertad, consultando la tabla 2 bajo la columna del 10% y bajamos hasta encontrar el rengln 4. All vamos que el valor de t adecuado es 2.132. Puesto que no interesa si b (la pendiente de la recta de regresin de la muestra) es significativamente diferente a B (la pendiente hipottica de la recta de regresin de la poblacin), esta es una prueba de dos colas, y los valores crticos son 2.132. El coeficiente de regresin estandarizado es -0.217, que est dentro de la regin aceptada de nuestra prueba de hiptesis. Por lo tanto aceptamos la hiptesis nula de que B sigue siendo igual a 2.1. En otras palabras, no existe suficiente diferencia entre b y 2.1 para que concluyamos que B ha cambiado de su valor histrico. Por esto, sentimos que cada milln de dlares

adicionales gastado en investigacin y desarrollo todava aumentara las ganancias anuales aproximadamente $2.1 millones, como suceda en el pasado. Adems de la prueba de hiptesis tambin podemos construir un intervalo de confianza para el valor de B. De la misma forma que b es una estimacin puntual de B, estos intervalos de confianza son estimaciones de intervalo de B. El problema que acabamos de resolver, y para el cual hicimos una prueba de hiptesis, ilustrara el proceso de construir un intervalo de confianza. Encontramos que: b=2.0 Sb=0.46 t=2.132 Con esta informacin podemos calcular los intervalos de confianza como:

b t (Sb)

You might also like