You are on page 1of 4

Choque Sansuste Javier Armando 2013

1. Coeficiente de correlación lineal
En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada. Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1 Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.

1

02568)) * ((1/30)*(51.27 1. la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).366)))^(1/2) Luego.24 1. ya que este resultado podría haberse debido al puro azar.29 Peso 33 34 34 31 32 34 34 31 35 34 r= Coeficiente de correlación múltiple. .21 1. a partir de los n pares de observaciones.22 1. la correlación existente entre estas dos variables es elevada (0.29 Peso 33 35 34 30 33 34 35 32 33 33 Alumno Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30 Estatura 1.27 1. exponencial. Se define.29 1.7) y de signo Estatura 1.21 1.24 1.29 1.30 1.28 1.25 1. En el contexto del análisis de la regresión lineal simple el coeficiente de correlación múltiple establece una medida del grado de asociación lineal entre la variable respuesta y la variable predictora.24 1.27 1. tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables.27 1.22 1. La correlación negativa es tanto más fuerte cuanto más se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. mediante 2 . Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los alumnos de una clase: Alumno Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10 Aplicamos la fórmula: (1/30) * (0.25 1.27 1.28 1. Aunque podría existir otro tipo de correlación (parabólica.30 1.27 1. positivo. aunque el valor de "r" fuera próximo a 1 o -1. concretamente entre la variable respuesta y la recta de regresión estimada.30 1.21 1.) De todos modos.Choque Sansuste Javier Armando 2013 Si "r" < 0. Si "r" = 0.826) ---------------------------------------------------------(((1/30)*(0.29 Peso 32 33 34 30 32 35 34 32 32 35 Alumno Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20 Estatura 1. etc.28 1.25 1. Por lo tanto. no existe correlación lineal entre las variables.29 1.22 1.

Si existe varios resultados para una única variable. el R2 es simplemente el cuadrado del coeficiente de correlación de Pearson.. A la diferencia entre el valor observado de la variable y el valor predicho la llamaremos residuo. El coeficiente determina la calidad del modelo para replicar los resultados. En ambos casos el R2 adquiere valores entre 0 y 1. Para estimar el modelo haremos varias observaciones de la variable a predecir y de los factores. R2. el coeficiente de determinación resulta del cuadrado del coeficiente de determinación múltiple. La media cuadrática de los residuos es la varianza residual. para una X existe una Y. en tanto que puede comprobarse que: Cuando todos los puntos se encuentran sobre la recta de regresión estimada. En estadística. el coeficiente de 3 . Existen casos dentro de la definición computacional de R2 donde este valor puede tomar valores negativos . Z. el coeficiente de determinación. el error cuadrático medio es su varianza. es decir. puede interpretarse como el porcentaje de variabilidad de Y explicada o debida a la recta de regresión. toma el valor cero y . 2. y la proporción de variación de los resultados que puede explicarse por el modelo. el coeficiente de determinación adoptará valores altos.Choque Sansuste Javier Armando 2013 Su cuadrado. "el ajuste es perfecto". denominado coeficiente de determinación múltiple. El denominador de la última expresión es una medida de la variabilidad total de las n observaciones de la variable respuesta. por tanto. Cálculo Caso general: Un modelo estadístico se construye para explicar una variable aleatoria que llamaremos dependiente a través de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una variable aleatoria mediante su media y que. es decir. Coeficiente de determinación Ajuste ordinario por mínimos cuadrados. Hay varias definiciones diferentes para R2 que son algunas veces equivalentes. En este caso. es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o testear una hipótesis. la suma de cuadrados de residuos. R2 = 1. el máximo error cuadrático medio que podemos aceptar en un modelo para una variable aleatoria que posea los dos primeros momentos es la varianza. Mientras los puntos no disten mucho de la línea de la regresión. SSE.. en este caso. Si representamos por la varianza de la variable dependiente y la varianza residual por determinación viene dado por la siguiente ecuación: . lo cual es sólo cierto para la regresión lineal simple. denominado R2 y pronunciado R cuadrado. Las más comunes se refieren a la regresión lineal.

htm http://dm.aulafacil. incluso cuando éstas son poco significativas o tienen poca correlación con la variable dependiente.udc.com/CursoEstadistica/Lecc-12-est. Cada observación corresponderá a una coordenada de y a una fila de .html 4 .Choque Sansuste Javier Armando 2013 Se mide en tantos por ciento. la variable dependiente se explica mediante la ecuación Modelo lineal . Para la regresión lineal Para la regresión basta con hacer el cuadrado del coeficiente de correlación de Pearson. Sumando estas dos partes. podemos ordenar nuestras observaciones de la variable dependiente en una matriz mientras que colocaremos las de los factores en la matriz de regresión . es la parte de la variación de Problema: El valor del coeficiente de determinación siempre aumenta cuando incluimos nuevas variables en el modelo. Si la varianza residual es cero. que no explica el modelo lineal. el modelo explica el 100% de valor de la variable. suele ser difícil conseguir un coeficiente de determinación mayor de un 30%. es la parte de la variación de explicada por el modelo lineal. Donde:   es la covarianza de es la desviación típica de la variable es la desviación típica de la variable En un modelo lineal. obtenemos . Bibliografía   http://www. La varianza residual es la varianza de estos residuos. Si observamos veces tanto la variable aleatoria como los factores.es/asignaturas/estadistica2/sec6_8. En variables económicas y financieras. Cada columna de la matriz de regresión corresponde a las observaciones de un factor. si coincide con la varianza de la variable dependiente. Para resolverlo tenemos el coeficiente de determinación corregido. el modelo no explica nada y el coeficiente de determinación es del 0%. En cada observación el modelo cometerá un error: Estos errores se llaman residuos.