You are on page 1of 8

UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA

FACULTAD DE INGENIERÍA “RELACION Y CORRELACION” ESTADISTICA FECHA.- 27-11-2013 ALUMNO.JOSÉ HOMAR SANZABAS RIVERA MATRICULA.- 256832 GRUPO.- 4CV1

. en el caso de que la función que relaciona las dos variables X e Y sea la más simple posible. es decir.. Nos centraremos en primer lugar. La ecuacion de regresion es la formula algebraica por la cual se determina el valor estimado de la variable dependiente. los datos se pueden representar mediante los pares de observaciones {xi. Por ejemplo: Y=3+2X. En primer lugar procederemos a representar el diagrama de dispersión.En la correlación tan solo medimos la y la fuerza de la asociación de una variable frente a la otra. Sean X e Y dos variables aleatorias medidas sobre los mismos individuos. SIGNIFICADO DE a y b a es la ordenada en el origen. es la altura a la que la recta corta al eje Y. la talla no sólo depende de la edad. una línea recta. yi. Por ejemplo. es decir.b recibe el nombre de Coeficiente de regresión.5. En el caso de la regresion lineal simple dode hay una sola variable de regresion independiente x y una sola variable aleatoria dependiente Y. Se denomina también término independiente. además también puede haber errores de medida). también denominada pendiente es la inclinación de la recta.La variable dependiente tambien s ellama variable de respuesta. mientras que la variable independiente tambien se llama variable de prediccion. Es conveniente utilizar los conceptos de la seccion anterior para definir cada variable aleatoria yi=yIx por medio de un metodo estadistico. en el caso anterior Y=3+2X. Aunque la nube revele una gran dispersión. donde X e Y son variables y a y b son constantes. Toda función de la forma Y=a+bX determina.. EL analisis de regresion multiple. es decir. entonces cuando X aumenta Y también lo hace (relación directa). . y sean (x i.. Si b<0.. i=1. podemos observar una cierta tendencia lineal al aumentar X e Y (tendencia que no es del todo exacta. Por ello pasaremos a interpretar los coeficientes que determinan una línea recta. obviamente. cuando X aumenta Y disminuye (relación inversa).ANALISIS DE REGRESION Y CORRELACION. por ejemplo si suponemos que X es la edad e Y es la talla. la Y presenta un incremento medio de 2 unidades. entonces. o de respuesta. al representarla en el plano una línea recta. REGRESION LINEAL SIMPLE:METODO DE LOS MINIMOS CUADRADOS. o de prediccion. se ocupa de la estimacion del valor de una variable dependiente con base en dos o mas variables independientes.n}. Supongamos que es la obtenida en la figura 6. pero nunca una relación de causalidad.yi) los pares de observaciones sobre dichos individuos. por cada unidad que incrementa la X. Solo cuando tenemos una variable que es causa o depende de otra. b. es el incremento que se produce en la variable Y cuando la variable X aumenta una unidad. podremos realizar entonces una regresión. Si b>0. El objetivo primordial del analisis de de regresion y correlacion es estimar el valor de una variable aleatoria(la variable dependiete) dado que el valor de una variable aleatoria(la variable dependiente) es conocido. o nube de puntos.2. El analisis de regresion multiple se ocupa de la estimacion del valor de una variable dependiente con base en dos o mas variables independientes. En la recta de regresión -como ya veremos.

Este criterio significa que la suma de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo más pequeña posible (ver figura 6. este es uno de los posibles criterios a adoptar.. De todas ellas debemos elegir una ¿cual?. Llamaremos a la mejor de todas Y*=a+bX (Y* para distinguir los valores de la tabla de los que se habrían producido con la recta si la relación fuese funcional). La recta de regresión debe tener carácter de línea media.6). Obviamente elegiremos la mejor de todas en algún sentido. Que pase lo más cerca posible de todos los puntos.Por esa nube de puntos podemos hacer pasar infinitas rectas. debe ajustarse bien a la mayoría de los datos. . pero es el más utilizado). es decir que diste poco de todos y cada uno de ellos significa que hemos de adoptar un criterio particular que en general se conoce como MÍNIMOS CUADRADOS.. pasar lo más cerca posible de todos y cada uno de los puntos. (Obviamente. es decir.

obtenemos: Operando y reorganizando términos. como veíamos en la primera unidad didáctica al tratar de hallar la suma de las diferencias con respecto a la media aritmética). Así. obtenemos las denominadas Ecuaciones Normales de Gauss: . obtendremos: Adecuando convenientemente las ecuaciones anteriores. Es decir. trabajaremos con esas distancias. deberemos hallar las derivadas parciales de D con respecto a a y a b. para evaluar la dispersión. Por las mismas razones que entonces. Entonces el criterio puede expresarse: Dado que la recta de regresión deberá tener carácter de línea media. y resolver el sistema resultante. esa suma de distancias deberá anularse (lo mismo que sucedía. el problema se reduce a un problema de mínimos. excepto a y b. con la condición de que D sea mínima.Estas distancias verticales se denominan errores o residuos. al igualar las ecuaciones obtenidas a 0. de modo que la función que deberemos minimizar será: donde son los valores estimados según el modelo Y=a+bX En la anterior expresión lo conocemos todo. Para encontrar dichos valores. pero al cuadrado.

a y b son conocidos. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir.1. y en el denominador la varianza de la variable independiente. en el numerador de b.2. y si b<0 entonces la relación es inversa. por cada año aumente la edad. tratar de conocer valores de Y a partir de los de X: y*i = a+bxi COEFICIENTE DE CORRELACION. Por ejemplo. Para ver. existe una relación directa entre las variables. lo mejor es representar los pares de valores en un gráfico y ver que forma describen.3. etc. es análoga a la que comentábamos en el apartado 6. No obstante. El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. entonces. si la edad está en años. por cada incremento unitario de edad. Como podemos observar. aparece la covarianza. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula: . mayor será su peso. si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno. si se puede utilizar el coeficiente de correlación lineal. puede que exista una relación que no sea lineal. b recibe el nombre de Coeficiente de Regresión. utilizaremos la expresión de la ecuación donde ahora ya. b sería el incremento medio que se produce en la talla. En nuestro ejemplo de talla y edad. En estos casos. Esto hace que el signo de bsea el mismo signo que el de la covarianza. parabólica. el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables. por lo que si b>0. En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si. si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). Si queremos predecir un valor yi a partir de un valor concreto de xi. sólo que como ya dijimos entonces. por lo que convendría utilizar otro tipo de coeficiente más apropiado. No olvidemos que ese era uno de los objetivos del análisis.Resolviendo el sistema. por tanto. sino exponencial. obtenemos las expresiones para a y b: La interpretación de a y b.

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1 Si "r" > 0. El error estándar nos permite deducir la confiabilidad de la ecuación de regresión que hemos desarrollado. Si "r" = 0. El resultado que se obtiene del cálculo del error estándar de estimación se expresa en término de los valores de la variable dependiente yi. ERROR ESTANDAR DE ESTIMACION.) De todos modos. . Por ejemplo: altura y peso: los alumnos más altos suelen pesar más. exponencial. ya que este resultado podría haberse debido al puro azar. aunque el valor de "r" fuera próximo a 1 o -1. etc. La correlación es tanto más fuerte cuanto más se aproxime a 1. la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). por la "y" menos su media. El error estándar de estimación se calcula con la finalidad de medir la confiabilidad de la ecuación de la estimación.y) se multiplica la "x" menos su media. alrededor de la línea recta de regresión.Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x. Si "r" < 0. no existe correlación lineal entre las variables. El error estándar de estimación permite medir la variabilidad o dispersión de los valores de (y) los cuales encontramos en la muestra. Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. La correlación negativa es tanto más fuerte cuanto más se aproxime a -1. El error estándar de la estimación mide la variabilidad. tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables. Denominador se calcula el produto de las varianzas de "x" y de "y". o dispersión de los valores observados alrededor de la línea de regresión. y a este produto se le calcula la raíz cuadrada. Aunque podría existir otro tipo de correlación (parabólica. la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). Este error se simboliza Se y es similar a la desviación estándar en cuanto a que ambas son medidas de dispersión.

en tales situaciones un modelo no lineal en los parámetros se puede ajustar mejor. el desarrollo de una teoría en la química o la física. la regresión no lineal es un problema de inferencia para un modelo tipo: y = f ( x . Es decir.. βk. La teoría estadística dedicada a los modelos lineales en los parámetros es muy amplia. Mediante un modelo de regresión lineal múltiple (MRLM) tratamos de explicar el comportamiento de una determinada variable que denominaremos variable a explicar. La linealidad en parámetros posibilita la interpretación correcta de los parámetros del modelo. j = 1. Por ejemplo.. Hoy en día es más viable. los valores ajustados de la variable endógena resulten tan próximos a los valores realmente observados como sea posible. + β k ⋅ X k + U siendo U el término de perturbación o error Para determinar el modelo anterior.. β2. con el método de los mínimos cuadrados)... Xk mediante una relación de dependencia lineal (suponiendo X1 = 1): Y = β 1 + β 2 ⋅ X 2 + . .. Los parámetros miden la intensidad media de los efectos de las variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de la variable a explicar respecto a cada una de as variables explicativas: ∂Y βj = . gracias al progresivo avance de los computadores. . variable endógena o variable dependiente.. por ejemplo.. hay fenómenos observables que no pueden ser explicados por modelos lineales. Con el fin de determinar si el modelo es adecuado. hemos de especificar un conjunto de hipótesis sobre el MRLM que hemos formulado. y las hipótesis sobre los parámetros del modelo. es necesario hallar (estimar) el valor de los coeficientes β1.... por ejemplo. debido en gran parte a sus múltiples aplicaciones y a la fácil interpretación de los resultados obtenidos de este tipo de análisis. βk. ∂X j Nuestro objetivo es asignar valores numéricos a los parámetros β1. A fin de poder determinar las propiedades de los estimadores obtenidos al aplicar distintos métodos de estimación y realizar diferentes contrastes. trataremos de estimar el modelo de manera que. (y representaremos con la letra Y) en función deun conjunto de k variables explicativas X1. Linealización Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la formulación del modelo. donde f es alguna función no lineal respecto a algunos parámetros desconocidos θ .. En estadística. puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste. Existen tres grupos de hipótesis siguientes: las hipótesis sobre el término de perturbación. las hipótesis sobre las variables explicativas. Sin embargo... X2. considérese el problema de regresión no lineal (ignorando el .θ ) + ε basado en datos multidimensionales x . la aplicación de modelos no lineales en fenómenos donde el conjunto de parámetros no puede expresarse en forma lineal.. β2. Un modelo se puede definir como una ecuación o conjunto de ecuaciones que describen el comportamiento de algún sistema. . se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente. el trabajo de un reactor químico o el crecimiento de un animztl. REGRESION NO LINEAL. Como mínimo. y . k .REGRESION LINEAL MULTIPLE.

así como la estructura del error del modelo y la interpretación e inferencia de los resultados. . cosa que puede ser un inconvenientes.término de error): y = a exp ( b x ) Aplicando logaritmos a ambos lados de la ecuación. Hay que distinguir entre la "linealización" usada en los párrafos anteriores y la "linealización local" que se adopta para algoritmos clásicos como el de Gauss-Newton. la linealización debe usarse con cuidado ya que la influencia de los datos en el modelo cambia. se obtiene: ln ( y ) = ln ( a ) + b x lo cual sugiere una estimación de los parámetros desconocidos a través de un modelo de regresión lineal de ln ( y ) con respecto a x . un cálculo que no requiere procedimientos de optimización iterativa. De todas formas.