Una de las aplicaciones más importantes de la estadística, implica la estimación del valor medio de una variable de respuesta y o la predicción de algún valor futuro de y con base, el conocimiento de un conjunto de variables independientes relacionadas, x1, x2, . . . xk.

Los modelos que se emplean para relacionar una variable dependiente y con las variables independientes x1, x2, . . . xk se denominan modelos de regresión o modelos estadísticos lineales porque expresan el valor medio de y para valores dados de x1, x2, . . . xk como una función lineal de un conjunto de parámetros desconocidos.

.Los conceptos de análisis de regresión se presentan empleando un modelo de regresión muy sencillo. Aprenderemos a ajustar este modelo a un conjunto de datos mediante el método de los mínimos cuadrados. uno que relaciona y con una sola variable x.

.Examinaremos los diferentes tipos de inferencias que pueden hacerse a partir de un análisis de regresión.

Un modelo de regresión simple: supuestos Supongamos que se quiere determinar la magnitud de la compresión que se producirá en un tipo de material de 2 pulgadas de espesor cuando se someta a diferentes cantidades de presión. .

1 de pulgada) se presentan en la tabla 1. .Un modelo de regresión simple: supuestos Se prueban cinco trozos experimentales del material bajo diferentes presiones. Los valores de x (en unidades de 10 libras por pulgada cuadrada) y las magnitudes de compresión y resultantes (en unidades de 0.

ESPÉCIMEN PRESIÓN COMPRESIÓN X Y 1 1 1 2 2 1 3 3 2 4 4 2 5 5 4 TABLA # 1 .

y 4 3 Figura 1. llamada diagrama de dispersión. 2 1 0 1 2 3 4 X .En la figura 1 se muestra una gráfica de los datos.

y 4 3 2 1 0 1 2 3 4 X .

y 4 3 2 1 0 1 2 3 4 X .

y 4 3 2 1 0 1 2 3 4 5 Supongamos que creemos que el valor de y tiende a aumentar de forma conforme x X lineal aumenta Entonces. podríamos escoger un modelo que relacione a y con x trazando una línea recta a través de los puntos de la figura. .

y 4 3 2 1 0 1 2 3 4 5 X Semejante modelo determinístico (uno que no contempla errores de predicción) podría ser adecuado si todos los puntos de la figura quedaran sobre la línea ajustada. .

. uno que contemple la variación aleatoria de los puntos de datos a los lados de una línea recta.La solución es construir un modelo probabilístico que relacione y con x.

supone que el valor medio de y para un valor dado de x se grafica como una línea recta y que los puntos se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa) igual a .Un tipo de modelo probabilístico. es decir: y   0  1 x   . el modelo de regresión lineal simple.

y   0  1 x   .

y   0  1 x   .

y   0  1 x   .

.y   0  1 x   Valor medio de y para una x dada Error aleatorio Donde 0 y 1 son parámetros desconocidos de la porción determinística del modelo.

y   0  1 x   Valor medio de y para una x dada Error aleatorio Si suponemos que los puntos se desvían por encima y por debajo de la líneas de medias. siendo algunas desviaciones positivas. otras negativas. entonces el valor medio de y es: ˆ  ˆ x  E ( )   ˆ  ˆx E ( y)  E(0  1 x   )   0 1 0 1 . y con E() = 0.

ˆ  ˆ x  E ( )   ˆ  ˆx E ( y)  E(0  1 x   )   0 1 0 1 .

ˆ  ˆ x  E ( )   ˆ  ˆx E ( y)  E(0  1 x   )   0 1 0 1 .

se grafica como una línea ˆ y recta con ordenada al origen igual a  0 0 ˆ1 pendiente igual a  1 . el valor medio de y para un valor dado de x.ˆ  ˆ x  E ( )   ˆ  ˆx E ( y)  E(0  1 x   )   0 1 0 1 Por lo tanto. representado por el símbolo E(y).

y 4 3 ˆ  ˆx E ( y)   0 1 2 1 ˆ  pendiente  1 ˆ  ordenada al origen  0 0 1 2 3 4 X .

Modelo de regresión lineal simple (probabilístico) y   0  1 x   Donde: y = variable dependiente x = variable independiente ˆ+ ˆx E(y)=   x es el componente E ( y)   00 1 1 determinístico (la ecuación de una línea recta)  = componente de error aleatorio ˆ = punto en que la línea corta el eje y   0 0 ˆ1 = pendiente de la línea .

desconocidos.   0 1 0 1 .Si queremos ajustar un modelo de regresión lineal simple a un conjunto de datos. debemos encontrar estimadores para los parámetros ˆ y ˆ.

Los supuestos. que se resumirán a continuación. son básicos para todo análisis de regresión estadístico. .

Este supuesto implica que el valor medio de y. Es decir.SUPUESTO 1: La media de la distribución de probabilidad de  es cero. para un valor dado de x es ˆ0+ ˆ E(y)=  x E ( y)     x 11 0 . la media de los errores a lo largo de una serie infinitamente larga de experimentos es cero para cada valor de la variable independiente x. E(y).

SUPUESTO 2: La varianza de la distribución de probabilidad de  es constante para todos los valores de la variable independiente x SUPUESTO 3: La distribución de probabilidad de  es normal .

SUPUESTO 4: Los errores asociados a cualquier dos observaciones distintas son independientes. Es decir. el error asociado a un valor de y en particular no tiene efecto alguno sobre los errores asociados a otros valores de y .

. línea de regresión o ecuación de mínimos cuadrados.ˆ y ˆ: ESTIMACIÓN DE   0 1 0 1 EL METODO DE LOS MÍNIMOS CUADRADOS La suma de los cuadrados de las desviaciones se denomina suma de los cuadrados del error y se denota con el símbolo SSE. La línea recibe el nombre de línea de mínimos cuadrados.

y 4 3 2 1 0 1 2 3 4 X .

y 4 3 2 1 0 1 2 3 4 X .

que esperamos encontrar. se representa como: ˆ  ˆx ˆ y 0 1 .y 4 3 2 1 0 1 2 3 4 X El modelo de línea recta para la respuesta y en términos de x es: y= 0+1x +  ˆ+ ˆxx La línea de medias es: E E(y)=  ( y)     0 11 y la línea ajustada.

Formulas para las estimaciones de mínimos cuadrados Pendiente: ˆ   1 SS xy SS xx ˆ  y ˆx Ordenada al origen:  0 1 Donde: SS xy   ( xi  x )( yi  y ) i 1 n n SS xx   ( xi  x ) i 1 2 .