You are on page 1of 39

ANÁLISIS DE REGRESIÓN LINEAL

Diego Fernando Lemus Polanı́a
Curso Estadı́stica II
Aspirante M.s.C en Estadı́stica
dflemus@unalmed.edu.co

Enero 2011

Universidad Nacional de Colombia, Sede Medellı́n
Facultad de Ciencias
Escuela de Estadı́stica - Maestrı́a en Estadı́stica

Información General del Curso

Forma de evaluación: Parciales

Primer parcial: Regresión Lineal Simple 20 % Fecha:

Segundo parcial: Regresión Lineal Múltiple 20 % Fecha:

Tercer parcial: Regresión lineal Múltiple - Parte II 20 % Fecha:

Cuarto parcial: Introducción al Muestreo 20 % Fecha:

Forma de evaluación: Trabajos

Primer Trabajo: Regresión Lineal Multiple 10 % Fecha:

Segundo Trabajo: Introducción al Muestreo 10 % Fecha:

1. Introducción Análisis de Regresión

En muchas ocasiones es posible diseñar experimentos estadı́sticos controlados, en los cuáles
es factible el estudio simultáneo de varios factores, aplicando procedimientos de aleator-
ización apropiados, en lo que se conoce como diseño y análisis de experimentos. Sin em-
bargo en otras ocasiones sólo se cuenta con un conjunto de datos sobre los cuáles es difı́cil
esperar que hayan sido observados en condiciones estrictamente controladas, y de los cuáles
también en pocas ocasiones se tienen réplicas para calcular el error experimental.

En algunos casos las variables en cuestión son variables aleatorias que están relacionadas
en un sentido de probabilidad mediante una distribución de probabilidad conjunta. En
otros casos, las variables son cantidades matemáticas, de las cuales se asume que existe
una relación funcional vinculándolas. Cuando se enfrenta la situación anterior lo más
apropiado es aplicar los métodos de regresión, pues están diseñados para ilustrar ciertos
aspectos del mecanismo que relaciona un conjunto de datos (mediciones de las variables
en cuestión).

El análisis de regresión está conformado por un conjunto de técnicas estadı́sticas que
sirven como base para realizar inferencias sobre las posibles relaciones entre cantidades en
una investigación u estudio. Debe tenerse presente que los métodos de regresión permiten
establecer asociaciones entre variables de interés entre las cuáles la relación usual no es
necesariamente de causa - efecto.

2

1.1. Modelos de Regresión Lineal

Un modelo se puede definir como un mecanismo generador de información sobre un de-
terminado proceso. Asumiendo que la relación entre la variable de interés para el analista
está bien representada por una estructura que es lineal en las variables regresoras (variables
no aleatorias en el estudio), un modelo adecuado puede ser de la forma:

y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ǫ (1)

En la ecuación (1), β0 , β1 , β2 , . . . , βk , son constantes desconocidas llamadas coeficientes de
regresión. El término ǫ es incluido en el modelo por el hecho que el modelo no es exacto,
ya que describe la perturbación aleatoria o error del modelo (innovación presente en los
individuos).

Por lo tanto, cualquier procedimiento de regresión implica ajustar un modelo a un
conjunto de datos. Lo anterior abarca la estimación de los coeficientes de regresión y la
correspondiente formulación del modelo de regresión ajustado, un dispositivo empı́rico que
es la base de cualquier inferencia estadı́stica realizada. El modelo de regresión ajustado es
una estimación funcional de la relación entre las variables del estudio.

NOTA: En muchas de las aplicaciones del análisis de regresión, en los cuales modelos
lineales describen un conjunto de datos, la formulación del modelo resulta de una sobres-
implificación de lo que ocurre realmente en el proceso analizado. Los modelos lineales
empleados son aproximaciones que se espera trabajen bien en el rango de valores de las
variables regresoras empleados en la construcción del modelo ajustado.

1.2. Usos Formales de los Modelos de Regresión Lineal

Usualmente los métodos de regresión son empleados con los siguientes fines:

Estimación de parametros

Especificación de modelos (Explicar un sistema o proceso)

Selección de Variables

Predicción

NOTAS:

El analista debe tener claro los objetivos del estudio y el contexto del problema.

3

2. . entonces la ordenada al origen β0 tiene interpretación práctica. β0 no tiene interpretación (constante que permite explicar mejor el comportamiento de los datos). representa el valor esperado (media) de la variable respuesta y. El término simple implica que solo hay una variable regresora. Es una variable aleatoria que explica porque el MRLS no ajusta exactamente a los datos obtenidos. β0 : Intercepto u ordenada al origen en el modelo de regresión. se procede a estimar los coeficientes de regresión del modelo muestral de regresión: Yi = β0 + β1 Xi + ǫi (i = 1. Puede ser generado por efec- tos de otras variables no consideradas en el modelo. Si el intervalo de los datos de la variable regresora incluye al cero (x = 0). X: Variable regresora o covariable (Variable fija). Una vez tomada la muestra de n observaciones (Xi . Un modelo que da una solución a un problema en particular no necesariamente da buenos resultados para resolver otros. en el modelo. Yi ) por medio de algún método de recolección de datos. Si no incluye al cero. De lo anterior se puede deducir que el MRLS tiene la siguiente estructura: Y = β0 + β1 X + ε (Modelo Poblacional de Regresión) (2) Donde Y: Variable respuesta (variable aleatoria). 2. errores de medición u otras consideraciones no comprendidas por el analista. ε: Componente de error aleatorio. cuando X = 0. . Modelo de Regresión Lineal Simple (MRLS) El Modelo de regresión lineal simple es la estructura de regresión más simple. dado un cambio unitario en la covariable X). β1 : Pendiente en el modelo de regresión (Cambio esperado en la variable respuesta y. . . n) (3) 4 . x.

no es apropiado realizar inferencias en un rango de los datos por fuera del considerado. Se parte del supuesto que cada valor observado de Y está constituido por un valor fijo real y un componente aleatorio. . Por lo tanto: E(Yi |Xi ) = β0 + β1 Xi Los errores aleatorios ǫi ∼ N (0. que se seleccionan con anticipacion y se miden sin error. i 6= j Si el último supuesto se cumple. se puede asumir que cada valor observado Yi está consti- tuido por un valor real y una componente aleatoria (función de los ǫi ). El modelo de regresion es lineal en los parámetros. La variable predictora X no es considerada como variable aleatoria.1. ǫj ) = 0. Si lo anterior no se cumple. σ 2 ) y son estadı́sticamente independientes.2. . con i = 1. Por tanto: COV (ǫi . 2. Los valores observados de la variable respuesta no son estadı́sticamente dependientes. De lo anterior se puede deducir que Yi |Xi es una variable aleatoria. El modelo estadı́stico de regresión con una muestra de n pares (Xi .j . Supuestos del Modelo de Regresión Lineal Simple La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante la selección de los valores de la variable predictora X en un intervalo de interes. . 5 . . ∀i. el método de estimación de mı́ni- mos cuadrados ordinarios para los parámetros del modelo de regresión puede seguir siendo válido si los errores en los valores de la variable predictora son pequeños en comparación con los errores aleatorios del modelo ǫi .σ 2 ) Lo descrito anteriomente implica que hay una distribución de valores para Yi en cada Xi y que la varianza de esta distribución es igual para cada valor de Xi (constante). Si no es asi. La muestra de n observaciones (xi . es una variable que toma valores fijos (puntos de observación). Yi ) es: Yi |Xi = β0 + β1 Xi + ǫi . cuyo valor esperado y varianza están dados por: E[Yi |Xi ] = E[β0 + β1 Xi + ǫi ] = E[β0 ] + E[β1 Xi ] + E[ǫi ] = β0 + β1 Xi V [Yi |Xi ] = V [β0 + β1 Xi + ǫi ] = V [β0 ] + V [β1 Xi ] + V [ǫi ] = σ 2 De esta manera: Yi |Xi ∼ N(β0 + β1 Xi . yi ) es una muestra representativa del proceso que se desea generalizar.

Figura 1: Distribución Y |Xi NOTAS: Si la linea de ajuste presenta una curvatura (no ser lineal en X y/o en Y ). 6 . cualquier variabilidad en la variable respuesta que no puede ser explicada exactamente por el modelo ajustado se debe al error aleatorio presente en este. es posible aplicar las tecnicas de regresion lineal sobre estas nuevas variables. mediante una transformacion conveniente de las variables ( X y/o Y ). Si la ecuación de regresión seleccionada es correcta.

1. de forma que minimicen la suma de cuadrados de los errores (SSE). Matemáticamente.1. Estimación de los Parámetros de Regresión 3. yi ). Estimación de los parámetros β0 y β1 Supongamos que se tienen n pares de observaciones (xi . el i-esimo residual es: ǫi = yi − ybi = yi − βb0 − βb1 xi .1. es decir la diferencia entre el valor observado yi y su valor ajustado correspondiente ybi = βb0 + βb1 xi . Método de Mı́nimos Cuadrados Ordinarios 3. pues permite detectar diferencias respecto a los supuestos 7 .3. Figura 2: Definición Gráfica: Residual Los residuales se consideran una realización del componente de error aleatorio de los modelos de regresión y tienen un papel importante para determinar la adecuación del modelo de regresión ajustado. NOTA: La diferencia entre el valor observado yi y el valor ajustado correspondiente ybi se llama residual(componente de error aleatorio del i-esimo individuo). El método de mı́nimos cuadra- dos esta diseñado para proporcionar estimadores βb0 y βb1 de los coeficientes de regresión β0 y β1 .

β1 ) ∂ X = [ (yi − βb0 − βb1 xi )2 ] = 0 ∂β1 ∂β1 i=1 Derivando se obtiene el siguiente sistema de ecuaciones: n X −2 (yi − βb0 − βb1 xi ) = 0 i=1 y n X −2 (yi − βb0 − βb1 xi )xi = 0 i=1 Despejando. β1 ) ∂ X = [ (yi − βb0 − βb1 xi )2 ] = 0 ∂β0 ∂β0 i=1 y n ∂S(β0 .de los MRL y las hipótesis generadas a partir de estos. β1 ) = (yi − βb0 − βb1 xi )2 i=1 Los estimadores βb0 y βb1 deben satisfacer: n ∂S(β0 . Retomando la estimación de los coeficientes de regresión se parte de: n X n X n X SSE = ǫ2i = (yi − ybi )2 = (yi − βb0 − βb1 xi )2 i=1 i=1 i=1 El criterio de mı́nimos cuadrados busca minimizar la siguiente función: n X S(β0 . se obtiene que las estimaciones por mı́nimos cuadrados ordinarios de los parámetros son: 8 .

podemos usar el método de estimación de máxima verosimilitud (MLE). β1 y σ 2 que maximizan la probabilidad que los datos observados yi ocurran. independencia y varianza constante para los errores.2. su expresión es: n X n X Pn Pn n X i=1 xi i=1 yi Sxy = (xi − x)(yi − y) = xi y i − = xi yi − nxy n i=1 i=1 i=1 Como resultado de la metodologı́a de mı́nimos cuadrados. y1 ). ası́: ybi = βb0 + βb1xi. βb0 = y − βb1x. se determino que Yi |Xi ∼N(β0 + β1 Xi . por la condición de independencia es igual al producto de las densidades de probabilidad marginales. de la siguiente manera: n Y 2 L(β0 . σ 2 ). ∀i = 1. . . β1 . Sea (x1 . 2. Asumiendo fijos los valores en que la variable regresora X es observada y que ǫi ∼ N (0. el método de máxima verosimilitud puede ser aplicado para la esti- mación de los parámetros del MRLS. σ 2 ) i=1 9 . σ |x. y) = f (yi |β0 .σ 2 ). n. la cual. y βb1 = Sxy Sxx Donde Sxx se conoce como Suma de Cuadrados Corregidos en x. ybi = y + (xi − x)βb1 3. . . se puede obtener una estimación de la respuesta media o ajustada. . su expresión es: n X n X P n 2 2 ( ni=1 xi )2 X 2 Sxx = (xi − x) = xi − = xi − nx2 n i=1 i=1 i=1 Sxy se conoce como Suma de Productos Cruzados. . yn ) los n pares de datos observados. . (xn . o bien. se conoce la distribución de componente aleatorio (error aleatorio) del modelo. si y solo si. Considerando para el modelo de regresión lineal simple los supuestos de normalidad. para tal fin se determina la función de verosimilitud a partir de la distribución conjunta de las observaciones. . Método de estimación por Máxima Verosimilitud Como primera medida. El método consiste en hallar aquellos valores de β0 . β1 .

σ 2 |x. σ 2 |x. β1 . y) 1 X =− 2 (yi − βb0 − βb1 xi )xi = 0 ∂β1 b σ i=1 y n ∂L(β0 . se obtienen despues de derivar parcialmente la log.verosimil- itud respecto a β0 .donde f (yi |β0 . y) n 1 X =− + 3 (yi − βb0 − βb1 xi )2 = 0 ∂σ 2 b σ σ b i=1 Resolviendo el sistema de ecuaciones anterior se obtienen los estimadores MLE para β0 . y) es equivalente a maximizar su logaritmo natural. σ 2 |x. β1 . σ 2 |x.βb1 y σ b2 . De lo anterior se obtiene el siguiente sistema de ecuaciones: n ∂L(β0 . β1 . y) 1 X =− 2 (yi − βb0 − βb1 xi ) = 0 ∂β0 b σ i=1 n ∂L(β0 . y) = √ exp[− 2 (yi −β0 −β1 xi )2 ] = ( √ )n [exp(− 2 (y1 −β0 − 2πσ 2 2σ 2πσ 2 2σ i=1 n 1 n 1 X β1 x1 )2 ) ∗ · · · ∗ exp(− 2 (yn − β0 − β1 xn )2 )] = (2πσ 2 )− 2 exp[− 2 (yi − β0 − β1 xi )2 ] 2σ 2σ i=1 Maximizar L(β0 . σ 2 ) = √ 1 exp[− 1 2 (yi − β0 − β1 xi )2 ] 2πσ2 2σ Por lo tanto: n Y 1 1 1 1 L(β0 . y) = − (log2π + logσ 2 ) − 2 (yi − β0 − β1 xi )2 2 2σ i=1 Los estimadores βb0 . σ 2 |x. β1 . β1 . β1 . cuya expre- sión es: n n 1 X logL(β0 . β1 y σ2 : βb0 = y − βb1x βb1 = Sxy Sxx 10 . β1 .β1 y σ 2 e igualando a 0. σ 2 |x.

por lo cual. σ 2 )). 1 Pn b b 2 1 Pn e2 = σ n i=1 (yi − β0 − β1 xi ) = n i=1 (yi − ybi )2 = n1 SSE NOTA: Bajo el modelo de regresión lineal normal. se emplean los métodos vistos ante- riormente para realizar una estimación del mismo. 4. por lo cual. Se puede demostrar que E(SSE ) = (n − 2)σ 2 . es decir. lo cual. Por mı́nimos cuadrados ordinarios el estimado de parámetro se obtiene de la suma de cuadrados de residuales (SSE). solo es posible cuando se dispone de información anterior del parámetro. con errores independientes e idénticamente distribuidos (ǫi ∼ N (0. ası́: n X n X SSE = ǫ2i = (yi − ybi )2 = nȳ 2 − βb1 Sxy i=1 i=1 Pero: n X SST = (yi − ȳ)2 = nȳ − βb1 Sxy i=1 Por lo tanto: SSE = SST − βb1 Sxy La suma de cuadrados de residuales tiene n − 2 grados de libertad. Usualmente no se tiene esta información. el estimador de σ 2 no deberı́a depender del ajuste del modelo de regre- sión. los estimadores de mı́nimos cuadrados para β0 y β1 son también estimadores de máxima verosimilitud y en tal caso. un estimador insesgado de σ 2 es: c2 = SSE = M SE σ n−2 11 . debido a la estimación de βb0 y βb1 empleados para obtener ybi . Estimación del parámetro σ 2 En el caso ideal. podemos con- struir intervalos de confianza y realizar pruebas de hipótesis basadas en las estimaciones obtenidas.

σ̃ 2 es un estimador sesgado de la varianza. los estimadores de Mı́nimos Cuadrados Ordinarios tienen las siguientes propiedades: 12 . cualquier violación de las hipótesis sobre los resid- c2 como uales o una mala especificación del modelo afecta significativamente la utilidad de σ estimador de σ 2 . Bajo el supuesto de normalidad en el componente aleatorio. Se puede demostrar que este estimador es asintóticamente insesgado (lı́mn→∞ E(σ̃ 2 ) = σ 2 ). Propiedades Estadı́sticas de los Parámetros de Regresión Bajo el Modelo Normal 5.   n σ̂ 2 = e2 σ n−2 Facilmente se puede demostrar que:       n n n−2 E(σ̂ 2 ) =E σ̃ 2 = σ2 = σ2 n−2 n−2 n 5. el error estandar de la regresión. se puede demostrar que:   n−2 E(σ̃ 2 ) = σ2 n Por lo tanto.   n Sea σ̂ 2 el nuevo estimador el cual se obtiene premultiplicando por el estimador n−2 MLE. NOTA: Como σ c2 depende de la SSE .1. c2 se La cantidad M SE se denomina error cuadratico medio. Del estimador por máxima verosimilitud. NOTA: Mediante una transformación del estimador MLE para la varianza se puede con- struir un estimador insesgado del parámetro de interés. La raı́z cuadrada de σ denomina usualmente. Propiedades de los estimadores de Mı́nimos Cuadrados Ordinarios Los estimadores βb0 y βb1 son variables aleatorias pues sus valores cambian de una muestra a otra.

La lı́nea de regresión obtenida por mı́nimos cuadrados siempre pasa a través del centroide de los datos (x. . . . 3. 7. se puede demostrar que: Estimadores Distribución  que h sigue i 1 x βb0 N β0. entonces βb0 y βb1 son variables aletorias normales. βb0 y βb1 son combinaciones lineales de las variables aleatorias Y1 . La suma de los valores observados yi es igual a la suma de los valores ajustados ybi : n X n X yi = ybi i=1 i=1 6. Sxx  h i 2 1 (xi −x)2 Ybi N Yi. 2. . Yn son variables aleatorias con distribución normal e incorrelacionadas. . pues estos se pueden escribir de la siguiente manera: Estimadores Pesos en las combinaciones lineales n X 1 b β0 = di Yi di = n − ci x i=1 n X xi −x βb1 = ci Yi ci = Sxx i=1 Como Y1 . .1. . Para un valor de X = xi dado. σ n + Sxx 4. Los estimadores de minimos cuadrados βb0 y βb1 son los mejores estimadores lineales insesgados de β0 y β1 respectivamente y corresponden a los estimadores de máxima verosimilitud bajo los supuestos estadisticos del modelo lineal. . Yn . σ 2 + n Sxx   σ2 βb1 N β1. La suma de los residuales de cualquier modelo de regresión con intercepto es siempre igual a cero: n X n X ǫi = (yi − ybi ) = 0 i=1 i=1 5. y). La suma de los residuales ponderados por el correspondiente valor de la variable predictora es cero: 13 .

Pruebas de Hipótesis sobre la pendiente y la ordenada al origen Bajo los supuestos sobre los residuales (ǫi ∼ N (0. n X xi ǫ i = 0 i=1 8.2. Las hipótesis correspondientes serán: 14 . Propiedades de los estimadores MLE Lo estimadores MLE tienen las siguientes propiedades: Son de mı́nima varianza cuando son comparados con todos los posibles estimadores insesgados. lo cual implica que contienen toda la información de la muestra original de tamaño n. se pudo comprobar en la sección anterior que:      σ2 1 x̄2 βb1 ∼ N β1 . La suma de los residuales ponderados por el correspondiente valor ajustado es siem- pre igual a cero: n X ybi ǫi = 0 i=1 5. Son estimadores consistentes. los cuales se distribuyen normalmente. Son estimadores suficientes. 6. a medida que aumenta el tamaño de la mues- tra. y βb0 ∼ N β0 . σ2 + Sxx n Sxx Para realizar pruebas de hipótesis sobre β0 y β1 se procede de la siguiente manera: Para β1 : Suponga que se desea probar la hipótesis que la pendiente es igual a una con- stante. independientes e identicamente distribuidos) y dado que βb0 y βb1 son combinaciones lineales de los valores observados Yi′ s. INFERENCIAS SOBRE LOS PARÁMETROS DEL MOD- ELO DE REGRESIÓN 6. σ 2 ).1. es decir. la diferencia entre estos y el respectivo parámetro tiende a cero.

Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2.n−2 r \ M SE NOTA: SD(βb1 ) = se denomina error estandar estimado de la pendiente. M SE Sxx El número de grados de libertad asociados al estadı́stico de prueba resulta de la cantidad de grados de libertad del error cuadratico medio. Si se emplea el MSE como su estimador insesgado. 15 . el estadı́stico de prueba será: βb0 − β0∗ to = s   ∼ tn−2 bajo H0 .n−2 s   \ 1 x̄2 NOTA: SD(βb0 ) = M SE + se denomina error estandar estimado de la orde- n Sxx nada al origen. Si se emplea el MSE como su estimador insesgado. 1) bajo H0 . Sxx Para β0 : Suponga que se desea probar la hipótesis que ordenada al origen es igual a una constante. Las hipótesis correspondientes serán: H0 : β0 = β0∗ H1 : β0 6= β0∗ βb0 − β0∗ El estadı́stico de prueba será: Zo = s  ∼ N(0. 1 x̄2 M SE + n Sxx Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2. el estadı́stico de prueba será: βb1 − β1∗ to = r ∼ tn−2 bajo H0 . σ2 Sxx Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. H0 : β1 = β1∗ H1 : β1 6= β1∗ βb1 − β1∗ El estadı́stico de prueba será: Zo = s ∼ N(0. 1) bajo H0 . 1 x̄ 2  σ2 + n Sxx Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido.

σ 2 ).1. se pudo comprobar en la sección anterior que:      σ2 1 x̄2 βb1 ∼ N β1 . Prueba t Un caso particular de las pruebas mencionadas anteriomente consiste en determinar si el modelo de regresión lineal ajustado es significativo. NOTA 1: Cuando el IC del (1 − α)100 % para β1 no contiene el valor cero (0).n−2 Sxx NOTA: tα/2. entonces la regresión lo es.6. Las hipótesis corre- spondientes serán: 16 . los cuales se distribuyen normalmente. σ2 + Sxx n Sxx De los estadı́sticos de prueba planteados anteriormente se obtienen las siguientes expre- siones para los intervalos de confianza de los coeficientes de regresión β0 y β1 : s   1 x̄2 βb0 ± tα/2. y βb0 ∼ N β0 . de lo contrario no existe relación de primer orden entre estas. Pruebas de significancia de la regresión 6. Estimación de intevalos de confianza del (1 − α)100 % la pendiente y la ordenada al origen Bajo los supuestos sobre los residuales (ǫi ∼ N (0.3. Para probarlo se determina si la vari- abilidad en la variable respuesta explicada por la regresión en X es significativa respecto a la varibilidad total observada.3. se recomienda ajustar el modelo sin intercepto al origen. se puede afirmar que la variable respuesta Y está relacionada con la covariable X de forma aproxi- madamente lineal.n−2 es el cuantil α/2 de la distribución t de student. Y = β1 X + ε 6. independientes e identicamente distribuidos) y dado que βb0 y βb1 son combinaciones lineales de los valores observados yi′ s. NOTA 2: Si en el contexto del problema tiene sentido el valor X = 0 y el intervalo de confianza para β0 contiene el valor de cero.n−2 M SE + n Sxx r M SE βb1 ± tα/2. es decir. Ahora se desea probar la hipótesis que la pendiente es significativa. es decir. si la pendiente es significativa.2.

i=1 NOTA: Al sumar y restar ybi a estas desviaciones se obtiene: yi − ȳ = (b yi − ȳ) + (yi − ybi ) (2). es medida en términos de las desviaciones de cada observación yi respecto a su media muestral ȳ.n−2 NOTA: Se puede apreciar que rechazar la hipótesis nula en la prueba de significancia de la regresión permite afirmar que la relación entre las variables Y y X puede aproximarse mediante una lı́nea recta. Si se emplea el MSE como su estimador insesgado. ası́: n X SST = (yi − ȳ)2 (1). el estadı́stico de prueba será: βb1 to = r ∼ tn−2 bajo H0 . como la suma de componentes o fuentes de variabilidad de acuerdo al modelo propuesto. σ2 Sxx Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. En el modelo de regresión lineal se plantea que la respuesta es igual a la suma de una compo- nente debida al modelo de regresión y otra debida a un error aleatorio. SST. H0 : β1 = 0 H1 : β1 6= 0 βb1 El estadı́stico de prueba será: Zo = s ∼ N(0. Al aceptar H0 la prueba indica que el modelo de primer orden no es apropiado para explicar la relación entre las variables (pueden tener otro tipo de asociación no lineal).3. La medida de la variabilidad total en Y. 1) bajo H0 .2. M SE Sxx Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2. Análisis de Varianza Un enfoque alternativo de realizar la prueba de significancia de la regresión consiste en la descomposición de la variabilidad total observada en la variable respuesta. 6. 17 . denotada SST .

SSR: Suma de cuadrados de la Regresión. Mide la cantidad de variabilidad en la observaciones Yi ’s que NO es explicada por la recta de regresión ajustada. Esta identidad se denomina Identidad fundamental del análisis de varianza. Definiciones: SST: Suma de cuadrados totales o Suma de cuadrados corregidos en Y. por lo tanto: (b i=1 n X n X 2 SST = (b yi − ȳ) + (yi − ybi )2 i=1 i=1 n X Donde SSR = yi − ȳ)2 se conoce como la Suma de cuadrados de regresión y mide (b i=1 la cantidad de variabilidad en las yi que es explicada por la recta de regresión ajustada y Xn SSE = (yi − ybi )2 es la conocida suma de cuadrados de residuales. SSE: Suma de cuadrados de los Residuales o del componente de error aleatorio. es Xn posible demostrar que yi − ȳ)(yi − ybi ) = 0. Mide la cantidad de variabilidad en la observa- ciones Yi ’s que es explicada por la recta de regresión ajustada. Reemplazando (2) en (1) y realizando el producto notable se tiene que: n X n X n X n X 2 2 2 SST = yi − ȳ) + (yi − ybi )) = ((b (b yi − ȳ) + (yi − ybi ) + 2 yi − ȳ)(yi − ybi ) (b i=1 i=1 i=1 i=1 Dadas las condiciones de normalidad. Mide la variabili- dad total en presente en la variable respuesta Y. i=1 Por lo tanto: SST = SSR + SSE . Para el cálculo de las sumas de cuadrados se emplean frecuentemente las siguientes expre- siones: n X SST = yi2 − nȳ 2 SSR = βb1 Sxy = βb12 Sxx i=1 18 . e independencia establecidas para los errores.Donde ybi − ȳ es la desviación debida al ajuste de la regresión y yi − ybi es la desviación debida al error de ajuste.

ası́: SSR SSE M SR = M SE = 1 n−2 Por lo tanto se puede establecer la prueba de significancia de la regresión utilizando la descomposición de la variabilidad total ası́: H0 : β1 = 0 H1 : β1 6= 0 M SR El estadı́stico de prueba será: Fo = ∼ f1. usando la respectiva suma de cuadrados dividida por sus grados de libertad. SSE = SST − SSR Cada una de las sumas de cuadrados tiene asociado un parámetro denominado grados de libertad. SSR : Solo tiene un grado de libertad por ser completamente determinado por βb1 .n−2 bajo H0 . Con base en lo anterior se construyen estimaciones independientes del parámetro σ 2 (re- cuerden la partición de la variabilidad total). M SE Se puede demostrar que: E(M SE ) = σ 2 E(M SR ) = σ 2 + βb1 Sxx 19 . el cual define el número de observaciones independientes disponibles en la suma. una para las desviaciones yi − ybi y la otra como resultado de estimar βb0 y βb1 . SSE : Pierde dos grados de libertad como resultado de las restricciones impuestas. En la siguiente tabla se resume el valor de dicho parámetro: Suma de Cuadrados SST SSR SSE Grados de libertad n−1 1 n−2 SST : Pierde un grado de libertad como resultado de la restricción impuesta para las desvia- ciones yi − ȳ.

dado por: βb12 Sxx λ= σ2 Criterio de Rechazo: El parámetro de No centralidad indica que el valor observado Fo debe ser grande si β1 6= 0.Por lo tanto. la cual ha sido utilizada erróneamente como medida de bondad del ajuste lineal del modelo sobre los datos. con 1 y n-2 grados de libertad respectivamente.n−2 > Fo ) y determi- nar si es pequeño. NOTA: Las dos formas de probar la significancia de la regresión son equivalentes.n−2 También podemos evaluar el valor p de la prueba que es igual a P (f1. Donde α es el nivel de significancia de la prueba. se rechaza H0 con un nivel de significancia α si: Fo > fα. COEFICIENTE DE DETERMINACIÓN Es una cantidad denotada R2 que aparece como resultado del modelo de regresión lineal simple ajustado.β1 ≡ Fo y el valor p para las dos pruebas es el mismo. para rechazar la hipótesis: el modelo lineal de Y en X no es significativo para explicar la variabilidad de Y?. Se rechaza H0 con un nivel de significancia α si: P (f1.1. y parámetro de NO centralidad λ. Por lo tanto. El análisis de varianza suele presentarse de forma resumida en forma de tabla. conocida como tabla ANOVA. se puede demostrar que t2o. si β1 6= 0 entonces Fo sigue una distribución F no central. Se define como la razón entre la suma de cuadrados de la regresión y la suma de cuadrados totales. ası́: SSR SSE R2 = =1− SST SST 20 .n−2 > Fo ) < α. donde los cuadrados medios corresponden a las sumas de cuadrados divididas por sus respectivos grados de libertad: Fuente de Variación SS Grados de libertad MS Fo SSR M SR Regresión SSR 1 M SR = Fo = 1 M SE SSE Error SSE n−2 M SE = n−2 Total SST n−1 7.

Cuando todos los datos se encuentran sobre la recta de regresión estimada. INFERENCIA RESPECTO A LA RESPUESTA ME- DIA Uno de los objetivos fundamentales en el análisis de regresión consiste en determinar el valor medio de la distribución de probabilidad de la variable respuesta Y para un valor dado de la covariable. cuando el ajuste es perfecto. por ejemplo. valores cercanos a cero indican una pobre relación lineal entre estas (lo cual no excluye otros tipos de asociaciones). es decir. La estimación de la respuesta media denotada \ E[Y \ |Xo ] o µ Y |Xo puede ser puntual o por intervalo. R2 no mide la magnitud de la pendiente de la recta de regresión. Por lo tanto. X = Xo . toma el valor cero y por lo tanto R2 = 1. 8. SSE. El estimador puntual para E[Y |Xo ] está dado por la ecuación de regresión ajustada eval- uada en el valor X = Xo . no necesariamente garantiza que los supuestos básicos del modelo lineal se estén cumpliendo y menos que no haya carencia de ajuste lineal. y. que es explicada por la relación lineal con la variable predictora considerada. la suma de cuadrados de residuos. de la siguiente manera: \ E[Y \ |Xo ] = µ b b Y |Xo = β0 + β1 Xo NOTA: Tal estimación solo es válida para valores X = Xo dentro del rango de los valores originales de la covariable empleados para el ajuste del modelo de RLS.R2 se interpreta como la proporción de la variabilidad total observada en la variable re- spuesta. el estimador puntual de la respuesta media es una variable aleatoria con distribución normal (por ser combinación lineal de βb0 y βb1 ) con valor esperado y varianza 21 . un R2 no implica que la pendiente β̂1 sea grande (. De lo anterior se deduce que el R2 es una medida que se encuentra entre 0 y 1 (0 ≤ R2 ≤ 1). Observaciones y recomendaciones sobre R2 Un R2 cercano a uno no garantiza que el modelo de RLS ajustado sea adecuado para los datos. es decir. En el caso estrictamente opuesto R2 = 0. Lo anterior implica que valores cercanos a 1 indican una mayor asociación lineal entre X e Y.o +).

ası́: n X   \ 1 E[Y |Xo ] = bi Y i . 1) 1 (X − X̄)2 o σ2 + n Sxx 22 . σ2 + n Sxx Usualmente σ 2 es un parámetro desconocido.dadas por: E[\ \ µY |Xo ] = E[E[Y |Xo ]] = E[βb0 + βb1 Xo ] = E[βb0 ] + E[βb1 Xo ] = β0 + β1 Xo NOTA: La demostración anterior implica que el estimador puntual de la respuesta media es insesgado. bi = + (Xo − X̄)Ci n i=1 De lo anterior se puede demostrar que la varianza de la respuesta media esta dada por:   \ 1 (Xo − X̄)2 V [E[Y |Xo ]] = σ 2 + n Sxx    1 (Xo − X̄)2 Por lo tanto: E[Y |Xo ] ∼ N β0 + β1 Xo . el estimador puntual de la respuesta media también se puede escribir combinación lineal de estos valores observados. Empleando el MSE como estimador inses- gado de σ 2 se deduce que la varianza estimada de la respuesta media es:   \\ 1 (Xo − X̄)2 V [E[Y |Xo ]] = M SE + n Sxx y la desviación estandar estimada por: r s   \|Xo ]] = \\ 1 (Xo − X̄)2 DE[E[Y V [E[Y |Xo ]] = M SE + n Sxx Estandarizando la respuesta media cuya distribución normal se enuncio anteriormente se tiene que: \ E[Y |X ] − E[Y |Xo ] s  o  ∼ N (0. Como βb0 y βb1 pueden ser expresados como combinación lineal de los Yi .donde.

n−2 es el cuantil α/2 de la distribución t de estudent. PRECAUCIÓN: No realizar extrapolaciones por fuera del rango de variación observado en el conjunto de datos sobre la variable explicatoria. 9. El IC de longitud mı́nima se obtiene cuando Xo = X̄ y crece a medida que |Xo − X̄| aumenta. NOTAS: La longitud del intervalo de confianza es una función del valor X = Xo . INFERENCIA RESPECTO A LA ESTIMACIÓN DE VALORES FUTUROS (PREDICCIÓN) Cuando se tiene un modelo de RLS también puede ser de interés predecir el valor de una nueva observación Yo que corresponda a un nivel especificado de la covariable X.n−2 M SE + n Sxx Donde tα/2.n−2 M SE + n Sxx s   c 1 (Xo − X̄)2 Yo ± tα/2. entonces un estimador puntal del nuevo valor de la variable respuesta Y está dado por la ecuación de regresión ajustada evaluada en el valor X = Xo . de la siguiente manera: 23 .Empleando el estimador insesgado de σ 2 (parámetro usualmente desconocido) se obtiene: \ E[Y |Xo ] − E[Y |Xo ] s   ∼ tn−2 1 (Xo − X̄)2 M SE + n Sxx De la expresión anterior se puede deducir que un INTERVALO DE CONFIANZA del (1 − α)100 % para la respuesta media dado el valor X = Xo en la covariable esta dado por: s   \ 1 (Xo − X̄)2 E[Y |Xo ] ± tα/2. Sea X = Xo el valor de interés.

c Y ] | {z o} Por independencia estadı́stica entre las variables implicadas la Cov[Yo . Empleando el MSE como estimador inses- gado de σ 2 se deduce que la varianza estimada de la variable aleatoria Yo − c Yo es:   \c 1 (Xo − X̄)2 V [Yo − Yo ] = M SE 1 + + n Sxx y la desviación estandar estimada por: 24 . dado que Yo no fue utilizado para hallar a βb0 y βb1 Para la construcción de un intervalo de predicción se considera la variable aleatoria Yo − c Yo que tiene media cero y varianza dada por: V [Yo − c Yo ] = V [Yo ] + V [c Yo ] − 2Cov[Yo . c \ Yo = µ b b Y |Xo = β0 + β1 Xo NOTA: Es evidente que el estimador puntual de la respuesta media y el de valores futuros es el mismo. Si Yo es un valor futuro y Y co = µ \ b b Y |Xo = β0 + β1 xo es su estimador. c Yo ] es igual a cero. entonces estas dos variables aleatorias son estadı́sticamente independientes. Los intervalos de predicción estiman los posibles valores para un valor particular de la variable respuesta (no para su media) en un valor dado. De lo anterior se deduce que el IC para la respuesta media no es apropiado como intervalo de predicción. ya que solo cubre valores posibles E[Y |Xo ] y no puede cubrir el valor futuro Yo . por lo tanto:     1 (Xo − X̄)2 1 (Xo − X̄)2 V [Yo − c Yo ] = V [Yo ] + V [c Yo ] = σ 2 + σ 2 + = σ2 1+ + n Sxx n Sxx Por lo tanto. Asumimos que en este valor particular tenemos un valor futuro de la variable aleatoria Y. la variable aleatoria Yo − c Yo tiene la siguiente distribución normal:    c 2 1 (Xo − X̄)2 (Yo − Yo ) ∼ N 0. no fue utilizado en la regresión. y por tanto. σ 1 + + n Sxx Usualmente σ 2 es un parámetro desconocido.

COMPROBACIÓN DE LA ADECUACIÓN DEL MOD- ELO 10.n−2 es el cuantil α/2 de la distribución t de estudent. PRECAUCIÓN: No realizar extrapolaciones por fuera del rango de variación observado en el conjunto de datos sobre la variable explicatoria. esta dado por: s   c 1 (Xo − X̄)2 Yo ± tα/2.1. 25 . s   \ 1 (Xo − X̄)2 DE[Yo − c Yo ] = M SE 1 + + n Sxx Estandarizando la variable aleatoria Yo − c Yo cuya distribución normal se enuncio anteri- ormente se tiene que: co Yo − Y s   ∼ N (0. 1) 1 (Xo − X̄)2 σ2 1+ + n Sxx Empleando el estimador insesgado de σ 2 (parámetro usualmente desconocido) se obtiene: Yo − c Yo s   ∼ tn−2 1 (Xo − X̄)2 M SE 1 + + n Sxx De la expresión anterior se deduce que un INTERVALO DE PREDICCIÓN del (1 − α)100 % para un valor futuro de la variable respuesta Y dado X = Xo como valor de la covariable. DIAGNÓSTICOS Y MEDIDAS REMEDIALES Una labor de vital importancia para el analista consiste en determinar casos especificos en el comportamiento de los datos que puedan afectar significativamente el ajuste adecuado de un modelo y la inferencia que se puede obtener de este. 10.n−2 M SE 1 + + n Sxx Donde tα/2. Se presentarán a continuación los problemas de mayor impacto en los Modelos de Regresión lineal simple (Diagnosticos) y algunas metodologı́as para contrarestar el problema (Medidas Remediales).

Cuando ocurre esta desviación. Los residuales no independientes. tiempo o algún ı́ndice de secuencia u orden. 10.1. Diagnósticos para el modelo ajustado Cualquier desviación del modelo de los supuestos básicos de la regresión puede ser de- tectada a través de los residuales. diagramas de puntos. valores predichos o versus valores de la covariable. el gráfico exhibe un patrón en el cual los residuales se desvı́an de cero en forma sistemática. por ejemplo. o de una U o S invertida. 10. si se conoce la secuencia de tiempo que corresponde al conjunto de valores.10. Primer Desviación: Función de regresión no lineal Puede identificarse gráficamente a través del gráfico de residuales vs.1.1. Los seis tipos de desviaciones que pueden presentarse son: La función de regresión no es lineal (carencia de ajuste). Una o varias variables predictoras han sido omitidas en el modelo. para posteriormente dar las medidas remediales para cada uno de los casos. cuando la nube de puntos de estos gráficos presentan forma de una U o S. Diagnósticos para la covariable Antes y después de ajustar un modelo inicial (el cuál no ajusta de forma adecuada a los datos) se hace un análisis de los datos de la variable regresora que consiste en: Identificar observaciones extremas (alejadas hacia valores muy grandes o pequeños comparadas con el resto de valores) en X que puedan influenciar el ajuste de regre- sión. Los residuales no tienen varianza constante. mediante un gráfico de X vs.2.3. El modelo ajusta bien pero unas pocas observaciones son outliers Ahora se analizarán cada una de estas desviaciones con más detalle.1. Los residuales no tienen distribución normal. Identificar patrones en X. Para ello se recurre a un análisis descriptivo: boxplots. 26 .

. . . . NOTA: En esta prueba las replicas son utilizadas para obtener un estimador de σ 2 inde- pendiente del modelo de regresión ajustado. . Los ensayos repetidos de manera independiente para el mismo nivel de la variable predictora son denominados replicaciones. xm ym1 ym2 . La falta de ajuste constituye una violación del supuesto de linealidad. ym.. . . Caso contrario ocurre si se rechaza Ho .. 2. y1. dos o más valores distintos (observaciones) de la variable respuesta Y (independientes). . es mediante el test de carencia de ajuste. . .. Tienen varianza constante.nm nm Donde: 27 . El objetivo de esta prueba es contrastar la siguiente prueba de hipótesis: Ho : E[Y |X = Xi ] = β0 + β1 Xi VS H1 : E[Y |X = Xi ] 6= β0 + β1 Xi Aceptar la hipótesis inicial implica que el modelo de primer orden es apropiado para explicar la relación entre las variables X e Y. . Por lo tanto las observaciones muestrales pueden organizarse de la siguiente forma: x y ni x1 y11 y12 . . . . . NOTA: Solo es posible realizar esta prueba cuando se tiene en al menos un nivel de la variable regresora X. Este test prueba que un tipo especı́fico de función de regresión ajusta adecuadamente a los datos. Supongase que se tienen m niveles distintos de la variable regresora X..n2 n2 . cada uno de estos tiene ni observaciones independientes de la variable respuesta Y. y2. El test asume que los valores de Y dado X son: Son independientes. . el cual esta implicito una vez se asume que la relación que la relación entre las variables Y y X es aproximadamente lineal. . Son identicamente distribuidos en forma normal. m. .. .Otra forma de probar la no linealidad del modelo. con i = 1. . 3.n1 n1 x2 y21 y22 .. .

i=1 La prueba de falta de ajuste se basa en la descomposición de las suma de cuadrados asociada al componente de error aleatorio (SSE) apoyandose en la siguiente expresión para las desviaciones de las observaciones respecto a sus valores ajustados: εij = Yij − Ŷi = (Yij − Ȳi ) + (Ȳi − Ŷi ) | {z } sumando y restando Ȳi Bajo el concepto de suma de cuadrados de residuales se plantea la siguiente doble suma- toria: X ni m X ni m X X (Yij − Ŷi )2 = ((Yij − Ȳi ) + (Ȳi − Ŷi ))2 i=1 j=1 i=1 j=1 Xm X ni ni m X X ni m X X 2 2 = (Yij − Ȳi ) + (Ȳi − Ŷi ) + 2 (Yij − Ȳi )(Ȳi − Ŷi ) i=1 j=1 i=1 j=1 i=1 j=1 Por independencia el último término es igual a cero y por lo tanto: X ni m X ni m X X ni m X X (Yij − Ŷi )2 = (Yij − Ȳi )2 + (Ȳi − Ŷi )2 i=1 j=1 i=1 j=1 i=1 j=1 | {z } | {z } | {z } SSE SSEP SSF A Definiciones: SSEP : Suma de cuadrados debido al error neto o puro. SSF A : Suma de cuadrados debido a la falta de ajuste. Yij representa la j-ésima observación de la variable respuesta asociada al i-esimo nivel de la variable regresora X. Mide la proporción de variabilidad asociada al error netamente experimental o puro. n = ni es el número total de observaciones. Mide la proporción de variabilidad asociada al error por la falta de ajuste del modelo de RLS. es una medida de 28 . es decir. esta cantidad se debe a la variación de la variable respuesta Y. ni representa el número de observaciones de la variable respuesta en el i-esimo nivel de la variable regresora X. dentro de los valores dados en la covariable X. m X Por lo tanto.

Como cualquier suma de cuadrados vista hasta el momento SSEP y SSF A tienen asociados ciertos grados de libertad. Por otro lado.m−2. 2 lo cual implicarı́a que E(M SF A ) = σ .n−2 > Fo ) < α. de la siguiente manera: M SF A El estadı́stico de prueba será: Fo = ∼ fm−2. el término m 2 i=1 ni (E[Yi ]−β0 −β1 Xi ) = 0. Veamos: Suma de Cuadrados SSE SSEP SSF A Grados de libertad n−2 n−m m−2 De lo anterior se derivan las expresiones para la proporción de variabilidad asociada al error netamente experimental o puro y la proporción debida a la falta de ajuste. los cuales se permiten definir los cuadrados medios debido al error puro y a la falta de ajuste.n−m bajo H0 . entonces: P E[Yi ] = [Y |X = Xi ] = β0 +β1 Xi y por lo tanto. como estimadores independientes de la variabilidad presente en las realizaciones del componente de error aleatorio. ya que solo se usa en su estimación la variabilidad de los valores observados Yi ’s en cada nivel de la covariable X.la variación sistemática introducida por valores en Y que se alejan del patrón lineal o de primer orden. entonces la SSEP es un estimador de σ 2 independiente del modelo. Donde α es el nivel de significancia de la prueba. M SEP Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: Fo > fα.n−m Se rechaza H0 con un nivel de significancia α si: P (f1. De lo anterior se define el estadı́stico de prueba para el test de falta de ajuste. si la función de asociación verdadera NO es lineal entonces E(M SF A ) > σ 2 . 29 . SSEP SSF A M SEP = M SF A = n−m m−2 Se puede demostrar que: E(M SEP ) = σ 2 Pm β0 − β1 Xi )2 i=1 ni (E[Yi ] − E(M SF A ) = σ2 + m−2 Observe que si la función de asociación verdadera es lineal. Si se satisface la hipótesis de varianza constante de los errores V (εi ) = σ 2 .

Se pueden usar curvas de regresión no paramétricas también llamadas curvas suavizadas. la prueba de carencia de ajuste puede aplicarse a otras funciones de regresión. en tal caso se concluye que el modelo de regresión no es lineal en X. por ejemplo la prueba de significancia de la regresión. p=2. debido a que el primero tiene más grados de libertad. la práctica usual es usar el MSE y no el M SEP como un estimador de la varianza. Si rechazamos Ho . Cuando se concluye que el modelo de regresión en H0 es apropiado. En la tabla ANOVA puede presentarse el test de carencia de ajuste descomponiendo el SSE del modelo: Fuente de Variación SS Grados de libertad MS Fo SSR M SR Regresión SSR 1 M SR = Fo = 1 M SE SSE Error SSE n−2 M SE = n−2 SSF A M SF A Carencia de Ajuste SSF A m−2 M SF A = Fo = m−2 M SEP SSEP Error Puro SSEP n−m M SEP = n−m Total SST n−1 NOTAS: En general. donde p es el número de parámetros en la función de regresión. Emplear alguna transformación en los datos de manera que el modelo de regresión lineal sea apropiado a los datos transformados. sólo se requiere modificar los grados de libertad del SSF A . por ejemplo el 30 . para explorar y/o confirmar la forma de la función de regresión. que en general corresponden a m−p . sólo debe llevarse a cabo luego de haber probado que el modelo lineal es apropiado.Inferencia: Si aceptamos la hipótesis inicial se puede concluir que la función de asociación verdadera entre X e Y es aproximadamente lineal. Cualquier inferencia sobre los parámetros del modelo lineal. Medidas Remediales: Función de regresión no lineal Como soluciones al problema el modelo de regresión lineal no es apropiado se tienen: Abandonar el modelo de regresión lineal y desarrollar un modelo más apropiado. Para el caso especı́fico de la regresión lineal simple.

método LOESS.4. mediante un gráfico de normalidad. ANÁLISIS GRÁFICO En los gráficos de normalidad o gráficos de cuantil .a) se ajustan adecuadamente a los cuantiles de la escala normal.cuantil mostrará una asociación lineal per- fecta entre los cuantiles enunciados anteriormente. Ahora analicemos el caso de los residuales en un MRLS: Figura 3: Gráfico Cuantil-Cuantil para la Distribución Normal (qqplot) El gráfico anterior es un buen ejemplo de normalidad en los residuales.1. La validación del supuesto de normalidad se puede realizar por medio de un test de normalidad o bien. es evidente que 31 . Cualquier desviación severa de este comportamiento dará indicios de la no normalidad de la variable aleatoria bajo estudio.cuantil para detectar normalidad (qqplot) se evalúa si la nube de puntos de una determinada variable aleatoria (cuantiles de la v. Si el ajuste es perfecto el gráfico cuantil . Segunda Desviación: Los residuales no tienen distribución normal Una de las prioridades despues de ajustar un MRLS consiste en la validar los supuestos sobre el componente de error aleatorio. 10. En este caso la curva suavizada se grafica junto con las bandas de confianza del modelo de regresión. entonces se tiene evidencia de que el modelo ajustado es apropiado. si la primera cae entre las segundas.

la asociación entre los cuantiles de los residuales obtenidos de la muestra aleatoria y los cuantiles teóricos de la distribución normal es aproximadamente lineal. En las pruebas de normalidad para los residuales evaluamos: H0 : Los errores tienen distribución normal (εi ∼ N ) vs. no hay patrones o tendencias que indiquen una posible no normalidad. H1 : Los errores no son normales (εi ≁ N ). por ello. En estos casos se debe usar primero una transformación que estabilice la varianza y evaluar si el supuesto de normalidad se cumple para los datos transformados. Medidas Remediales: Los residuales no tienen distribución normal Encontrar una transformación de los datos que permita corregir la no normalidad. entre estas se tienen las transformaciones de potencia Box-Cox (Y λ ). Donde α es el nivel de significancia de la prueba. logra estabi- lizar la varianza y una aproximación a la normalidad.Darling CRITERIO DE RECHAZO: Se rechaza H0 con un nivel de significancia α si: V P < α. La carencia de normalidad frecuentemente va de la mano con la no homogeneidad de la varianza. La validación de esta prueba puede realizarse examinando los valores P arrojados por una prueba especı́fica de normalidad.Wilk Kolmogorov . NOTA: Patrones parabólicos o en forma de S (Casos Graves) indican no normalidad en los residuales.Smirnov Cramer . PRUEBAS DE NORMALIDAD Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con una distribución normal. Otra solución es trabajar con métodos no paramétricos de regresión. 32 . La mayorı́a de paquetes estadı́sticos presentan las siguientes pruebas de normalidad: Shapiro .Von Mises Anderson . a menudo una misma transformación de los valores de Y.

valores ajustados o predichos.5. 33 . Tercera Desviación: Los residuales no tienen varianza constante Una forma práctica y usualmente útil para determinar si los residuales tienen varianza constante es a través del gráfico de residuales vs.10.1. A contin- uación se presentaran los patrones o prototipos más comunes en los residuales. Un análisis correcto del comportamiento de los residuales permitirá al analista determinar si varianza de estos es ó no constante.

este caso puede manejarse también usando mı́nimos cuadrados ponderados. Problemas: El test de Levene es aplicable cuando la varianza se incrementa o disminuye con X. PROBLEMA: Cuando la varianza no es constante pero la relación de regresión es lineal. no es suficiente transformar a Y. Medidas Remediales: Los residuales no tienen varianza constante Usar transformaciones en Y que estabilicen la varianza. β1 ) = ωi (yi − β0 − β1 xi )2 i=1 34 . las diferencias entre los valores observados y esperados de Yi es multiplicada por un peso o factor de ponderación ωi . De la siguiente manera: n X S(β0 . también cambiará la relación lineal a una curvilı́nea y por ende. se requerirá también una transformación en X . sin embargo. Usualmente se utiliza el método de Mı́nimos cuadrados ponderados cuando la varianza del error varı́a de forma sistemática. como el test de Levene Modificado. tomado en forma inversamente proporcional a la varianza de Yi .También puede recurrirse a un test de homogeneidad de varianza. Emplear otro procedimiento para la estimación de parámetros. Los tamaños de muestra necesitan ser suficientemente grandes para que la depen- dencia entre los residuales pueda ser ignorada. pues aunque se estabilice la varianza. DIFERENCIA: En la función objetivo de mı́nimos cuadrados. el cual no depende del supuesto de normalidad.

podemos analizar el supuesto a través del gráfico de residuales vs. Si es ası́. Se buscan patrones sistemáticos como ciclos. Entre los métodos formales estan los residuales estandarizados. y cualquier otro comportamiento que indique correlación entre los valores de la serie o secuencia de los residuales. porque es posible que tal tipo de observación contenga información valiosa sobre un fenómeno especial que no ha sido capturado por el modelo 35 .10.1. estacionalidad. mientras sea desconocido el orden de recolección u observación de los datos. asumimos como válido el supuesto de independencia.6. entre otras. Medidas Remediales: Presencia de puntos atı́picos Siempre y cuando un puntos atı́picos sea originado por un error de registro.7. Quinta Desviación: Presencia de puntos atı́picos Se has desarrollado métodos formales y gráficos para la identificación de puntos atı́picos. valores ajus- tados. Existen pruebas formales para la detección de correlaciones entre los residuales como el test de Durbin Watson generalizado. Adicionar variables de tendencia. 10. los residuales estudentizados. el tiempo u orden de recolección de los datos.1. de cálculo o de medición éste debe ser eliminado. Medidas Remediales: No independencia de los residuales Como soluciones al problema de no independencia de los errores se tienen: Trabajar con modelos con errores correlacionados. Entre los métodos gráficos. Cuarta Desviación: No independencia de los residuales Para probar el supuesto de independencia es necesario conocer el orden de las observaciones en el tiempo. rachas. X o vs. Trabajar con primeras diferencias. Residuales a más de dos desviaciones estándar son sospechosas y aquellos a más de tres desviaciones estándar se consideran outliers. NOTA: En general. De otra forma hay que proceder con cautela. se utilizan los gráficos de residuales vs.

La familia de transformaciones más utilizada para resolver los problemas de falta de normalidad y de heterocedasticidad es la familia de Box-Cox. Generalmente el efecto de una transformación suele proporcionar estimadores más precisos de los parámetros del modelo y mayor sensibilidad en las pruebas estadı́sticas.1. 11. se clasifican en transformaciones estabilizadoras de varianza y en transformaciones para linealizar la asociación entre la variable respuesta y la variable explicativa. en caso contrario se suma una cantidad fija M tal que Y + M > 0. Sexta Desviación: Una o varias variables predictoras han sido omitidas en el modelo Se puede realizar un análisis para determinar si el modelo puede ser mejorado adicionando otras variables predictoras.8. niveles de la variable omitida y evaluar si los residuales tienden o no a variar sistemáticamente con los niveles de la variable predictora adicional. 11.10.1. cuya definición es la siguiente: Se desea transformar la variable Y. TRANSFORMACIONES Son modificaciones de los datos originales que no afectan la información contenida en estos. el mejor método para esti- mar el parámetro λ es el de máxima verosimilitud y se calcula como sigue: para diferentes valores de λ se realiza la transformación:  λ  y − 1 si λ 6= 0 U (λ) = λẏ λ−1  ẏ log(y) si λ 6= 0 36 . La transformación de Box-Cox depende de un parámetro λ por determinar y viene dada por:  λ y − 1 si λ 6= 0 Z(λ) = λ  log(y) si λ 6= 0 Si se quieren transformar los datos para conseguir normalidad. lo cual conlleva a tener un modelo muy impreciso. Transformaciones Estabilizadoras de Varianza Por ser un supuesto básico en el análisis de regresión es importante descubrir y corregir el problema de tener varianza no constante en los residuales. pues esto implicarı́a que los coeficientes de regresión estimados tendran errores estandar muy elevados. El diagnóstico se realiza graficando los residuales del modelo actual vs. cuyos valores muestrales se suponen positivos.

Modelo de potencia multiplicativo Función Linealizable: Y = β0 X β1 ε Transformación: Empleando el logaritmo natural Ln(Y ) = Ln(β0 X β1 ε) = Ln(β0 ) + β1 Ln(X) + Ln(ε) En este caso. originando un modelo de la forma Y ∗ = β0 + β1 X ∗ + ε.2. σ 2 ) 37 . A continuación se listará los casos más comunes de modelos intrı́nsicamente lineales: 11. se obtiene el conjunto de n valores {Ui (λ)}i=1 . por ello las transformaciones en las variables no implican modelos no lineales. la transformación será Y ∗ = Ln(Y ) y X ∗ = Ln(X). La función de verosimilitud es: n ! n X L(λ) = − ln (Ui (λ) − Ū (λ)) 2 i=1 Se elige el parámetro λ̂ que maximiza L(λ). Valores muy utilizados del parámetro λ son los siguientes: Relación entre σ 2 y E[Y |X] Transformación Definición σ 2 ∝ Constante Y T =√Y NO hay transformación σ 2 ∝ E[Y |X] YT = Y Raiz Cuadrada σ 2 ∝ E[Y |X]2 Y T = Ln(Y ) Logaritmica 1 σ 2 ∝ E[Y |X]3 YT = √ Raiz Cuadrada Recı́proca Y T 1 σ 2 ∝ E[Y |X]4 Y = Recı́proca Y 11.1. Transformaciones: Modelos Intrı́nsicamente Lineales Un modelo de regresión se considera lineal cuando lo es en los parámetros. Ajuste: Y ∗ = β0∗ + β1 X ∗ + ε∗ Supuestos: ε∗ ∼iid N (0. Los modelos intrı́nsica- mente lineales son aquellos que relacionan Y con X por medio de una transformación en Y y/o en X. donde Y ∗ y X ∗ son las variables transformadas.siendo ẏ la media geométrica de la variable Y. se calcula L(λ) para un enrejado (grid) de valores de λ lo cual permite dibujar aproximadamente la función L(λ) y se obtiene el máximo de la misma. En la práctica. Para cada λ.2.

2.3. σ 2 ) 11. σ 2 ) Casos 2: Y ∗ = β0 + β1 X + ε En este caso. la transformación será X ∗ = 1/X Supuestos: ε ∼iid N (0.11.4. Modelo recı́proco Transformación: Empleando Recı́proco de las variables Casos 1: Y = β0 + β1 X ∗ + ε En este caso.2.2. Modelo logarı́tmico Función Linealizable: Y = eβ0 eβ1 Xeε Transformación: Empleando el logaritmo natural Y = Ln(eβ0 eβ1 Xeε ) = β0 + β1 Ln(X) + ε En este caso. la transformación será Y ∗ = Ln(Y ) Ajuste: Y ∗ = β0∗ + β1 X + ε∗ Supuestos: ε∗ ∼iid N (0.2. la transformación será X ∗ = Ln(X) Ajuste: Y = β0 + β1 X ∗ + ε Supuestos: ε ∼iid N (0. Modelo exponencial multiplicativo Función Linealizable: Y = β0 eβ1 X ε Transformación: Empleando el logaritmo natural Ln(Y ) = Ln(β0 eβ1 X ε) = Ln(β0 ) + β1 X + Ln(ε) En este caso. la transformación será Y ∗ = 1/Y 38 . σ 2 ) 11.

39 . cuando resulte necesario. Analizar gráficos de residuales para: Verificar si el modelo lineal es adecuado: Gráfico de residuos vs. se pueden estimar al destransformar. σ 2 ) NOTAS: Los modelos exponenciales y de potencia aditivos: Y = β0 eβ1 X + ε. 2. Determinar para cada modelo ajustado si la regresión es significativa. 12. interpretar los parámetros del modelo lineal ajustado (significado de los valores de intercepto y de la pendiente respecto a las variables analizadas). 7. gráficos de residuos vs. las estimaciones de los parámetros originales a través de transformaciones inversas resultan razonables aunque no insesgadas. Desarrollar uno o más modelos de regresión tentativos. test de carencia de ajuste. Si el modelo lineal transformado satisface todas las suposiciones para la regresión lin- eal simple. Los parámetros del modelo original no lineal. y Y = β0 X β1 + ε no son intrı́nsecamente lineales. Verificar si los supuestos sobre el término de error se cumplen: Gráficos de prob- abilidad normal. X (chequear ausencia de patrones sistemáticos). Pasos en el Análisis de regresión 1. valores predichos (chequear varianza constante y ausencia de patrones sistemáticos). Construir intervalos y realizar inferencias de interés. σ 2 ) . esta vari- able transformada deberá ser iid N (0. Hacer predicciones: Sólo dentro del rango de valores considerados para la variable predictora o valores cercanos a dicho rango. 4. los estimadores hallados para los parámetros del modelo transformado. Para los modelos que pasen las pruebas en 4. 3. 6. El supuesto necesario es que cuando el término de error ε es transformado. por ello deben examinarse los residuales del modelo transformado. 5.Supuestos: ε ∼iid N (0. Ajustar los modelos prop- uestos. Realizar análisis exploratorio de los datos mediante un diagrama de dispersión para establecer el tipo de curva de regresión apropiada.