You are on page 1of 23

INFERENCIA ESTADSTICA

Notas de clase
Profesores: A. Leonardo Bauelos S.
Nayelli Manzanarez Gmez
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
TEMA V
REGRESIN Y CORRELACIN
INTRODUCCIN
El anlisis de regresin es una tcnica estadstica para modelar la relacin entre variables
y es una de las tcnicas estadsticas ms utilizadas en ingeniera, as como en mltiples
campos.
En cursos anteriores, se dieron las bases de la regresin lineal, se obtuvo el
modelo y se estudiaron algunas medidas como el coeficiente de correlacin y el
coeficiente de determinacin, sin embargo, para llegar a esos resultados, fueron
consideradas ciertas suposiciones que se estudiarn en este tema, de esta manera adems
de poder construir un modelo lineal que relacione variables, se analizar tambin la
validez del mismo.
ESTIMACIN DE LOS COEFICIENTES DE REGRESIN MEDIANTE EL
MTODO DE MXIMA VEROSIMILITUD
Anteriormente, se estimaron los coeficientes y del modelo lineal por
mnimos cuadrados, otro procedimiento para obtenerlos es el mtodo de mxima
verosimilitud, para lo cual es necesario obtener la funcin de mxima verosimilitud que
se determina con la distribucin conjunta de las observaciones. Si se considera esta
funcin conjunta y a los parmetros , y como constantes desconocidas, se tiene:
Los estimadores de mxima verosimilitud son los valores de los parmetros
desconocidos que maximizan a L, o lo que es lo mismo a ln L, por lo que:
Al tomar derivadas parciales con respecto a , y , y despus de igualarlas a cero,
puede demostrarse que los estimadores son los mismos obtenidos por el mtodo de
mnimos cuadrados:
Y para la variancia
El estimador de mxima verosimilitud de es sesgado pero, para valores grandes de
, la diferencia entre ste y el estimador de mnimos cuadrados no es importante.
En muchas ocasiones se abusa del anlisis de regresin, pues se ignoran algunos aspectos
que deben ser considerados, entre ellos, hay que tener cuidado en que las variables a
analizar tengan relacin en un sentido prctico, pues aunque puede llegarse a obtener un
modelo estadstico ste sera irrazonable y no podr confiarse en el si no existe una
relacin causal entre ambas variables, lo cual nicamente se logra con experimentos
diseados.
Otro aspecto importante digno de mencionarse es que los modelos de regresin
no son adecuados para la extrapolacin, ya que perdemos certeza al movernos fuera del
intervalo de valores de .
Suposiciones de modelo y error estndar
Para llegar al modelo
Se necesitan plantear ciertas suposiciones respecto al error , en general son cuatro que
reciben el nombre de suposiciones de regresin, stas se enuncian a continuacin:
1.- Para cualquier valor dado de , la media de la poblacin de los valores potenciales
del trmino error es igual a cero.
2.- Suposicin de variancia constante: Para cualquier valor de , la poblacin de valores
del trmino error tiene una variancia que no depende del valor de ,es decir, las
poblaciones diferentes de los valores potenciales del trmino error que corresponden a
distintos valores de tienen igual variancia .
INFERENCIA ESTADSTICA Tema V Pg. 2
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
3.- Suposicin de normalidad: Para cualquier valor de ,la poblacin de los valores
potenciales del trmino error tiene distribucin normal.
4.- Suposicin de independencia: Cualquier valor de trmino error es estadsticamente
independiente de cualquier otro valor de .
En conjunto, las 3 primeras suposiciones dicen que para cualquier valor de , la
poblacin de los valores potenciales del trmino error esta normalmente distribuida con
y que no dependen del valor de .Ahora bien, cuando se obtuvieron los estadsticos
para y se parti del hecho de que el valor esperado del trmino de error es cero,
quedndonos el modelo:
Esto tiene su razn en que suponemos comportamiento normal en los errores con
e independencia en los trminos de errores, por ello cada trmino tiene una probabilidad
de 0.5 de ser positivo y 0.5 de ser negativo por lo que es razonable que el valor esperado
de cualquier trmino de error es cero.
Error cuadrtico medio y error estndar
Para realizar inferencias estadsticas de aspectos del modelo de regresin lneal es
necesario obtener una estimacin media de denominado error cuadrrico medio y
de o error estndar para determinarlos, se parte del concepto de residuo, ste es la
diferencia entre la observacin y el correspondiente valor predicho , esto es:
Entonces la suma de cuadrados del error es:
donde
entonces puede calcularse mediante la frmula:
La estimacin puntual de es:
Se pierden dos grados de libertad, puesto que se aproximan y y se construye un
estimador insesgado.
La estimacin puntual de , es:
ANLISIS RESIDUAL
El anlisis residual se utiliza para comprobar las suposiciones de la regresin, si stas se
mantienen entonces, los residuos se habrn seleccionado de forma aleatoria e
independiente de poblaciones normales con media y variancia . Cabe sealar
que en los problemas reales de regresin, las suposiciones no se cumplen estrictamente,
de hecho las pequeas desviaciones no afectan en la capacidad del modelo, en realidad
con este anlisis se buscan desviaciones notables que s pudieran restarle valor al
modelo, es por ello que se busca que los residuos se ajusten aproximadamente a las
descripciones de las suposiciones.
Grfica de residuos
Es la representacin en un plano de los residuos, para ello hay que calcularlo para
cada valor que se observa, se hacen 3 tipos de grficas:
1.- Residuos contra la variable independiente
2.- Residuos contra el valor predicho de la variable dependiente
3.- Residuos contra el orden en el tiempo en el cual los datos han sido observados (series
temporales)
Suposicin de variancia constante
Para ello se observan las grficas de los residuos contra y tiempo (series
temporales), podrn distinguirse en general 3 patrones:
INFERENCIA ESTADSTICA Tema V Pg. 3
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Figura 5.1. Variancia de error creciente (Residuos
en forma de abanico)
Figura 5.2. Variancia de error decreciente
(Residuos en forma de embudo)
Figura 5.3. Variancia de error constante
(Residuos en forma de banda horizontal)
Variancia de Error Creciente: La grfica de residuos tiene forma de abanico, lo cual
indica que los trminos de error se dispersan ms a medida que el valor horizontal se
incrementa y se dificulta creer que la variancia es constante.
Variancia de Error Decreciente: La grfica de residuos tiene forma de embudo, lo cual
indica que los trminos de error decrecen cuando el valor horizontal aumenta y por lo
tanto no puede considerarse variancia constante.
Variancia de Error Constante: La grfica tiene la apariencia de una banda horizontal y
significa que la dispersin de los trminos de error no cambian mucho cuando el valor
horizontal aumenta, este tipo de grfica es el que valida la suposicin de variancia
constante.
Cuando la suposicin de variancia constante no puede validarse no debera utilizarse el
modelo de regresin lineal ni hacer inferencias estadsticas descritas en este tema.
Suposicin de normalidad
Existen varias formas de comprobar normalidad, una de ellas es construir un histograma
de los residuos que debern tener una forma razonable de campana y aproximadamente
simtricos respecto a 0. Otra manera es construir una grfica normal de los residuos, para
ello se ordenan los residuos de manera ascendente, donde denotaremos a como el
i-simo residuo en la lista ordenada. En la grfica normal se representa en el eje
horizontal y en el eje vertical, se define como el punto en el eje horizontal de
una distribucin normal, de modo que el rea bajo la curva a la izquierda de es
donde es el nmero de residuos e el i-simo elemento de la lista de
residuos.
INFERENCIA ESTADSTICA Tema V Pg. 4
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Figura 5.4.Determinacin de
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.1
Para ilustrar el procedimiento, tmense en cuenta los siguientes 40 residuos:
Con :

Obtenemos el valor de tal que:

Entonces el primer punto de la grfica ser:

-289.044 -2.1313
Se continua el procedimiento hasta cubrir los residuos, en este caso 40, obtenindose
la siguiente tabla:
INFERENCIA ESTADSTICA Tema V Pg. 5
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Al trazar, la grfica queda:
Figura 5.5. Grfica Normal de residuos, con
Puede realizarse otra grfica en donde el eje vertical se ubica el porcentaje del rea
bajo la curva normal estndar a la izquierda de , as el primer punto sera

-289.044 0.0165(100)
Obtenindose la siguiente grfica:
Figura 5.6. Grfica Normal de residuos con Porcentaje
INFERENCIA ESTADSTICA Tema V Pg. 6
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Para decidir que la suposicin de normalidad es vlida, la grfica obtenida debe parecer
una lnea recta, lo cual puede ser un poco subjetivo, en caso de tener sospechas al
observar la curvatura, se sugiere hacer una prueba de normalidad, mismas que se han
estudiado anteriormente como la Kolmogorov-Smirnov o Ji-cuadrada.
En este caso, existe duda pues en la parte superior derecha hay una curvatura
pronunciada, se realiza una prueba Kolmogorov-Smirnov bajo las siguientes hiptesis:
Los residuos tienen una distribucin normal con y
Los residuos no tienen una distribucin normal con y .
Al realizar la prueba se encuentra que:
Por lo que no existe suficiente evidencia para rechazar , y por tanto puede decirse que
los residuos podran tener una distribucin normal con y .
S))))))))))))))))))))))))))))))))))))Q
Suposicin de Independencia:
Esta suposicin puede invalidarse con mayor probabilidad cuando se estudian Series
temporales (datos que se han reunido en tiempos sucesivos), en esencia son este tipo de
datos los que se prueban y que pueden estar autocorrelacionados, sta autocorrelacin
nos definir si los datos ocurren o no de manera aleatoria (lo que significar
independencia).
Los trminos de error pueden tener autocorrelacin positiva si a un trmino de error
positivo en el periodo le sigue otro trmino de error positivo en el siguiente periodo
o si a un trmino de error negativo en el periodo le sigue otro trmino de error
negativo en el siguiente periodo .
Grficamente seguira el siguiente patrn.
Figura 5.7. Autocorrelacin positiva
En otras palabras, la autocorrelacin positiva produce un patrn cclico en los trminos
de error en el tiempo y significa que el trmino de error positivo produce un valor de
mayor que el promedio y un trmino de error negativo produce un valor de menor que
le promedio.
Ahora bien, los trminos de error tienen autocorrelacin negativa si a un trmino de error
positivo en el periodo le sigue otro trmino de error negativo en el periodo y si un
trmino de error negativo en el periodo es seguido por otro positivo en . Un
ejemplo se muestra en la siguiente figura:
Figura 5.8. Autocorrelacin negativa
Esto quiere decir, que a los valores de mayores que el promedio los siguen valores de
INFERENCIA ESTADSTICA Tema V Pg. 7
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
menores que el promedio y viceversa.
Si una grfica de los residuos no manifiestan autocorrelacin positiva o negativa,
entonces los trminos tienen poca o nula correlacin, se considerara un patrn aleatorio
y se cumplira la suposicin de independencia.
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.2
Con los siguientes datos, validar las suposiciones de regresin lineal:
Tiempo Temperatura *C (x) Rendimiento % (y)
1 100 45
2 110 51
3 120 54
4 130 61
5 140 66
6 150 70
7 160 74
8 170 78
9 180 85
10 190 89
Resolucin:
Primero debe realizarse la regresin lineal a los datos:
Suposicin de variancia constante:
Deben realizarse las grficas correspondientes:
1.- Residuos contra la variable independiente
Para poder realizar las grficas es necesario obtener los residuos correspondientes,
para ello debe calcularse el valor predicho de con ayuda del modelo lineal
obtenido, y realizar la diferencia (residuo)
INFERENCIA ESTADSTICA Tema V Pg. 8
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
2.- Residuos contra el valor predicho de la variable dependiente
3.- Residuos contra el orden en el tiempo en el cual los datos han sido observados
(series temporales)
Al analizar las grficas, los datos parecen estar en los tres casos dentro de una barra
horizontal, por lo tanto no puede decirse que se transgreda la suposicin de variable
constante, se valida tal suposicin.
Suposicin de normalidad
Siguiendo el procedimiento descrito con anterioridad, y utilizando excel, se obtiene la
siguiente tabla:
Al realizar la grfica:
Debido a que la grfica presenta un comportamiento lineal, puede validarse la suposicin
de normalidad, si existiera duda puede realizarse una prueba ji-cuadrada o Kolmogorov-
Smirnov, sta ltima quedara de la siguiente manera:
INFERENCIA ESTADSTICA Tema V Pg. 9
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Los errores tienen distribucin normal con media = 0 y variancia= 0.8027
Los errores no tienen distribucin normal con media = 0 y variancia= 0.8027
La tabla con los clculos correspondientes queda:
El mximo de la columna de abs(Sn-F0)=0.1270511 y el valor del estadstico
Kolmogorov - Smirnov es:
Por tanto, no existe evidencia para rechazar y por tanto, Los errores tienen
distribucin normal con media = 0 y variancia= 0.8027
Suposicin de Independencia
Se realiza la grfica de Tiempo vs Residuos, la cual queda de la siguiente manera:
Debido a que no se observa ningn patrn de autocorrelacin positiva o negativa, se
valida la suposicin de independencia.
Por lo tanto, el modelo de regresin lineal obtenido es vlido.
S))))))))))))))))))))))))))))))))))))Q
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPTESIS DE LOS
COEFICIENTES
Media y variancia de los estimadores.
Para realizar intervalos de confianza y pruebas de hiptesis de los coeficientes y
del modelo de regresin lineal
es necesario estimar la media y la variancia correspondientes de esos estimadores;
Una vez conocidas estas expresiones podemos saber si la respuesta se encuentra
linealmente relacionada con la variable independiente a travs del anlisis del
coeficiente , es decir, de la pendiente, si este coeficiente es cero, entonces no habr
relacin lineal entre las variables del modelo, esto puede implicar ya sea que es de
poco valor en la explicacin de la variacin en y que el mejor estimador de para
cualquier es o bien, que la relacin entre las variables no es lineal.
INFERENCIA ESTADSTICA Tema V Pg. 10
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Figura. 5.9. Relacin no lineal entre x y y
Existen dos procedimientos para el estudio de los coeficientes y
a) Intervalos de confianza
b) Pruebas de hiptesis
Intervalos de confianza y prueba de hiptesis para
El intervalo de confianza del est dado por:

donde
Si este intervalo no contiene el cero, entonces es razonable concluir que es diferente
de cero y que y estn, en algn grado, relacionados en forma lineal.
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.3
Encontrar un intervalo de confianza del 95% para en la recta de regresin
. Los datos originales son:
, , , ,
,
Resolucin:
Para calcular , necesitamos
;

Entonces
;
El intervalo de confianza est dado por:
INFERENCIA ESTADSTICA Tema V Pg. 11
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Por lo tanto
Debido a que el intervalo de confianza no incluye al cero, entonces podemos decir que
y estn en algn modo relacionados linealmente con un nivel de confianza del 95%.
S))))))))))))))))))))))))))))))))))))Q
La interpretacin de este intervalo es la siguiente:
Supngase que se toman muestras repetidas, cada una del mismo tamao, y para cada
una de stas se genera un modelo de regresin y un intervalo de confianza del 95% para
, entonces el 95% de estos intervalos contendr el verdadero valor de (de la
poblacin).
Prueba de hiptesis para
Supongamos las siguientes hiptesis:
donde es cualquier valor propuesto para , entonces el estadstico de prueba es:
Generalmente el valor que nos interesa probar es el cero, que significar la no existencia
de una asociacin lineal, por lo tanto las hiptesis y el estadstico es:
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.4
Probar la existencia de relacin lineal entre las variables relacionadas en el siguiente
modelo: considerando con un nivel de confianza
del 95% y .
Resolucin:
El estadstico de prueba es:
De tablas:
Por lo que se rechaza a favor de , es decir y tienen relacin lineal en algn
grado.
Pueden realizarse pruebas de hiptesis unilaterales:
ya que podra interesarnos saber si adems de existir relacin lineal entre las variables,
tiene pendiente positiva, por ejemplo si estudiamos la relacin entre la calificacin
promedio de los estudiantes y su salario inicial.
INFERENCIA ESTADSTICA Tema V Pg. 12
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Intervalos de confianza y prueba de hiptesis para
El intervalo de confianza del para es:
Si este intervalo incluye al cero, entonces podramos despreciar el valor de en el
modelo, esto querra decir que no tendra sentido un valor de cuando
Prueba de hiptesis para
Si se desea probar:
El estadstico de prueba es:
Si no se rechaza, entonces puede despreciarse en el modelo.
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.4
Para los datos anteriores, realizar un intervalo de confianza para del 95%
Resolucin:
Necesitamos
Entonces el intervalo queda:
Por lo tanto no podra despreciarse en el modelo,en general las inferencias respecto
a la interseccin deben evitarse a menos que exista un valor de la respuesta para ,
en realidad la experiencia recomienda que cuando existe duda sobre incluir o no , se
incluya.
S))))))))))))))))))))))))))))))))))))Q
Intervalo de confianza para el valor medio de
El valor de que corresponde a un valor particular esta dado por el modelo:
Ahora bien, seguramente no ser igual al valor promedio de cuando , con
este intervalo de confianza se podr establecer qu tan lejos podra estar de .
Para poder determinar este intervalo, requerimos el clculo de una cantidad llamada
valor de distancia para un valor particular de
este valor es una medida de la distancia entre el valor y , entre ms grande sea la
diferencia el valor de distancia tambin es mayor.
INFERENCIA ESTADSTICA Tema V Pg. 13
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Tambin se requiere definir y
: Error estndar de la estimacin
se distribuye normalmente puesto que y lo hacen de ese mismo modo,
entonces el intervalo de confianza de para el valor medio de cuando
est dado por:
A este intervalo tambin se le llama intervalo de confianza en torno a la lnea de
regresin.
))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.5
La resistencia del papel utilizado en la manufactura de cajas de cartn se relaciona
con el porcentaje de la concentracin de madera dura en la pulpa original . En
condiciones controladas, una planta piloto manufactura 16 muestras, cada una de
diferentes lotes de pulpa, y se mide la resistencia a la tensin. Los datos son:
1.0 101.4 2.5 111.3
1.5 117.4 2.5 123.0
1.5 117.1 2.8 125.1
1.5 106.2 2.8 145.2
2.0 131.9 3.0 134.3
2.0 146.9 3.0 144.5
2.2 146.8 3.2 143.7
2.4 133.9 3.3 146.9
Construir un intervalo de confianza en torno a la lnea de regresin del 95% para
.
Resolucin:
De los datos:
Calculando valor de la distancia:
El intervalo est dado por:
INFERENCIA ESTADSTICA Tema V Pg. 14
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Entonces, si para tomo varias observaciones de , el promedio de estas
observaciones se encontrar en ese intervalo con un 95% de confianza.
))))))))))))))))))))))))))))))))))))Q
Intervalo de prediccin para un valor individual de .
Es posible que nos interese obtener el valor de cuando tome un valor particular ,
para ello se construye un intervalo de prediccin de el cual estar dado por:
Es importante sealar que el trmino significa que esperamos un
error de prediccin mayor para el caso de un solo valor pronosticado, que aquel en que
predice una media.
A se le denomina error estndar de prediccin.
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.5
Para los datos anteriores, obtener un intervalo de prediccin del 90% de confianza para
.
Resolucin:
Del modelo, la estimacin puntual es:
Por otro lado:
De tablas
El intervalo queda:
Con un 90% de confianza podemos decir que el valor de diferir mximo en
S))))))))))))))))))))))))))))))))))))Q
INTERVALO DE CONFIANZA Y PRUEBA DE HIPTESIS PARA EL
COEFICIENTE DE CORRELACIN
Hasta ahora se ha supuesto que en un modelo de regresin
es una variable que podemos controlar en el experimento; sin embargo, algunos
problemas nos llevarn a considerarla aleatoria al igual que , entonces tiene una
distribucin normal bivariable con , , ,
INFERENCIA ESTADSTICA Tema V Pg. 15
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Esta distribucin tiene entre otras las siguientes propiedades:
1.- Las distribuciones marginales de y son normales
2.- El parmetro de la expresin es el coeficiente de correlacin de y
.
3.- Si , entonces y son independientes.
4.- Las curvas de regresin de sobre y de sobre son lineales.
Al suponer que tienen la distribucin anterior, entonces el modelo
sigue siendo vlido.
Recordemos que el coeficiente de correlacin nos indica si los datos tienen una tendencia
lineal ya sea positiva o negativa, ahora bien este coeficiente de correlacin se relaciona
con de la siguiente manera:
Dado que y son positivas, puede verse que y tienen el mismo signo
algebraico y adems si y slo si , entonces, realizar pruebas de hiptesis
e intervalos de confianza respecto a es equivalente a realizarlas respecto a , aunque
la interpretacin vara en algunos aspectos, por ejemplo , adems de indicarnos si
y tienen asociacin lineal, tambin mide: el cambio predicho en la media para un
cambio unitario en (pendiente) y adems de indicarnos la asociacin lineal entre
y nos indica al mismo tiempo si y son independientes como variables aleatorias.
Prueba de hiptesis para
Recordemos que la expresin para calcular o es la siguiente:
Planteando las siguientes hiptesis:
El estadstico de prueba es:
Si quisiramos realizar la siguiente prueba de hiptesis:
para
El estadstico de prueba para

se distribuye aproximadamente normal con:

Por lo tanto el estadstico se transforma en:
Se rechaza si:
INFERENCIA ESTADSTICA Tema V Pg. 16
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Intervalo de confianza para :
Este intervalo de confianza de est dado por:
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.6
Para los datos anteriores, obtener un intervalo de confianza para del 95% y realizar
una prueba de hiptesis con para saber si y son independientes.
Resolucin:
De los datos:
El intervalo esta dado por:
Por lo tanto y " " si tienen asociacin lineal y son dependientes:
Realizando la prueba de hiptesis:
se rechaza a favor de
S))))))))))))))))))))))))))))))))))))Q
REGRESIN MLTIPLE
El modelo de regresin mltiple involucra a ms de una variable independiente (o
tambin se le llama regresiva). Por ejemplo si suponemos que la vida eficaz de una
herramienta de corte depende de la velocidad y el ngulo de corte, entonces un modelo
de regresin para este caso es: donde representa la vida de
la herramienta, la rapidez de corte y el ngulo de corte.
El modelo describe un plano en el espacio bidimensional , . define la cota o
altura en el plano y se les llama coeficientes de regresin parciales, mide el
cambio esperado en por cambio unitario en cuando y mide el cambio
esperado en por cambio unitario en cuando
En general, la variable dependiente puede relacionarse con variables independientes.
El modelo:
Se de nomi na mode l o de r egre si n ml t i pl e con var i abl e s
independientes, son los coeficientes de regresin mltiple; para estimarlos,
INFERENCIA ESTADSTICA Tema V Pg. 17
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
se utiliza el mtodo de mnimos cuadrados, este consiste en minimizar:
donde:
es el i-simo valor de la variable ,
es el i-simo valor de la variable
y as sucesivamente.
Para minimizar , derivamos parcialmente con respecto a las e igualamos a cero:
Finalmente el sistema de ecuaciones queda:
.
.
.
Se abrevi:
y as sucesivamente.
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.7
Los siguientes datos muestran el nmero de recmaras, el nmero de baos y los precios
a los que se vendi recientemente una muestra aleatoria de casas unifamiliares en cierto
desarrollo habitacional grande:
Nmero de
recmaras
Nmero de baos Precio (dlares)
3 2 78,800
2 1 74,300
4 3 83,800
2 1 74,200
3 2 79,700
2 2 74,900
5 3 88,400
4 2 82,900
a) Encontrar una ecuacin lineal que permita predecir el precio de venta de una
casa unifamiliar en el desarrollo habitacional dado en trminos del nmero de
recmaras y el nmero de baos.
b) Predecir el precio de venta de una casa con tres recmaras y dos baos en el
desarrollo habitacional.
Solucin:
a) Las cantidades que necesitamos para plantear el sistema de ecuaciones son:
, , , , ,
, , ,
El sistema de ecuaciones queda:
Al resolver el sistema de ecuaciones:
INFERENCIA ESTADSTICA Tema V Pg. 18
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
El modelo queda:
b) Al sustituir ,
S))))))))))))))))))))))))))))))))))))Q
Notacin Matricial
Este enfoque matricial nos permite facilidad en los clculos para expresar las ecuaciones
obtenidas anteriormente, se definen 3 matrices:
es una matriz de , donde la columna de 1 se agrega para los trminos
constantes . es una matriz de (vector columna) y de .
Teorema 5.1:
Las estimaciones de mnimos cuadrados para los coeficientes de regresin
mltiple estn dadas por:
donde es la transpuesta de y es la inversa de .
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.8
Con los datos anteriores, resolver el problema utilizando la notacin matricial.
Resolucin:
Se definen las matrices:
INFERENCIA ESTADSTICA Tema V Pg. 19
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Realizando las operaciones correspondientes:
Finalmente:
El modelo queda:
S))))))))))))))))))))))))))))))))))))Q
Modelos Linealizables
En algunas ocasiones, se puede descubrir que la relacin entre y no es lineal, ya sea
por diagramas o los anlisis que se han hecho anteriormente (analizando a y a ), es
posible que la funcin no lineal existente entre y pueda ser linealizada, a estos
modelos no lineales se les llama transformablemente lineales. Las funciones no lineales,
sus grficas, las transformaciones y las formas lineales que resultan se resumen en la
siguiente tabla:
Figura Funcin
linealizable
Transformacin
Potencia
(a, b)
,
Exponencial
(c, d)
Logartmica
(e, f)
Hiperblica
(g, h)
,
Recproca
( i, j)
Tabla 5.1. Modelos transformablemente lineales
INFERENCIA ESTADSTICA Tema V Pg. 20
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Figura. 5.10. Grficas de modelos transformablemente lineales
Es decir, si la funcin de los datos es de tipo potencia, a los datos originales, se
les har la transformacin indicada y se har la regresin lineal con esas variables
transformadas, en este caso con , para el caso de tener una funcin tipo
exponencial la regresin lineal se har con la de los datos originales y la
transformada .
Cuando se emplean estas transformaciones se debe tener cuidado sobre la forma del
modelo antes y despus de la transformacin, es decir, una vez que se tenga el modelo
lineal, se debe regresar al modelo que linealizamos obteniendos sus parmetros y ,
para poder utilizarlo cuando se quiera conocer un valor de dado uno de . tambin
deben tenerse en cuenta las medidas de mejora
INFERENCIA ESTADSTICA Tema V Pg. 21
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 5.9
Un ingeniero investiga el uso de un molino de viento para generar electricidad. Ha
reunido datos sobre la corriente directa (CD) producida por su molino y la velocidad
correspondiente. Los datos se resumen en la siguiente tabla:
Determinar un modelo lineal adecuado para relacionar a y a .

Resolucin:
Se realiza la regresin, sin aplicar ninguna transformacin:
Puede observarse el valor de , al observar el diagrama de dispersin podemos
identificar que puede parecerse a la funcin potencial, logartmica y recproca, por lo
tanto, se realizan las transformaciones correspondientes para cada una y se realiza la
regresin correspondiente.
INFERENCIA ESTADSTICA Tema V Pg. 22
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
)))))))))))))))))))))))))))))))))))
A.L.B.S./N.M.G.
Al llevar a cabo las transformaciones, se puede observar que con la transformacin a
la funcin recproca mejor considerablemente de 0.872 a 0.979, por lo cual para
modelar nuestro problema debemos obtener la funcin recproca, obteniendo sus
parmetros, de acuerdo a la tabla 5.1, stos son:
Partiendo del modelo lineal al cual llegamos mediante la transformacin:
Por lo tanto la funcin recproca para nuestros datos queda de la forma:
Finalmente:
Si se quisiera estimar el valor de para , entonces deber obtenerse mediante
S))))))))))))))))))))))))))))))))))))Q
BIBLIOGRAFA
Mendenhall, William, ,et al .- Estadstica Matemtica con Aplicaciones.- Grupo Editorial
Iberoamrica.- Mxico, 1994.
Hines, William W. y Montgomery, Douglas C. - Probabilidad y Estadstica para
Ingeniera y Administracin.- CECSA.- Mxico, 1993.
Canavos, George C.- Probabilidad y Estadstica Aplicaciones y Mtodos.- McGraw-Hill.-
Mxico, 1988.
Freud, John E.,et al..- Estadstica Matemtica con Aplicaciones.- Prentice Hall.-Sexta
Edicin.- Mxico, 2000.
Milton, J. Susan., et al..- Probabilidad y Estadstica con Aplicaciones para Ingeniera y
Ciencias Computacionales.- McGraw Hill.- Cuarta Edicin.- Mxico, 2003.
Walpole, Ronald E., et al..- Probabilidad y Estadstica para Ingeniera y Ciencias.-
Prentice Hall.- Octava Edicin.- Mxico, 2007.
Bowerman, Bruce.,et al..- Pronsticos, Series de tiempo y Regresin: Un enfoque
aplicado.-Thomson.- Cuarta Edicin.- Mxico, 2007.