Probabilidad y estadística

José Luis Poveda Macías
Ingeniero Físico
Maestro en Educación
Inferencias en regresión lineal simple
• Supuestos y estimadores del modelo
• Estimación de parámetros
– Intervalos de confianza (?0 , ?1 , ??|? )
– Intervalo de predicción
• Pruebas de hipótesis
– ?0
– ?1
Del enfoque descriptivo al inferencial
• Hasta ahora, hemos usado un enfoque meramente
descriptivo, sin intentar realizar estimaciones. Sin embargo,
en ocasiones necesitamos determinar si una ecuación dada en
realidad es útil para describir una relación lineal o no.
• A continuación, aplicaremos inferencias para determinar si los
parámetros estimados durante la parte descriptiva resultan
significativos, lo que indicaría que en realidad dicha relación
está presente.
• Como todo lo visto anteriormente, nos enfocaremos
exclusivamente a la regresión lineal simple.

1. Supuestos del modelo
Supuestos del modelo
• Para poder efectuar inferencias, requerimos que se cumplan
ciertos supuestos, de manera que el modelo hallado de
manera descriptiva pueda considerarse como un verdadero
estimador del modelo real.
• En el modelo de regresión lineal original:
? = ?0 + ?1 ? + ?
• Notemos que Y es una variable aleatoria, sin embargo, por la
manera como se encuentra definida x, esta no lo es. Es decir,
suponemos en principio que podemos controlar en cierta
medida el valor de x.
• ε, al ser un error aleatorio, provoca la aleatorización de Y.

1. Supuestos del modelo
Supuestos del modelo
• Recordemos también que para poder aplicar inferencias
requeríamos en general lo siguiente:
– Variables aleatorias independientes.
– Normalidad.
• Sin embargo, dado que x no es una variable aleatoria, esto
significa que los supuestos deben aplicarse a los errores, ε.
Finalmente:
– Los errores son independientes unos de otros.
– Los errores se distribuyen normalmente con media cero y varianza
constante, es decir: ?~? ?, ?? .

1. Supuestos del modelo
Supuestos del modelo

1. Supuestos del modelo
¿Cómo se garantizan los supuestos?
• El mayor problema para garantizar los supuestos es que
requiere conocer los errores, lo cual no podemos saber
debido a que no conocemos a toda la población de datos.
• Entonces recurrimos a los errores estimados por la recta
obtenida. Es decir, a los residuos. Si los residuos cumplen con
los supuestos, entonces podremos realizar inferencias con
nuestra recta de regresión estimada.
• Esto se logra por medio de dos gráficas principales:
– Gráfica de probabilidad normal
– Gráfica de residuos vs predichos (número de fila, x)

1. Supuestos del modelo
Gráfica de probabilidad normal
Gráfico de Probabilidad Normal
• La gráfica de
probabilidad normal
99.9

99
muestra el ajuste que
n:75
Mediana:1.58621
95 tienen los datos con
Sigma:13.4547
W:0.957424
80
respecto a la normal.
P:0.0400
porcentaje

50

20 • Si los datos caen o se
5 acercan a la línea
1

0.1
recta, esto indica una
-40 -20 0
RESIDUOS
20 40
buena aproximación a
la normal.

1. Supuestos del modelo
Gráficas de residuos
Gráfico de Residuos para Calificaciones
• Las gráficas deben
mostrar una nube de
40
puntos contenida
20 entre un rango de
valores.
residuos

0
• Si se encuentra un
-20
patrón o variaciones
-40
en la dispersión, el
0 20 40
número de fila
60 80
modelo no es
adecuado.

1. Supuestos del modelo
Estimadores del modelo
• Ya que el modelo hallado está basado en los estimadores ?መ1 , ?መ0 ,
estos estimadores son variables aleatorias, cada una con una media
y una varianza. Entonces:
?2
? ?መ1 = ?1 , ??? ?መ1 =
???
?2 ? 2
? ?መ0 = ?0 , ??? ?መ0 = + ?ҧ 2
? ???
σ ?? 2
Donde ??? = σ ??2 −
?
• Sin embargo, es necesario conocer la varianza poblacional. ¿Hay
forma de hallarla si el modelo utilizado es una mera aproximación?

2. Estimadores del modelo
Error estándar de la estimación
• Gracias a los supuestos, sabemos que los únicos que
contribuyen a la varianza del modelo real son los errores ?.
• Dado que no conocemos los errores, estos pueden estimarse
mediante los residuos ?? − ?ෝ? .
• Entonces, podemos estimar la varianza del ajuste con:
σ ? 2
2
?
?=1 ? − ?ො? ???
?ො = = = MSE
?−2 ?−2
• Recordemos que la recta requiere de dos estimadores, el
intercepto y la pendiente. Por lo tanto, al total de datos se le
quitan los grados de libertad debido a esos coeficientes.

2. Estimadores del modelo
Error estándar de la estimación
• ?ො 2 es una medida de variación de los datos
observados a la recta estimada del modelo. Si el
valor es pequeño, es un indicativo de que el ajuste
del modelo hallado es bueno.
• A esta medida también se le conoce como el error
cuadrado medio, o MSE, y con ella podemos estimar
el valor de la varianza real.

2. Estimadores del modelo
Intervalos de confianza
• Podemos aproximar el valor real de los parámetros mediante
intervalos de confianza:
??? ???
?መ1 − ??,?−2 መ
≤ ?1 ≤ ?1 + ??,?−2
2 ??? 2 ???

1 ?ҧ 2 1 ?ҧ 2
?መ0 − ??,?−2 ??? + ≤ ?0 ≤ ?መ0 + ??,?−2 ??? +
2 ? ??? 2 ? ???
? − 2 ??? ? − 2 ???
≤ ?2 ≤
??2 ?2 ?
2 ,?−2 1− 2 ,?−2

3. Intervalos de confianza
Intervalo de confianza para la recta de
regresión
• Cuando se sustituye un valor de ?0 en la recta obtenida, en
realidad la ?0 representa el valor medio de ?0 para un valor
determinado de ?0 . Es decir, ? ?0 |?0 .
• Entonces, ya que la recta de regresión en realidad es la media
de valores esperados de ?0 , podemos hallar el intervalo de
confianza en donde se esperaría hallar los valores de ?0 .
1 ?0 −?ҧ 2
• ?ො0 ± ??,?−2 ??? +
2 ? ???

3. Intervalos de confianza
Predicción de nuevas observaciones
• Si se quiere introducir un valor nuevo de ?0 , se pueden
predecir, aunque de manera menos precisa, los posibles
valores que puede tomar ?0 :
1 ?0 −?ҧ 2
• ?ො0 ± ??,?−2 ??? 1 + +
2 ? ???

3. Intervalos de confianza
Ejemplo 1
• Un motor de cohete se manufactura al unir un
propelente de ignición y otro de sustento dentro del
tanque de metal. La fuerza de la unión es una
característica importante para la calidad del
propelente final. Se sospecha que la fuerza está
relacionada con la edad de los propelentes. En la
siguiente tabla se presentan los datos obtenidos:

3. Intervalos de confianza
Ejemplo 1
Fuerza y (psi) Edad x (semanas) Fuerza y (psi) Edad x (semanas)
2158.70 15.50 2165.20 13.00
1678.15 23.75 2399.55 3.75
2316.00 8.00 1779.80 25.00
2061.30 17.00 2336.75 9.75
2207.50 5.50 1765.30 22.00
1708.30 19.00 2053.50 18.00
1784.70 24.00 2414.40 6.00
2575.00 2.50 2200.50 12.50
2357.90 7.50 2654.20 2.00
2256.70 11.00 1753.70 21.50

• Calcula el intervalo de confianza para la pendiente y la varianza estimada.

3. Intervalos de confianza
Ejemplo 1
• Primero calculamos ?1 :
? σ ?? − σ ? σ ?
?መ1 =
? σ ?2 − σ ? 2
20 528492.64 − 267.25 42627.15
=
20 4677.69 − 267.25 2
41112.65
=− = −??. ??
1106.56
• Ahora hallamos ?0 para determinar la recta:
?መ0 = ?ത − ?መ1 ?ҧ = 2131.3575 − −37.15 13.3625
= ????. ??

3. Intervalos de confianza
Ejemplo 1
• La recta de regresión es: ?ො = 2627.82 − 37.15?
• Para hallar la varianza estimada, debemos
encontrar el residuo de cada valor.
• Una vez hallado el valor, elevamos el valor al
cuadrado, de acuerdo con la fórmula:
? 2
2
σ?=1 ?? − ?ො?
?ො =
?−2
• La varianza depende del modelo que se utilice.

3. Intervalos de confianza
Ejemplo 1
Fuerza y Edad x Residuo Fuerza y Edad x Residuo
(psi) (semanas) (psi) (semanas)
2158.70 15.50 106.705 2165.20 13.00 20.33
1678.15 23.75 -67.3575 2399.55 3.75 -88.9575
2316.00 8.00 -14.62 1779.80 25.00 80.73
2061.30 17.00 65.03 2336.75 9.75 71.1425
2207.50 5.50 -215.995 1765.30 22.00 -45.22
1708.30 19.00 -213.67 2053.50 18.00 94.38
1784.70 24.00 48.48 2414.40 6.00 9.48
2575.00 2.50 40.055 2200.50 12.50 37.055
2357.90 7.50 8.705 2654.20 2.00 100.68
2256.70 11.00 37.53 1753.70 21.50 -75.395

3. Intervalos de confianza
Ejemplo 1
2
166402.65
?ො = = 9244.59
18
• Ahora calculamos el intervalo de confianza con
መ ???
?1 ± ??,?−2 :
2 ???

9244.59
−37.15 ± 2.101
1106.56
• Finalmente:
−43.22 ≤ ?1 ≤ −31.08
Ejemplo 1
• Para la varianza:
? − 2 ??? 2
? − 2 ???
≤? ≤
??2 ?2 ?
,?−2 1− ,?−2
2 2
18 9244.59 2
18 9244.59
≤? ≤
31.5 8.23
• Finalmente:
5282.62 ≤ ? 2 ≤ 20219.03
Pruebas de hipótesis
• En muchas ocasiones, requerimos saber si los
coeficientes son estadísticamente
significativos o no, lo que tiene varias
implicaciones:
• Si la pendiente ?1 = 0, esto significaría que la
recta en realidad es horizontal por lo que no
existe relación.
• Si el intercepto ?0 = 0, esto significaría que la
recta corta al eje Y en el origen.
4. Pruebas de hipótesis
Prueba para la pendiente
• Si se quiere probar que la pendiente es significativa, se plantean las
hipótesis:
≠ ?10
• ?0 : ?1 = ?10 vs ?1 : ?1 ቐ> ?10
< ?10
• Estadístico de prueba (para varianza estimada):
?መ1 − ?10
?0 =
???
???
≠, ?0 ≥ ??,?−2
2
• Su región de rechazo es: ൞ >, ?0 ≥ ??,?−2
<, ?0 ≤ −??,?−2

4. Pruebas de hipótesis
Prueba para la pendiente
• Si en particular, se quiere comprobar que la pendiente es
significativamente distinta de cero, la prueba de Fisher resulta
una prueba más efectiva para determinarla:
• ?0 : ?1 = 0 vs ?1 : ?1 ≠ 0
• Estadístico de prueba (para varianza estimada):
2

?1 − ?10
?0 =
???
???
• Se rechaza ?0 cuando ?0 > ??,1,?−2

4. Pruebas de hipótesis
Prueba para el intercepto
• Si se quiere probar que el intercepto es significativo, se plantean las
hipótesis:
≠ ?00
• ?0 : ?0 = ?00 vs ?1 : ?0 ቐ> ?00
< ?00
• Estadístico de prueba (para varianza estimada):
?መ0 − ?00
?0 =
1 ?ҧ 2
??? +
? ???
≠, ?0 ≥ ??,?−2
2
• Su región de rechazo es: ൞ >, ?0 ≥ ??,?−2
<, ?0 ≤ −??,?−2

4. Pruebas de hipótesis
Ejemplo 2
• En la siguiente tabla se presenta información sobre la
contaminación del agua producida por la industria
talabartera. Se presentan 33 muestras de desechos
tratados químicamente realizados por la universidad
Virginia Tech. Las lecturas para x son el porcentaje
total de reducción de sólidos, y para y se registró el
porcentaje total de reducción en la demanda de
oxígeno.
• ¿Hay algún indicativo de que en realidad existe una
relación lineal entre ambos?

4. Pruebas de hipótesis
Ejemplo 2
Reducción de Reducción de Reducción de Reducción de Reducción de Reducción de
sólidos x (%) oxígeno (%) sólidos x (%) oxígeno (%) sólidos x (%) oxígeno (%)
3 5 32 32 39 45
7 11 33 34 40 39
11 21 33 32 41 41
15 16 34 34 42 40
18 16 36 37 42 44
27 28 36 38 43 37
29 27 36 34 44 44
30 25 37 36 45 46
30 35 38 38 46 46
31 30 39 37 47 49
31 40 39 36 50 51

4. Pruebas de hipótesis
Ejemplo 2
• Ya que deseamos verificar si existe una relación lineal
entre las variables x y y, se quiere revisar si en realidad el
coeficiente ?1 es significativamente distinto de cero.
• Primero calculamos las sumatorias para poder hallar ?መ1 :
• σ ?? = 1104, σ ?? = 1124, σ ?? ?? = 41355, σ ??2 =
41086
• Ahora aplicamos la fórmula
? σ ?? − σ ? σ ?
?መ1 =
? σ ?2 − σ ? 2

4. Pruebas de hipótesis
Ejemplo 2
33 41355 − 1104 1124
2
= 0.9036
33 41086 − 1104
• Ahora realizaremos una prueba estadística para ?መ1 :
• Las hipótesis son: ?0 : ?1 = 0 vs ?1 : ?1 ≠ 0
• El estadístico de prueba es:
?መ1 − ?10
?0 =
???
???
• ??? es equivalente al denominador de ?1 entre n:
1104 2
??? = 41086 − = 4152.18
33

4. Pruebas de hipótesis
Ejemplo 2
• Para hallar el error cuadrático medio, necesitamos primero hallar la
suma de los cuadrados de los errores. Primero, necesitamos hallar
el intercepto para calcularlo:
?መ0 = ?ത − ?1 ?ҧ = 34.0606 − 0.9036 33.4545 = 3.8311
• La ecuación es: 3.8311 + 0.9036?
• Ahora usamos la fórmula de SSE = σ ? − ?ො? 2 = 330.0092
σ ?−?ො ? 2 330.0092
• Entonces MSE = = = 10.6455
?−2 31
• Regresamos al estadístico
?መ1 − ?10 0.9036 − 0
?0 = = = 17.84
??? 10.6455
??? 4152.18
• Ya que el valor de ?0.0005,30 = 3.646 y es menos al obtenido, eso es
indicativo de que el valor P es menor de 0.001, y entonces la
relación lineal entre ambos es significativa.
4. Pruebas de hipótesis
Actividad 2
• Se realizó un estudio para determinar los efectos de la
privación de sueño en la capacidad de las personas para
resolver problemas sencillos. La cantidad de privación de
sueño varió en 8, 12, 16, 20 y 24 horas sin dormir. Un total de
diez individuos participaron en el estudio, dos por cada nivel
de privación de sueño. Después de su periodo de privación de
sueño, a cada individuo se le presento un conjunto de
problemas sencillos de sumas para que lo resolvieran,
registrándose el número de errores; se obtuvieron los
resultados mostrados en la tabla siguiente:
Número de errores (y) 8, 6 6, 10 8, 14 14, 12 16, 12
Número de horas sin 8 12 16 20 24
dormir (x)
A2. Actividad
Actividad 2
• Encuentra la recta de mínimos cuadrados apropiada para
estos datos.
• Calcula S2.
• ¿Los datos presentan suficiente evidencia para indicar que el
número de errores está relacionado linealmente de horas sin
dormir?

A2. Actividad

Master your semester with Scribd & The New York Times

Special offer for students: Only $4.99/month.

Master your semester with Scribd & The New York Times

Cancel anytime.