You are on page 1of 6

Estadı́stica II

Examen Final 19/06/2015


Soluciones

Responda a las preguntas siguientes en los cuadernillos de la Universidad


Utilice diferentes cuadernillos para responder a cada uno de los ejercicios
Indique claramente en cada cuadernillo su nombre, número de orden en el grupo y grupo reducido de clase

1. (3,5 puntos) La aerolı́nea FastAir ha lanzado una campaña de publicidad en la que anuncia que sus vuelos
en cierta ruta son más puntuales que los de la competencia. Un vuelo se considera “puntual” si el retraso
en la hora de salida no supera los 15 minutos. Una organización de consumidores se propone contrastar
dicha afirmación, para lo cual recopila datos de puntualidad en 35 vuelos de FastAir y 50 vuelos de otras
aerolı́neas, de los cuales fueron puntuales 31 y 36 vuelos, respectivamente.

a) (1 punto) Plantea el contraste de hipótesis apropiado, identificando las hipótesis nula y alternativa;
indica el estadı́stico de contraste.
b) (0,5 puntos) Determina la región de rechazo del contraste y resuelve el mismo con un nivel de
significación del 2%.
c) (0,5 puntos) Calcula el p-valor del contraste.
d ) (0,25 puntos) Determina para qué niveles de significación no se rechaza la hipótesis nula con los datos
obtenidos.
e) (0,25 puntos) Interpreta los resultados. ¿Qué muestran estos sobre la evidencia disponible y la pu-
blicidad de FastAir ?
f ) (1 punto) Calcula el valor (aproximado) de la potencia del contraste anterior para un nivel de signi-
ficación del 2 %, si la diferencia (poblacional) entre las proporciones de vuelos puntuales es igual a
0,1. Interpreta tu resultado.

Solución.
a) Se trata de un contraste para la diferencia entre dos proporciones, con muestras grandes independien-
tes de dos poblaciones. Denotamos por p1 y p2 las proporciones de vuelos puntuales de FastAir y de
la competencia, respectivamente. El contraste de hipótesis es: H0 : p1 6 p2 (o también H0 : p1 = p2 )
vs. H1 : p1 > p2 . El estadı́stico de contraste es
31 36
p̂1 − p̂2 aprox. 35 − 50
Z=q ∼ N (0, 1), z=q  ≈ 1,84,
1 1
 67 67 1 1
p̂0 (1 − p̂0 ) n1 + n2 85 (1 − 85 ) 35 + 50

donde p̂0 = (n1 p1 + n2 p2 )/(n1 + n2 ).


b) Se rechaza H0 si z > z0,02 ≈ 2,055 (RR0,02 = {z|z > 2,055}). Por tanto, con los datos obtenidos no
se rechaza H0 con un nivel de significación del 2%.
c) El p-valor del contraste vale P {Z > 1,84} ≈ 0,0329.
d ) Con los datos obtenidos no se rechaza la hipótesis nula para niveles de significación α 6 0,0329.
e) Los resultados muestran una evidencia moderada de que los vuelos de FastAir son más puntuales
que los de la competencia, como indica su publicidad, ya que, por ejemplo, se rechaza H0 con un
nivel de significación del 4%. Sin embargo, la evidencia en favor de la publicidad de FastAir no es
muy fuerte, ya que no podemos rechazar H0 con un nivel de significación del 3%.
f ) El cálculo de la potencia se basa en la relación

potencia = P (rechazar H0 | p1 − p2 = 0, 1).

Como la región de rechazo es RR0,02 = {z|z > 2,055}, la potencia vendrá dada por
 
p̂ 1 − p̂ 2
P q  > 2,055 | p1 − p2 = 0, 1 ,
p̂0 (1 − p̂0 ) n11 + n12
pero como bajo p1 − p2 = 0, 1 se tiene que
p̂1 − p̂2 − 0, 1 aprox.
Y ≡q ∼ N (0, 1),
p̂0 (1 − p̂0 ) n11 + 1

n2

podemos escribir que


   
0, 1 0, 1
potencia = P Y + q
1 1
 > 2,055 = P Y > 2,055 − q 67 67 1 1


p̂0 (1 − p̂0 ) n1 + n2 85 (1 − 85 ) 35 + 50

= P (Y > 0,944) = 0,172,

un valor muy reducido de la potencia, debido a que 0, 1 está muy próximo al valor 0 correspondiente
a la hipótesis nula.
Una solución más correcta (pero posiblemente menos immediata) teniendo en cuenta que p1 6= p2 ,
serı́a trabajar con
p̂1 − p̂2 − 0, 1 aprox.
Y0 ≡ q ∼ N (0, 1),
p̂1 (1−p̂1 ) p̂2 (1−p̂2 )
n1 + n2

de manera que, usando p̂1 = 31/35 = 0,886 y p̂2 = 36/50 = 0,72,


   
0, 1 0, 1
potencia = P Y 0 + q > 2,055 = P Y 0 > 2,055 − q 
p̂1 (1−p̂1 ) p̂2 (1−p̂2 ) 0,886×0,214 0,72×0,28
n1 + n2 35 + 50

= P (Y 0 > 0,853) = 0,197,

2. (2,5 puntos) Se quiere comparar el nivel de dificultad de los exámenes parciales primero (P1 ) y segundo
(P2 ) de la asignatura Estadı́stica II. Para ello, suponiendo que el nivel de dificultad de cada parcial se
refleje en las notas obtenidas por los estudiantes (sea X la variable aleatoria asociada a la nota obtenida
en P1 e Y la variable aleatoria asociada a P2 ), se han seleccionado al azar 9 estudiantes y se han observado
las siguientes notas:

Estudiante x y
1 5.5 6
2 7 7.4
3 4 4
4 8 7.6
5 6 6.3
6 5 4.8
7 9.5 10
8 5 5.6
9 5.5 6.5

a) (1 punto) Dada la naturaleza de las dos muestras disponibles, plantea el contraste oportuno para
evaluar si el nivel de dificultad de P2 ha sido más bajo que el nivel de dificultad de P1 . Indica los
supuestos bajo los que vas a realizar este contraste. Especifica las hipótesis nula y alternativa y
soluciona el contraste proporcionando el valor del estadı́stico adecuado y la forma de la región de
rechazo para α = 0,05.
b) (1 punto) Ahora suponemos que la muestra de X se ha obtenido de manera independiente respecto
2
a la muestra de Y , y que X e Y siguen distribuciones normales con varianzas conocidas: σX = 2,9
2
y σY = 3,1, respectivamente. Plantea nuevamente un contraste para evaluar si el nivel de dificultad
de P2 ha sido mas bajo que el nivel de dificultad de P1 . Especifica las hipótesis nula y alternativa,
y soluciona el contraste proporcionando el valor del estadı́stico adecuado y su p-valor. Indica tus
conclusiones si α = 0,05.
c) (0,5 puntos) Indica si las siguientes afirmaciones son verdaderas o falsas, justificando tus respuestas:
1) Los contrastes de los apartados 2a y 2b siempre llevan a conclusiones diferentes, manteniendo
los mismos datos, si el nivel de significación es suficientemente reducido.
2) El contraste del apartado 2a no se puede llevar a cabo a menos que las dos poblaciones sean
normales.
Solución.
a) Dado que las muestras son pareadas, podemos emplear un contraste para la diferencia entre dos
medias para muestras pareadas, y construir la tabla de las diferencias D = X − Y observadas en la
muestra disponible:
Estudiante D
1 -0.5
2 -0.4
3 0
4 0.4
5 -0.3
6 0.2
7 -0.5
8 -0.6
9 -1
Como el tamaño de la muestra es reducido, supondremos que D sigue una distribución normal con
varianza poblacional desconocida. Nuestras hipótesis nula y alternativa serán
H0 : D0 ≥ 0,
H1 : D0 < 0.

El contraste planteado puede estudiarse considerando el estadı́stico



T = √ ∼ tn−1 ,
sd / n
y la región de rechazo (n − 1 = 8)
RR0,05 = {t : t < −t8;0,05 } = {t : t < −1,860} .

Dados los datos del ejercicio, el valor del estadı́stico es


d¯ −0,3
t= √ = = −2,09,
sd / n 0,43/3
y como t = −2,09 ∈ RR0,05 , en este caso rechazamos la hipótesis nula.
Podemos concluir que los datos contienen suficiente evidencia en favor de que las notas del Parcial
2 hayan sido en promedio más altas que las notas del Parcial 1, y eso implicarı́a que el nivel de
dificultad del Parcial 2 ha sido más bajo que el nivel de dificultad del Parcial 1.
b) Dado que ahora las muestras son independientes y las poblaciones normales y con varianzas conocidas,
podemos emplear un contraste para la diferencia entre dos medias para dos poblaciones normales
con varianzas conocidas y considerar el estadı́stico
X̄ − Ȳ
Z=q 2 2
∼ N (0, 1).
σX σY
nX + nY

El contraste tendrá las siguientes hipótesis nula y alternativa:


H0 : µX − µY ≥ 0,
H1 : µX − µY < 0,
Dados los datos del ejercicio,
2
x̄ = 6,17, ȳ = 6,47, σX = 2,9, σY2 = 3,1, nX = nY = 9,
el valor del estadı́stico es
x̄ − ȳ 6,17 − 6,47
z=q 2 2
= q = −0,37,
σX σY 2,9 3,1
nX + nY 9 + 9

y su p-valor es
P (Z ≤ −0,37) = P (Z ≥ 0,37) = 0,3557.
Como el p-valor es mayor que α, no podemos rechazar la hipótesis nula.
Podemos concluir que los datos no contienen suficiente evidencia en favor de que las notas del Parcial
2 hayan sido en promedio más altas que las notas del Parcial 1.
c) Estas dos afirmaciones son:
1) Falsa. Para niveles de significación muy reducidos tendemos a no rechazar la hipótesis nula en
cualquier contraste (a menos que el valor muestral del estadı́stico coincida exactamente con el
valor bajo la hipótesis nula), y por tanto la conclusión tiende a ser la misma en ambos casos.
2) Falsa. Si el tamaño muestral es elevado, el teorema central del lı́mite implica que la distribución
de D̄ es aproximadamente normal, y se puede llevar a cabo el contraste basado en esta propiedad.
(Otra respuesta posible es que basta con que la diferencia de las dos poblaciones sea normal,
para cualquier tamaño muestral.)
3. (4 puntos) Se ha realizado una encuesta de calidad docente en la Universidad a 1084 alumnos de la misma
para estimar el aumento de interés (I) por una determinada asignatura por parte de los alumnos, en
función de la valoración dada a su trabajo personal (T ) por dichos alumnos. Las dos variables se han
valorado en una escala (continua) de 1 a 5. Se ha realizado un análisis de regresión con Excel obteniéndose
los siguientes valores:
1084
X 1084
X 1084
X 1084
X
Ii = 3441,25, Ti = 3481,11, Ii2 = 11292,88, Ti2 = 11768,99.
i=1 i=1 i=1 i=1

En base a las tablas anteriores calcule:


a) (0,25 puntos) El coeficiente de determinación indicando su interpretación.
b) (0,25 puntos) El coeficiente de correlación indicando su interpretación.
c) (0,5 puntos) Calcula un intervalo de confianza al 95 % para la pendiente del modelo.
d) (0,5 puntos) ¿Qué interés I estimas que tendrá un alumno que valore su trabajo personal como 3,5?
Calcula un intervalo de confianza al 95 % asociado a dicha estimación.
e) (0,5 puntos) ¿Se podrı́a afirmar que a medida que aumenta el trabajo personal del alumno el interés
por la asignatura disminuye en promedio? Contrástalo a un 5 % de significación.
Para poder estimar mejor la variable interés del alumno (I) se han añadido a la regresión anterior las
siguientes variables explicativas, también valoradas de 1 a 5:
“Profesor”: valoración dada al profesor.
“Lecturas”: valoración de las lecturas repartidas por el profesor.
“Material”: valoración del material repartidas por el profesor.
Se ha obtenido la siguiente tabla ANOVA para el modelo multivariante resultante:
f ) (0,5 puntos) Calcula un intervalo de confianza al 90 % para el coeficiente de la variable “Lecturas”
en el modelo de regresión múltiple. Basándote en este intervalo, comenta sobre la significación de la
variable “Lecturas” en el modelo múltiple.
g) (0,5 puntos) Calcula una estimación de la varianza del error del modelo utilizando un estimador
insesgado.
h) (1 punto) Responde verdadero o falso a las siguientes cuestiones razonando tu respuesta:
1) Podemos decir que el modelo de regresión lineal múltiple es globalmente significativo.
2) La variable explicativa “Material” no es significativa al 1 % de significación.
3) La variable explicativa “Profesor” tiene un mayor efecto en el interés del alumno por la asignatura
que el resto de las variables explicativas.
4) El coeficiente de determinación en este modelo es 0,3865.
Solución.
a) Tenemos que
SCM 188,97
R2 = = = 0,513,
SCT 368,33
y por tanto podemos explicar el 51,3 % de la variabilidad de la variable “Interés del alumno por la
asignatura” con el valor de la variable “Valoración que hace el alumno de su Trabajo Personal.”
b) Obtenemos √ p
ρ = R2 = 0,513 = 0,716.
Se puede decir que existe una correlación lineal entre las variables “Interés” y “Trabajo personal”
positiva, puesto que la pendiente es positiva, y fuerte, puesto que el valor es mayor que 0,6.
c) El intervalo de confianza para β1 se obtiene aplicando la fórmula
" s #
s2R
β̂1 ∓ tn−2;α/2 ,
(n − 1)s2T

ya que T es la variable independiente del modelo.


De la tabla ANOVA tenemos que la varianza residual vale s2R = 0,1657; de la tabla adjunta también
tenemos que β̂1 = 0,5659. De los datos incluidos obtenemos que la varianza de la variable “Trabajo
personal” es !
1 X
s2T = Ti2 − nT̄ 2 = 0,5469.
n−1 i
Por último, de la tabla de la normal (al ser n elevado) t1082;0,025 ≈ z0,025 = 1,96.
Con todos estos datos obtenemos que
IC0,95 (β1 ) = [0,5331; 0,5987].

d ) Dado que el modelo de regresión es


Iˆ = 1,3569 + 0,5659T,
obtenemos una predicción puntual para T0 = 3,5,
I0 = 1,3569 + 0,5659 × 3,5 = 3,3376.

El intervalo de confianza pedido vendrá dado por


" s #
(3,5 − 3,211)2

1
3,3376 ∓ 1,96 0,5469 1 + + = [1,8873; 4,7878]
1084 1083 × 0,5469

e) El contraste a realizar es
H0 : β1 ≥ 0
H1 : β1 < 0
De la tabla obtenemos el valor de estadı́stico T0 = 33,763, y la región de rechazo viene dada por
RRα = {t0 < tn−2;α }. Utilizamos la aproximación de la t de Student (al ser n muy elevado) por la
normal tn−2;0,05 ≈ z0,05 = 1,645.
No se puede rechazar la hipótesis nula por lo que no se puede afirmar que a medida que aumenta la
“Valoración del trabajo personal” disminuya el “Interés del alumno” a un 5 % de significación.
f ) De los datos en la tabla, este intervalo tiene la forma

IC0,9 (β2 ) = [0,053 ∓ t1079;0,05 0,032] = [0,0004; 0,1056].

Como el valor 0 no pertenece al intervalo, la variable es (individualmente) significativa para un nivel


de confianza del 10 %.
g) El estimador insesgado de la varianza del error es la varianza residual, que de la tabla indicada vale
s2R = 0,131.
h) Para las preguntas Verdadero/Falso tenemos:
1) Verdadero, puesto que el contraste de la tabla ANOVA rechaza que el modelo no sea significativo
globalmente, dado el valor del estadı́stico F = 428,06 y el p-valor asociado, aproximadamente
igual a 0 (6,70 10−221 )

H0 : β 1 = β 2 = β 3 = β 4 = 0
H1 : algún βj 6= 0

2) Falso, ya que si hacemos el contraste

H0 : β 4 = 0
H1 : β4 6= 0

rechazamos la hipótesis nula puesto que el estadı́stico t0 = 8,10 y el p-valor del contraste es casi
nulo (1,38 10−15 ) ası́ que la variable sı́ es significativa.
3) Verdadero, porque si miramos los coeficientes de las pendientes parciales observamos que es el
mayor coeficiente. Si variamos un punto la valoración del Profesor, la variable Interés del alumno
aumenta en 0,385 en promedio, si el resto de las variables explicativas se mantienen constantes.
Este el es el mayor valor de los coeficientes estimados.
4) Falso, ya que R2 = SCM/SCT = 225,95/368,33 = 0,6134