Professional Documents
Culture Documents
Julio Idrovo
3. INFERENCIA ESTADÍSTICA
3.1 Introducción
La inferencia estadísticaes la parte de la estadística que permite tomar decisiones sobre una determinada
cuestión con un grado de confianza establecido a priori. Por ejemplo, se puede averiguar si dos muestras
están o no correlacionadas linealmente, si sus medias son iguales, si su variabilidad es diferente, cuáles
son sus distribuciones, etc.
3.2.6 Decisión
Si el valor del test cae dentro de la zona de rechazo de H0 se procederá a rechazar la hipótesis nula,
aceptando la hipótesis alternativa.
En todo caso, no se eliminará un dato sospechosamente atípico hasta no tener la certeza absoluta de que
su origen se debe a un error humano o de instrumentación.
La presencia de un valor anómalo puede alterar sensiblemente las conclusiones de un análisis estadístico.
Aquellos métodos poco sensibles a estos datos extraños se denominan robustos, y la estadística robusta es
un área de intensa investigación.
En un estudio sobre la posible influencia del tamaño del cerebro humano en la inteligencia, se ha
estimado la dimensión del órgano como el número de píxeles que ocupa en sendas imágenes obtenidas
por Resonancia Magnética. Los sujetos bajo estudio han sido 20 estudiantes masculinos de psicología de
cierta Universidad norteamericana. Al representar los datos en un histograma, se ha observado que el
primero aparece algo apartado de los demás, por lo que se sospecha que pueda ser atípico. Se supone que
la población tiene distribución normal.
1201121 1038437 965353 904858 955466
1079549 924059 945088 889083 892420
905940 955003 935494 1062462 949589
997925 879987 949395 930016 935863
Se aplica el test de Grubbs para contrastar la hipótesis nula de que no hay un registro anómalo.
La media de los datos es 964855.40 y la desviación estándar es 78103.09, y con estos valores se obtienen
los siguientes valores absolutos de zi.
3.03 0.94 0.01 0.77 0.12
1.47 0.52 0.25 0.97 0.93
G=maxzi=3.03
0.75 0.13 0.38 1.25 0.20
0.42 1.09 0.20 0.45 0.37
G*=20-120t0.02520,20-2220-2+t0.02520,20-22=192012.320818+12.3208=2.71
Dado que 3.03>2.7, se rechaza la hipótesis nula. Según la prueba de Grubbs, todo parece indicar que el
dato 1201121 es atípico. Un fallo en la transcripción de la información muestral provocó la aparición de
esta cantidad en lugar de la correcta, que era 1001121. Corríjase este primer valor de la muestra y
ejecútese nuevamente el programa; el problema queda ahora resuelto.
s2
χ = (n − 1) 2
2
σ
5.78
χ 2 = (25 − 1) = 24.771
5.6
5) El valor crítico tabulado es:
χ2* = 36.415
( 24 , 0.05)
3.5.2 Test F
La distribución Fes asimétrica y no negativa. Se utiliza para comparar las varianzas de dos poblaciones,
bajo el conocimiento de las varianzas de dos muestras; entonces es paramétrico.
La hipótesis plantea la igualdad entre las varianzas.
H0:σ12=σ22HA:σ12<>σ22
El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se
presenta a continuación. Los valores críticos se encuentran tabulados y se los localiza conociendo el
número de grados de libertad tanto del numerador como del denominador (n1-1 y n2-1) y el nivel de
significancia (). Se toma la decisión de aceptar H0 cuando se cumple la doble condición indicada (en un
test a dos colas).
F=s12s22
Fgl1,gl2,1-α/2*<F<Fgl1,gl2,α/2*
Debido a la asimetría de la distribución F, el valor crítico de la izquierda Fgl1,gl2,1-α/2*=1Fgl1,gl2,α/2*
Ejemplo 5:
Dos muestras aleatorias de los resultados de una prueba dan las siguientes estadísticas:
Clase A: n = 16 s2 = 92.3
Clase B: n = 25 s2 = 34.7
Estos datos proveen suficiente evidencia para rechazar la hipótesis de que las dos clases tienen varianzas
iguales para los resultados de la prueba involucrados?. Usar = 0.05 .
1) H0: σ2A = σ2B HA: σ2A ≠ σ2B (dos colas)
2) = 0.05
3) Test paramétrico F.
4) Se calcula el valor del test: F = s2A / s2B = 92.3 / 34.7 = 2.66
5) Los valores críticos son:
F*(15,24,0.025) = 2.44 1/ F*(15,24,0.025) = 1/2.44 = 0.41
6) Las zonas de rechazo están a la izquierda de 0.41 y a la derecha de 2.44 El valor del test (2.66) cae
en la zona de rechazo derecha por lo tanto se rechaza la hipótesis nula y se concluye que los resultados
de la prueba, para las dos clases, tienen varianzas diferentes.
n1 = 12 x 1 = 75. 6 s 12 = 7.2
n 2 = 15 x 2 = 78. 7 s 22 = 8.1
• VARIANZAS DESIGUALES
Cuando las varianzas son diferentes, el número de grados de libertad considerado será calculado
utilizando la expresión:
ν=s12n1+s22n22s12n12n1-1+s22n22n2-1
El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se
presenta a continuación.
t=X1-μ1-X2-μ2s12n1+s22n2
Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad
y el nivel de significancia (). Se toma la decisión de aceptar H0 cuando se satisface la misma condición
que en el caso anterior.
Ejemplo 8:
Dos máquinas dispensadoras de bebidas se muestrean para probar si las dos dispensan la misma cantidad
de bebida. Usar =0.05.
Máq. Cantidad dispensada
C 6.5 6.8 3.0 6.0 5.8 6.1 3.3 3.4 5.9 6.2
P 7.6 6.0 6.1 6.0 7.4 7.3 6.0 6.2 6.3 6.1
1) H0: 1 = 2 H A: 1 = 2 (dos colas)
2) = 0.05
3) Puesto que las varianzas son 2.13 y 0.43 respectivamente, se puede probar con un test Fque son
significativamente diferentes. Se usa por tanto el test paramétrico t para dos poblaciones con
varianzas no iguales.
4) Calculamos el valor del test.
t=5.3-6.52.1310+0.4310=-2.372
5) Los valores críticos tabulados son ± t*(9,0.025) = ± 2.262
La zona de aceptación está comprendida entre -2.262 y 2.262
6) El valor del test cae fuera de la zona de aceptación, por tanto se concluye que las dos máquinas
dispensan diferentes cantidades de bebida.
Antes 10 13 18 12 9 8 14 12 17 20 7 11
Después 5 9 13 17 4 5 11 14 13 18 7 12
1) H0: d = 0 HA: d ≠0 (dos colas)
2) = 0.05
3) Test paramétrico t para dos poblaciones. Muestras dependientes.
4) Para calcular el test es necesario conocer la media y la desviación estándar de las diferencias.
Antes 10 13 18 12 9 8 14 12 17 20 7 11
Después 5 9 13 17 4 5 11 14 13 18 7 12
di 5 4 5 -5 5 3 3 -2 4 2 0 -1
d=1.92 sd=3.23
t=1.923.2312=2.054
5) Los valores críticos del test son ± t*(11,0.025) = ± 2.201
6) La zona de aceptación va desde -2.201 hasta 2.201; el valor del test cae en la zona de aceptación de la
hipótesis. La película realmente no tiene efecto sobre las actitudes de los hombres negros.
CMdentro=SC(dentro)gl(dentro)
SCdentro=i=1kgli*si2
gldentro=i=1kgli=n-k
Variación entre muestras: La estimación de la varianza entre las muestras se realiza a través de su
cuadrado medio.
CMentre=SC(entre)gl(entre)
SCentre=i=1kri*xi-X2
glentre=k-1
Se procede a elaborar la tabla ANOVA de la siguiente manera:
Fuente de variación SC gl CM
Entre muestras SCentre=i=1kri*xi-X2 k-1 SC(entre)gl(e
ntre)
Dentro de la SCdentro=i=1kgli*si2 n-k SC(dentro)gl
muestra (dentro)
Total SCtotal gl(total)
Para la variación total se acumulan los parciales tanto para la suma de cuadrados como para los grados de
libertad.
SCtotal=SCentre+SCdentro
gltotal=glentre+gldentro=k-1+(n-k)=n-1
El valor del test está dado por F=CM(entre muestras)CM(dentro de la muestra) , el cual se compara con el
valor crítico a una cola Fgl1,gl2,α*.
Si, por ejemplo, se desea estudiar el efecto de tres diferentes catalizadores sobre el rendimiento de un
producto industrial, ó examinar cinco diferentes técnicas analíticas para la determinación de la
concentración de una especie, es indispensable aplicar el análisis de varianza.
Ejemplo 10:
Considere que 3 diferentes catalizadores han sido utilizados en un estudio respecto al rendimiento de un
producto industrial. La tabla presenta los datos de este experimento y los resultados de algunos cálculos.
repeticiones ri xi si2 gli*si2 xi-X2 ri*xi-X2
A 85 86 83 82 87 90 80 81 8 84.25 11.36 79.50 5.06 40.50
B 87 86 85 93 89 88 86 89 8 87.88 6.41 44.88 1.89 15.13
C 89 85 90 86 83 88 87 91 8 87.38 7.13 49.88 0.77 6.13
Σ
= 24 259.50 174.25 61.75
X= 86.50
Se asume que las observaciones son independientes y que cada serie proviene de una población
normalmente distribuida con varianza σ2. Sin embargo, cada serie tiene media diferente. Entonces, en
este caso se utilizará ANOVA para establecer si la diferencia observada entre las medias surge debido a la
casualidad exclusivamente, o existe evidencia de que existe diferencia significativa entre las medias.
Se definen las siguientes cantidades:
n = número de datos = 24
k = número total de tipos de factor (catalizadores) bajo análisis = 3
SC(dentro) = 174.25
SC(entre) = 61.75
gl(dentro) = n-k = 24-3 = 21
gl(entre) = k-1 = 3-1 = 2
CM(dentro) = 174.25/21 = 8.30
CM(entre) = 61.75/2 = 30.88
Un valor significativo para F indica una variación significativa debida a los distintos tipos de factor, esto
es, las medias de los tres catalizadores no son las mismas.
Los resultados del ANOVA a un factor para los datos se resumen:
Guía de Bioestadística Dr. Julio Idrovo
Fuente de Variación SC gl CM
Entre series
61.75 2 30.88
(debido al catalizador)
Residual
174.25 21 8.30
(errores casuales)
Total 236.00 23
El test F da el siguiente resultado: F. = 30.88 / 8.30 = 3.72 > F*(2, 21, 0.05) = 3.47
Como se deduce de la observación de la tabla, la variación entre series es claramente mayor que la
variación casual. Por consiguiente el valor de F es significativo. Esto indica que los rendimientos
promedio con los catalizadores A, B, y C son diferentes. Esto significa que uno ó dos de los catalizadores
considerados dan resultados significativamente mejores que el ó los otros.
3.9 Actividades
3.9.1 En clase
a) Cuál es la diferencia sustancial entre los tests paramétricos y los no paramétricos?
b) Cuáles son las diferentes aplicaciones del test t?.
c) Dé ejemplos de muestras independientes y dependientes.
d) De los tests estudiados, cuáles son paramétricos y cuáles son no-paramétricos?
e) Las galletas se empaquetan en cajas que se afirma tienen un promedio de 7.25 onzasy 32 galletas. Se
contó el número de galletas en cada una de 18 cajas aleatoriamente seleccionadas. Los resultados se
totalizaron mediante Σx = 535 y Σx2= 16010. Al 0.02 de nivel de significancia, concuerda con que el
número de galletas por paquete podría ser 32 ?.(3)
f) Muestras aleatorias de los resultados de una prueba en dos clases dieron las siguientes estadísticas:
Clase A : n = 16 s2 = 92.3
Clase B : n = 25 s2 = 34.7
Proveen estos datos suficiente razón para rechazar la hipótesis de que las dos clases tienen varianzas
iguales ?. Use α = 0.05 (3)
g) Los siguientes datos fueron obtenidos en un experimento conducido por un jardinero, cuyo objeto era
descubrir cuando un cambio aplicado en la mezcla de fertilizante para sus plantas de tomate resultaría
en mejores frutos. Tenía 11 plantas en una fila; a 5 se les dio la mezcla estándar de fertilizante A, y las
6 restantes fueron alimentadas con una mezcla supuestamente mejorada de fertilizante B. Las mezclas
A y B fueron aplicadas al azar sobre la fila de plantas.
# 1 2 3 4 5 6 7 8 9 10 11
Mezcla A A B B A B B B A A B
Lbs 29.9 11.4 26.6 23.7 25.3 28.5 14.2 17.9 16.5 21.1 24.3
tomate
Guía de Bioestadística Dr. Julio Idrovo
Al nivel de significancia del 5%, hay suficiente evidencia para sostener que la nueva mezcla de
fertilizante mejora la producción?.
3.9.2 En casa
a) En un gran huerto de cerezas el promedio producido ha sido 4.35 toneladas por acre en los últimos
años. Se probó un nuevo fertilizante sobre 15 lotes de un acre, seleccionados al azar. La producción
de estos lotes fue la siguiente:
3.56 4.93 5.12 4.45 3.48
5.00 3.92 5.13 5.35 4.45
4.88 4.25 4.79 4.81 4.72
Al nivel de significancia del 0.05, se tiene suficiente evidencia para afirmar que hubo un incremento
significativo en la producción ?. (3)
b) Anteriormente la desviación estándar de los pesos de ciertos paquetes de 32.0 onzas llenados por una
máquina fue 0.25 onzas. Una muestra aleatoria de 20 paquetes mostró una desviación estándar de
0.35 onzas. Es el aparente incremento en variabilidad, significativo al nivel de significancia de 0.10 ?.
(3)
c) La desviación estándar de las temperaturas anuales de una ciudad en un período de 100 años es 15°F.
Usando la temperatura media en el 15° día de cada mes durante los últimos 12 meses, una desviación
estándar de temperaturas anuales se calculó como 10.5°F. Es la temperatura en la ciudad
significativamente menos variable que en el pasado a un nivel de significancia de 0.10 ?.(3)
d) La contaminación del aire se determina midiendo varios elementos diferentes que pueden detectarse
en el aire. Uno de ellos es el monóxido de carbono (CO). La muestra de lecturas diarias en la tabla
siguiente se obtuvo del diario local.
3.5 3.9 2.8 3.1 3.1 3.4
4.8 3.2 2.5 3.5 4.4 3.1
1. Calcule la media y la desviación estándar para esta muestra.
El monóxido de carbono es medido e interpretado de acuerdo con la escala :
bajo : de 0 a 4.9; medio : de 4.9 a 14.9; alto : de 14.9 en adelante
2. Presenta la muestra suficiente evidencia para permitir concluir que el nivel de monóxido de
carbono es bajo al nivel de significancia del 5% ?.
3. Presenta la muestra suficiente evidencia para permitir rechazar la afirmación de que la varianza de
las lecturas de CO no es mayor que 0.25 a α=0.05 ? (3)
f) Dos muestras independientes se tomaron de poblaciones normales, con los resultados mostrados en la
tabla adjunta. Esta información provee suficiente razón para rechazar la hipótesis nula en favor de la
afirmación de que la media de la población R es significativamente mayor que la media de la
población S ?. Use α = 0.05 (3)
g) Los efectos corrosivos de varios suelos sobre los filtros de acero con revestimiento y sin revestimiento
fueron probados usando un plan de muestreo dependiente. Los datos recogidos son resumidos en
Muestra n Σx Σ(x -
)2
x
R 10 295 75
S 8 195 90
h) Los efectos corrosivos de varios suelos sobre los filtros de acero con revestimiento y sin revestimiento
fueron probados usando un plan de muestreo dependiente. Los datos recogidos son resumidos en
n = 40 Σd = 220 Σd2 = 62220
donde des la cantidad de corrosión de la porción revestida substraída de la cantidad de corrosión de la
porción no revestida. Provee esta muestra suficiente razón para concluir que el revestimiento es
beneficioso ?. Use α= 0.01. (3)
i) Las dos muestras independientes de la tabla adjunta se obtuvieron esperando demostrar que la media
de la población A es mayor que la media de la población B. Las muestras proveen evidencia
significativa para justificar tal esperanza (utilice el test no paramétrico)?. Use α = 0.05 (3)
Guía de Bioestadística Dr. Julio Idrovo
Aplique el análisis de varianza a un factor para establecer si existe o no diferencia significativa entre las
medias de los tiempos de coagulación de sangre obtenidos para las cuatro dietas y de acuerdo a esto
determine si es posible establecer cual es la mejor dieta a usar para el propósito de reducir el tiempo de
coagulación de la sangre de estos animales.
l) En un estudio del corazón se midió la presión sistolítica de la sangre a 24 hombres de 25 años de edad
y a 30 hombres de 40 años de edad. Muestran los datos siguientes suficiente evidencia para concluir
que los hombres de mayor edad tienen presión sistolítica de la sangre más alta, al nivel de
significancia del 0.02 ?. (3)
25 años :
95 100 100 105 106 108 110 110 115 118 120 122
124 125 130 130 130 132 136 138 140 148 150 156
40 años :
108 110 110 114 114 116 118 120 122 124
126 126 128 130 130 132 136 136 136 140
142 142 146 148 150 152 154 160 164 176