Professional Documents
Culture Documents
ESTADÍSTICA
ANALÍTICA
GUÍA DE TRABAJOS
PRÁCTICOS
2011
SECRETARIA DE PUBLICACIONES
Facultad de Ciencias
Veterinarias
U.B.A.
Estadística Analítica
Guía de Trabajos Prácticos
Área Bioestadística
2011 – 1er. Cuatrimestre
Cronograma 2011
Se lunes
1 Miér 9/3 Jue: Revisión de conceptos relativos a inferencia. Intervalos de confian-
za y pruebas de hipótesis para la media de las diferencias y para la di-
ferencia de medias de dos poblaciones.
2 14/3 Mar: Revisión de conceptos relativos a inferencia. Intervalos de confian-
za y pruebas de hipótesis para la media de las diferencias y para la di-
ferencia de medias de dos poblaciones. Jue: Intervalos de confianza y
pruebas de hipótesis para la diferencia de proporciones de dos pobla-
ciones y para el cociente de varianzas de dos poblaciones.
3 21/3 Mar: Intervalos de confianza y pruebas de hipótesis para la diferencia de
Feriado proporciones de dos poblaciones y para el cociente de varianzas de dos
Jue 24 poblaciones.
4 28/3 Prueba de hipótesis y estimación para dos poblaciones (integración)
Feriado Diseño de experimentos – Análisis de Varianza -
Sáb 2/4
5 4/4 Diseño Completamente Aleatorizado. Modelo paramétrico.
6 11/4 Diseño Completamente Aleatorizado no paramétrico. Ejercitación
7 18/4 Mar: ejercitación y consulta.
F SSan- En esta clase no se controlara la asistencia.
ta
21 22 23
8 24 de Integración (sábado 30-4-11 parcial)
25/4
II
Bibliografía
NOTA IMPORTANTE:
III
Sistema de Evaluación de Elementos de Estadística
Se tomarán dos parciales, que serán calificados en una escala de 0 a 10, en
forma global.
IV
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Objetivos específicos:
Contenidos temáticos:
Diseño de experimentos: necesidad, ventajas, propósitos, definiciones previas. Tipos de diseños y
alcances.
Revisión de conceptos relativos a la estimación puntual y por intervalos. Intervalos de confianza
para la diferencia de medias y para la media de las diferencias. Estimaciones para la diferencia de dos
proporciones, para el cociente de varianzas, y para el cociente de desvíos estándar.
Revisión de conceptos relacionados con las pruebas de hipótesis. Prueba de hipótesis para:
diferencia de medias en base a dos muestras independientes: diferencia de medias, cociente de
varianzas, diferencias de proporciones. Muestras apareadas: media de las diferencias.
Relación entre intervalo de confianza y prueba de hipótesis bilateral. Aplicaciones.
Glosario:
Diseño de experimentos: experimento, unidad experimental, tratamiento, factor, niveles de un factor,
observación, efecto. Repetición, aleatorización, control local. Estudios observacionales, pre-
experimentales, cuasiexperimentales y experimentales.
Inferencia para dos poblaciones: Población, muestra. Parámetro. Estimador. Estimación. Estimador
puntual. Intervalo. Intervalo de confianza. Nivel de confianza. Hipótesis de trabajo. Hipótesis estadística.
Hipótesis nula y alternativa. Error tipo I y tipo II. Nivel de significación. Región crítica. Regla de decisión.
Distribución F de Snedecor. Diferencia de medias y de proporciones, cociente de varianzas para muestras
independientes. Muestras apareadas: media de las diferencias.
El diseño de experimentos
La ciencia, tiene como objetivo la explicación y la predicción de los hechos. Un requisito fundamental en
toda ciencia fáctica es el contraste de las hipótesis planteadas, poniendo a prueba las mismas mediante
una confrontación con la experiencia.
El diseño experimental crea las condiciones para el contraste de la hipótesis y brinda la metodología esta-
dística correspondiente para el análisis de los datos.
Es el proceso de planear un experimento para obtener datos apropiados que puedan ser analizados
mediante métodos estadísticos, con objeto de producir conclusiones válidas y objetivas. La metodolo-
gía estadística es el único enfoque objetivo para analizar un problema que involucre datos sujetos a
errores experimentales. Así es que hay dos aspectos en cualquier problema experimental: el diseño del
experimento y el análisis estadístico de los datos.
1
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Para poder realizar un buen diseño experimental, es necesario previamente comprender el problema
que se desea estudiar, planteándose un conjunto de preguntas clásicas:
1- ¿Cuáles son las características que se van a analizar?
2- ¿Qué variables afectan a las características que se van a analizar?
3- ¿Cuántas veces debería repetirse el experimento?
4- ¿A partir de qué valor se considerará que existe un efecto?
Lo cual conduce a elegir las variables más apropiadas y sus niveles de medición, elegir la o las res-
puestas a evaluar y el modelo de diseño.
Para poder responder las preguntas anteriores es necesario que definamos claramente algunos térmi-
nos fundamentales:
Experimento: es un ensayo o una observación especial realizada para confirmar o descartar una
hipótesis especialmente bajo condiciones establecidas por el experimentador.
Variable de interés o respuesta: es la variable que se desea estudiar.
Unidad experimental: es la parte más pequeña de material experimental, entidad física o sujeto,
en la que se aplica un tratamiento una sola vez. También puede entenderse como cada una de las
reproducciones del experimento.
Tamaño del Experimento: es el número total de observaciones recogidas en la ejecución del ex-
perimento. Ejemplo: si se asignan 10 gallinas a cada una de tres dietas el tamaño del experimento es
30.
Factor: es una variable que se sospecha que puede ejercer influencia sobre la variable respuesta
de interés.
Factor controlado: se denomina así a una variable manipulada por el investigador o variable in-
dependiente, a fin de estudiar su influencia sobre la variable de interés o dependiente. Algunos autores
la denominan variable de entrada al proceso. Ejemplo: si pensamos que la temperatura o la humedad
pueden afectar a la conservación de cierta propiedad de un alimento o medicamento, se puede contro-
lar manteniendo dicho producto con tres valores distintos de temperatura.
Niveles del factor: son cada una de las categorías, o valores, o formas específicas que adopta la
variable independiente o controlada. Ejemplo: en el caso de las tres dietas, el factor dieta tiene tres
niveles; en el caso del rodeo, el factor tiene dos niveles.
Tipos de factores: existen factores cuantitativos, cuyos niveles son cantidades numéricas, y cuali-
tativas, cuyos niveles son procedimientos o cualidades. Ejemplo de factor cuantitativo puede ser la
cantidad de fertilizante adicionado a las parcelas de cultivo por hectárea con niveles: 10kg/ha – 20
kg/ha -30 kg/ha de fertilizante. Ejemplo de factor cualitativo puede ser el tipo de nutriente adicionado a
una dieta con niveles: potasio, magnesio y calcio.
Tratamiento: conjunto de condiciones experimentales o procedimientos creados para el experi-
mento en función de la hipótesis de investigación a las que se someterá a las unidades experimentales
en un diseño elegido. Es una combinación específica de los niveles de los factores de estudio en un
diseño con varios factores, y son los distintos niveles del factor en el caso de un diseño unifactorial. Por
ejemplo: si se asignan tres dietas distintas a las gallinas de un criadero, cada una de las dietas es un
tratamiento. Si en un tambo se combinan tres raciones de alimentación dos rodeos con vacas en orde-
ñe (uno con vacas de alta producción y el otro con las de baja producción). Cada combinación de ro-
deo y ración constituye un tratamiento (6 tratamientos).
Observación: valor que asume una variable, también denominada variable respuesta, en una de-
terminada realización del experimento, es decir cada registro realizado en el contexto del experimento
de la variable respuesta.
Efecto: diferencia entre los valores medios de la variable respuesta en presencia y ausencia de un
nivel del factor. Si la variable respuesta de interés es el engorde semanal medido en gramos de una
gallina con cierta dieta enriquecida, el efecto es la diferencia entre el engorde medio con la dieta enri-
quecida y el engorde medio con la dieta tradicional, ambos medidos en gramos.
Diseño equilibrado o balanceado: es el diseño en el que todos los tratamientos son asignados a
un número igual de unidades experimentales, en el cual se obtiene la misma cantidad de repeticiones
por tratamiento. Por ejemplo hay cuatro vacas en cada combinación de rodeo y nutriente para el agua.
Principios Básicos del diseño experimental
2
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
♦ Repetición: cuando un tratamiento es aplicado a más de una unidad experimental. Las observacio-
nes repetidas con las mismas condiciones experimentales en el contexto de un experimento no coinci-
den necesariamente, y por lo tanto una de las cuestiones fundamentales a la hora de diseñar un expe-
rimento es la selección del tamaño de muestra o número de repeticiones adecuado en cada contexto.
Las razones por las cuales es deseable realizar repeticiones del experimento son:
a- Proporcionar una estimación del error experimental (error generado por causas no controladas por
el experimentador), que actúa como unidad básica de medida para indicar el significado de las di-
ferencias.
b- Obtener mayor precisión en la estimación.
c- Permitirnos extender el alcance de la inferencia relativa al experimento.
El error experimental puede reducirse generalmente adoptando una o más de las técnicas siguientes:
• usando material experimental tan homogéneo como sea posible.
• utilizando información proporcionada por otras variables aleatorias
• teniendo cuidado al dirigir el experimento
• usando un diseño experimental más eficiente.
♦ Control local: Se denomina de esta manera al conjunto de acciones que implementa el investiga-
dor con el fin de reducir al máximo posible el error experimental manteniéndolo en un rango de varia-
ción manejable.
Por ejemplo: selección de unidades experimentales homogéneas, división en bloques, calibración de
instrumentos, etc.
3
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
PROBLEMA RESUELTO
1) Gracias a la técnica de la ecografía, los bebés pueden actualmente ser observados mientras están
en el seno materno. Sin embargo, gran cantidad de experimentos desarrollados en animales de labora-
torio dieron como resultado que la aplicación de ultrasonidos podía ser la causa de que el peso al na-
cer fuese inferior al normal.
Ante el temor de que esta conclusión fuese aplicable a los humanos, un grupo de especialistas del
Hospital John Hopkins de Baltimore puso en marcha un estudio para investigar el tema. En el mismo
se observó el peso al nacimiento de los bebés que estuvieron expuestos a controles ecográficos (ultra-
sonido) y de los que no estuvieron expuestos.
También en este caso los bebés expuestos al ultrasonido durante el embarazo pesaban en su mayo-
ría al nacer menos que aquellos que no lo habían estado, pero un dato a tener en cuenta es que los
obstetras recomendaban el ultrasonido cuando sospechaban que el embarazo no se desarrollaba con
normalidad.
Solución:
a) Se trata de un estudio observacional, porque no hay intervención del investigador.
b) Los bebés expuestos al ultrasonido y los no expuestos presentaban diferencias que no tenían nada
que ver con el hecho de ser tratados o no. De modo tal que los investigadores tuvieron un conjunto de
factores de confusión con el cual enfrentarse. La conclusión del estudio fue, por lo tanto, que las eco-
grafías y el menor peso de los bebés tenían una causa común: problemas durante el embarazo.
4
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
PROBLEMAS RESUELTOS
1) Mediante la siguiente experiencia se quiere determinar si una droga reduce el nivel promedio de gluco-
sa en sangre (glucemia) en una línea de ratas diabéticas.
Se tomaron al azar 40 ratas de esta línea y se les suministró la droga (grupo tratado). Al mismo
tiempo se tomaron otras 30 ratas de la misma línea y se les suministró un placebo (grupo control).
Los niveles sanguíneos de glucosa (mg/ml) en las ratas fueron:
Tratadas con droga Tratadas con placebo
1,82 1,89 1,39 1,79 1,27 1,73 2,01 1,74 1,91 1,52 2,15 1,91 1,93 2,22 2,18 1,75 1,93 2,03
1,41 1,88 1,88 1,66 1,93 1,56 1,93 1,70 1,74 2,16 2,37 1,65 2,09 1,75 2,00 2,23 2,10 1,95
1,60 1,70 1,69 1,94 1,62 1,44 1,68 1,99 1,82 1,40 2,18 1,95 1,92 2,01 2,48 1,67 2,23 1,96
1,68 1,57 1,91 1,83 1,60 1,58 2,12 1,61 1,91 1,70 1,87 2,06 2,00 2,26 1,94 1,89
a) ¿Es la droga efectiva para reducir el nivel promedio de glucosa en sangre, al 5%? Asuma que la
droga no modifica la varianza poblacional del nivel de glucosa en sangre, y que ésta es conocida, sim-
bólicamente σ droga=σ placebo =0,04 mg /ml
2 2 2 2
b) Construya un intervalo de confianza del 95% para la diferencia entre la media poblacional de la
glucemia de las ratas tratadas con droga y la media poblacional de la glucemia de las ratas tratadas con
placebo.
•
2 2 2 2
Varianzas poblacionales: Conocidas e iguales. (σ 1=σ 2 =0,04 mg /ml )
Solución:
a)
• La hipótesis de trabajo que se desea poner a prueba es:
“El empleo de la droga disminuye el nivel medio de glucosa en sangre de ratas diabéticas de la línea”
• Verificación de supuestos: Para poder plantear las hipótesis estadísticas y poder llevar a cabo la
prueba, hay que verificar los supuestos teóricos necesarios. En este caso, los supuestos son que am-
bas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de indepen-
dencia se cumple por la forma en que se realizó el experimento: a un grupo de ratas se le suministró la
droga y a otro grupo, también tomado al azar, se lo trató con placebo.
Para X1: se realizó un gráfico de cuantil-cuantil (qqplot) para visualizar el comportamiento distribucional de
la variable.
Nota: En este gráfico se comparan dos distribuciones, la de los datos muestrales y la de una normal. Para descri-
bir el hecho de que los datos se distribuyen de manera normal, hay que observar que los puntos estén alineados
sobre la recta.
5
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X1 40 1.73 0.20 0.97 0.7731
Como p-valor= 0,7731 y es mayor que α=0.05, no se rechaza la hipótesis nula, por lo tanto, con un
nivel de significación del 5% se puede decir que la variable X1 (nivel de glucosa en sangre de una rata
tratada con droga, en mg/ml) se distribuye normalmente.
Análogamente se estudia la normalidad de la variable X2:
Qqplot
2.48
Cuantiles observados(X2)
H 0 : X 2 se distribuye normal
2.27
H1 : X 2 no se distribuye normal
2.05
1.84
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X2 30 2.02 0.20 0.97 0.7739
1.62
1.62 1.84 2.05 2.27 2.48
Cuantiles de una Normal(2.022,0.038086)
Como p-valor= 0,7739 y es mayor que α=0,05, no se rechaza la hipótesis nula, por lo tanto, con un
nivel de significación del 5% se puede decir que la variable X2 (nivel de glucosa en sangre de una rata
tratada con placebo, en mg/ml) se distribuye normalmente.
Una vez verificado el supuesto teórico se puede seguir adelante con la prueba.
Nota: si, por experiencias previas o por información previa, se sabe que se verifican los supuestos,
este ítem no es necesario.
• Hipótesis estadísticas.
El interés del investigador es probar si la droga disminuye el nivel medio de glucosa en sangre,
por lo tanto quiere saber si la media del nivel de glucosa en sangre de ratas tratadas con droga es
menor que la media del nivel de glucosa en sangre de las ratas tratadas con placebo.
Simbólicamente: µ1 < µ 2 , esta expresión no lleva el signo igual, por lo tanto debe corresponder a
la hipótesis alternativa. Es decir que las hipótesis estadísticas son:
H 0 : µ1 ≥ µ 2 H 0 : µ1 − µ 2 ≥ 0 H 0 : µ 2 − µ1 ≤ 0
equivalentemente podría escribirse o también
H1 : µ1 < µ 2 H1 : µ1 − µ 2 < 0 H1 : µ 2 − µ1 > 0
cualquiera de estas formas expresan las mismas hipótesis estadísticas. Sin embargo hay que
elegir una expresión para poder continuar con la prueba manteniendo la elección a lo largo de todo el
análisis y por sobre todo concluir para las hipótesis elegidas. Si esto no se mantiene deja de tener vali-
6
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
dez la prueba o peor aún, se podría estar concluyendo erróneamente. En este caso se va a trabajar
H 0 : µ1 ≥ µ 2
con:
H1 : µ1 < µ 2
• Nivel de significación: α=0.05
• Estadístico de prueba (o variable pivotal)
Se está realizando un test de hipótesis para la diferencia de medias poblacionales, por lo cual se
cuenta con dos opciones al elegir la variable pivotal: Z o t de Student, dependiendo del hecho de cono-
cer o no las varianzas poblacionales. En este caso las varianzas poblacionales son conocidas e igua-
Z H0 =
(X 1 − X 2 ) − ( µ1 − µ2 )
=
(1, 73 − 2, 02 ) − 0 = −0, 29
=
−0, 29
= −6, 017
σ 2
σ 2
0, 04 0, 04 0, 001 + 0, 00133 0, 0482
1
+ 2 +
n1 n2 40 30
• Decisión: Se rechaza la hipótesis nula porque Z Ho = -6, 017 , es menor que –1,64, o sea que
ZCALCULADO < ZCRITICO.
• Conclusión: Con un nivel de significación de 5% tengo evidencia suficiente para rechazar la hipó-
tesis nula ( H 0 : µ1 ≥ µ 2 ), por lo tanto la media poblacional del nivel de glucosa en sangre de ratas
diabéticas tratadas con droga es menor que la media poblacional del nivel de glucosa en sangre de
ratas diabéticas tratadas con placebo, en estas poblaciones de ratas diabéticas en estudio. Por lo tanto
puedo decir que la droga es efectiva.
b) La fórmula del intervalo del 95% que se está pidiendo se despeja de la variable pivotal y es:
σ 12 σ 22 σ 12 σ 22
( X 1 − X 2 ) − Z1−α / 2 + ;( X 1 − X 2 ) + Z1−α / 2 +
n1 n2 n1 n2
reemplazando se obtiene que
7
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
0, 04 0, 04 0, 04 0, 04
(1, 73 − 2, 02) − 1,96 + ; (1, 73 − 2, 02) + 1,96 + =
40 30 40 30
−0, 29 − 1,96 0, 0023; − 0, 29 + 1,96 0, 0023 =
[ −0, 29 − 0, 0939; − 0, 29 + 0, 0939] = [ −0,3839; − 0,1961]
Por lo el tanto intervalo de confianza para la diferencia de medias poblacionales µ1 − µ 2 es:
[ -0,3839mg/ml; -0,1961mg/ml]
Conclusión: Con un nivel de confianza del 95%, se espera que el intervalo [-0,3839mg/ml; -0,1961
mg/ml] cubra o contenga a la diferencia entre la media poblacional del nivel de glucosa de las ratas
tratadas con droga y la media poblacional del nivel de glucosa de las ratas tratadas con placebo, en
estas poblaciones de ratas diabéticas en estudio.
NOTA: Observemos que el 0 (cero) no está incluido en el intervalo de confianza, y que ambos límites
son negativos, lo cual es indicador de que la diferencia es negativa. Sin embargo, hay que tener en
cuenta que el IC no es equivalente porque la prueba es unilateral.
2) Se tomó una muestra aleatoria de 21 cerdos Yorkshire del norte de la provincia de Buenos Aires. Los
mismos tenían 3 meses de edad y pesos homogéneos, y se los separó, aleatoriamente, en dos lotes. Al
lote 1 se le asignó una ración estándar (A) y al lote 2 otra con distinta formulación (B). La siguiente tabla
contiene las ganancias de peso de cada animal, luego de 30 días de experiencia, expresadas en kg.
Lote 1 24 26 25 23 28 27 28 24 29 29
Lote 2 26 32 28 25 29 27 28 27 27 28 30
Por estudios anteriores se sabe que ambas variables se distribuyen normalmente con varianzas igua-
les, pero desconocidas.
a) ¿Se puede suponer, al 5%, que la ganancia media de peso de los animales alimentados con la
ración B supera significativamente la ganancia media de peso de los animales alimentados con ración
A?
b) Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir?
Solución
a)
• Hipótesis de trabajo: “La ganancia media de peso de los animales alimentados con la ración B supera
la ganancia media de peso de los animales alimentados con ración A”
• Verificación de supuestos: En este caso, a diferencia del ejercicio anterior, en el enunciado se
asegura la normalidad de ambas variables, por estudios anteriores. Por lo tanto no es necesaria la
prueba de Shapiro–Wilks para verificarla porque es un dato que nos provee el investigador. Por otro
lado el supuesto de independencia también se cumple por la forma en que se realizó el experimento: a
un grupo de cerdos, tomado al azar, se lo alimenta con la ración A y al otro grupo, también tomado al
azar, se lo alimentó con la ración B. Es decir que: XA ∼ N (µA, σ ) y XB ∼ N (µB, σ ) son variables
2 2
aleatorias independientes. Observar que ambas variables tiene la misma varianza poblacional.
8
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
• Hipótesis estadísticas: La hipótesis de trabajo simbólicamente nos lleva a la expresión: µ B > µ A , por
lo tanto esta corresponde a la hipótesis alternativa, ya que no contiene la igualdad.
H 0 : µB ≤ µ A
como en el ejercicio anterior, existen muchas forma diferentes de plantear la misma
H1 : µ B > µ A
H 0 : µB − µ A ≤ 0
hipótesis, como por ejemplo: y otras más. En este caso, se trabajará con la segunda
H1 : µ B − µ A > 0
H 0 : µB − µ A ≤ 0
expresión y se concluirá para esta expresión:
H1 : µ B − µ A > 0
• Nivel de significación: α=0,05
• Variable pivotal: En este caso, como en el ejercicio anterior, se está realizando un test para la
diferencia de medias poblacionales, por lo tanto hay dos opciones para la variable pivotal (Z o t-Student).
Como las varianzas poblacionales son desconocidas no se puede utilizar la variable Z, por lo tanto se
• Región crítica: Observando la hipótesis alternativa planteada se deduce que la región crítica es
unilateral derecha (es decir que se rechaza la hipótesis nula a valores grandes de la variable pivotal). El
valor crítico que se utiliza es tnA + nB − 2;1−α = t10+11− 2;0,95 = t19;0,95 = 1, 729 , por lo tanto la región crítica es:
t ≥ 1, 729 . Gráficamente:
tH0 =
(X B − X A ) − ( µB − µ A )
=
( 27,91 − 26,3) − 0 = 1, 61
=
1, 61
=
1, 61
= 1, 78
1 1 1 1 21 2, 06*0, 44 0,906
Sa + 2, 06 + 2,06
nA nB 10 11 110
9
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Como t H 0 = 1, 78 y utilizando la regla de decisión se rechaza la hipótesis nula ya que 1,78 es mayor
que 1.729.
• Conclusión: Con un nivel de significación del 5% tengo evidencia suficiente para rechazar la hipó-
tesis nula (Ho: µB - µA ≤ 0), por lo tanto, la diferencia entre la media poblacional de la ganancia de peso
de los cerdos alimentados con la ración B y la media poblacional de la ganancia de peso de los cerdos
alimentados con la ración A es mayor a cero, en estas poblaciones de cerdos de 3 meses de raza
Yorkshire del norte de la provincia de Buenos Aires.
• Respuesta: Se puede suponer, al 5%, que la ganancia media poblacional del peso de los cerdos
alimentados con la ración B supera significativamente a la media poblacional del peso de los cerdos
alimentados con la ración A.
Para este problema, la salida de InfoStat correspondiente es:
Prueba T para muestras Independientes
Gr(1) Gr(2) n(1) n(2) media(1) media(2) p(Var.Hom.) T p prueba
{A} {B} 10 11 26,30 27,91 0,6623 -1,78 0,0452 UnilatI
Nota: InfoStat compara grupos en orden alfabético, por lo cual la prueba es unilateral izquierda, o sea
que utiliza H1: µA-µB<0. Para la comparación es indistinta la forma en que se plantea la diferencia,
siempre que se respete el sentido de la misma. El valor de t observado es el mismo que obtuvimos al
aplicar la fórmula, pero de signo opuesto, por haber invertido el orden de la diferencia.
Como puede verse, al realizar la Prueba T para muestras independientes, también se realiza una
prueba para evaluar la Homogeneidad de Varianzas, el p-valor es 0,6623, por lo que se cumple este
supuesto.
b) La fórmula del intervalo de 95% de confianza para la diferencia de medias se deduce de la fórmula de la
variable pivotal:
1 1 1 1
( X B − X A ) − tnA + nB − 2;1−α / 2 Sa + ;( X B − X A ) + tnA + nB − 2;1−α / 2 Sa +
nA nB n A nB
Reemplazando con los valores correspondientes queda:
1 1 1 1
(27,91 − 26,3) − t10 +11− 2;0.975 * 2, 06 + ;(27,91 − 26,3) + t10+11− 2;0.975 * 2, 06 + =
10 11 10 11
[1, 61 − 2, 093* 2, 06 *0, 44 ; 1, 61 + 2, 093* 2, 06* 0, 44] = [1, 61 − 1,90 ; 1, 61 + 1,90] = [ −0, 29;3,51]
Por lo tanto el intervalo pedido es: [-0,29 Kg ; 3,51 Kg]
Conclusión: Con un nivel de confianza del 95% se espera que el intervalo [-0,29 Kg ; 3,51 Kg] cubra o
contenga a la diferencia entre la media poblacional del peso de los cerdos alimentados con la ración B y la
media poblacional del peso de los cerdos alimentados con la ración A, en estas poblaciones de cerdos
Yorkshire de 3 meses de la provincia de Buenos Aires.
10
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Nota: En este caso el p valor < nivel de significación, y sin embargo el 0 (cero) pertenece al IC. Recordar que la prueba
es unilateral derecha, mientras que el IC es bilateral.
3) En un experimento referido al uso de la vitamina B12 en casos de anemia perniciosa durante el período
de remisión, se administró, por vía intramuscular, 30 µg de B12 a un total de 10 pacientes tomado al azar.
En ellos se midió la concentración de hemoglobina en sangre (mg%) en dos momentos, al inicio del
tratamiento y luego de tres meses. Los valores observados se muestran en la siguiente tabla:
Paciente 1 2 3 4 5 6 7 8 9 10
Inicial (I) 12,2 11,3 14,7 11,4 11,5 12,7 12,3 13,0 12,7 13,0
Hemoglobina
(mg%) Después de 3
13,0 13,4 16,0 13,6 14,0 13,0 14,2 15,1 15,9 14,5
meses (F, o final)
¿Hay aumento significativo de hemoglobina después del tratamiento al nivel del 5%?
Datos del problema:
• Variable en estudio:
D: diferencia entre la concentración de hemoglobina en sangre (en mg%) al inicio del tratamiento
con vitamina B12 y la concentración de hemoglobina en sangre (en mg%) después de tres meses del
tratamiento con vitamina B12, de un paciente con anemia perniciosa.
En símbolos: di = ii - fi
Nota: En este caso se utilizará: di = ii - fi, pero también se podría haber definido la variable como di = fi -
ii . La definición de esta variable debe quedar clara al comienzo de la resolución del ejercicio y debe
mantenerse a lo largo del mismo.
• Nivel de significación: α=0,05
Solución:
• Hipótesis de trabajo: “Hay aumento significativo del nivel de hemoglobina después del tratamiento”
Antes de plantear las hipótesis estadísticas hay que analizar la situación planteada, ya que no es
igual a las anteriores, dado que no hay independencia entre las mediciones realizadas, ya que se realiza-
ron en cada individuo, al inicio y al finalizar los 3 meses de aplicado el tratamiento con vitamina B12. Por
esta razón no se van a comparar las medias en los diferentes tiempos, sino que se va estudiar la variable
diferencia.
• Verificación de supuestos: En este caso, solamente hay que probar la normalidad de la variable Di. El
otro supuesto teórico corresponde a la no independencia entre las mediciones, o sea, X1 y X2 no son inde-
pendientes.
Qq plot
-0,30
Cuantiles observados(D)
H1 : D no se distribuye normal -1,75
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola) -2,48
D 10 -1,79 0,84 0,97 0,9425
-3,20
-3,20 -2,48 -1,75 -1,02 -0,30
C uantiles de una Norm al(-1,79,0,70989)
11
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Como 0,9425 es mayor que 0,05, no se rechaza la hipótesis nula. Entonces, con un nivel de significa-
ción del 5% se puede concluir que la diferencia entre la concentración de hemoglobina en sangre (mg%) al
inicio del tratamiento con vitamina B12 y la concentración de hemoglobina en sangre (mg%) luego de 3
meses de tratamiento con vitamina B12 en pacientes con anemia perniciosa se distribuye normalmente.
Simbólicamente D ~N ( µ , σ D2 )
• Hipótesis estadísticas: si el tratamiento produce un aumento en el nivel de hemoglobina en
sangre, los niveles de hemoglobina medidos a los 3 meses deberían ser mayores que los medidos al
inicio del tratamiento, es decir que la variable D = I – F, tendría una media negativa. Simbólicamente
µ D < 0 . La orientación de esta hipótesis depende exclusivamente de la definición de la variable en
estudio, por esta razón debe quedar clara la forma en que se realiza la diferencia entre Ii y Fi. Esta
expresión no contiene al signo igual, por lo tanto corresponde a la hipótesis alternativa, es decir que las
H 0 : µD ≥ 0
hipótesis estadísticas son:
H1 : µ D < 0
• Variable pivotal: Por ser una prueba de medias apareadas la única opción para la variable pivotal
d − µd
es una t de Student con la siguiente fórmula: t= ~tn −1 . Observar que esta expresión es la
sd
n
misma que la utilizada en Elementos de Estadística para estudiar una población, la variable estudiada
es D, su media muestral es d y su varianza muestral es S D2 .
• Región crítica: Observando la hipótesis alternativa planteada, se ve que la región critica es
unilateral izquierda, con valor crítico: tn −1;0,05 = t10 −1;0,05 = t9;0,05 = −t9;0,95 = −1,83 (los grados de
libertad son 10-1, porque hay 10 diferencias). Por lo tanto, la región crítica queda definida como
t ≤ −1,83 . Gráficamente:
12
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Nota: Al comienzo del ejercicio se definió la variable diferencia como: di = ii - fi, Se recomienda realizar
de nuevo la prueba, pero definiendo de la otra forma a la variable y observar qué se modifica y qué
permanece igual.
4) En las poblaciones de adultos y adolescentes que veían un programa de televisión los sábados a la
noche se tomaron sendas muestras al azar de 400 y 600 individuos, respectivamente. A la pregunta “si
realmente les gustaba el programa”, 100 adultos y 300 adolescentes, de estas muestras, contestaron
que sí.
a) Estimar puntualmente y con una confianza del 95% la diferencia entre las proporciones de adultos y
adolescentes que ven el programa y les gusta.
b) Probar, al 5%, si ambas proporciones son iguales.
Datos del problema
• Variable en estudio:
X1: Cantidad de adultos que ven el programa los sábados a la noche y les gusta, en una muestra de 400.
X2: Cantidad de adolescentes que ven el programa los sábados a la noche y les gusta, en una muestra de
600.
• Tamaños de muestras: n1 = 400; n2 = 600
• Nivel de confianza: 1 – α = 0,95.
Solución:
a) Antes de comenzar a construir el intervalo hay que verificar los supuestos teóricos.
• Supuestos teóricos: En este caso, a diferencia de los ejercicios anteriores, el supuesto teórico es
la Binomialidad de ambas variables. La verificación de este supuesto es más sencilla que la verifica-
ción de la normalidad de las variables, ya que solamente hay que verificar que las variables cumplan
con las condiciones de una variable binomial, es decir:
Que cada repetición del experimento tenga dos resultados posibles (éxito y fracaso). Si lo aplica-
mos al ejemplo veremos que las dos posibles respuestas que podemos obtener, al encuestar a una
persona, son: “que le guste el programa del sábado a la noche” y “que no le guste el programa del
sábado a la noche”.
Que los resultados (éxito y fracaso) sean mutuamente excluyentes en una misma repetición.
Que los resultados (éxito y fracaso) sean independientes de repetición en repetición.
Que el número de repeticiones esté prefijado de antemano y que la probabilidad de éxito sea cons-
tante a lo largo de todas las repeticiones del experimento aleatorio.
En este caso ambas variables cumplen con estas condiciones.
• Estimación puntual: Lo que se quiere estimar es: ”la diferencia entre las proporciones
poblacionales de adultos y adolescentes que ven el programa y les gusta”, simbólicamente: p1-p2. Por
lo tanto la estimación puntual de esta diferencia es la diferencia entre las proporciones estimadas,
pˆ1 − pˆ 2 .
13
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
cantidad de adultos que ven el programa los sábados a la noche y les gusta 100
pˆ1 = = = 0, 25
cantidad total de adultos 400
cantidad de adolescentes que ven el programa los sábados a la noche y les gusta 300
pˆ 2 = = = 0,5
cantidad total de adolescentes 600
Reemplazando:
0, 25 (1 − 0, 25 ) 0,5 (1 − 0,5 ) 0, 25 (1 − 0, 25 ) 0,5 (1 − 0,5 )
( 0, 25 − 0,5 ) − 1,96 + ; ( 0, 25 − 0,5 ) + 1,96 + =
400 600 400 600
0,1875 0, 25 0,1875 0, 25
= −0, 25 − 1,96 + ; −0, 25 + 1,96 + =
400 600 400 600
= [ −0, 25 − 1,96 *0, 03; −0, 25 + 1,96 *0, 03] = [ −0, 25 − 0, 0588; −0, 25 + 0, 0588] = [ −0,31; −0,19]
• Conclusión: Con un nivel de confianza del 95% se espera que el intervalo [-0,31;-0,19] cubra o
contenga a la diferencia entre la proporción poblacional de adultos que ven el programa los sábados a
la noche y les gusta y la proporción poblacional de adolescentes que ven el programa los sábados a la
noche y les gusta.
b) Las hipótesis estadísticas son: H0: p1-p2=0 versus H1: p1-p2≠0
pˆ1 − pˆ 2 − ( p1 − p2 ) x1 x x +x
Z=
d
→ N (0, 1) donde pˆ1 = , pˆ 2 = 2 y pˆ = 1 2
1 1 n1 n2 n1 + n2
pˆ (1 − pˆ ) +
n1 n2
La región crítica es bilateral, y está formada por los valores de Z mayores o iguales a 1,96, y los meno-
res o iguales a -1,96.
x1 + x2 100 + 300
pˆ = = = 0, 4
n1 + n2 400 + 600
( 0, 25 − 0,5 ) − 0 −0, 25 −0, 25
Z obs = = = = −7,81
1 1 1 0, 032
0, 4 (1 − 0, 4 ) + 0, 24 *
400 600 240
En esta situación (región crítica bilateral) el p valor se grafica y se calcula de la siguiente forma:
14
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Con un nivel de significación del 5%, hay/no hay (tache lo que no corresponda) evidencias suficientes
para rechazar H0, por lo tanto ...........................................................................................................
.....................................................................................................................................................................
.........................................................................................................................................
5) Basándose en el mismo texto y los mismos datos del problema 02, responda los siguientes ítems:
a.- Estimar el cociente entre las varianzas, puntualmente y con un nivel de confianza del 95%.
b.- Los nutricionistas que desarrollaron la nueva ración (B) temen que esta genere menor uniformidad
en el crecimiento. Probar la hipótesis sugerida con un nivel de significación del 5%.
(Nota: “Menor uniformidad” hace referencia a la obtención de ganancias de peso desparejas dentro del
lote, con alta dispersión, siendo esta una característica no deseada por los productores.)
Solución: Los datos son los mismos que los del problema 3 y los supuestos teóricos también
a)
• Estimación puntual: se pide estimar puntualmente el cociente entre las varianzas, por ejemplo, sim-
σ A2 S A2
bólicamente 2 , cuyo estimador puntual es el cociente de las varianzas muestrales, es decir 2
σB SB
Utilizando la fórmula de la varianza muestral se obtiene:
1 ( ∑ x1i ) 1 ( 263) 1
2 2
44,1
S = ∑ x1i − = 6961 − = [ 6961 − 6916,9] = = 4,9
2 2
n1 − 1
A
n 9 10 9 9
1 ( ∑ x2i ) 1 ( 307 ) = 1 8605 − 8568,09 = 36,91 = 3, 69
2 2
S = 2
∑ 2i
x 2
− = 8605 − [ ]
n2 − 1
B
n 10 11 10 10
S2 4,9
Por lo tanto el estimador puntual del cociente entre SA y SB es: A2 = = 1,3279
2 2
S B 3, 69
(Nota: En este caso se estima el cociente entre la varianza poblacional de A sobre la varianza pobla-
cional de B, pero también podríamos resolver este ejercicio haciendo el cociente inverso, dado que en
el enunciado no hay ninguna orientación en especial para realizarlo.)
• Intervalo de confianza: La fórmula del intervalo de confianza para el cociente de varianzas se de-
duce de la variable pivotal que se utiliza para estudiar el cociente de varianzas, cuya fórmula es:
S A2 S A2
σ A2 S B2
F= ~F( nA −1),( nB −1) o F= ~F( nA −1),( nB −1)
S B2 σ A2
σ B2 σ B2
La distribución se grafica de la siguiente manera:
Donde: F1 = F α y F2 = F α .
( n A −1),( nB −1); ( n A −1),( nB −1);1−
2 2
15
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Como en la tabla de F de Snedecor que se usa en el presente curso el valor de F1 no está tabulado,
para conocerlo es necesario hacer uso de la siguiente igualdad:
1
F α =
( nA −1),( nB −1); F
2 α
( nB −1),( n A −1);1−
2
Por ejemplo, en el problema que estamos resolviendo:
1 1
F9,10;0,975 = 3, 78; F9,10;0,025 = ; F9,10;0,025 = = 0, 25.
F10,9;0,975 3,96
El intervalo se construye basándose en las siguientes igualdades:
S A2
2
SB
P F α ≤ ≤F α
= 1−α
( nA −1),( nB −1); 2 σ A 2
( nA −1),( nB −1);1−
2
σ B2
σ A2
1 σ2 1
P ≥ B2 ≥ = 1−α
F α S A F α
( nA −1),( nB −1); 2 S 2 ( nA −1),( nB −1);1−
2
B
σ A2
1 σ2 1
P ≤ B2 ≤ = 1−α
F α SA F α
( nA −1),( nB −1);1− 2 S 2 ( n A −1),( nB −1);
2
B
S A2 S A2
S B2 σ2 S B2
P ≤ A2 ≤ = 1−α
F α σB F α
( nA −1),( nB −1);1− 2 ( n A −1),( nB −1);
2
Entonces, en nuestro problema:
1,3279 σ A2 1,3279
≤ 2 ≤
3, 78 σ B 0, 25
σ A2
0,3513 ≤ ≤ 5,3116
σB 2
• Conclusión: Con una confianza del 95% se espera que el intervalo [0,35136; 5,3116] cubra, o
contenga, al cociente entre la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3
meses de edad del norte de la provincia de Buenos Aires alimentados con la ración A durante 30 días, y
la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3 meses de edad del norte de la
provincia de Buenos Aires alimentados con la ración B durante 30 días.
b)
• Hipótesis de trabajo: “la nueva ración genera menor uniformidad en el crecimiento”.
• Supuestos teóricos: Ya fueron verificados en el ejercicio 3
• Hipótesis estadísticas: Si se quiere probar que la nueva formulación es menos uniforme, se quiere
probar que la nueva formulación es más variable que la ración A, simbólicamente: σ A < σ B2 , esta
2
expresión no contiene el signo igual por lo que corresponde a la hipótesis alternativa. Entonces las
16
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
σ2
H 0 : A2 ≥ 1
H : σ ≥ σ 2 2
σB
hipótesis quedan: 0 o equivalentemente
A B
al igual que en las demás pruebas se
H1 : σ A < σ B σ
2 2 2
H : A < 1
1 σ B2
debe plantear solo un par de hipótesis y mantenerlas a lo largo de toda la prueba, en esta caso vamos a
σ A2
H0 : σ 2 ≥ 1
trabajar con
B
H : σ A < 1
2
1 σ B2
• Conclusión: Con un nivel de significación del 5% no hay evidencia suficiente para rechazar H0
σ A2
( H0 : ≥ 1 ). Esto significa que el cociente entre la varianza poblacional de la ganancia de peso de los
σ B2
cerdos Yorkshire del norte de la provincia de Buenos Aires de 3 meses de edad alimentados con la
ración A y la varianza poblacional de la ganancia de peso de los cerdos Yorkshire del norte de la
provincia de Buenos Aires de 3 meses de edad alimentados con la ración B, es mayor o igual a 1. Por
lo tanto, al mismo nivel, no es cierta la hipótesis de los nutricionistas.
Nota: a continuación se da la salida del programa InfoStat para este problema. Observar que los
resultados son los mismos que se obtuvieron anteriormente.
17
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
6) Con el fin de comparar el rendimiento académico (en una escala de 0 a 10 puntos) entre estableci-
mientos privados y estatales, se seleccionan aleatoriamente 15 personas que han realizado estudios
secundarios en establecimientos privados, y de 15 personas que han realizado estudios secundarios
en establecimientos estatales. Los datos obtenidos son los siguientes:
PRIVADO ESTATAL
7 9
6 6
4 5
7 6
5 5
5 4
4 4
9 4
9 4
8 4
4 6
5 3
5 3
7 5
5 4
¿Podemos suponer que los rendimientos académicos difieren significativamente? (α=0,05)
Como primer paso debemos verificar el supuesto de normalidad, por lo que realizamos el test de Sha-
piro-Wilks:
Shapiro-Wilks (modificado)
Secundario Variable n Media D.E. W* p (una cola)
Estatal Rendim 15 4,80 1,52 0,85 0,0330
Privado Rendim 15 6,00 1,73 0,85 0,0253
No se cumple el supuesto de normalidad para el rendimiento académico de las personas que provie-
nen de establecimientos secundarios estatales y privados, por lo que no podemos realizar una prueba t
para muestras independientes, debemos realizar un análisis no paramétrico, la prueba de Mann-
Whitney.
Boxplot
10,00
2,00
0,00
Privado Estatal
Secundario
18
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
A un nivel de significación del 5%, y para nuestra hipótesis, rechazamos H0 si Zobs< -1,96 o Zobs>1,96
Puesto que -1,97 < -1,96, la decisión es rechazar Ho.
Al nivel del 5%, existen evidencias suficientes para rechazar H0, por lo que la mediana poblacional del
rendimiento académico de los individuos que han realizado estudios secundarios en establecimientos
estatales es distinta a la mediana poblacional de los que han realizado sus estudios secundarios en esta-
blecimientos privados.
Como respuesta a la pregunta, podemos decir, que, al 5%, los rendimientos académicos difieren significa-
tivamente entre los individuos que han realizado sus estudios secundarios, al comparar establecimientos
estatales y privados.
Utilizando InfoStat, tenemos que aplicar el test de Wilcoxon para muestras independientes, y obtenemos la
siguiente salida, en la que figuran medidas resumen, el estadístico correspondiente, y el p-valor de la
prueba.
Prueba de Wilcoxon para muestras independientes (Mann Whitney)
Estadístico
Grupos Media Desvío estándar Mediana Media del rango p-valor
(T)
Estatal 4,80 1,52 4,00 12,33
185,00 0,0433
Privado 6,00 1,73 5,00 18,67
7) Los datos que se presentan a continuación provienen de los pesos, en g, de 22 ratas hembras, de entre
28 y 84 días de vida. Doce de ellas fueron alimentadas con una dieta alta en proteínas, y 10 con una dieta
baja en proteínas.
19
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Alta en proteína 120,2 120,57 119,78 120,29 118,62 120,69 120,27 119,13 118,04 120,29 117,46 119,7
Baja en proteína 102,13 105,3 103,39 104,73 98,00 95,89 98,65 98,73 95,2 102,47
a) ¿Se puede suponer, al 5%, que el peso medio las ratas alimentadas con la dieta alta en proteínas
es mayor que el peso medio las ratas alimentadas con la dieta baja en proteínas?
b) Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir?
Solución:
a)
• La hipótesis de trabajo que se desea poner a prueba es:
“La dieta alta en proteínas produce un peso medio mayor que la dieta baja en proteínas”
• Verificación de supuestos: Para poder plantear las hipótesis estadísticas y poder llevar a cabo la
prueba, hay que verificar los supuestos teóricos necesarios. En este caso, los supuestos son que am-
bas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de indepen-
dencia se cumple por la forma en que se realizó el experimento: a un grupo de ratas seleccionado
aleatoriamente se le suministró la dieta alta en proteínas y a otro grupo, también tomado al azar, se le
suministro una dieta baja en proteínas.
Como p-valor= 0,0683 y es mayor que α=0,05, no se rechaza la hipótesis nula. por lo tanto, con un nivel
de significación del 5% se puede decir que la variable X1 (peso de una rata de entre 28 y 84 días de vida
alimentada con una dieta alta en proteínas medido en g) se distribuye normalmente.
Análogamente se estudia la normalidad de la variable X2:
H 0 : X 2 se distribuye normalmente
H1 : X 2 no se distribuye normalmente
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X2 10 100.45 3.62 0.9282 0.4305
20
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
Como p-valor= 0,4305 y es mayor que α=0,05, no se rechaza la hipótesis nula. Por lo tanto, con un nivel
de significación del 5%, se puede decir que la variable X2 (peso de una rata de entre 28 y 84 días de vida
alimentada con una dieta baja en proteínas medida en g) se distribuye normalmente.
En este caso, no hay información de las varianzas poblacionales, por lo tanto son desconocidas, y hay que
probar si son iguales. Para esto hay que realizar un test de homogeneidad de varianzas, cuyas hipótesis
son:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
El resultado del estadístico es F= 0,08 y un p-valor de 0,0009, por lo tanto se rechaza la hipótesis de
homogeneidad de varianzas.
Es decir que ambas variables se distribuyen normalmente con varianzas desconocidas y diferentes.
• Hipótesis estadísticas.
Como el interés del investigador es probar si al alimentar a las ratas con una dieta con alta con-
centración de proteínas produce un peso medio superior, simbólicamente: µ1 > µ 2 . Por lo que las
hipótesis estadísticas son:
H 0 : µ1 ≤ µ 2
H 1 : µ1 > µ 2
• Nivel de significación: α=0,05
• Estadístico de prueba (o variable pivotal)
Se está realizando un test de hipótesis para la diferencia de medias poblacionales de variables
con distribución normal, por lo cual se cuenta con dos opciones al elegir la variable pivotal: Z o t de
Student, dependiendo del hecho de conocer o no las varianzas poblacionales. En este caso, las va-
rianzas poblacionales son desconocidas y desiguales, por lo tanto se utiliza una t, con la siguiente ex-
s 2 s 2 2
1 + 2
− −
≈ t w con w = 12 2 2
presión: T = ( X 1 X 2 ) 0 n n
2 2
s1 s2
2 2
s1 s 2
+
n1 n 2 n1 n2
+
n1 − 1 n2 − 1
• Región crítica:
Es unilateral derecha, dado que H1: µ1-µ2>0 , por lo tanto el valor crítico es: t w,0,95 , siendo w
1,10 13,1
2
s1 + s2
2 2 2
+
n1 n2
= ( 0, 091 + 1, 31) (1, 401)
2 2
=
12 10 =
w= =
1,10 13,1 ( 0, 091)2 (1,31) 2 0, 008281 + 1, 7161
2 2 2 2
s12 s22
+
n1 + n2
12 10
+ 11 9 11 9
n1 − 1 n2 − 1 12 − 1 10 − 1
1,9628 1,9628
= = = 10, 28 = 10
0, 00075 + 0,19 0,19075
El valor crítico es t10, 0,95 = 1,812 y la región crítica queda determinada por: t ≥ 1,812
21
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
• Regla de decisión:
Rechazo H0 si t H 0 ≥ 1,812
No rechazo H0 si t H 0 < 1,812
• Cálculo de tHo:
Hasta este momento no fueron necesarias las muestras, excepto en la verificación de supuestos,
sin embargo se podría haber hecho con muestras piloto y recién en esta instancia extraer las muestras
para el análisis. Antes de calcular el valor del estadístico de prueba hay que calcular las medias mues-
trales utilizando las fórmulas dadas en la unidad de estadística descriptiva de Elementos de Estadísti-
ca: X 1 = 119,58 X 2 = 100,45 . Hay que tener en cuenta que la prueba se está realizando bajo la
hipótesis nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la dife-
rencia de las medias poblacionales es cero, es decir que µ1 − µ 2 = 0 . Reemplazando estos valores y
el resto de la información en la fórmula nos queda:
(X1 − X 2 ) − 0 (119,58 − 100,45) (19,13) (19,13) (19,13)
TH 0 = = = = = = 16,162
s 2
s 2
1,1 13,1 0.091 + 1,31 1,401 1,1836
+
1 2 +
n1 n 2 12 10
b) La fórmula del intervalo del 95% que se está pidiendo se despeja de la variable pivotal y es:
s12 s 22 s12 s 22
( X 1 − X 2 ) − t w,1−α + ; ( X 1 − X 2 ) + t w,1−α +
2 n1 n2 2 n1 n2
reemplazando se obtiene que
1,1 13,1 1,1 13,1
(119,58 − 100, 45) − t10;0,0975 + ; (119,58 − 100, 45) + t10;0,0975 + =
12 10 12 10
= (19,13) − 2, 228 0, 091 + 1,31; (19,13) + 2, 228 0, 091 + 1,31 =
= (19,13) − 2, 228 1, 401; (19,13) + 2, 228 1, 401 = [ (19,13) − 2, 228(1,1836); (19,13) + 2, 228(1,1836) ] =
= [ (19,13) − 2, 637; (19,13) + 2, 637] = [16,493 g; 21, 767 g ]
Conclusión: Con un nivel de confianza del 95%, se espera que el intervalo [ 16,493 g ; 21,767 g ] cubra
o contenga a la diferencia entre la media poblacional del peso de la ratas de entre 28 y 84 días de vida
alimentadas con la dieta alta en proteínas y la media poblacional de las ratas de entre 28 y 84 días de
vida alimentadas con la dieta baja en proteínas, en estas poblaciones de ratas de entre 28 y 84 días de
vida.
PROBLEMAS PROPUESTOS
1) Para comparar cinco dietas para porcinos se seleccionaron veinticinco animales al azar para ser
usados en el experimento. Aleatoriamente se les asignó una dieta a cada grupo, midiéndose sobre
cada animal el peso inicial y el peso al cabo de 30 días.
Responder:
a- La unidad experimental es ...........................................................................................................
b- Los tratamientos son ...................................................................................................................
c- La observación es .......................................................................................................................
22
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
3) Las personas que tienen el síndrome de Raynaud sufren un súbito deterioro en la circulación sanguínea
de los dedos de las manos y de los pies. Para estudiar esta enfermedad, en un experimento se midió la
2
generación de calor, mediante calorimetría, en cal/cm /min, de un dedo índice luego de haberlo sumergido
en agua a 19°C. En este estudio, se contó con una m uestra tomada al azar de 10 individuos con el
síndrome y una muestra de 10 individuos sanos.
Sanos (S) 2,43 1,83 2,43 2,70 1,88 1,96 1,53 2,08 1,85 2,44
Síndrome de Raynaud (E) 0,81 0,70 0,74 0,36 0,75 0,56 0,65 0,87 0,40 0,31
Asuma que las distribuciones de ambas variables son normales, y que σE = σS .
2 2
a.- Definir:
Variables en estudio: ........................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
Parámetros: .....................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
Poblaciones: ....................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
b.- Estimar puntualmente y por intervalo de confianza la diferencia entre la generación de calor media de
los individuos enfermos (µE) y la generación de calor media de los individuos sanos (µS) (1-α = 0,95).
c.- Se cree que la generación de calor por parte de los afectados por este síndrome es más homogénea.
Probarlo con un nivel de significación del 5%.
4) De una población de individuos afectados por una enfermedad, se tomaron dos muestras aleatorias e
independientes de 100 individuos cada una. A una de las mismas (que llamaremos grupo A), se le
administró un suero, al otro grupo (B, control) se le administró un placebo; en todo lo demás, los dos
grupos fueron tratados idénticamente. Se encontró que en los grupos A y B, 75 y 55 individuos,
respectivamente, se habían recuperado luego de un mes de observación. Probar la hipótesis de que el
suero ayuda a curar la enfermedad con un nivel de significación del 5%.
a) La hipótesis de trabajo es: .........................................................................................................
.....................................................................................................................................................
.....................................................................................................................................................
23
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
6) Las empresas que comercializan agua para beber, realizan controles de calidad diariamente. Una de
las variables de interés es el pH, que mide el grado de acidez del agua contenida en los envases lista
para su distribución. Un pH menor a 7 es considerado ácido, un pH mayor a 7 es considerado alcalino
y un pH igual a 7 es considerado neutro. Un investigador sospecha que el material de los nuevos en-
vases modifica el pH del agua. Para estimar la diferencia entre los pH medios, extrae 20 muestras de
agua con el envase viejo y 15 muestras de agua con el envase nuevo. Algunos datos obtenidos son:
24
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
7) Alle y Bowen (1932) estudiaron el tiempo de supervivencia de la carpa dorada, en minutos, cuando se
coloca en suspensiones de plata. Los investigadores realizaron varios experimentos, entre ellos el siguien-
te: se asignan aleatoriamente 10 carpas a cada grupo. En uno de ellos se exponen a las carpas a una
concentración baja de nitrato de plata disuelto en el agua (Conc1, 50 g/l), y el otro grupo, a una concentra-
ción mayor (Conc2, 80g/l). Al nivel del 5%, ¿difieren los tiempos de supervivencia?
Boxplot
Conc1 Conc2
250
210 81
180 75
240 156 200
60 180
Sobrevida
55 102 150
75 200
78 135
100
82 85
125 78
83 87 50
1 2
Concentración
Shapiro-Wilks (modificado)
Concentración Variable n Media D.E. W* p (una cola)
1 Sobrevida 10 118,80 67,11 0,81 0,0247
2 Sobrevida 10 117,90 46,46 0,82 0,0307
CUESTIONARIO
4.- En los estudios observacionales pueden establecerse asociaciones, es decir poner de manifiesto
que una cosa está relacionada con otra. ¿Pueden estos estudios establecer causalidad?
.....................................................................................................................................................................
.........................................................................................................................................
5.- ¿Cómo diseñaría un experimento para estudiar si la hipertensión durante el embarazo provoca be-
bés nacidos con menor peso? ¿Qué factor podría confundirse y cómo lo controlaría?
.....................................................................................................................................................................
.....................................................................................................................................................................
...........................................................................................................................
25
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
6.- Según un estudio observacional realizado en el Kaiser Permanente de Walmut Creek, California, se
daba un índice más elevado de cáncer de cuello de matriz entre mujeres que usaban anticonceptivos ora-
les que entre las que no usaban, independientemente de su edad, educación, estado civil, religión y hábito
de fumar. Los investigadores llegaron a la conclusión de que la píldora causaba el cáncer del cuello de
matriz. ¿Es correcta esta afirmación? ¿Por qué?
..............................................................................................................................................................................
................................................................................................................................................
7.- Identifique en el ejemplo anterior los términos: unidad experimental, tratamiento, factor, niveles del
factor.
..............................................................................................................................................................................
................................................................................................................................................
...............................................................................................................................................................
15- ¿En qué casos es recomendable aplicar un test de Mann Whitney? Explicite los supuestos y las
hipótesis que se corresponden con los mismos.
16.- Si al realizar una prueba de hipótesis, donde H0: p1 − p2 ≥ 0 versus H1: p1 − p2 < 0 , se rechaza
H0 al nivel 5%; se puede estar:
a.- actuando correctamente con probabilidad igual a 0,95.
b.- actuando correctamente con probabilidad igual a (1 - β).
c.- cometiendo un error tipo I con probabilidad igual a 0,05.
d.- cometiendo un error tipo II con probabilidad igual a β.
Indicar cuál o cuáles de las situaciones son correctas justificando claramente la respuesta.
17.- ¿Qué elementos necesita para definir la región crítica? Detalle cómo interviene cada uno de ellos.
18.- ¿Cuándo le parece conveniente utilizar una prueba para la media de las diferencias apareadas?
¿Cuántas son las variables en estudio?
19.- Se tiene la sospecha de que la proporción de individuos que no tienen enfermedades cardiovascu-
lares en la población A es mayor que en la población B. Para poner a prueba esta hipótesis se tomó
26
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)
20.- Se realizó una dócima a un nivel del 5%, con las hipótesis H0: σ 12 = σ 22 versus H1: σ 12 ≠ σ 22 y
resultó no significativa (es decir, no se rechazó H0). ¿En qué situación de las cuatro que quedan
planteadas en una dócima de hipótesis se ubica este ejemplo si supiéramos que para estas
poblaciones σ 12 > σ 22 ? ¿Cuál es la probabilidad asociada a esta situación?
21.- En una población con µ1 > µ2 se realizó la dócima H0: µ1 = µ2 contra H1: µ1 ≠ µ2 y resultó
significativa al 1%, es decir se rechazó H0. ¿En qué situación de las cuatro posibles ubica este
ejemplo? ¿Cuál es la probabilidad asociada a esta situación?
22.- Dentro del marco de la dócima de hipótesis definir en forma clara y concisa los siguientes concep-
tos:
• Hipótesis estadística
• Nivel de significación
•1-α
27
Unidad 2: CONTRASTES de CHI-CUADRADO
Objetivos específicos
• Elegir las hipótesis adecuadas a cada problema planteado con datos categóricos y seleccionar la
prueba correspondiente.
• Aplicar correctamente los contrastes Chi Cuadrado para los ensayos de independencia, homogeneidad
y bondad de ajuste.
Contenidos temáticos
Bondad de ajuste. Tablas de contingencia: Ensayos de Independencia. Contrastes Ji-cuadrado para
homogeneidad con varias poblaciones. Alcance de los ensayos.
Glosario
Datos categorizados (cualitativos o atributos). Respuestas categóricas y dicotómicas. Categorías
mutuamente excluyentes. Categorías independientes. Frecuencia observada. Frecuencia esperada o
teórica. Frecuencia total o marginal. Tablas o criterios de clasificación. Bondad de ajuste entre frecuencias
observadas y frecuencias teóricas. Hipótesis de independencia. Asociación entre atributos. Hipótesis de
homogeneidad.
PROBLEMAS RESUELTOS
01.- Se realizó un estudio para saber si el grado de eficacia de un medicamento contra mastitis a partir del
nivel de mejoría está relacionado con el nivel de gravedad del cuadro clínico. Se tomó una muestra de 642
vacas Holando con mastitis y se registró el nivel de gravedad. A todas se las trató con la misma dosis del
medicamento y luego de 10 días se las clasificó en función del nivel de mejoría. Los resultados se
observan en la siguiente tabla:
Nivel de mejoría
Ninguna Ligera Notable
Leve 8 7 12
Niveles de
Intermedio 6 37 36
Infestación
Grave 37 148 351
¿Es sustentable la hipótesis de que existe relación entre la eficacia del medicamento y el nivel de mastitis
del animal al 5%? Justifique.
Datos del problema:
• Variables en estudio:
X1: Nivel de infestación de un paciente, categorizada en leve, intermedio y grave
X2: Nivel de mejoría de un paciente, categorizada en ninguna, ligera y notable
• Cantidad y tamaño de muestras: hay una única población de pacientes de la cual se extrajo una única
muestra de tamaño 642
• Nivel de significación:α = 0,05
• Se completa la tabla de frecuencias observadas (Oij) con los totales de filas y columnas (Oi٠ y O٠j ,
respectivamente) y el total general (O٠٠ = n)
Nivel de mejoría
Ninguna Ligera Notable Total
Leve 8 7 12 27
Niveles de Intermedio 6 37 36 79
Infestación Grave 37 148 351 536
Total 51 192 399 642=n
28
Solución:
Existen dos variables en estudio X1 y X2 ambas con tres categorías y una única población de
vacas. Se quiere probar si las variables, o criterios de clasificación, nivel de infestación y nivel de mejoría,
son independientes en la población. Entonces nuestras hipótesis estadísticas son:
H 0 : p ij = p i• * p • j para i = 1, 2, 3; j = 1, 2, 3
H 1 : a lg una de las igualdades anteriores no se cumple
En este caso H0 está expresando la independencia de las variables para todos los pares de sucesos o
categorías que las componen y H1 la falta de independencia o no independencia entre ellas.
Donde:
pij: es la probabilidad conjunta esperada de la intersección de la fila i-ésima y la columna j-ésima de la
tabla.
pi.: es la probabilidad total esperada de elementos de la fila i-ésima.
p.j: es la probabilidad total esperada de los elementos de la columna j-ésima.
(Oij - Eˆ ij )2
≈
f c
χ = ∑∑
2
χ (2f -1)(c-1)
i =1 j =1 Eˆij
La región crítica es unilateral derecha, debido a que grandes discrepancias entre los valores
observados y sus correspondientes valores esperados nos harán sospechar de la veracidad de la
hipótesis planteada.
El valor crítico es χ 4;0,95 = 9,48, quedando como región crítica: χ ≥ 9,48.
2 2
Recordemos que la región crítica está formada por los valores del estadístico de prueba para los cuales
se va a rechazar la hipótesis nula. Y la determinamos a partir de la distribución del estadístico de prueba,
el nivel de significación, la hipótesis alternativa y, a veces, del tamaño de la muestra.
Gráficamente:
RECHAZO H0 si χ H2 0
≥ 9,48
La regla de decisión es
NO RECHAZO H0 si χ H2 0
< 9,48
Por ser un caso de independencia, multiplicando las probabilidades esperadas ( pij = pi. ∗ p. j ) por n
(tamaño de la única muestra), se obtienen las frecuencias esperadas ( Eij = n * pij = n * pi. * p. j ).
Debido a que no tenemos las probabilidades esperadas las estimamos a partir de la muestra, es decir:
Oi• O• j
pˆ ij = pˆ i• * pˆ • j = *
O•• O••
y luego obtenemos los valores esperados estimados como:
Eˆij = n * pˆ ij = n * pˆ i. * pˆ . j
29
Por ejemplo, para el elemento ubicado en la fila 1 y la columna 1 tenemos:
Ê =642*
27 * 51
642 642 = 2,1448
11
Si efectuamos la misma operación para todos los elementos de la tabla de contingencia, obtenemos la
tabla de frecuencias esperadas estimadas:
Nivel de mejoría
Ninguna Ligera Notable
Total
Leve 2,145 8,075 16,780 27
El valor del estadístico calculado se obtiene reemplazando estos valores ( Eˆ ij ) en lugar de los ( Eˆ ij ) sin
modificar la distribución y los correspondientes valores observados llegando a:
χ Ho =
2 (8 − 2,145)2 + (6 − 6,276)2 + (37 − 42,579)2 + (7 − 8,075)2 + (37 − 23,626)2 +
2,145 6,276 42,579 8,075 23,626
+
(148 − 160,299)2 + (12 − 16,78)2 + (36 − 49,098)2 + (351 − 333,122)2 =
160,299 16,78 49,098 333,122
Por lo tanto, el valor es
χ H2 = 15,982 + 0,012 + 0,731 + 0,143 + 7,571 ++0,944 + 1,36 + 3,494 + 0,959 = 31,198
0
Nota: Suele aportar información observar si las mayores magnitudes que forman este valor calculado (ej.:
15,982; 7,571 y 3,494) provienen de una misma fila o de una misma columna.
Conclusión: Al nivel de significación del 5%, hay evidencias suficientes para rechazar la hipótesis nula
(donde se plantea la independencia), es decir que las variables nivel de infestación de mastitis,
categorizada en Leve, Intermedio y Grave; y nivel de mejoría, con niveles Ninguna, Ligera y Notable, no
son independientes, por lo tanto, a este nivel de significación es sustentable la hipótesis de que en esta
población existe relación entre la eficacia del medicamento y el nivel de gravedad de mastitis en vacas
Holando.
02.- Se espera que una determinada droga sea efectiva para la curación del catarro común en personas.
En un experimento con 164 personas con catarro, la mitad de ellas recibió la droga y la otra mitad recibió
píldoras azucaradas (grupo control). En la siguiente tabla se encuentran los resultados obtenidos luego de
aplicar los tratamientos.
Resultado
Mejorados Efecto nulo Empeorados
Droga 50 22 10
Tratamiento
Píldoras azucaradas 40 28 14
Probar la hipótesis de que la droga no produce efectos, con un nivel de significación del 1%
Datos del problema:
• Variable en estudio:
X: Resultado de un paciente luego del tratamiento, categorizado en: mejorado, efecto nulo, empeorado.
• Cantidad y tamaño de muestras: hay dos muestras, una de 82 de pacientes que tomaron droga y otra
de 82 pacientes que tomaron píldora azucarada
• Nivel de significación:α = 0,01
30
• Se completa la tabla de frecuencias observadas con los totales de las muestras y los totales de cada
categoría:
Resultados
Mejorados Efecto Empeorados
Total
(m) nulo (n) (e)
Droga (d) 50 22 10 82
Tratamiento Píldoras azucaradas (a) 40 28 14 82
Total 90 50 24 164
Solución:
Se cuenta con dos muestras de igual tamaño, proveniente de dos poblaciones, y una variable ordinal con
3 categorías.
La hipótesis que interesa docimar es que "la probabilidad de mejorar es la misma en las dos poblaciones
de personas con catarro”: la población de personas con catarro tratados con droga y la población de
personas con catarro tratados con las píldoras azucaradas. Es decir, que hay homogeneidad en los
resultados del tratamiento con droga y píldoras. Entonces las hipótesis estadísticas son:
H0: pm / pob: dorga = pm / pob: azuc = pm (probabilidad de mejorar en la población que recibe droga = probabili-
dad de mejorar en la población que recibe píldora azucarada)
pn / pob: dorga = pn / pob: azuc = pn (probabilidad de efecto nulo en la población que recibe droga = probabili-
dad de efecto nulo en la población que recibe píldora azucarada)
pe / pob: dorga = pe / pob: azuc = pe (probabilidad de empeorar en la población que recibe droga = probabilidad
de empeorar en la población que recibe píldora azucarada)
H1 : alguna igualdad de las anteriores no se cumple.
2
f = número de filas
≈χ
f
(O ij - Eˆ ij )
c
χ = ∑∑
2 2
c = número de columnas
Eˆ ij
( f -1)( c -1)
i =1 j =1
2
El valor crítico es χ (3-1)( 2-1);0,99 = 9, 21
RECHAZO H0 si χ H2 0
≥ 9,21
La regla de decisión es:
NO RECHAZO H0 si χ H2 0
< 9,21
Información muestral: para calcular el valor del estadístico de prueba es necesario estimar las frecuencias
esperadas, considerando que la hipótesis nula es verdadera. Previamente estimamos pm ; pn y pe .
31
En este caso las muestras están representadas en las filas de la tabla y se estiman las proporciones
O•1 O O
correspondientes a las categorías de la variable resultados como pˆ m = ; pˆ n = •2 ; pˆ e = •3
O•• O•• O••
90 24 50
obteniendo: pˆ m = ; pˆ n = ; pˆ e =
164 164 164
A partir de aquí se calculan las frecuencias esperadas estimadas en cada clase o categoría:
24
eˆde = nd * pˆ ee = 82 * = 12 (donde nd es el tamaño de la muestra de las personas tratadas con la
164
droga).
Efectuando la operación equivalente en todas las celdas del cuerpo de la tabla de frecuencias observadas,
se obtiene la tabla de frecuencias esperadas estimadas:
Resultado
Mejorados Efecto nulo Empeorados Total
(m) (n) (e)
Droga (d) 45 25 12 82
Tratamiento
Píldoras (a) 45 25 12 82
Total 90 50 24 164
Conclusión: A un nivel de significación del 1%, no hay evidencias suficientes para rechazar la hipótesis
nula ( pm / pob: dorga = pm / pob: azuc = pm ; pn / pob: dorga = pn / pob: azuc = pn ; pe / pob: dorga = pe / pob: azuc = pe ) entonces la pro-
babilidad poblacional de personas con catarro común mejorados sería la misma para los tratados con
droga y los tratados con píldoras azucaradas. Lo mismo ocurre con las probabilidades poblacionales de
empeorados y de los que tuvieron efecto nulo, o sea que la droga y la píldora azucarada producirían
reacciones similares en cuanto a las probabilidades poblacionales de mejorados, empeorados y de efecto
nulo, con respecto a la curación del catarro común en personas. Por lo tanto, al 1% se puede decir que la
droga no es efectiva para la curación del catarro común.
03.- Supongamos que cuando las palomas son desorientadas no demuestran preferencia por ninguna
dirección de vuelo, de manera que la dirección debería estar distribuida uniformemente en el intervalo
(0°;360°]. Para probar esta suposición se desorient ó a 60 palomas y se estudió la dirección de vuelo de
cada una de ellas dividiéndola en 4 categorías (como se indica en la tabla siguiente), obteniéndose los
siguientes resultados:
Dirección (0°;90°] (90°;180°] (180°;270°] (270°;360°]
Frecuencia 12 16 17 15
¿Son compatibles estos resultados con la suposición planteada? (α=0,05).
Datos del problema
• Variable en estudio:
X: Dirección de vuelo de una paloma, categorizada en (0°;90°],(90°;180°];(180°;270°] y (270°;360°]
• Cantidad y tamaño de muestras: hay una única muestra de palomas de tamaño 60, obtenida de la
población de palomas desorientadas.
32
• Nivel de significación:α = 0,05
Solución
Aquí tenemos una única muestra (como en el primer ejemplo) pero sólo se registra una variable de 4
categorías, que es la dirección de vuelo. Es de interés ver si dicha variable tiene en la población una
distribución determinada. De esto, se puede deducir que la hipótesis que nos interesa docimar es que la
variable responde a una distribución teórica y por lo tanto se trata de un caso de bondad de ajuste.
Las hipótesis estadísticas son:
H0 : p1 = p2 = p3 = p4 = 1/4
H1 : alguna igualdad de las anteriores no se cumple.
Donde:
p1: probabilidad esperada de elegir la dirección (0°; 90°]
p2: probabilidad esperada de elegir la dirección (90°;180°]
p3: probabilidad esperada de elegir la dirección (180°;270°]
p4: probabilidad esperada de elegir la dirección (270°;360°]
Gráficamente:
RECHAZO H0 si χ H2 0
≥ 7,81
La regla de decisión es:
NO RECHAZO H0 si χ H2 0
< 7,81
Información:
Dado que pi = 1/4 para i = 1, 2, 3, 4; resulta que ei= n*pi = 60*1/4 = 15 para i = 1, 2, 3, 4.
Por lo tanto el cálculo del estadístico es:
(12 − 15 ) (16 − 15 ) (17 − 15 ) (15 − 15 )
2 2 2 2
9 1 4 14
χ 2
H0 = + + + = + + +0 = = 0, 93
15 15 15 15 15 15 15 15
Conclusión: Con un nivel de significación del 5%, no existen evidencias suficientes para rechazar H0 (p1 =
p2 = p3 = p4 = 0,25), o sea que en la población se puede decir que se cumple el modelo teórico de que las
cuatro direcciones de vuelo (0°; 90°]; (90°; 180°]; (180°; 270°] y (270°;360°] son igualmente probables . Por
lo tanto, la dirección de vuelo de las palomas estaría distribuida uniformemente en la población de palomas
que han sido desorientadas.
PROBLEMAS PROPUESTOS
01.- En la localidad A se realizó una colecta de la especie S. Un examen de los 167 machos adultos
recogidos reveló que 35 de ellos tienen bandas color pálido alrededor del cuello. De la localidad B, situada
a 90 Km, se obtiene una muestra de 27 machos adultos de la misma especie, de los que 6 tienen bandas
y en la localidad C, situada a 150 Km, en una muestra de 79 machos adultos de la misma especie, 17
tienen bandas. ¿Pertenecen las muestras a la misma población? Justifique estadísticamente su respuesta
(α=0,01).
33
Solamente se examinaron pacientes con 50 años o más de edad, pues es en estos individuos en quienes
el diagnóstico diferencial ofrece mayores dificultades, resultando:
Clasificación de pacientes con ulceración gástrica
de acuerdo con el lugar de la úlcera y el estado de malignidad.
ESTADO DE MALIGNIDAD
03.- Se desea analizar si el tenor de la fosfatasa alcalina en casos de hepatitis humana varía según la
edad. Se tomaron enfermos de distintas edades que se agruparon en tres clases, y se midió el tenor de
fosfatasa alcalina. Los resultados fueron:
Niveles de Fosfatasa
Edad Menos de 20 UI 20 UI o más
Menos de 20 años 11 49
20 a 40 años 15 45
Más de 40 años 20 40
¿Influye la edad sobre el tenor de fosfatasa alcalina? Concluir al nivel del 5%
04.- Se realiza un experimento entre dos cobayos heterocigotas (AaBb) en los cuales A determina el
pelaje negro y a determina el pelaje blanco, mientras que B determina el pelo corto y b el pelo largo. Se
obtuvieron las siguientes frecuencias fenotípicas:
Pelaje negro y corto 85
Pelaje negro y largo 28
Pelaje blanco y corto 35
Pelaje blanco y largo 12
¿Puede considerarse que la segregación de la descendencia está en una proporción de 9:3:3:1, a un nivel
del 5%?
06.- Para investigar si el dosaje de transaminasa en casos de hepatitis de tipo A está asociado con la
edad, se tomaron sesenta historias clínicas de pacientes registrados en un hospital en un período
determinado y se las clasificó por grupo de edad y por dosaje de transaminasa, obteniéndose la siguiente
tabla:
DOSAJE DE TRANSAMINASA
EDAD (AÑOS) 15 - 30 30 – 45 más de 45
Menos de 18 10 6 5
18 a 35 años 8 7 5
Más de 35 años 9 7 5
34
d) Si χ² = 0,475, ¿cuál es la decisión? Concluir en términos del problema.
Ho
07.- Suponga que para comparar tres métodos de enseñanza se realizan pruebas en tres cursos de 30; 43
y 50 alumnos respectivamente, impartiendo un método a cada curso. Al cabo de la experiencia se toma
una prueba escrita individual y se clasifica a los alumnos según el grado de comprensión del tema. Los
resultados se muestran en el siguiente cuadro:
Método de enseñanza
Grado de Curso 1: Curso 2: Curso 3:
comprensión Simulación Estudio de casos Exposición
Alta 16 25 12
Media 9 11 28
Baja 5 7 10
A un nivel de significación del 5%, ¿cree que la respuesta de los alumnos resulta similar bajo los tres
métodos de enseñanza?
¿Corresponde a un problema que se resuelve realizando una prueba de Independencia? Justifique.
08.- Un criador de perros de raza desea determinar si han cambiado las preferencias de la gente en
relación a las razas de perros a la hora de comprar una mascota. Se sabe que las preferencias por razas
de perros en el pasado sigue los siguientes porcentajes: 35% del público prefería la raza A; 21% la raza B;
el 16% la raza C y el resto la raza D; mientras que en el último año entre 250 individuos que compraron
como mascota un perro de raza resultó que optaron: 63 por raza A, 32 por raza B, 38 por raza C y el resto
prefirió la D.
A un nivel de significación del 5%, ¿se puede decir que la preferencia del público se ha modificado?
a. Indicar Hipótesis estadísticas
b. Seleccione una categoría, simbolice el correspondiente valor observado e indique como obtiene el
correspondiente valor esperado.
CUESTIONARIO
35
a.1.- ambas cuantitativas continuas
a.2.- ambas cuantitativas discretas
a.3.- ambas cualitativas
a.4.- al menos una cualitativa
a.5.- ninguna de las situaciones anteriores
b.- La región crítica es:
b.1.- unilateral derecha
b.2.- unilateral izquierda
b.3.- bilateral
c.- El valor esperado de la celda que se encuentra en la intersección de la primera fila con la segunda
columna se calcula como:
c.1. - eˆ12 = pˆ •2 * n1•
c.2. - eˆ12 = p ˆ 1• * n•2
c.3. - eˆ12 = pˆ 1• * pˆ •2 * n••
c.4. - Ninguna de las situaciones anteriores
En una prueba de HOMOGENEIDAD
El valor esperado de la celda que se encuentra en la intersección de la primera fila con la segunda colum-
na se calcula, si las poblaciones están ordenadas por columnas, como:
a.1. - eˆ12 = pˆ •2 * n1•
a.2. - eˆ12 = p ˆ 1• * n•2
a.3. - eˆ12 = pˆ 1• * pˆ •2 * n••
a.4. - Ninguna de las situaciones anteriores
6.- Para una dócima de bondad de ajuste se concluyó de la siguiente forma: “Con un nivel de significa-
ción del 1% se tiene evidencia suficiente para rechazar H0, por lo tanto la población de vacas Shorthorn
se puede suponer que sigue una distribución según el modelo teórico 1:2:3, en la población bajo estu-
dio”. Seleccionar el ítem correcto y justificar su respuesta.
a.- la conclusión es correcta
b.- la conclusión esta incompleta ya que le falta detallar las categorías del modelo
c.- la conclusión esta incompleta ya que le falta detallar la variable en estudio
d.- b y c son correctas
e.- ninguna de las anteriores
7.- Seleccionar la respuesta correcta, el estadístico de prueba en la dócima de Chi-cuadrado siempre
toma valores
a.- no negativos
b.- entre 0 y 1
c.- mayores o iguales al valor crítico
d.- menores o iguales al valor crítico
8.- Escribir para cada situación: H0, variable pivotal y región crítica
• Las calificaciones categorizadas en libres, regulares y promociones no están balanceadas en la
población correspondiente a los alumnos de estadística.
H0: ..................................................................................................................................................
Variable pivotal: ...............................................................................................................................
Región crítica: .................................................................................................................................
• Aprobar o desaprobar un examen final no está asociado a sí el presidente de mesa es el titular, el
adjunto o el jefe de trabajos prácticos en la población correspondiente a los alumnos de estadística.
H0: ..................................................................................................................................................
Variable pivotal: ...............................................................................................................................
Región crítica: .................................................................................................................................
36
9.- Completar
a) En una prueba de Homogeneidad se trabaja con la cantidad de .......... población/es y se registra la
cantidad de ........................ variable/es.
b) En una prueba de Bondad de Ajuste se quiere probar si una................................... se comporta
como .................. respecto a una variable aleatoria de interés.
c) Las pruebas de independencia sólo se pueden aplicar cuando al muestrear se toma la/las
.................... en forma aleatoria .
10.- Se tomó aleatoriamente una muestra y se registró presión diastólica y colesterol ambas variables
con niveles normal y alto resultando:
Presión Diastólica
Normal Alta
Normal 716 79
Colesterol
Alto 207 25
Completar:
a.- Población o poblaciones:..............................................................................................................
b.- El valor esperado de la segunda celda de la primera fila se obtiene ...............................................
37
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Objetivos específicos
• Comprender el sentido de las técnicas de regresión lineal así como su importancia en el marco de la
Inferencia Estadística para dos o más variables conjuntamente distribuidas.
• Conocer las ventajas y limitaciones de esta técnica así como los procedimientos de diagnóstico para
evaluar la calidad de los resultados obtenidos en la estimación.
• Distinguir claramente entre casos de relación funcional entre variables respecto a independencia de
variables aleatorias.
Contenidos temáticos
Concepto de regresión. Caso particular: regresión lineal simple. Diagrama de dispersión. Variable
dependiente. Modelo, supuestos. Método de mínimos cuadrados. Coeficiente de regresión: cálculo e
interpretación. Varianza del error. Prueba de hipótesis e intervalo de confianza para β. Banda de confianza
para la recta de regresión. Intervalo de predicción. Coeficiente de determinación. Aplicaciones. Regresión
múltiple: Conceptos y aplicaciones. Interpretación de análisis realizados mediante programas de
computación.
Glosario
Relación entre variables. Concepto de función. Variable dependiente e independiente. Diagrama de
dispersión. Curva aproximada de ajuste. La función lineal simple. Criterio de los mínimos cuadrados.
Concepto de error: como distancia vertical entre el punto observado y la función propuesta. Las ecuaciones
normales. Pendiente de la recta (β, coeficiente de regresión lineal). Ordenada al origen (α). Contrastes e
intervalo para β. Varianza del error. Varianza explicada (coeficiente de determinación). Partición de la
varianza total. Coeficientes de regresión parcial.
PROBLEMAS RESUELTOS
1) La siguiente tabla da los resultados del estudio de la energía metabolizada por el gorrión Passer domes-
ticus, bajo diversas condiciones de temperatura seleccionadas por el experimentador y un fotoperíodo de 10
hs. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis
Temperatura (°C) 10 12 14 16 18 20 22 24 26 28
38
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
X: Temperatura ambiente donde habita un gorrión Passer domesticus, medida en ºC; variable explicatoria,
independiente (no aleatoria)
Y: Energía metabolizada por un gorrión Passer domesticus, medida en calorías (cal); variable respuesta,
dependiente (aleatoria)
• Supuestos teóricos
Antes de comenzar el estudio, deberíamos verificar si se cumplen los supuestos requeridos:
i) Para cada valor de temperatura, existe una subpoblación de valores de energía metabolizada por el
gorrión, con distribución normal (al tener un solo valor de esta subpoblación no podemos verificarlo y
suponemos que se cumple)
ii) Los valores de energía metabolizada son independientes dentro de cada temperatura. Para
garantizar este supuesto, se toman 10 gorriones y cada uno de ellos es sometido a una de las temperaturas
ambientales
iii) Las varianzas de los valores de energía metabolizada para cada temperatura deben ser iguales (al
tener un solo valor de esta subpoblación no podemos verificarlo y suponemos que se cumple)
Solución 25
a) El diagrama de dispersión es recomendable como primer
paso del estudio de regresión, ya que nos permitirá apreciar 20
Energía metabolizada
visualmente la existencia o no de una tendencia lineal, tener
una idea sobre el tipo de relación entre las variables, y
sobre su grado de dispersión. 15
Se grafican los puntos (pares (xi;yj)) colocando la variable
independiente sobre el eje X (horizontal) y la variable 10
dependiente sobre el eje Y (vertical). Es importante elegir
escalas adecuadas y mantener las mismas para todos los
5
puntos, porque de lo contrario se desvirtúa el objetivo del
gráfico, que es dar una idea a priori de la forma de la
relación. 0
10 15 20 25 30
En este caso parecería haber una relación lineal inversa
entre la “energía metabolizada” y la “temperatura ambiente”, Temperatura
de modo tal que al aumentar la temperatura del ambiente
donde se encuentra el gorrión, disminuye la energía metabolizada por el mismo en forma lineal.
Los estimadores de mínimos cuadrados de los parámetros (son los que se obtienen al hacer mínima
∑εi = ∑( Yi - α - βXi )
2 2
son: αˆ = a y βˆ = b
Por lo tanto Yˆi = a + bxi es la recta estimada
•
2 2
Información muestral: ∑xi = 190; ∑xi = 3940; ∑yi =193; ∑yi = 3863; ∑xi yi = 3464
193 190
a =Y -b X = - -0.62 = 19, 3 + 0, 62 *19, 0 = 31, 08
10 10
39
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Gráfico
25
20
Energía metabolizada
15
10
0
10 15 20 25 30
Temperatura
c) Lo planteado en esta parte se responde resolviendo una prueba cuyas hipótesis son:
H0: β ≥ 0
H1: β < 0
Para encontrar el estadístico de prueba adecuado, tenemos en cuenta que el parámetro en estudio es
β, y que su estimador es b, cuya expresión se obtiene por el método de mínimos cuadrados.
Resulta que: E(b) = β por lo que b es estimador insesgado de β, y además b ∼ N (β , σβ ), lo cual puede
2
verse intuitivamente observando la fórmula de b, dado que los xi son valores constantes y que los yi tienen
distribución normal.
Por lo tanto, estandarizando a b, obtenemos
Z = b - β ∼ N (0 , 1)
σβ
Considerando que desconocemos la varianza poblacional, y el caso general en que la variable respuesta
sea aproximadamente normal, tenemos como estadístico de prueba:
b-β
t= ~t
( n -2)
Sb
El nivel de significación es α = 0,05
La región crítica (RC) es unilateral izquierda: t8 ≤ -1,86 (Valor crítico: -t(8;0,95) = -1,86)
Se2
La varianza muestral de b es: Sb2 =
(∑ X )
2
∑X 2
-
n
40
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
1 (∑ Y ) 2 2 (∑ X ) 2
S e2 = ∑ Y 2 - - b ∑ X 2 -
n-2 n n
Luego, tomando la información muestral:
1 (193) 2 (190 ) 2
S e2 = 3863 - - (-0, 62 ) 2 3940 -
10 - 2 10 10
-0, 62
t Ho =
= - 9, 4946
0, 0653
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: β ≥ 0), es
decir β < 0. Se puede concluir que por cada aumento de temperatura ambiente en 1ºC hay una disminución
de la energía media poblacional metabolizada por los gorriones, en calorías, en esta población de gorriones
Passer domesticus.
d) Para el cálculo del intervalo de confianza para β, se toma como variable pivotal el estadístico de prueba
que se utilizó en la dócima para ese parámetro, y su construcción es similar al de todos los intervalos
simétricos.
En este caso, calculamos el intervalo de confianza del 95% para β:
Conclusión: Con una confianza del 95%, se espera que el intervalo [- 0,78 cal/°C; - 0,46 cal/°C] cubra al
verdadero valor del coeficiente de regresión, en este caso la modificación o cambio de la energía media
metabolizada (cal) por los gorriones al aumentar en 1°C la temperatura ambiente, en la población de
gorriones Passer domesticus.
yi - y : desvío total
ŷ i - y : desvío debido a la regresión
yi - ŷ i : desvío debido al error muestral o residuo (ei = yi - ŷ i error muestral)
41
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
2 2 2
∑(yi - y ) = ∑( ŷ i - y ) + ∑(yi - ŷ i)
SCtotal = SCregresión + SCresidual
Luego:
SCregresión 126, 85
= = 0, 91 es la proporción explicada por el modelo estimado.
SCtotal 138,10
SCresidual 11, 25
= = 0,09 es la proporción no explicada por el modelo estimado.
SCtotal 138,10
2 SCregresión
f) Se define: R =
SCtotal
Como se vio en el punto anterior, expresa la proporción de la suma de cuadrados total explicada por la
regresión. Es una medida muestral.
2
En este caso: R = 0,91
Interpretación: El 91% de la variabilidad total de la variable respuesta es explicada por la regresión en la
variable explicatoria, en la relación dada por el modelo estimado. En este caso, el 91% de la variabilidad
de la energía metabolizada (cal) es explicada por la temperatura (°C) a la que están sometidos los
gorriones Passer domesticus, según el modelo estimado: ŷ = 31,08 + 0,62 ⋅ x
g) Si R² = 0,91 es una medida de la variabilidad de la variable respuesta que es explicada por el modelo
estimado, teniendo en cuenta que 0 ≤ R ≤ 1, su complemento, 1 – R , es una medida de la variabilidad
2 2
h) La estimación puntual de E(Y) para X=25°C es: Yˆ( X = 25) = 31, 08 - 0, 62(25) = 15, 58 cal, (teniendo en
cuenta el modelo estimado en el punto b).
La estimación mediante un intervalo de confianza se realiza empleando la fórmula:
1 ( X ′ - X )2
a + b′X m t n - 2;1 − α / 2 S e +
n ∑( X - X ) 2
donde X' es el valor de la variable X de nuestro interés, en este caso X' = 25°C.
1 (25 -19) 2
31, 08 - (0, 62) 25 m 2, 306 1, 405 + = 15,58 ± 2,306 * 0,54
10 330
En consecuencia: L.I. = 15,58 - 1,25 = 14,33 cal
L.S. = 15,58 + 1,25 = 16,83 cal
Conclusión: Con una confianza del 95%, se espera que el intervalo (14,33 cal; 16,83 cal) contenga al
verdadero valor medio de la energía metabolizada por la población de gorriones Passer domesticus cuando
la temperatura ambiente es de 25°C.
42
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
1 ( X ′ - X )2
a + bX ′ m tn -2;1−α / 2 S e 1 + +
n ∑( X - X ) 2
donde X' es el valor de la variable X de nuestro interés, en este caso X' = 21°C.
1 (21-19) 2
31, 08 - (0, 62) 21 m 2, 306 1, 405 1 + + = 18,06 ± 2,306 * 1,25
10 330
En consecuencia: L.I. = 18,06 - 2,88 = 15,18 cal
L.S. = 18,06 + 2,88 = 20,94 cal
Es decir el intervalo de predicción del 95% para el valor de la energía metabolizada por un gorrión Passer
domesticus sometido a una temperatura ambiente de 21°C se esp era que se encuentre en el intervalo (15,18
cal; 20,94 cal).
2) Con el objeto de estudiar el efecto del tratamiento con estrona sobre el peso uterino de ratas hembra, un
conjunto de ratas se dividió aleatoriamente en grupos y a cada grupo se le administró una dosis diferente de
estrona. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis
Después de cierto tiempo se observó el peso del útero de una rata, tomada al azar, para cada una de las
dosis, expresado en mg.
Dosis (µg) 4 6 8 10 12 14 16 18 20 22
Peso (mg) 12,4 14,8 15,2 16,9 19,1 19,9 20,2 21,0 18,7 20,9
43
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Solución
a) Modelo teórico propuesto: E(Y) = α + βX
Los valores correspondientes a los estimadores de los parámetros del modelo pueden extraerse de la
tabla: “Coeficientes de regresión y estadísticos asociados”, columna “Est.”
El valor de a es el que corresponde a “const” (constante), en este caso es de 12,26, y el valor de b es el
que corresponde al nombre de la variable independiente (por ser el coeficiente que la multiplica), en este
caso es “Dosis”, y su valor es de 0,43.
Interpretación:
a = 12,26 mg, por lo tanto, el peso medio estimado del útero de las ratas con dosis 0µg, es decir sin
haber recibido tratamiento con estrona es 12,26 mg.
b = 0,43 mg/µg, indica que al aumentar la dosis de estrona en un µg, el peso medio estimado del útero
de las ratas aumenta en 0,43 mg.
La variable pivotal a usar es F de Snedecor, que, bajo la hipótesis nula, es el cociente de dos varianzas
que provienen de variables independientes, cada una con distribución χ :
2
CMregresión CM DOSIS
F= ∼ F1, n-2 ; en este caso F= ~ F1,8
CMresidual CM ERROR
Si F es grande (F>1), esto equivale a que CMregresión > CMresidual entonces es mayor la variabilidad debida
a la regresión que la debida a los residuos, por lo tanto se rechaza la hipótesis nula y la regresión es
significativa (β≠0).
Si F es chico (F≤1), esto equivale a que CMregresión ≤ CMresidual entonces es mayor o igual la variabilidad
debida al residuo que la debida a la regresión, por lo tanto no se rechaza la hipótesis nula y la regresión es
no significativa (β=0).
44
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: ß=0), por lo
tanto se puede concluir que por cada aumento de la dosis de estrona en 1µg hay una modificación del peso
medio poblacional del útero de las ratas, en mg, en la población de ratas hembra.
Esta decisión también la podemos tomar utilizando el p-valor que aparece en la tabla de Análisis de
Varianza. En este caso, p-valor=0,0005<0,05, por lo que RECHAZO H0 y concluimos que hay diferencias
significativas que nos permiten rechazar a la hipótesis nula. Otra forma de expresarlo es: p<0,05, que
corresponde a la comparación con el valor que toma el nivel de significación en este problema. Esta
última expresión se utiliza en las conclusiones de trabajos de investigación, y generalmente figura entre
paréntesis.
25.0 25.0
20.0 22.0
15.0 19.0
Peso
Peso
10.0 16.0
5.0 13.0
0.0 10.0
0 5 10 15 20 25 0 5 10 15 20 25
Dosis
Dosis
Estos gráficos fueron hechos con distintas escalas para el eje Y. Al respecto debemos hacer notar que:
la recta solamente está graficada para los valores de X que consideramos en el problema, o sea en
el intervalo [4; 22].
se ve modificada (falsamente) la pendiente, ya que por cálculos b=0,43, sea cual sea el gráfico.
2
R = 0,80 se ve mejor reflejado en el primer gráfico que en el segundo.
c) Este intervalo de confianza también puede leerse de la tabla “Coeficientes de regresión y estadísticos
asociados”, donde figuran LI (límite inferior) y LS (límite superior), en este caso los correspondientes a
“Dosis”, valores calculados para un nivel de confianza del 95%. Luego: [0,26 mg/µµg ; 0,61 mg/µ
µg]] es el IC
del 95% para β.
Con un nivel de confianza del 95%, espero que el intervalo [0,26mg/µg ; 0,61 mg/µg] contenga al
cambio del verdadero valor del peso medio del útero de las ratas hembra al aumentar la dosis de estrona en
un µg, en la población de ratas hembra.
d) Este intervalo se lee en la misma tabla que el anterior, en la fila correspondiente a “const”. Luego: [9,73
mg ; 14,79 mg]] es el IC del 95% para α.
Con un nivel de confianza del 95%, espero que el intervalo [9,73 mg ; 14,79 mg]] contenga al
verdadero valor del peso medio del útero de las ratas hembra que no recibieron tratamiento con estrona.
2
e) En la salida de computadora tenemos también información sobre el valor de R , calculado con los datos de
la muestra. El que nos interesa es el primero, por lo tanto es 0,80. La interpretación correspondiente es: El
80% de la variabilidad del peso del útero es explicada por la dosis de estrona aplicada a las ratas
hembra, según el modelo estimado: yˆ i = 12, 26 + 0, 43 xi .
45
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Y X1 X2 Y X1 X2 Y X1 X2
15 0 21 35 1 25 50 3 44
15 0 18 40 1 26 60 3 51
21 0 22 35 2 34 45 4 39
28 1 24 30 2 25 60 4 54
30 1 25 45 2 38 50 5 55
Solución:
a) Modelo teórico: E(Y)= α + β1 X1 + β2 X2
Ecuación del plano estimado: ŷ = 2,09 + 0,06 x1 + 1,05 x 2 , extraída de la salida de computadora
Interpretaciones
b1 = 0,06 días/número de admisiones previas. Indica que para cada edad fija, al aumentar en 1 el número
de hospitalizaciones previas, el tiempo medio estimado de hospitalización aumenta 0,06 días (≅ 1
hora) en los pacientes de enfermedades crónicas de un hospital
b2 = 1,05 días/año de edad. Indica que para un número de admisiones previas fijo, al aumentar en 1 año
la edad del paciente, el tiempo medio estimado de hospitalización aumenta 1,05 días (≅ 1 día) en los
pacientes de enfermedades crónicas de un hospital
a = 2,09 días. Indicaría el tiempo medio estimado de internación en un hospital para enfermedades
crónicas para pacientes recién nacidos (edad cero) y sin internaciones previas, sin sentido biológico.
46
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
b) Análisis de Regresión
H 0 : β1 = β 2 = 0
Hipótesis conjunta
H1 : algún β i ≠ 0 con i = 1, 2
F = CMREGRESION / CMRESIDUAL ~ F2, n-3
Decisión: p < 0.0001 (o F=34.08) por lo tanto se rechaza H0, el resultado es significativo.
Conclusión: Con un nivel de significación del 5% se tienen evidencias suficientes para rechazar H0
(H0:β1=β2=0), por lo tanto algún βi ≠ 0, la regresión conjunta con las variables explicatorias número de
admisiones previas y edad del paciente es significativa; o sea que al aumentar conjuntamente, en una
unidad, el número de admisiones previas y la edad, se modifica el tiempo medio poblacional de
hospitalización de los pacientes en este hospital de enfermedades crónicas. El modelo propuesto parece
aceptable para explicar la duración de la internación en pacientes crónicos en este hospital.
Hipótesis individuales
H 0 :β1 = 0
Para X1 Hipótesis estadística t = b1 / s b1 ~ t
H1:β1 ≠ 0
n-3
H 0 :β 2 = 0
Para X2 Hipótesis estadísticas t = b2 / s b2 ~ t n-3
H1:β 2 ≠ 0
o
Rechazo H0 si p-valor ≤ 0,05 [donde p-valor = P(|t| >tHo) = P(t>tHo)+P(t<-tHo)]
No rechazo H0 si p-valor > 0,05
Conclusión final: Si bien el modelo propuesto para la duración de las internaciones en pacientes crónicos
en función del número de internaciones previas y de la edad del paciente resultó adecuado, parecería que el
tiempo de internación está afectado en forma significativa por la edad y no por la cantidad de internaciones
previas en los pacientes de este hospital de enfermedades crónicas.
47
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
2
c) Coeficiente de determinación: R = 0,85
El 85% de la variabilidad total del tiempo de internación en los pacientes de un hospital de enfermeda-
des crónicas está explicada por el número de internaciones previas (X1) y la edad del paciente (X2) con-
juntamente, según la relación dada por el modelo estimado ŷ i = 2,09 + 0,06 x1i + 1,05 x 2i .
PROBLEMAS PROPUESTOS
04.- Para analizar el rendimiento (en toneladas) de una pastura en función de la cantidad de agua aplicada
(riego artificial en mm) se realizó un experimento con 10 parcelas. Considere que se verifican todos los
supuestos teóricos necesarios para realizar el análisis. Los resultados se muestran en la tabla siguiente:
Agua 12 18 24 30 36 42 48 54 60 66
Rendimiento 5 6 6 7 8 9 8 8 9 9
LI
LS
Seleccione la opción correcta para concluir: Con un nivel de confianza del 95%
i) se espera que el intervalo [ ; ] contenga al rendimiento medio de la pastura sin riego artificial en la
población en estudio
ii) el intervalo [ ; ] cubre al verdadero valor del rendimiento medio de la pastura sin riego artificial en la
población en estudio
iii) se espera que el intervalo [ ; ] cubra al valor medio poblacional del rendimiento de la pastura sin riego
artificial
iv) se espera que el intervalo [ ; ] cubra al valor medio poblacional del rendimiento de la pastura sin riego
artificial en la población en estudio
g) Predecir el rendimiento de la pastura con un riego artificial de 50 mm con una confianza del 95%.
Fórmula Reemplazo de valores
LI
LS
05.– La siguiente tabla registra datos correspondientes a concentraciones conocidas de β-eritroidina (C, en
mg/ml) en una solución acuosa, y la lectura de la turbidez de la solución correspondiente (L) registrada en un
colorímetro.
48
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
ci 40 45 50 55 60 65 70 75 80 85
06.- Se realizó una experiencia para analizar la influencia de la anestesia en la presión intraocular. A 10 pe-
rros que habían recibido pentobarbital como inducción anestésica, se les aplicó además, como refuerzo,
metoxifluorano por inhalación. Se controló la presión intraocular media (pi, en unidades de presión), cada
cinco minutos una vez comenzada la inhalación (ti, en minutos).
ti 5 10 15 20 25 30 35 40 45 50
pi 25,1 29,2 27,7 24,9 22,1 19,6 19,1 18,8 17,9 17,7
Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis
a) Indicar e interpretar el modelo lineal que se propone
b) Estimar los coeficientes para el modelo propuesto y expresar dicho modelo
c) Indicar los supuestos que deben tenerse en cuenta, en este caso, para poder hacer inferencia a la
población en estudio
d) Estimar el coeficiente de regresión puntualmente y con una confianza del 95%
Cuestionario
1.- Dadas las variables X1: longitud y X2: peso, dentro del contexto de un análisis de Regresión proponga:
a.- hipótesis de trabajo
b.- experimento (sea claro al comentar las acciones que realiza)
c.- supuestos teóricos en este caso (No en forma genérica)
d.- significado biológico de el o los parámetros poblacionales en estudio.
2.- Si en un análisis de regresión lineal simple al estimar β se obtiene que b = 2, ¿puede afirmar que la
regresión es significativa? ¿por qué? Explique de qué depende que se concluya "es significativo".
3.- Si debe elegir entre dos variables independientes o explicatorias (X1 o X2) para predecir la variable
aleatoria Y, y mediante dos muestras independientes estima ambas regresiones. ¿En qué se basa para
seleccionar la mejor variable explicatoria? ¿Por qué?
4.- En un modelo de regresión lineal, ¿mediante qué método obtiene los estimadores de los parámetros
poblacionales? Explique brevemente el método, NO LAS FÓRMULAS.
5.- En un Análisis de Regresión Lineal Simple considerando un valor de Y por cada valor de X:
a) ¿Cuál es el parámetro más importante? ¿Qué significa? Expréselo en términos de un problema
propuesto por Ud.
b) ¿Cuál es la descomposición de la suma de cuadrados (SC) que se puede realizar a partir de una
observación? Indicar gráficamente dicha partición señalando a qué parte de la suma de cuadrados da
origen cada una de ellas.
c) ¿Por qué en el Análisis de Varianza para la Regresión Lineal la región crítica es unilateral derecha?
d) El estadístico al que se hace referencia, ¿qué relación tiene con la distribución t-Student?
49
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
2
6.- Relacione los siguientes gráficos con posibles valores de R , suponiendo que el gráfico representa la
situación promedio de los desvíos presentados.
A) Y B) Y C) Y
Ŷ
Ŷ
Ŷ
Y Y Y
50
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Objetivos específicos
• Comprender la importancia de las aplicaciones del análisis de la varianza.
• Adquirir vocabulario específico y manejar algunos métodos del Diseño Experimental.
• Aplicar análisis de la varianza paramétrico y no paramétrico, según corresponda, en casos relativos
al campo profesional del veterinario.
Contenidos temáticos
Concepto de Modelo. Supuestos. Método de mínimos cuadrados. ADEVA para DCA. Prueba de hipótesis
para comparar valores medios de más de dos tratamientos. Análisis de varianza de una clasificación por
rangos de Kruskal-Wallis. Aplicaciones. Interpretación de análisis realizados mediante programas de
computación.
Glosario
Diseño completamente aleatorizado (DCA). Modelo estadístico. Análisis de la varianza (ADEVA) para un
DCA, Modelo I. Pruebas de Hipótesis. Suma de cuadrados. Cuadrado medio. Varianza. Análisis de
varianza Kruskal-Wallis. Rango. Variables al menos ordinales. Mediana.
PROBLEMAS RESUELTOS
1) Para comparar cuatro suplementos “de engorde” en bovinos para carne, se seleccionaron, al azar,
cuarenta animales Hereford de iguales edad y sexo, y de pesos homogéneos para ser usados en un
experimento. Los suplementos a comparar se definieron sobre la base de las características del grano de
maíz empleado (“entero” o “partido”) y la fuente comercial de vitaminas y minerales (“A” y “B”). Entonces
el suplemento 1 (S1) estuvo constituido por grano partido y fuente A, mientras que el suplemento 2 (S2)
por grano partido y fuente B, el suplemento 3 (S3) por grano entero y fuente A, y el suplemento 4 (S4)
por grano entero y fuente B. Se asignaron aleatoriamente 10 animales por suplemento, los que fueron
alimentados individualmente con una dieta estándar más el correspondiente suplemento durante 80 días.
La variable en estudio (o respuesta) fue la eficiencia de conversión (EfCon) individual (kg Materia Seca/
kg Ganancia de Peso) cuyos registros se presentan en la siguiente tabla:
S1 S2 S3 S4
3,3 4,6 6,7 6,3
4,4 4,5 5,8 6,0
4,9 5,0 5,0 6,7
4,9 4,0 4,8 5,5
3,9 4,5 5,3 6,6
4,2 5,2 6,2 6,1
4,7 4,9 5,0 5,3
5,1 5,5 6,4 6,5
4,6 4,8 5,9 6,3
4,5 5,3 5,4 6,8
Solución
a.- ¿Cuál es el objetivo del experimento?
Objetivo: comparar cuatro suplementos “de engorde”.
51
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Los suplementos se definieron sobre la base de las características del grano de maíz empleado (“entero”
o “partido”) y la fuente comercial de vitaminas y minerales (“A” y “B”) quedando constituidos por:
Suplemento 1 (S1): grano partido y fuente A
Suplemento 2 (S2): grano partido y fuente B
Suplemento 3 (S3): grano entero y fuente A
Suplemento 4 (S4): grano entero y fuente B.
b.- ¿Cuál fue la unidad experimental? ¿En qué condiciones se desarrolla el experimento? ¿Qué se regis-
tra?
Unidad experimental: un bovino raza Hereford.
Condiciones en que se desarrolla el experimento: 40 bovinos de raza Hereford de iguales edad y sexo, y
de pesos homogéneos, alimentados individualmente con una dieta estándar más el correspondiente su-
plemento durante 80 días. Se asigna al azar igual cantidad de bovinos a cada dieta.
Variable respuesta: Eficiencia de conversión (EfCon) de un bovino (kg Materia Seca/ kg Ganancia de
Peso).
d.- ¿qué puede decir con respecto a la validez del DCA paramétrico?
Supuestos teóricos
Antes de realizar el estudio, deberíamos verificar si se cumplen los supuestos requeridos:
i) Las observaciones de eficiencia de conversión son independientes por como se ha diseñado el
experimento.
ii) Para cada tratamiento existe una subpoblación de valores de Eficiencia de conversión por los bovinos
Hereford de sexo, edad y peso inicial semejantes con distribución normal e igual varianza.
Este supuesto se puede probar y/o observar a partir de:
a) la variable respuesta
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola) EfCon por tratamiento
S1 10 4,45 0,54 0,92 0,5174
S2 10 4,83 0,45 0,97 0,9167 6,97
S3 10 5,65 0,65 0,92 0,4806
S4 10 6,21 0,50 0,90 0,3451 6,01
EfCon
b) los residuos (diferencia entre valor observado y valore esperado bajo el modelo propuesto)
Cuando se tienen pocas observaciones por tratamiento es mejor probar el supuesto de normalidad a partir de
los residuos, pues si el modelo es:
Yij = µi + εij para i=1, 2, 3, 4; j=1, 2, …, 10
Donde:
Yij es Eficiencia de conversión registrada en el j-ésimo individuo que recibió la i-ésima dieta.
µi : Eficiencia de conversión media de la i-ésima dieta en bovinos de raza Hereford
52
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
εij: variable aleatoria no observable correspondiente a la respuesta propia del j-ésimo bovino de raza
Hereford que recibió la dieta i-ésima.(ε ~ N(0, σ )).
2
2,18
n= 40 r= 0,989 (RE_Ef Con)
Shapiro-Wilks (modificado)
Cuantiles obs(RE_EfCon)
Variable n Media D.E. W* p(una cola)
1,08
RE_EfCon 40 0,00 1,01 0,96 0,4386
1 ,0 7 6,01
RE_EfCon
EfCon
- 0 ,1 0 5,05
4,09
- 1 ,2 6
3,13
- 2 ,4 3 S1 S2 S3 S4
4 ,3 6 4 ,8 6 5 ,3 6 5 ,8 5 6 ,3 5
Tratam
P R E D _ E fC o n
53
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
H0 : σ 12 = σ 22 = σ 32 = σ 42 = σ 2
H1 : algún σ i2 ≠ σ 2 i=1, 2, 3, 4
Se calcula para cada observación (repetición j-ésima del i-ésimo tratamiento)) la diferencia en valor
absoluta entre su puntuación (Yij) y la mediana del grupo o nivel del factor al que pertenece (Medianai)
obteniendo así una nueva variable.
e.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%.
Debido a los supuestos realizados en los puntos anteriores, seleccionamos el ANOVA (o ADEVA) para-
métrico,
i)
Análisis de la varianza
Variable N R² R² Aj CV
EfCon 40 0,65 0,62 10,32
Nota: Cuando se rechaza la hipótesis nula, es decir todos los valores medios no son iguales, es intere-
sante comparar los valores medios poblacionales para ver cuál o cuales son diferentes. Existen diferentes
métodos de comparaciones múltiples pero esta parte del estudio escapa de los alcances de esta materia.
54
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
maíz, soja y girasol. Para ello se tomaron 8 muestras para cada tipo de aceite determinándose el conte-
nido de esculeno en mg/100 g de aceite.
a.- ¿Cuál es el objetivo del experimento?
b.- ¿Cuál fue la unidad experimental? ¿Qué se registra?
c.- ¿Qué puede decir con respecto a la validez del DCA paramétrico?
d.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%.
Solución
a.- ¿Cuál es el objetivo del experimento?
Objetivo: comparar el contenido de esculeno en aceites vegetales provenientes de maíz, maní, girasol y
soja.
c.- ¿qué puede decir con respecto a la validez del DCA paramétrico?
Se propone en ese caso el modelo Yij= µi + εij para i=1, 2, 3, 4 j= 1, 2, ....., 8
i) Los errores son independientes dado que en cada población (Vegetal) las muestras de aceite fueron
seleccionadas al azar,
ii)
Hipótesis estadísticas:
3,03 n= 32 r= 0,940 (RE_Esculeno)
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(unacola)
0,52
RE_Esculeno 32 -0,02 0,95 0,90 0,0180
iii) Para observar si se puede suponer homogeneidad de varianzas, se realiza el Test de Levene
H0 : σ 12 = σ 22 = σ 32 = σ 42 = σ 2
H1 : algún σ i ≠ σ
2 2
i=1, 2, 3, 4
55
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Como p-valor=0,4292, no rechazo H0, y se puede considerar que las varianzas de la concentración de
esculeno en los aceites vegetales de maíz, maní, girasol y soja son iguales (supuesto de
homoscedasticidad),
d.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%,
Por todo el análisis anterior no es válido utilizar un DCA Modelo 1 o fijo Paramétrico,
Por otro lado, los cuatro vegetales son independientes y la variable concentración de esculeno en aceite es al
menos de escala ordinal, por lo que selecciono la salida correspondiente a la Prueba de Kruskal Wallis.
Hipótesis estadísticas
H0 : θ12 =θ 22 =θ 32 =θ 24 =θ 2
H1 : algún θ i2 ≠ θ 2 i=1, 2, 3, 4
Es decir que se prueba si la variable concentración de esculeno en aceite tiene la misma posición para
los cuatro vegetales: maíz, maní, girasol y soja.
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 por lo que se
puede suponer que al menos alguna de las medianas poblacionales de los cuatro vegetales (maíz, maní,
girasol y soja), difiere de las restantes para la variable concentración de esculeno, en esta población de
aceites vegetales en estudio.
PROBLEMAS PROPUESTOS
3) Se realizó un ensayo para estudiar el efecto de 5 raciones sobre la ganancia de peso de novillos. Para ello
se emplearon 5 lotes de 6 animales cada uno, de la misma raza y edad. El diseño experimental fue un DCA.
Los datos corresponden a la ganancia de peso por animal expresada en kg, para el período total del ensayo.
56
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Tratamientos
1 2 3 4 5
43 54 62 61 85
49 54 55 68 83
39 50 59 62 89
41 48 57 64 91
43 51 60 68 89
46 55 56 62 82
Estadística descriptiva
Tratamientos Variable n Media D.E. Mín Máx Mediana
1 Ganancia 6 43.50 3.56 39.00 49.00 43.00
2 Ganancia 6 52.00 2.76 48.00 55.00 52.50
3 Ganancia 6 58.17 2.64 55.00 62.00 58.00
4 Ganancia 6 64.17 3.13 61.00 68.00 63.00
5 Ganancia 6 86.50 3.67 82.00 91.00 87.00
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ....................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
REGanancia 30 0.00 1.02 0.91 0.0600
57
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 30 0,05 0,00 65,82
2.07 2,08
Cuantiles observados(RE_ganancia)
1.12 1,04
RE_Ganancia
0.17 0,00
-0.78 -1,04
-1.72 -2,08
41.35 53.18 65.00 76.83 88.65 -2,08 -1,04 0,00 1,04 2,08
PRED_Ganancia Cuantiles de una Normal(2,3759E-015,1,0345)
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Ganancia 30 0,96 0,96 5,22
Cuadro de Análisis de la Varianza (SC tipo III)
F,V, SC gl CM F p-valor
Modelo 6332,80 4 1583,20 156,65 <0,0001
Tratamientos 6332,80 4 1583,20 156,65 <0,0001
Error 252,67 25 10,11
Total 6585,47 29
Tabla 4
Prueba de Kruskal Wallis
Variable Tratamientos N Medianas H p
Ganancia 1 6 43,00 27,35 <0,0001
Ganancia 2 6 52,50
Ganancia 3 6 58,00
Ganancia 4 6 63,00
Ganancia 5 6 87,00
4) Un fisiólogo estudió la función pituitaria de las gallinas ponedoras asociada a cada etapa del régimen es-
tándar para muda forzada de plumas que usan los productores de huevos con el fin de mantener a las aves
en producción. Las etapas de la dieta son cinco: (A) premuda, previa al inicio del régimen; (B) ayuno de 8
días; (C) 60 gr de salvado durante 10 días; (D) 80 gr de salvado durante 10 días; y (E) mezcla de malta du-
rante 42 días. En el estudio se utilizaron 25 gallinas elegidas aleatoriamente de la población. Todas fueron
puestas bajo la misma dieta en jaulas. Después de cada etapa, se seleccionaban aleatoriamente grupos de
cinco y se las sacrificaba. Entre los compuestos medidos, el fisiólogo estaba interesado en saber si las distin-
58
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
tas etapas afectaban la concentración de T3 en suero (medida en ng/dl). Se obtuvo como resultado el si-
guiente conjunto de observaciones:
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ....................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ........................................................................................................................................
Las hipótesis planteadas son: ........................................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
59
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Tabla 4
Prueba de Kruskal Wallis
Variable Etapas N Medias D,E, Medianas H p
T3 a 5 94,58 4,03 94,09 22,24 0,0002
T3 b 5 118,96 5,80 117,61
T3 c 5 198,65 6,11 197,18
T3 d 5 114,38 4,15 112,47
T3 e 5 84,53 4,15 83,14
2,47 2,29
Cuantiles observados(RE_T3)
1,45 1,21
RE_T3
0,13
0,42
-0,95
-0,60
-2,02
-1,63 -2,02 -0,95 0,13 1,21 2,29
a b c d e Cuantiles de una Normal(-0,0045184,1,0556)
Etapas
5) (Un experimento ilegal). Es un hecho muy conocido que casi todos los caballos que corren carreras
“cuadreras” o extraoficiales, reciben tratamientos medicamentosos que en las carreras oficiales no están
permitidos. Todos los cuidadores afirman que de otro modo no es posible competir, pero la efectividad de
esos tratamientos suele ser objeto de polémicas. A tal efecto se diseñó un experimento para comparar a
tres de tales tratamientos, con 5 caballos cada uno y un grupo testigo, sin medicar. Se utilizaron, en con-
secuencia, 20 caballos de características lo más similares posibles (en velocidad, edad, sanidad). Se
registraron en cada caso los tiempos (en segundos) empleados en una corrida a fondo sobre la distancia
clásica cuadrera de 300 metros en pista normal, con los siguientes resultados:
Estadística descriptiva
Tratamiento Variable n Media D.E. Mín Máx Mediana
1 Tiempo 5 17.78 0.15 17.62 17.96 17.70
2 Tiempo 5 17.82 0.13 17.68 18.00 17.80
3 Tiempo 5 18.34 0.11 18.22 18.50 18.30
4 Tiempo 5 18.74 0.13 18.60 18.90 18.80
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
60
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ...................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
...............................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es .............................................................................................................................
Las hipótesis planteadas son: ..............................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................
61
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
18,50
1,01
Tiempo
18,00
0,01
17,50
-0,98
17,00
-1,97 1 2 3 4
-1,97 -0,98 0,01 1,01 2,00
Tratamiento
Cuantiles de una Normal(0,014126,1,1307)
6) Interesa determinar si existen diferencias significativas entre las concentraciones medias de glucosa regis-
tradas después de aplicar diferentes drogas a conejos de cierta raza. Para ello se empleó un conjunto de 18
conejos de esa raza y se lo dividió aleatoriamente en tres grupos. Cada grupo recibió una droga diferente. Al
cabo de cierto tiempo se midió la concentración de glucosa en plasma, en mg/100 ml, y se obtuvieron los
siguientes datos:
Droga A: 94 97 84 92 95 107
Droga B: 82 73 77 81 84 73
Droga C: 91 106 102 104 107 92
Estadística descriptiva
Droga Variable n Media D.E. Mín Máx Mediana
A Concentración 6 94.83 7.47 84.00 107.00 94.50
B Concentración 6 78.33 4.72 73.00 84.00 79.00
C Concentración 6 100.33 7.06 91.00 107.00 103.00
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ....................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
...............................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ......................................................................................................................................
Las hipótesis planteadas son: .......................................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
62
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 18 0,02 0,00 91,27
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Concentración 18 0,71 0,67 7,16
Cuadro de Análisis de la Varianza (SC tipo III)
F,V, SC gl CM F p-valor
Modelo 1573,00 2 786,50 18,45 0,0001
Droga 1573,00 2 786,50 18,45 0,0001
Error 639,50 15 42,63
Total 2212,50 17
Tabla 4
Prueba de Kruskal Wallis
Variable Droga N Medianas H p
Concentración A 6 94,50 11,38 0,0033
Concentración B 6 79,00
Concentración C 6 103,00
1,08 100,00
Concentración
0,07 90,00
-0,93 80,00
-1,93 70,00
-1,93 -0,93 0,07 1,08 2,08 a b c
Cuantiles de una Normal(-0,0027137,1,1226) Droga
63
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)
CUESTIONARIO
1.- ¿Cuáles son los supuestos del Análisis de la Varianza paramétrico? ¿Cómo puede verificarlos y/o
garantizarlos?
2.- ¿Cuáles son los supuestos del Análisis de la Varianza no paramétrico? ¿Cómo puede verificarlos y/o
garantizarlos?
4.- En los problemas propuestos 5) y 6) indique los supuestos que tuvo en cuenta para elegir el tipo de
análisis adecuado.
5.- En un Análisis de la Varianza paramétrico, ¿por qué la región crítica es unilateral derecha?
64
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)
Contenidos temáticos
Concepto de correlación. Diagrama de dispersión. Coeficiente de correlación: cálculo e
interpretación. Prueba de hipótesis para ρ = 0. Correlación no paramétrica. Actividad globalizante de los
conocimientos adquiridos basándose en el estudio de casos que se presentan en la experimentación o
investigación biológica.
Glosario
Distribución bivariada (dos variables aleatorias conjuntamente distribuidas). Distribución normal
bivariada. Parámetros de esta distribución. Elipse de concentración. Asociación entre variables aleatorias
normales y no normales. Coeficiente de correlación lineal y no lineal. Aplicaciones a inferencia estadística:
Estimación y contraste.
PROBLEMAS RESUELTOS
01.- Los siguientes datos corresponden al peso vivo (PV, en Kg) y al espesor de grasa dorsal (EGD, en mm)
de 30 lechones elegidos al azar de una población de porcinos Duroc Jersey del Oeste de la provincia de
Buenos Aires:
Obs 1 2 3 4 5 6 7 8 9 10
PV 56,81 70,40 71,73 75,10 79,65 51,43 52,10 69,10 35,70 76,44
EGD 16,19 22,00 19,52 31,00 23,58 16,58 17,20 26,70 21,60 24,51
Obs 11 12 13 14 15 16 17 18 19 20
PV 27,51 67,90 51,61 69,40 48,93 55,02 62,70 84,00 67,50 58,62
EGD 16,21 13,80 16,43 33,60 25,07 20,52 26,20 11,50 21,50 27,26
Obs 21 22 23 24 25 26 27 28 29 30
PV 68,58 67,10 49,10 73,80 61,40 63,44 93,00 58,90 58,70 66,45
EGD 12,60 23,30 32,46 19,90 20,48 7,29 40,90 9,21 27,60 23,27
Como el p-valor = 0,9463>0,05 no se rechaza la hipótesis nula. Por lo tanto al 5% la variable X1 se puede
suponer que se distribuye normalmente.
Dócima de normalidad para X2 al 5%
H 0 : X 2 ~N ( µ 2 ;σ 22 )
H1 : X 2 no se distribuye normalmente
Como el p-valor = 0,2501>0,05 no se rechaza la hipótesis nula. Por lo tanto al 5% la variable X2 se puede
suponer que se distribuye normalmente.
Por lo tanto ambas variables se distribuyen normalmente y es mejor utilizar el coeficiente de Pearson, ya que
utiliza la información que proporciona la normalidad de la variable y, por esto, es un estimador más eficiente.
Es decir que, en los casos en los cuales las variables se distribuyen normalmente, aunque se pudiera usar el
coeficiente Spearman, es mejor utilizar el coeficiente de Pearson. Entonces vamos a calcular el
coeficiente de correlación lineal muestral, que estima a ρ (Rho).
( ∑ x )( ∑ x )
∑x
1i 2i
1i x 2i -
r= n
( ∑ x 1i ) ( ∑ x 2i )
2 2
∑ x 1i -
2
∑ x 2i -
2
n n
1892,1 * 647, 7
41604, 3 -
r= 30 = 0.2572
(1892,1)
2 (647, 7 )
2
124659 - × 15597, 3 -
30 30
Sabemos que el estimador del coeficiente de correlación debe ser un número entre –1 y 1, por lo tanto este
valor está en el rango apropiado de valores.
66
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)
c) Para responder a esta pregunta debemos realizar la dócima correspondiente cuyas hipótesis son:
Como no nos dice asociación positiva o asociación negativa, se plantea igual versus distinto.
r n-2
Estadístico de prueba: t = ~ t n-2
1-r 2
Región crítica: Para este punto vamos a necesitar los valores críticos, son dos por que la región crítica es
bilateral, y van a estar determinados por tn − 2,α / 2 y tn − 2,1−α / 2 . En este caso, t28;0,025 y t28;0,975 . Valores Críticos:
t28;0,025 = -2,048 y t28;0,975 = 2,048. Región Crítica: t ≤ -2,048 conjuntamente t ≥ 2,048
Conclusión: Al nivel de significación del 5%, no hay evidencias suficientes para rechazar H0
(H0:ρ=0), por lo tanto no existiría asociación lineal poblacional entre el peso vivo y el espesor de grasa dorsal
en los lechones Duroc Jersey del Oeste de la provincia de Buenos Aires.
Coeficientes de correlación
Correlación de Pearson: coeficientes\probabilidades
PV EGD
PV 1,00 0,17 p valor
EGD 0,25 1,00
Valor de r
02.- Al finalizar el primer año de un programa de promoción de la salud aplicado a los habitantes de la
ciudad de Córdoba se tomaron mediciones de algunas variables de interés en una muestra aleatoria de 8
(ocho) hombres de dicha ciudad. Se quiere saber si la concentración de colesterol (X1) y la concentración
de ácido úrico (X2), ambas medidas en sangre, están correlacionadas en forma inversa al 5%. Los datos
obtenidos se muestran en la siguiente tabla:
X1 269 279 248 318 318 254 263 320
X2 43 65 78 73 71 69 67 45
67
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)
Solución:
Para poder resolver esta situación hay dos posibilidades, utilizar el coeficiente de correlación de
Pearson o el de Spearman. Las variable en estudio, en este caso, cumplen con el supuesto teórico de
Spearman, ya que ambas variables (concentración de colesterol y concentración de ácido úrico) son al
menos ordinales (es decir que tienen un orden natural porque son números). Sin embargo podríamos
docimar la hipótesis de normalidad, para ver si se cumple el supuesto de Pearson
Como el p-valor = 0,0463<0,05 se rechaza la hipótesis nula. Por lo tanto al 5% la variable X1 no se puede
suponer que se distribuye normalmente.
Como el p-valor = 0,0196<0,05 se rechaza la hipótesis nula. Por lo tanto al 5% la variable X2 no se puede
suponer que se distribuye normalmente.
Como estas variables no cumplen con el supuesto para utilizar Pearson vamos a utilizar Spearman.
Cálculo: Para calcular el valor del estadístico se utilizarán los órdenes o rangos de los datos muestrales
sabiendo que:
ui: rango correspondiente a la observación “i” de la variable X1.
vi: rango correspondiente a la observación “i” de la variable X2.
68
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)
Conclusión: Con un nivel de significación del 5%, no se tienen evidencias suficientes para rechazar H0 (H0: X1
y X2 no están asociadas inversamente), por lo tanto se puede concluir que la concentración de colesterol y la
concentración de ácido úrico en sangre no estarían asociadas inversamente la población de hombres de
la ciudad de Córdoba.
Salida del programa InfoStat
Coeficientes de correlación
Correlación de Spearman: coeficientes\probabilidades
X1 X2
X1 1,00 0,44
X2 -0,29 1,00
PROBLEMAS PROPUESTOS
03.- Se registra la temperatura (T) y el pulso (P) en forma simultánea a un grupo de 10 pacientes.
ti 39,0 39,9 39,5 39,0 38,7 38,4 38,0 37,5 36,9 36,7
pi 100 90 80 70 65 64 62 62 60 59
c.- Comprobar estadísticamente si existe asociación positiva entre la temperatura y el pulso, usando un nivel
de significación del 5%.
04.- Considerando que la estimación del coeficiente de correlación entre el peso al nacer y al destete en una
especie fue igual a 0,40 (r=0,40) a partir de una muestra de 20 individuos. ¿Podría afirmar que el peso al
nacer y el peso al destete están significativamente asociados? (α=0,05). Suponer que ambas variables tienen
distribución normal.
05.- Sabiendo que el contenido de celulosa, hemicelulosa, y lignina se estudian a través de la fibra
detergente neutro (FDN) de la dieta, se quiere analizar su relación con el pH ruminal generado. Se tomaron
10 bovinos y se midieron ambas variables:
FDN 37,9 39,2 41,2 43,1 44,6 45,8 46,2 55,8 57,0 59,0
pH 5,88 5,92 6,01 6,10 5,92 6,56 5,93 6,20 6,30 6,57
69
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)
06.- El director de un centro de internación veterinaria les pide a dos enfermeros que califiquen de 1 a 100 los
pacientes internados de acuerdo a la dificultad de cuidados médicos que los mismos requieren. La siguiente
tabla tiene la respuesta de los enfermeros.
Paciente A B C D E F G H I J
Enfermero 1 9 3 15 6 100 12 18 80 21 95
Enfermero 2 25 10 35 5 50 15 28 100 40 70
¿Se puede afirmar que la opinión de estos enfermeros está asociada? ¿Qué supuesto debe hacer para
poder contestar la pregunta anterior?
07.-Se quiere analizar si existe asociación negativa entre el numero de hijos de un matrimonio (X1) y su
ingreso anual (X2 ). Se muestrearon 10 matrimonios y se obtuvieron los siguientes datos:
X1 1 8 3 2 6 2 0 4 5 6
X2 13005 11096 8720 9166 10111 12937 13734 8861 9747 9568
3.-Indicar qué método o métodos se puede/n utilizar para analizar la asociación entre cada par de
variables (S: Spearman, P: Pearson, N: ninguno)
a) X1:”Peso de un lechón al nacer”; X2: “Peso de la madre al momento del parto”. ................................
b) X1:”Longitud del fémur de un animal”; X2:”Peso de un animal”. ........................................................
70
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)
4.- ¿Qué indica el coeficiente de correlación lineal? ¿Cuál es su rango de valores posibles? Proponer un
ejemplo donde sospeche que existe correlación negativa. Indicar cómo selecciona los individuos en
estudio, qué registra en cada uno de ellos y cómo se interpreta en caso de rechazar la hipótesis nula a un
cierto nivel?
5.- ¿Cuándo se utiliza el análisis de correlación? ¿Cuántas muestras son necesarias para dicho estudio?
Proponer un ejemplo donde se especifique: cómo se muestreó, algunos valores de la muestra, las
variables y supuestos teóricos que deben cumplirse para realizar dicho estudio.
71
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
PROBLEMAS COMPLEMENTARIOS
UNIDADES TEMÁTICAS 1 y 2
01.- Dos analistas, X e Y, midieron la dureza del agua en una ciudad. Se desea comparar si los resultados
de X e Y son similares, por lo cual se toma una muestra, de tamaño 10, de agua de distintas regiones de
la Ciudad de Buenos Aires. Cada analista midió las 10 muestras. Estime un intervalo de confianza del 95%
para la media de las diferencias entre estos dos analistas. ¿Qué supuesto debe hacer para poder realizar
el intervalo?
xi 0,46 0,62 0,37 0,40 0,44 0,58 0,48 0,53 0,59 0,68
yi 0,72 0,61 0,73 0,51 0,33 0,48 0,43 0,35 0,67 0,78
02.- En un estudio sobre llamadas de apareamiento, realizado en el sapo arbóreo (Hyla ewingi), se estimó
en Tasmania, en una muestra de 29 observaciones, que la duración de las llamadas tenía una media de
189 ms (milisegundos) y un desvío estándar de 32 ms; y en Bristbane, en una muestra de 31
observaciones, una media de 216 ms (milisegundos) y un desvío estándar de 28 ms. a) Estime un
intervalo de confianza del 95% para el cociente de varianzas. b) Asumiendo igualdad de varianzas, pruebe
la hipótesis: “el tiempo de llamada del sapo arbóreo es mayor en Britsbane que en Tasmania”.
03.- A 300 pacientes que sufrían una enfermedad se los dividió al azar en tres grupos iguales de 100
pacientes cada uno. A cada grupo se le asignó, al azar, uno de los siguientes tratamientos: a) estándar, b)
nuevo, y c) placebo. Durante la primera semana de tratamiento, en el primer grupo se recuperaron 78
pacientes; en el segundo grupo se recuperaron 90; y en el grupo placebo, se recuperaron 55. Probar si
existen diferencias significativas entre tratamientos al 5%
04.- En un experimento, se compararon las propiedades hipnóticas de dos drogas A y B. Para ello se
midió, con cada una de las drogas, la cantidad de horas ganadas en sueño por cada sujeto. La aparente
superioridad de la droga B, ¿puede ser atribuida a las diferencias entre los sujetos? (α=0,05)
SUJETO 1 2 3 4 5 6 7 8 9 10
DROGA A 2,2 3,5 1,7 4,4 2,8 1,6 2,5 2,0 2,4 2,9
DROGA B 5,3 4,8 5,9 2,3 6,7 5,0 6,1 4,3 4,9 6,0
Realizar el análisis estadístico suponiendo que las drogas se aplicaron:
a) a dos grupos diferentes de sujetos (asumir homogeneidad de varianzas).
b) a los mismos sujetos (en orden aleatorio y dejando transcurrir un tiempo prudencial).
05.- Hay dos formas de abordar el abdomen al realizar castraciones en gatas, por el flanco y por línea
media. Para saber si hay alguna preferencia por una de estas entre los Veterinarios de la Ciudad
Autónoma de Buenos Aires, se realizó una muestra de 200 profesionales y se les preguntó que abordaje
prefieren. Resultó que 113 de los encuestados prefieren por el flanco mientras que los restantes prefieren
por línea media. ¿Provee la información recogida evidencia suficiente que indique diferencias en la
preferencia de estos abordajes? (α=0,05).
06.- Un experimentador quiere probar si un nuevo probiótico reduce la mortandad en pollitos parrilleros.
Para esto, de manera experimental, mantiene a 200 pollitos en jaulas individuales y les asigna
aleatoriamente a la mitad el probiótico estándar y a la otra mitad el nuevo. A los 20 días, cuenta 85
sobrevivientes con el probiótico estándar y 93 con el nuevo. Pruebe si el nuevo probiótico reduce la
mortandad (α=0,05), y estime un intervalo de confianza del 95% para la diferencia de proporciones
poblacionales de sobrevivientes de ambos grupos.
07.- Se desea saber si existe relación entre el tipo de tenencia de tierra de los agricultores de la Pcia. de
Córdoba y la participación, o no, de los mismos en una cooperativa. El investigador obtiene una muestra
aleatoria de 360 agricultores de esta región y organiza la información en la siguiente tabla de contingencia:
72
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Dar conclusiones.
08.- Se realizó un ensayo sobre el rendimiento de cultivares de papa utilizando diez parcelas con plantas
sanas y nueve con plantas enfermas por el mosaico deformante. El rendimiento promedio en plantas
sanas fue de 16.042 kg/ha con un desvío de 35,21 kg/ha y en plantas enfermas se obtuvo un promedio de
12.027 kg/ha y un desvío de 42,43 kg/ha. Estimar, con una confianza del 90%, la diferencia de los
rendimientos medios poblacionales. ¿En qué supuestos teóricos se basa para realizar esta estimación?
09.- Con el objeto de orientar su propaganda a fin de neutralizar el efecto de la competencia, una empresa
productora de artículos de consumo realizó una encuesta piloto sobre la preferencia del público a
personas de cada una de las cuatro regiones del país. Los resultados son los siguientes:
Zona
Preferencia Norte Sur Este Oeste
Empresa 35 22 28 33
Competencia 45 28 12 17
¿Es la preferencia del público la misma en las distintas zonas geográficas, al nivel del 5%?
10.- Se quiere comparar la eficiencia de dos test para detectar cierto tipo de enfermedad. Para ello se
seleccionaron 200 pacientes con esa enfermedad, a 100 de ellos se les aplicó el test 1 y a los otros 100 el
test 2. En el primer caso el test dio positivo en 65 pacientes y en el segundo en 83. Construir un intervalo
de 95% de confianza para la diferencia de proporciones poblacionales de positivos.
11.- Se hizo un cruzamiento de prueba entre un conejo de Viena y una hembra blanca Neocelandesa, se
obtuvieron las siguientes frecuencias genotípicas en la descendencia:
A Pelo negro, ojos rojos 108
B Pelo negro, ojos negros 46
C Pelo blanco, ojos negros 32
D Pelo blanco, ojos rojos 14
¿Se puede considerar que la segregación de la descendencia en este tipo cruzamiento sigue una
distribución 9:3:3:1 para A:B:C:D, respectivamente, con un nivel de significación del 5%?
12.- Una muestra de 150 compradores tomada en forma aleatoria en un comercio tenía un 96% de
mujeres y una muestra de 100 compradores tomada en el local de su mejor competidor resultó contener
88% de mujeres. Construir un intervalo de confianza del 90% para la diferencia de las proporciones de
compradores femeninos.
13.- Se hicieron análisis para determinar el porcentaje de gas amoníaco en un laboratorio durante 9 días
consecutivos mediante dos métodos diferentes. La composición del gas varía notablemente de un día
para otro. Los datos obtenidos son:
73
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Método A 14 37 35 43 34 36 48 33 33
Método B 18 37 38 36 47 38 57 28 42
14.- Se ha demostrado que un alto contenido de nitrato en la composición de los alimentos da origen a
numerosos efectos nocivos. En un experimento se tomaron 16 ratas al azar de una línea, las mismas
fueron alimentadas con una dieta estándar. A 9 de ellas, elegidas al azar, se les dio de beber agua con
2000 ppm de nitrato. Luego se midió la ganancia de peso y se expresó en porcentaje:
¿Se puede concluir que la dosis de nitrato disminuye la ganancia de peso de las ratas? Justifique
estadísticamente su respuesta (α= 0,05). ¿En qué supuestos se basa para realizar el test de hipótesis?
15.- Un Veterinario sabe, por archivo de datos históricos, que en su clínica durante el mes de diciembre
los casos se distribuyen así: infecciones 50%, vacunaciones 35%, cirugías 10% y otros 5%. Durante
diciembre de 2003 se encontró con las siguientes distribución de casos: infecciones 90, vacunaciones
80, cirugías 30 y otros 20. Con un nivel de significación de 5%, ¿cree Ud. que estos datos confirman la
distribución histórica de los casos en la población durante el mes de Diciembre?
16.- Un tambero con 279 vacas en ordeñe probó un nuevo producto para prevenir problemas de
pezones. Para esto, el veterinario asignó al azar 139 vacas al producto nuevo y 140 al usado
anteriormente. Luego de las lactancias de estas vacas se comprobó que 31 de las últimas presentaron
problemas de pezones, mientras que sólo 17 de las primeras dichos presentaron problemas. ¿Qué
puede concluir con respecto a la distribución de los problemas de pezón entre estos dos tratamientos?
Concluya con un nivel de significación del 5%. Si deseara saber cual de estos dos tratamientos es
mejor, ¿qué le diría al tambero? ¿En qué basaría su respuesta?
17.- En un experimento que incluye un cruzamiento entre dos variedades de porotos (Phaseolus vulgaris),
se obtuvieron los siguientes resultados:
Fenotipos Frecuencias
Púrpura 103
Rojo 46
Ante 40
Testáceo 12
¿Cree que estos resultados, con un nivel de significación del 5%, soportan el modelo genético 9:3:3:1?
Justifique estadísticamente su respuesta.
18.- Se estudió la influencia de un nuevo fertilizante sobre el rendimiento de una oleaginosa. Como se
desea estudiar el comportamiento del fertilizante bajo distintas condiciones climáticas, se eligieron 8
estaciones experimentales ubicadas estratégicamente en una región y en cada estación se tomó una
parcela. En una mitad, elegida aleatoriamente, se adicionó fertilizante y la otra mitad de la parcela no
recibió fertilizante.
Se han obtenido los siguientes resultados expresados en kg de producción por ha:
Estación número: 1 2 3 4 5 6 7 8
Con fertilizante 810 540 930 690 710 720 840 740
Control 610 405 805 560 570 620 730 620
En función del costo del fertilizante, los productores no estarían dispuestos a invertir en fertilizante si el
74
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
aumento debido al uso es de a lo sumo 140 kg/ha. ¿Con un nivel de significación del 10%, cree que los
productores invertirán en fertilizante?
19.- Los siguientes datos indican el aumento de peso, en g, de 20 ratas elegidas al azar de las cuales la
mitad recibió proteína de maní crudo y la otra mitad de maní tostado. Probar si el tostado del maní ha
tenido efecto sobre su valor proteico (α=0,05). Suponga homogeneidad de varianzas, y tenga presente
que se sospecha que el tostado aumenta el valor proteico del maní, y que, obviamente, a mayor nivel
proteico mayor aumento de peso.
Crudo 61 61 56 63 56 63 59 56 44 61
Tostado 55 54 47 59 51 61 57 54 62 58
21.- Un grupo de investigación estudia la relación entre el tipo de sangre y el grado de cierta afección en
una población. Se toma una muestra aleatoria de 1200 individuos, y se los clasifica según grado de
afección y tipo de sangre en la siguiente tabla de contingencia:
TIPO DE SANGRE
GRADOS DE A B AB 0
AFECCIÓN
Ninguno 243 211 90 476
Leve 44 22 8 31
Severo 28 9 7 31
Los investigadores desean saber si estos datos sustentan la hipótesis de que el grado de afección y el tipo
de sangre son independientes en la población al nivel del 1%.
22.- Con el fin de probar si un tratamiento especial sobre tubos de ensayo modifica la resistencia al calor,
se realizó un pequeño experimento. De un lote de tubos se tomaron dos muestras y a una se le aplicó el
tratamiento. Luego fueron probados y registradas las resistencias al calor, obteniéndose:
NO TRATADOS TRATADOS
X = 81,4 X = 91,8
S² = 37,3 S² = 40,7
n = 15 n = 15
Estimar la diferencia entre las medias poblacionales de los tubos tratados y no tratados mediante un
intervalo de confianza del 95%. ¿Qué supuestos debe realizar para la estimación anterior?
23.- En un experimento se cruzaron conejos gigantes polacos y conejos flamencos en dos criaderos
obteniéndose 10 conejos de esa cruza en el criadero 1, y 61 en el criadero 2. Los siguientes datos
corresponden a longitudes del fémur (en mm) de los conejos resultantes de la cruza.
n X S
Criadero 1 10 83,30 1,65
Criadero 2 61 80,50 3,81
¿Es significativamente mayor la varianza de las longitudes del fémur entre conejos del criadero 2 con
respecto a los del criadero 1? Justifique estadísticamente su respuesta (α = 0,05). ¿En qué supuestos se
basa para realizar la prueba de hipótesis?
24.- Dos establecimientos dedicados al cultivo de maíz híbrido siembran en quince parcelas diferentes,
obteniendo los siguientes rendimientos (en Kg/parcela):
75
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Construir un intervalo del 99% de confianza para el cociente de las varianzas de los rendimientos
de maíz híbrido entre los establecimientos. ¿En qué supuestos se basa para realizar el intervalo
de confianza?
25.- Dos tratamientos A y B fueron asignados al azar a cada uno de dos lotes de animales tomados
aleatoriamente de una población. La respuesta registrada fue el aumento de peso, en kg, durante el
2 2 2 2
período experimental. Datos: X A =1,57g ; X B =1,89g ; nA=11 ; nB=10 ; S A=0,15g ; S B=0,12g . Calcular un
intervalo de confianza para el cociente de las varianzas (A/B) de los tratamientos, con un coeficiente de
confianza del 95%. ¿Qué conclusiones puede extraer del experimento?
26.- En un área de 30 m x 10 m sembrada con plantas de una determinada especie, se observaron 296
plantas con flor y 987 sin flor. En otra área del mismo tamaño sembrada con 1000 plantas de la misma
especie se observaron sólo 200 con flor. ¿Puede suponerse a un nivel del 1% que la proporción de
plantas florecidas es la misma en ambas áreas?
27.- Se sabe que la alta presión sanguínea es un factor que aumenta el riesgo de padecer una
enfermedad coronaria. Para estudiar la relación entre las presiones sanguíneas de padres e hijos se
tomó una muestra aleatoria de 184 pares de padres e hijos. Se les midió la presión sanguínea y se los
ubicó en las categorías baja, media, y alta; los resultados se observan en la siguiente tabla.
Presión sanguínea de los hijos
¿Existe relación entre la presión de los padres con la de los hijos? Use un valor de α=0,05.
28.- Al finalizar un curso de asistencia no obligatoria, un profesor realizó la siguiente agrupación basada
en la aprobación o no del curso y la asistencia al mismo. Usando un α=0,05 a que conclusión puede
llegar.
Número de días Resultados del Curso
ausente Aprobado Reprobado
0-3 84 5
4-6 60 8
Más de 6 10 25
29.- Si las frecuencias esperadas de genotipos en una determinada experiencia de cruzamiento son
9:3:3:1 según una hipótesis del área de genética. ¿Cree que los siguientes datos: 190, 85, 80 y 35
soportan la hipótesis? Use un α=0,05.
30.- Una medicación nueva para tratar resfriados se comparó con la medicación de más uso. Para esto
se tomó al azar un grupo de 300 individuos que padecían resfriado; a la mitad de estos, tomados al
azar, se los trató con la nueva medicación y a los otros 150 con la medicación tradicional. La opinión de
los pacientes se resume a continuación.
Opinión de los pacientes
Tratamiento Empeoró Sin efecto Mejoró Totales
Nuevo 16 30 104 150
Tradicional 20 42 88 150
Totales 36 72 192 300
76
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
31.- Se consideró una muestra de 97 niños escolarizados de 10 años que fueron clasificados según las
siguientes variables: La Conducta en Clase, que fue clasificada por los maestros en Buena (B) y No
Buena (NB) y la Adversidad Escolar en baja (b), media (m) o alta (a).
Adversidad Escolar
b m a
Conducta B 20 49 8
en clase
NB 5 11 4
Indicar:
a. Posible Hipótesis de trabajo: .................................................................................................
...................................................................................................................................................
b. Hipótesis estadística: .............................................................................................................
c. Fórmula y reemplazo para obtener el valor esperado de la celda (2;1).
Fórmula Reemplazo numérico Resultado
32.- Con el fin de comparar la efectividad de tres fármacos se seleccionaron al azar doce peces con
cierta infección viral de una población, y se los dividió aleatoriamente en tres grupos, a cada grupo se
lo medicó con un fármaco diferente y se midió la carga viral al principio y al final del tratamiento para
cada animal.
Responder:
a- La unidad experimental es ...................................................................................................
b- Los tratamientos son ...........................................................................................................
c- La observación es ................................................................................................................
d- El objetivo del trabajo es .....................................................................................................
...................................................................................................................................................
33.- Se realiza un experimento para comparar la absorción media de garrapaticida por unidad de tejido
muscular, registrándose la concentración sanguínea del principio activo. Para ello se seleccionan al
azar dieciséis perros y se los subdivide en cuatro grupos aleatoriamente. A cada uno de los subgrupos
se le asigna un producto diferente: A, B, C y D.
Responder:
a- La unidad experimental es ..................................................................................................
b- Los tratamientos son ..........................................................................................................
c- La observación es ...............................................................................................................
d- El objetivo del trabajo es ....................................................................................................
..................................................................................................................................................
34.- La columnista Ann Landers se preguntó si tener hijos valía la pena considerando los problemas
que acarrean. Le preguntó a los lectores: “Si pudiera volver a empezar, ¿valdría la pena tener hijos?”
Unas semanas después el titular de su columna era: “El 70% de los padres afirman que tener hijos no
vale la pena”, ya que el 70% de los padres norteamericanos que le escribió opinaron que si pudieran
volver a elegir no tendrían hijos. ¿Es esta conclusión válida? Justificar.
......................................................................................................................................................................
......................................................................................................................................................................
......................................................................................................................................................................
77
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
35.- Con el objeto de medir el efecto del ejercicio en enfermedades coronarias, un grupo de investiga-
dores decidió comparar el índice de enfermedad en dos grandes grupos de personas que trabajan en
los colectivos de Buenos Aires: choferes e inspectores. Los inspectores realizan más ejercicio, ya que
su actividad requiere que estén caminando gran parte del día, mientras que la tarea de los choferes es
más sedentaria. Se consideraron aquellas personas que vinieran realizando el mismo trabajo durante
los últimos 8 años y además la distribución de las edades en ambos grupos es similar. Se observó que
el índice de enfermedades coronarias entre los conductores era sustancialmente mayor.
a) Este experimento ¿es observacional o experimental? Justificar.
......................................................................................................................................................................
......................................................................................................................................................................
......................................................................................................................................................................
b) ¿Por qué cree usted que los investigadores le dan importancia a la distribución de las edades?
......................................................................................................................................................................
......................................................................................................................................................................
.....................................................................................................................................................................
c) ¿Cree que puede haber efectos confundidos no mencionados en el experimento que expliquen el
resultado obtenido?
......................................................................................................................................................................
......................................................................................................................................................................
......................................................................................................................................................................
36.- Los registros de 3000 historias clínicas muestran que los fumadores están más propensos a de-
primirse que los no fumadores.
a) ¿De qué tipo de estudio se trata? .........................................................................................
b) ¿Considera que están controlados todos los factores? .........................................................
37.- Estudios realizados en el período 1850-1900 en Estados Unidos, muestran que el promedio de
duración de los matrimonios era de 12 años.
a) ¿De qué tipo de estudio se trata? .........................................................................................
38.- La flebitis es una inflamación de las venas que altera el equilibrio hemodinámico en el individuo que
la padece, que generalmente presenta otros signos cardiológicos. Se puede producir por causas natu-
rales o artificiales como, por ejemplo, la aplicación endovenosa de ciertas drogas, ya sea por la droga
en sí misma (principio activo), o por el excipiente (vehículo).
El problema de detectar la aparición de flebitis es de particular importancia para los investigadores,
ya que se pueden prevenir complicaciones cardíacas.
Este estudio se diseñó con la finalidad primordial de buscar mecanismos para la detección temprana
de la misma. Para ello se trabajó con conejos del bioterio y se eligió como droga a la amiodarona (anti-
arrítmico), para ser aplicada por vía endovenosa, ya que como efecto colateral se observa la aparición
de flebitis en el lugar de la aplicación.
Se sospecha que un aumento en la temperatura de los tejidos cercanos al lugar de la administración
intravenosa serían señal de una inflamación inminente.
Se administraron tres tratamientos intravenosos en conejos. Estos fueron:
78
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
39.- La vida útil de las carnes refrigeradas sin cocción es el tiempo en que un corte previamente empa-
quetado es sano, nutritivo y vendible. Un paquete de estos expuesto al aire ambiental tiene una vida útil
aproximada de 48 hs, después de la cual la carne comienza a deteriorarse por contaminación de mi-
crobios, degradación del color y encogimiento. El empaque al vacío es efectivo para suprimir el desa-
rrollo de microbios; sin embargo, continúan siendo un problema los otros aspectos.
Algunos estudios recientes sugieren las atmósferas controladas de gas, como alternativa a los
empaques actuales. Dos atmósferas que prometen combinar la capacidad de suprimir el desarrollo de
microbios con la conservación de las cualidades de la carne son:
1) dióxido de carbono puro (CO2) y
2) mezclas de monóxido de carbono(CO), oxígeno (O2) y nitrógeno (N2).
Se cree que alguna forma de atmósfera controlada proporcionará un entorno más efectivo de em-
paque para el almacenamiento de carne.
En base a las siguientes preguntas previas:
a. Para reducir el desarrollo de bacterias, ¿es más efectiva la creación de una atmósfera
artificial que el aire ambiental del empaque comercial?
b. ¿Son más efectivos los gases que el vacío total?
c. ¿Es más efectivo el CO2 que una mezcla de CO, O2 y N2?
El investigador diseña un experimento a fin de responderlas, incluyendo carne envasada, con un em-
paque comercial de plástico, con:
1) aire del ambiente
2) al vacío
3) una mezcla de gases con 1% de CO, 40% de O2 y 59% de N2
4) 100% de CO2
79
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Los empaques con aire del ambiente y al vacío sirven como tratamientos de control, ya que ambos
son estándares, con cuya efectividad se puede comparar la de los nuevos empaques.
A cada conjunto de empaque se le asignaron al azar tres cortes del mismo tamaño (75 g). Cada
corte se empacó por separado en las condiciones asignadas.
Se desea, en este caso, estudiar la efectividad de cada tratamiento para suprimir el desarrollo bac-
terial. Después de nueve días de almacenamiento a 4ºC en una instalación normal, se midió el número
de bacterias sicotrópicas en la carne. Las bacterias sicotrópicas se encuentran en la superficie de la
carne y se asocian con el deterioro de la carne.
Se pide:
a) Señalar el tratamiento o factor que se analiza con sus niveles.
......................................................................................................................................................................
................................................................................................................................
b) La hipótesis del investigador es: ..........................................................................................
......................................................................................................................................................................
................................................................................................................................
c) Explicar si es un diseño experimental o cuasiexperimental, justificando adecuadamente.
......................................................................................................................................................................
................................................................................................................................
d) ¿Cuáles podrían ser las conclusiones de este experimento?
.............................................................................................................................................................................
.....................................................................................................................................
40.- En un estudio se analiza la hipótesis de que el ancho del escudo, o placa dorsal, medida en µm, de
ninfas de garrapata del conejo, Haemaphysalis leporispalustris, es mayor en regiones cálidas que en tem-
pladas. Para poner a prueba esta suposición se toma una muestra aleatoria de 10 conejos infestados por
la garrapata que pertenecen a granjas de clima cálido (Región 1), y lo mismo se hace en granjas de clima
templado (Región 2), seleccionándose, también 10 conejos infestados. Los datos obtenidos son:
Boxplot
Región 1 Región 2
300,00
225 220
220 190
250,00
240 250
145 80
200,00
Ancho
260 100
255 95 150,00
270 200
185 215 100,00
130 225
165 198 50,00
1 2
Región
Shapiro-Wilks (modificado)
Región Variable n Media D.E. W* p (una cola)
1 Ancho 10 209,50 50,14 0,89 0,2657
2 Ancho 10 177,30 61,58 0,81 0,0290
80
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
Principio activo 20 10.864 2.162543 0.964 0.6262
Placebo 20 12.300 3.537248 0.9697 0.7482
Al realizar la Prueba de homogeneidad de varianzas se obtuvo que F=0.3738, p-valor=0.0378
UNIDADES TEMÁTICAS 3, 4 y 5
01.- Se midió la producción de leche y el porcentaje de grasa en la misma, en 8 vacas elegidas al azar:
Producción (kg) 18 10 11 12 12 19 15 14
Grasa (%) 5,2 6,0 5,8 5,7 5,4 5,1 5,4 5,3
¿Puede afirmarse que la producción de leche y el porcentaje de grasa están correlacionados? Justificar la
respuesta con α = 0,05, suponiendo que las variables se distribuyen normalmente.
02.- Los siguientes valores corresponden a la edad (ei, en semanas) y la concentración de cierto mineral
encontrado en el tejido (ci, en ppm), en 10 animales.
c1 70 49 41 64 34 25 26 24 14 19
e1 82 85 83 64 82 53 26 47 37 49
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
concent 10 36.60 19.07 0.89 0.2537
peso 10 60.80 21.49 0.86 0.1320
De acuerdo con los resultados anteriores, plantear al 5% y resolver el análisis de correlación que
considere adecuado
03.- Se desea estudiar la relación entre el tiempo (ti) después de administrar 5 mg de xilocaína (anestesia
local) por kilo de peso vivo, medido en minutos, y la presión venosa (pi), en mm de mercurio, en una
muestra de 9 perros. Para ello se fijaron (determinaron) los tiempos y se observó la presión venosa.
ti 0 10 20 30 40 50 60 70 80
pi 9,41 9,07 8,81 8,40 7,93 7,38 7,36 7,21 7,01
¿Qué porcentaje de la variación total de la presión venosa es explicada por el tiempo transcurrido después
de aplicar la anestesia local?
Fórmula Reemplazo Resultado
Interpretación:..................................................................................................................................
.........................................................................................................................................................
04.- Los siguientes datos corresponden al peso branquial (bi, en mg) y al peso corporal (ci, en g), en una
muestra de 8 individuos de la población de cangrejos de mar Pachygrapsus crassipes:
81
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Probar la hipótesis de que los pesos branquial y corporal están asociados, sabiendo que ambas variables
tiene distribución normal. Justificar estadísticamente la respuesta (α = 0,01).
05.- Un estudio realizado sobre dos tipos distintos de bacterias produjo la siguiente información:
Cultivo A Cultivo B
Ŷ= 200 + 0,8 x Ŷ= 50 + 1,2 x
2
R = 0,49 R² = 0,81
donde Y es el número de colonias cada 0,1 ml y X es la cantidad de nutrientes en el caldo de cultivo,
medidos en moles/litro.
a) ¿Cuál de los dos tipos de bacteria aumenta más por incremento de la cantidad de nutrientes
introducido? Fundamentar brevemente la respuesta.
b) ¿Le resulta útil para obtener alguna conclusión el cálculo de los respectivos coeficientes de
determinación? ¿Qué indican en este caso?
06.- Diez nuevas pinturas fueron puestas en exhibición, y dos expertos en arte las ordenaron de mejor
a peor según sus criterios. ¿Existe asociación entre los puntos de vista de estos dos expertos? Use un
alfa de 0,05.
Pintura 1 2 3 4 5 6 7 8 9 10
Experto 1 4 1 9 5 2 10 7 3 6 8
Experto 2 5 2 10 6 1 9 7 3 4 8
07.- La siguiente tabla muestra el número de bacterias (bi) presentes en un cultivo después de un cierto
número controlado de horas (ti):
ti 1 2 3 4 5 6 7 8 9 10
bi 35 40 41 47 54 62 63 70 72 78
Estimar puntualmente y con un nivel de confianza del 95%, el aumento de bacterias en función del tiempo.
a) Estimación puntual
Fórmula Reemplazo Resultado
Interpretación : ................................................................................................................................
LI
LS
Interpretación : ................................................................................................................................
.........................................................................................................................................................
.........................................................................................................................................................
82
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
08.- Para estudiar la influencia de la temperatura (ti, en °C) en el ritmo cardíaco (ri, en latidos/min), en
sapos, se observaron 10 animales sometidos a temperaturas determinadas, obteniéndose los siguientes
resultados:
ti 2 4 6 8 10 12 14 16 18 20
ri 5 6 11 14 22 30 32 30 32 30
a) Representar gráficamente.
b) Estimar e interpretar la recta de regresión.
c) Indicar los supuestos necesarios, en este caso, para poder inferir a la población
d) Analizar a un nivel del 5%, si los latidos aumentan significativamente con la temperatura, planteando:
Hipótesis estadísticas ..............................................................................................................................
Región crítica ..........................................................................................................................................
Valor calculado del estadístico de prueba .................................................................................................
Decisión .................................................................................................................................................
Interpretación biológica del parámetro en estudio ....................................................................................
..............................................................................................................................................................
Población ..............................................................................................................................................
09.- Se toma una muestra aleatoria de tamaño n = 17 y se calcula el coeficiente de correlación muestral
r =0,75. ¿Es significativo al 5%? ¿En qué supuestos se basa?
10.- Los siguientes datos corresponden al tiempo de la caída del cordón umbilical (Ci, en días), con
respecto al aumento de peso del lactante (Ai, en g):
11.- Para estudiar la relación entre la edad y presión sanguínea entre bovinos, se seleccionaron 40
animales de distintas edades. Se les midió la presión sanguínea, obteniéndose los siguientes resultados:
X = edad en meses Y = presión sanguínea
ΣX = 2000; ΣY = 480; ΣX² = 104000; ΣXY = 24400; S²e = 1000
a) Definir en forma completa las variables en estudio
b) Indicar el modelo propuesto e interpretar los coeficientes
c) Estimar el modelo e interpretar lo obtenido.
d) ¿Hay evidencia estadística suficiente para decir que la edad influye sobre la presión sanguínea?
(α=0,01).
12.- Para estudiar la relación entre el número de cigarrillos fumado por día durante el embarazo y el
peso del recién nacido se tomó una muestra al azar de 15 madres que fumaron durante el embarazo.
Los datos se muestran a continuación:
83
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Madre 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cigarrillos/día 12 15 35 21 20 17 19 46 20 25 39 25 30 27 29
Peso al Nacer (Kg) 3,5 3,7 3,1 3,7 3,9 3,8 4,3 2,9 3,8 2,4 2,7 3,6 3,6 2,8 3,4
13.- Los siguientes datos corresponden al peso de la cresta (X2) y al peso del cuerpo (X1) de 10 pollos
parrilleros:
ΣX1 = 740 ; ΣX2 = 544; ΣX1² = 61790 ; ΣX2² = 39718; ΣX1 X2 = 42062
¿Puede afirmar, a un nivel del 5% que el peso de la cresta está asociado al peso del cuerpo? Las
variables se distribuyen normalmente.
14.- Los datos de la siguiente tabla corresponden a la edad (ei, en meses), prefijada por el investigador, y
a la concentración de hemoglobina en sangre (hi, en %), de un grupo de perros normales:
ei 10 11 12 13 14 15 16 17 18 19
hi 93 96 98 100 103 110 111 115 117 120
15.- En un laboratorio se realizó un estudio para analizar si la tasa de conversión alimenticia está
relacionada con el peso de los animales. Se seleccionaron al azar 6 pollos de pesos determinados
obteniéndose los siguientes datos:
Peso 35 40 45 50 55 60
Tasa Conversión 3,8 3,4 3,2 2,8 2,5 2,2
Datos: Σpi = 285; Σpi = 13975; Σti = 17,9; Σti = 55,17; Σpiti = 822,5
2 2
16.- A continuación se dan el peso, en kg, y el diámetro torácico, en cm, de 10 perros de una determinada
raza a los 10 meses de edad. Estos datos corresponden a un estudio en el que se quiere probar si existe
asociación entre estas variables.
84
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Peso (p) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Diámetro (d) 22,0 21,5 20,5 20,0 21,0 25,0 21,0 20,0 19,0 19,0
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
Peso 10 20,58 3,78 0,97 0,9373
Diámetro 10 20,90 1,74 0,88 0,2174
a) Efectuar el gráfico correspondiente.
b) Realizar el análisis estadístico que considere adecuado respecto de la información suministrada
(α=0,01).
c) Concluir.
¿Hay evidencia de alguna relación entre albúmina circulante y volumen de plasma? Justifique
estadísticamente su respuesta, planteando Hipótesis estadística, valor calculado de la variable pivotal,
decisión y población en estudio. (α = 0,01). Las variables se distribuyen normalmente.
19.- Una gran empresa quiere determinar si existe una relación negativa entre las horas perdidas por
empleado por año y la ganancia anual por empleado. Una muestra aleatoria de 16 empleados se
expone a continuación:
Empleado 1 2 3 4 5 6 7 8
Horas de Trabajo Perdidas 49 36 127 91 72 34 155 11
Ganancia Anual (en 1000$) 15,8 17,5 11,3 13,2 13,0 14,5 11,8 20,2
Empleado 9 10 11 12 13 14 15 16
Horas de Trabajo Perdidas 191 6 63 79 43 57 82 24
Ganancia Anual (en 1000$) 10,8 18,8 13,8 12,7 15,1 24,2 13,9 15,1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
h 16 70.00 51.20 0.90 0.2020
g 16 15.11 3.56 0.90 0.1618
¿Cree Ud., usando un alfa del 1%, que la empresa tiene razón?
85
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
20.- Para el estudio del crecimiento del hongo de la papa se inocularon tubos con medio de cultivo. El
crecimiento (C), en mm, se midió en determinados tiempos (T), en días, fijados por el experimentador. Se
obtuvieron los siguientes resultados:
T 2 3 5 7 9 10 12 13 15 17
C 10 15 27 35 42 50 51 66 68 72
21.- Una compañía de productos químicos desea estudiar los efectos que tiene el tiempo (t), en minutos,
en la eficiencia de una operación de extracción (e), en %, obteniendo los datos que aparecen en la
siguiente tabla:
ei 19 19 15 27 35 45 31 39 49 41
ti 46 52 57 59 62 64 68 72 77 80
Datos: Σei = 320; Σei = 11490; Σti = 637; Σeiti = 21329; Σti = 41627
2 2
22.- Para estudiar si existe relación funcional entre la estatura (E, en cm) y la longitud del radio (L, en
cm), en jóvenes varones con edades entre 12 y 18 años, se tomó una muestra de 12 de ellos, tomando
valores determinados de estatura y observando la longitud del radio. Los valores correspondientes se
ordenaron en la siguiente tabla:
E 149,0 152,0 155,7 159,0 163,3 166,0 169,0 172,0 174,5 176,1 176,5 179,0
L 21,0 21,79 22,4 23,0 23,7 24,3 24,92 25,5 25,8 26,01 26,15 26,3
23.- En un estudio se sospecha que la cantidad de folículos ovulados (fi) está asociado positivamente
con la cantidad de huevos puestos (hi), por las hembras de faisán de cuello anidado. En la siguiente
tabla se presentan los datos obtenidos de 10 hembras cautivas:
hi 39 29 46 28 31 25 49 57 51 21
fi 37 34 52 26 32 25 55 65 44 25
86
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
24.- Como parte de un estudio acerca del efecto de las presiones del grupo sobre un individuo con
respecto a una situación que involucraba riesgo monetario, los investigadores asignaron una escala
para medir el autoritarismo (ai) y otra para medir el esfuerzo por alcanzar posición social (pi), en cada
uno de 6 estudiantes universitarios. Se buscaba información acerca de la correlación entre los puntajes
de autoritarismo y los del esfuerzo por alcanzar posición social:
ai 82 98 87 40 116 113
pi 42 46 39 37 65 88
25.- Para realizar un experimento sobre engorde intensivo de novillos una estación experimental somete a
24 novillos cruza de la misma edad al siguiente experimento: los individuos son asignados aleatoriamente
a 3 grupos (1, 2 y 3) y antes de llevarlos a la pastura son inoculados con tres dosis de un novedoso anabó-
lico no esteroide. Luego de 45 días se pesan los animales obteniendo para cada uno de ellos el aumento
promedio diario de peso (en kg). Los resultados son los siguientes:
Estadística descriptiva
Dosis Variable n Media D.E. Mín Máx Mediana
1 AumPeso 8 0,44 0,12 0,20 0,60 0,45
2 AumPeso 8 0,68 0,09 0,50 0,80 0,70
3 AumPeso 8 0,74 0,11 0,60 0,90 0,75
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supues-
to)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RDUO_AumPeso 24 0,00 0,10 0,93 0,2558
87
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 24 0,07 0,00 90,85
QQ-plot
Gráfico de densidad de puntos
2,04
0,94
Cuantiles observados(RE_Peso)
0,91
0,74
AumPeso
-0,22
0,55
-1,35
0,36
-2,47
-2,47 -1,35 -0,22 0,91 2,04 0,17
1 2 3
Cuantiles de una Normal(1,0547E-015,1,0957)
Dosis
26.- En un estudio realizado sobre pacientes hipertensos con el propósito de investigar la relación del
nivel de presión arterial tomado como la presión media en un determinado período (Y, medida en mm
de Hg) con la edad (X1, en años) y el peso (X2, en kg), se obtuvieron datos de una muestra aleatoria de
20 pacientes.
88
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Y X1 X2 Y X1 X2
105 47 85,4 114 47 94,4
115 49 94,.2 115 49 94,1
116 49 95,3 114 50 91,6
117 50 94,7 106 45 87,1
112 51 89,4 125 52 101,3
121 48 99,5 114 46 94,5
121 49 99,8 106 46 87,0
110 47 90,9 113 46 94,5
110 49 89,2 110 48 90,5
114 48 92,7 122 56 95,7
Estimar la ecuación de regresión múltiple, analizar la significación de la regresión al nivel del 1%, y el
ajuste.
Análisis de regresión lineal
Variable N R² R² Aj ECMP
Y 20 0.99 0.99 0.37
Coeficientes de regresión y estadísticos asociados
Coef Est. EE LI(95%) LS(95%) T p-valor
const -16.58 3.01 -22.92 -10.23 -5.51 <0.0001
X1 0.71 0.05 0.60 0.82 13.23 <0.0001
X2 1.03 0.03 0.97 1.10 33.15 <0.0001
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 555.18 2 277.59 978.25 <0.0001
X1 49.70 1 49.70 175.16 <0.0001
X2 311.91 1 311.91 1099.20 <0.0001
Error 4.82 17 0.28
Total 560.00 19
27.- En un estudio realizado en niños sobre la relación entre la excreción de creatinina (en mg/día,
tomada como variable dependiente), el peso (en kg) y la estatura (en cm), se obtuvieron 20 datos de
niños del sexo masculino.
Y Peso Estatura Y Peso Estatura
100 9 72 86 7 64
115 10 76 80 7 66
52 6 59 65 6 61
85 8 68 95 8 66
135 10 60 25 5 57
58 5 58 125 11 81
90 8 70 40 5 59
60 7 65 95 9 71
45 4 54 70 6 72
125 11 83 120 10 75
a.- Estimar la ecuación de regresión múltiple que describe la relación entre estas variables
b.- Analizar la significación de la regresión al nivel del 5%
2
c.- Interpretar el R
d.- Explicitar el modelo teórico supuesto e interpretar los parámetros
89
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
28.- Como parte de un estudio para investigar la relación entre la tensión nerviosa y otras variables, se
reunieron datos a partir de una muestra aleatoria de 15 ejecutivos medios de una corporación. Las
variables observadas fueron:
Y: medición del estrés
X1: salario anual (x 1000)
X2: edad (años)
Y X1 X2 Y X1 X2
101 30 38 184 52 60
60 20 52 34 34 44
10 20 27 17 28 39
27 54 36 78 42 41
89 52 34 141 84 58
60 27 45 11 31 51
16 26 50 104 38 63
76 41 30
a.- Estimar la ecuación de regresión múltiple que describe la relación entre estas variables tomadas
b.- Analizar la significación de la regresión al nivel del 5%
2
c.- Interpretar el R
d.- Explicitar el modelo teórico supuesto e interpretar los parámetros
90
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
29.- Se desea saber si cuatro tratamientos antiinflamatorios utilizados en patologías articulares difieren
en cuanto a su efectividad. Se eligieron al azar 24 caballos con dicho signo clínico y se los repartió en 4
grupos de igual tamaño y a cada uno se le asigna un tratamiento distinto. Al final de un período deter-
minado, cada grupo es revisado clínicamente para cuantificar la efectividad del tratamiento y el puntaje
asignado corresponde a la reducción del área inflamada y va de 0 a 100. Se obtuvieron los siguientes
puntajes:
Tratamiento
1 2 3 4
64 76 58 95
75 81 74 90
72 90 76 80
80 80 60 87
79 89 75 85
71 85 69 89
Estadística descriptiva
Trat Variable n Media D.E. Mín Máx Mediana
1 Puntaje 6 73,50 5,89 64,00 80,00 73,50
2 Puntaje 6 83,50 5,47 76,00 90,00 83,00
3 Puntaje 6 68,67 7,89 58,00 76,00 71,50
4 Puntaje 6 87,67 5,05 80,00 95,00 88,00
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supues-
to)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ...........................................................................................................................
Las hipótesis planteadas son: ............................................................................................................
c) Decidir y concluir.
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Puntaje 24 0.02 1.05 0.88 0.0224
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 24 0,08 0,00 74,08
91
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
0,99 87,50
Efectividad
0,00
75,00
-0,99
62,50
-1,99
-1,99 -0,99 0,00 0,99 1,99 50,00
1 2 3 4
Cuantiles de una Normal(3,7007E-017,1,0435)
Tratamientos
30.- De cierto producto se tomaron 25 muestras, lo más parecidas posibles y se almacenaron bajo dife-
rentes condiciones (métodos). Se trata de ver con los datos de hidratación del cuadro adjunto si hay
diferencias significativas entre los métodos de almacenamiento en cuanto al contenido de agua (en %).
Método
A B C D E
8,30 7,90 8,10 7,40 7,60
8,10 7,10 8,50 8,50 7,70
8,40 7,90 7,82 8,50 7,90
8,30 7,80 8,30 8,50 7,98
8,40 7,68 8,15 8,22 8,10
Estadística descriptiva
Método Variable n Media D.E. Mín Máx Mediana
A Hidratación 5 8.30 0.12 8.10 8.40 8.30
B Hidratación 5 7.68 0.33 7.10 7.90 7.80
C Hidratación 5 8.17 0.25 7.82 8.50 8.15
D Hidratación 5 8.22 0.48 7.40 8.50 8.50
E Hidratación 5 7.86 0.20 7.60 8.10 7.90
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................
92
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
2,00 9,00
Cuantiles observados(RE_Hidratación)
0,74 8,50
Hidratación
-0,52 8,00
7,50
-1,78
7,00
-3,04
A B C D E
-3,04 -1,78 -0,52 0,74 2,00
Método
Cuantiles de una Normal(3,5527E-017,1,0417)
93
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
31.- Para realizar un ensayo sobre la actividad estrogénica se compararon varias soluciones que habían
sido sometidas a una técnica de inactivación in vitro. Se inyectaron ratones hembra y como medida de la
actividad estrogénica se utilizó el peso del útero. Los siguientes datos de los pesos de úteros, en mg, de
diez ratones hembra para cada uno de los tratamientos: control y dos soluciones diferentes son:
Control Solución 1 Solución 2
89,8 64,4 75,2
93,8 79,8 62,4
112,6 69,4 73,8
101,6 76,3 71,8
97,2 67,1 65,1
106,5 71,5 74,6
98,1 78,2 66,8
94,4 68,6 70,1
105,3 70,4 64,7
95,7 71,9 69,3
Estadística descriptiva
Soluciones Variable n Media D.E. Mín Máx Mediana
0 Peso 10 99.50 6.94 89.80 112.60 97.65
1 Peso 10 71.76 4.95 64.40 79.80 70.95
2 Peso 10 69.38 4.50 62.40 75.20 69.70
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ...........................................................................................................................
Las hipótesis planteadas son: ............................................................................................................
c) Decidir y concluir.
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Peso 30 0.00 1.06 0.96 0.6534
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 30 0,05 0,00 79,70
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Peso 30 0.87 0.86 6.94
94
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)
Tabla 4
Prueba de Kruskal Wallis
Variable Soluciones N Medianas H p
Peso 0 10 97.65 19.79 0.0001
Peso 1 10 70.95
Peso 2 10 69.70
Gráfico de densidad de puntos
QQ-plot
120,00
2,58
Cuantiles observados(RE_Peso)
105,00
1,40
-0,97 75,00
-2,16 60,00
-2,16 -0,97 0,21 1,40 2,58 0 1 2
Cuantiles de una Normal(2,0724E-016,1,1172) Soluciones
95