Professional Documents
Culture Documents
2.1 Introducción
Cuando se pretende evaluar una característica importante de un producto en base a diferentes
formulaciones de este, se realizan observaciones para ver que tanto difiere un tratamiento del
otro.
Las observaciones las podemos representar en un diagrama de puntos con el cual se realiza un
examen visual de comportamiento que arrojan los datos para cada nivel del factor de la
formulación. Además, puede usarse una técnica de la inferencia estadística llamada prueba de
hipótesis (prueba de significación).
La prueba de hipótesis permite que la comparación de las dos formulaciones se haga en
términos objetivos, con el conocimiento de los riesgos asociados si se llega a una conclusión
equivocada.
El histograma en cambio es un diagrama que se utiliza cuando los datos son muy numerosos, el
cual muestra la tendencia central, la dispersión y la forma general de la distribución de los
datos.
El diagrama de caja (o diagrama de caja y bigotes) es un diagrama que muestra un resumen
general de los estadísticos de los datos tales como: mínimo, el máximo, los cuartiles inferior y
superior (el percentil 25 y el percentil 75, respectivamente) y la mediana(el percentil 50) en una
caja rectangular alineada horizontal o verticalmente. La caja se extiende del cuartil inferior al
cuartil superior y se traza una línea por la mediana que atraviesa la caja. Se trazan dos líneas
que se extienden de los extremis de la caja hasta los valores mínimo y máximo.
Distribuciones de probabilidad
La estructura de la probabilidad de una variable aleatoria se describe mediante su distribución
de probabilidad. Según sea la naturaleza de la variable aleatoria la distribución de probabilidad
puede ser discreta o continua.
Mediana, varianza y valores esperados
La media, 𝜇, de una distribución de probabilidad es una medida de su tendencia central o
localización. Matemáticamente, la media se define como
La media también puede expresarse en términos del valor esperado o valor promedio a la larga
de la variable aleatoria y como
Grados de libertad
A la cantidad n-1 de la ecuación 2-10 se le llama el número de grados de libertad de la suma de
cuadrados SS. Se trata de un resultado muy general; es decir, si 𝑦 es una variable aleatoria con
varianza𝜎 2 y SS tiene 𝑣 grados de libertad, entonces:
Este resultado establece en esencia que la suma de n variables aleatorias independientes que
tienen una distribución idéntica sigue una distribución aproximadamente normal.
Una importante distribución de muestreo que pude definirse en términos de variables
aleatorias normales es la distribución x 2 o ji-cuadrada. Si z1 , z2 … . zk son variables aleatorias
que tienen una distribución normal e independiente con media 0 y varianza 1, cuya abreviatura
es NID(0,1), entonces la variable aleatoria
Sigue la distribución ji-cuadrada con k grados de libertad. La función de densidad de la
distribución ji-cuadrada es
Como un ejemplo de una variable aleatoria que sigue la distribución ji-cuadrada, suponga que
y1 , y2 , … yn es una muestra aleatoria de una distribución N(μ, σ). Entonces
Al examinar la ecuación 2-8, se observa que la varianza muestral puede escribirse como
𝜎2 2
Si las observaciones de la muestra son,NID(μ, σ) entonces la distribución de 𝑠 2 es [(𝑛−1)] 𝑥𝑛−1 .
Por lo tanto, la distribución de muestreo de la varianza muestral es una constante multiplicada
por la distribución ji-cuadrada si la población tiene una distribución normal.
Hipótesis Estadísticas
Una hipótesis estadística es un enunciado o afirmación ya sea acerca de los parámetros de una
distribución de probabilidad o de los parámetros de una modelo. La hipótesis refleja alguna
conjetura acerca de la situación del problema. Por ejemplo, puede pensarse que los promedios
de dos formulaciones son iguales. Esto puede enunciarse formalmente como
Para probar una hipótesis se proyecta un procedimiento para tomar una muestra aleatoria,
calcular un estadístico de prueba apropiado para después rechazar o no estar en posición de
rechazar la hipótesis nula H0. Parte de este procedimiento consiste en especificar el conjunto
de valores del estadístico de prueba que llevan al rechazo de H0. A este conjunto de valores se
le llama la región crítica o región de rechazo de la prueba.
Puede cometerse dos tipos de errores cuando se prueban hipótesis. Si la hipótesis nula se
rechaza cuando es verdadera, ha ocurrido un error tipo I. Si la hipótesis nula no se rechaza
cuando es falsa, se ha cometido un error tipo II. Las probabilidades de estos errores se expresan
con símbolos especiales:
Donde 𝑦̅1 𝑦 𝑦̅2 son las medias muestrales,𝑛1 𝑦 𝑛2 son los tamaños de las muestras,𝑆𝑝2 es una
estimación de la varianza común𝜎12 = 𝜎22 calculada a partir de
Y 𝑆12 𝑦 𝑆22 son las dos varianzas muestrales individuales. Para determinar si deberá recharzarse
HO se compararía to con la distribución t con grados de libertad. Si
donde es punto porcentual superior de la distribución t
con grados de libertad, entonces se rechazaría Ho y se concluiría que las dos
formulaciones difieren. A este procedimiento de prueba se le llama la prueba t de dos
muestras.
Para el caso en que las dos varianzas poblacionales son desconocidas pero iguales
y para un nivel de significación de . La curvas también parten del
supuesto de que los tamaños de las muestras de las dos poblaciones son iguales; es decir,
. El parámetro del eje horizontal de la figura 2-12 es
La división de por permite al experimentador usar el mismo juego de curvas,
independientemente del valor de la varianza.
Al examinar estas curvas se observas lo siguiente:
1. Entre más grande sea la diferencia en las medias menor será la probabilidad del
error tipo II para un tamaño de la muestra y un valor de dados.
2. Cuando el tamaño de la muestra se hace más grande, la probabilidad del error tipo II se
hace más pequeña para una diferencia entre las medias y un valor de 𝛼 dados.
Las curvas de operación característica son con frecuencia útiles para seleccionar el tamaño de la
muestra que debe usarse en un experimento.
2-4.3 Intervalos de confianza
Muchas veces es preferible proporcionar un intervalo dentro del cual cabría esperar que
estuviese incluido el valor del parámetro o los parámetros en cuestión. A las declaraciones de
estos intervalos se les llama intervalos de confianza.
Para definir un intervalo de confianza, suponga que 𝜃 es un parámetro desconocido. Para
obtener una estimación del intervalo de 𝜃 , es necesario encontrar dos estadísticos L y U tales
que las declaraciones de probabilidad
Y no hay bases para suponer que las varianzas son iguales entonces es necesarios hacer
ligeras modificaciones en la prueba t de dos muestras. En este caso el estadístico de prueba es
Este estadístico no se distribuye exactamente como t. No obstante, t es una buena
aproximación de la distribución de t0 si se usa
Para los grado de libertad. Una indicación clara de la desigualdad de las varianzas en una grafica
de probabilidad normal seria una situación que requeriría esta versión de la prueba t.
2-4.5 Caso en que se conocen
Si las varianzas de ambas poblaciones se conocen, entonces las hipótesis
Pueden probarse utilizando el estadístico
Si ambas poblaciones son normales, o si los tamaños de las muestras son lo suficientemente
grandes para aplicar el teorema del limite central, la distribución de es si la hipótesis nula es
verdadera. Por lo tanto, la región critica se encontraría utilizando la distribución normal en
lugar de la distribución t. Especificamente, H0 se rechazaría si donde es el punto porcentual
superior de la distribución normal estándar.
A diferencia de la prueba t de la secciones anteriores, en la prueba de la medias con varianzas
conocidas no se requiere el supuesto de que el muestreo se haga de poblaciones normales.
Puede aplicarse el teorema del limite central para justificar una distribución normal aproximada
para la diferencia en la medias muestrales .
El intervalo de confianza por ciento para cuando las varianzas se conoces es
2-4.7 Resumen