You are on page 1of 157

Controlar Definir

Improve Medir
(Mejorar)

Analizar

Analizar

 Introducción a prueba de hipótesis


 Y: Continuas, X: Discretas
 Y: Continuas, X: Continuas
 Y: Discretas, X: Discretas
Recuerda

Y = f(X1,X2,X3,X4,X5…Xn)
Pasos de la etapa

Priorizar
Identificar Causas
causas

Efecto Priorizar causa


embudo
Recolecta
r datos

Analizar
datos

Seleccionar causas significantes


Introducción a Prueba de
Hipótesis
¿Qué es una hipótesis?
• Una hipótesis es una afirmación basada:
•En una opinión sobre una población
• En la experiencia

¿ Como saber si alguien era bruja ?


Ejemplos
• Todo lo que sube tiene que bajar

• Usar pasta de dientes previene las caries

• Fumar provoca Cáncer


Una prueba de hipótesis es:
Todas las suposiciones, creencias, incluso ideas locas, deben
ser evaluadas y cuantificadas.

Hacemos esta evaluación mediante una gama de


herramientas llamada prueba de hipótesis.

Las pruebas de hipótesis nos ayudan a determinar si las


causas o Xs son estadísticamente significantes para impactar
en el resultado de la variable de salida Y.

• Esto es, si las causas tienen realmente un efecto en el


síntoma.
Prueba de hipótesis
• Para contestar la pregunta:
“¿tiene relación la X con la Y?”

Ejemplo:
¿Las calificaciones de los alumnos tienen relación
con el método de enseñanza?

Siempre tendremos opciones, sólo una


prevalecerá
Hipótesis nula H0
No pasa nada, no hay cambios, no H0: Las calificaciones de los
hay relación, no pasa nada… alumnos NO tienen relación con
el método de enseñanza

Hipótesis alternativa H1
Existe cambio, hay diferencia, algo H1: Las calificaciones de los
paso, si hay relación… alumnos SI tienen relación con
el método de enseñanza
Algunos son fáciles
Algunos no tan fáciles
Algunos muy difíciles
Imagina
• Eres el jurado Hipótesis nula

Hipótesis alternativa

La hipótesis nula es verdadera hasta que se demuestre lo contrario


con datos que esta es falsa
-Más allá de una duda razonable-
Pasos Prueba de Hipótesis
El flujo Six Sigma

¿Qué estas probando?


Define la hipótesis nula H0
(¿cuál es tu teoria?)

¿Cuál es tu intervalo de confianza? Nivel alfa

Selecciona y ejecuta tu prueba de


Selección de herramienta hipótesis (Basados en tus datos)

No rechazas o rechaza tu hipótesis


Decide si tu teoría es acertada o no nula

Convierte tu decisión en terminología “normal”


Paso 1 :
Define la prueba de
– hipótesis
Para contestar la pregunta “¿tiene relación la X con la Y?”

Ejemplo: ¿El acusado tiene relación con el crimen?


tenemos 2 opciones , solo una prevalecerá:
Ho: El acusado no tiene relación con el Ha: El acusado tiene relación con el
crimen crimen

Necesitamos datos para seleccionar cualquiera de ellas


Paso 2: Nivel alfa
Paso 2: Nivel alpha
Paso 2
Pruebas de Hipótesis
– α(alfa): Referencia principal para tomar conclusiones al realizar

pruebas de hipótesis. Se relaciona con que tan probable (factible) es afirmar

que existe
una diferencia cuando en realidad no existe.
– β (beta): Muy útil para determinar que tan capaz es una prueba

estadística de detectar una diferencia no aleatoria de un grupo de datos. Se


relaciona con que tan probable (factible) es negar una diferencia cuando en
realidad existe.
– El número (1- β) se conoce como la potencia de la prueba.
 𝑎(alfa): 5%
 β(beta): 10%
Paso 2
Pruebas de
– Hipótesis
Siempre que tomemos una decisión, queremos que nuestra conclusión esté lo
más cercano a la realidad:
ejemplo

Inocente
Culpable
Inocente Culpable
Paso 3:
Selección herramienta
Paso 4:
Dejar de rechazar o Rechazar Ho
• Rechazamos la hipótesis nula en favor de la
hipótesis alternativa. Si nosotros rechazamos
la hipótesis nula, decimos que nuestro
resultado es estadísticamente significante.

• Dejamos de rechazar la hipótesis nula y


concluimos que no tenemos suficiente
evidencia de declarar que
alternativa
la es verdadera. hipótesis
Paso 2
Pruebas de

Hipótesis
Ho: Hipótesis nula: Sin relación, sin cambios, no hay diferencia, “No pasa nada”

Valor de p – P(la diferencia observada se deba al azar) > alfa, mucho


riesgo de tomar una decisión equivocada, no
podemos afirmar que algo pasó.

–Ha: Hipótesis alternativa: Relación, cambio, diferencia real, “Algo pasó”

Valor de p - P(la diferencia observada se deba al azar) <= alfa, poco riesgo de
error. Podemos afirmar que algo realmente pasó.
– El valor de p se relaciona con la probabilidad (que tanto riesgo) que se tiene en
tomar una decisión equivocada. Sin importar la herramienta seleccionada, esta
regla siempre va a aplicar. La selección de la herramienta específica dependerá
principalmente de los tipos de datos analizados.
Valor P
Probabilidad que los
resultados observados
puedan ocurrir por
casualidad

Validación de prueba de hipótesis

Si el valor de p es alto (p≥.05) , Ho es el

bueno Si el valor de p es bajo (p<.05), Ho

debe irse
Intervalo de confianza
Es un Rango de valores probables para un parámetro poblacional

Valores Valores
improbables improbables
Nivel de confianza

Un nivel de confianza es que tan seguro


nuestro intervalo de confianza contiene
el verdadero valor del parámetro
poblacional (el nivel de confianza es
igual a 1 – α)
Intervalo de confianza
Ejemplo

Queremos analizar la influencia de una marca de auto con el


consumo de combustible.

Y = Consumo de combustible (litros) Variable (continua)

X1 = Marca de auto Variable (discretos)

X1 = Marca de auto Una variable discreta con 3 niveles


X11 = Ford
X12 = Chrysler
X13 = GM
¿Cuáles serían la H0 y Ha?
¿Cuál es la herramienta adecuada para resolver esta prueba
Ejercicio
– Jaime quiere saber si el tiempo requerido para completar una tarea, está
relacionado con la experiencia del empleado en años.

– Datos Tipo de datos


– Y:
– X:

– H0:
– Ha:

– La herramienta apropiada para contestar esto


es:

– ¿Cuál sería tu conclusión si p = 0.1917?


Ejercicio
– Sandra dice que la porción defectuosa disminuyó de 0.35 a 0.3. ¿La
diferencia se debe a acciones específicas o es debida a la casualidad?

– Datos Tipo de datos


– Y:
– X:

– H0:
– Ha:

– La herramienta apropiada para contestar esto


es:

– ¿Cuál sería tu conclusión si p = 0.051?


Ejercicio
– La aspirina reduce el riesgo de un ataque al corazón

– Datos Tipo de datos


– Y:
– X:

– H0:
– Ha:

– La herramienta apropiada para contestar esto


es:

– ¿Cuál sería tu conclusión si p = 0.095?


Ejercicio
– El área de presupuestos quiere saber si el costo de los boletos de avión
dependen de la aerolínea.

– Datos Tipo de datos


– Y:
– X:

– H0:
– Ha:

– La herramienta apropiada para contestar esto


es:

– ¿Cuál sería tu conclusión si p = 0.15?


Controlar Definir

Improve Medir
(Mejorar)

Analizar

Analizar

 Introducción a prueba de hipótesis


 Y: Continuas, X: Discretas
 Y: Continuas, X: Continuas
 Y: Discretas, X: Discretas
Prueba de hipotesis
Objetivo: Analizar las
diferencias entre la
media obtenida y un
valor objetivo o una 1 NIVEL
media histórica

Normales No Normales

n<30 y σ n>30 o  es Pruebas de rangos


desconocida
Prueba t de una
conocida Wilcoxon
Muestra Prueba de Z
Antecedentes
Según el Teorema de Límite Central, la
distribución muestral seguirá una distribución
normal, siempre y cuando:
– El tamaño de la muestra es suficientemente
grande
– Cuando conocemos la desviación estándar
de la población
• Entonces se puede calcular un valor Z y
emplear la distribución normal.”.
Prueba Z
• Si la distribución es normal siempre podemos
estandarizar nuestros datos y buscar
probabilidades (valores de p)
Media muestral

Desviación estándar
Conocida
Media hipotética
de la población
Se debe adaptar para comparar los
datos de la muestra contra la media
de la población hipotética
• La prueba z compara el
valor promedio con el de la
meta o hipotetico. Puede
utilizarsepara demostrar
una variación de la media
después de un cambio de
proceso.

• Con el valor de Z buscamos


los valores de p para
determinar si la
diferencia entre las 2
medias es significativa.
Es muy común que tamaños de muestra muy
grandes sean difíciles de conseguir. Restricciones
tales como costo, tiempo, etc. Pueden ser de
consideración al tomar muestras. Cuando
tenemos pequeñas muestras que sabemos que
vienen de una distribución normal o σ
desconocida, utilizamos un estadístico similar
para pequeñas muestras: la distribución t

Compara el promedio de la
distribución sencilla contra el
valor meta o hipotético. Puede
utilizarse para demostrar una
variación de la media después de
un cambio del proceso.
Desviación muestral
Distribución t
• •La distribución t de Student fue descubierta
por William S. Gosset en 1908.
• Gosset era un estadístico empleado por la
compañía cervecera Guiness, con quien tenía
un contrato que no podía usar sus nombres en
sus publicaciones.
• Él recurrió al Sobrenombre de “Student”
¿Qué es un valor t?
• Mide la diferencia entre un estadístico de muestra
observado y su parámetro de población hipotético
en unidades de error estándar.

• Una prueba t compara el valor t observado con un


valor crítico en la distribución t con (n-1) grados de
libertad para determinar si la diferencia entre los
valores estimados e hipotéticos del parámetro de la
población es estadísticamente significativa.
Prueba de t
n-1= Grados de Libertad
𝑋−o
t =
𝑆/ 𝑛

X= Promedio de la muestra Región de


rechazo
S= Desviación estándar de 
la muestra
n= número de la muestra
o = Valor a probar

Nota: Los GL son los que afectan la dispersión de la distribución.


A mayor muestra, más grados de libertad y más cercanos serán
nuestros datos a la distribución de la población.
Ejemplo
Quick Fill Propane Company llena
los tanques de propano
utilizados en las parrillas de
barbacoa. Debido a que el
propano líquido se expande
cuando se calienta, los tanques
deben ser llenados sólo al 80%
para permitir la posible
expansión del líquido en un día
caluroso. ¿ En promedio Quik
Fill es capaz de llenar los
tanques a 20 libras?. (Ver
archivo Tankweight).
Realizar prueba de hipótesis
Ho: No hay diferencia entre los datos
recolectados y el valor buscado (Promedio =
20 min)
Ha: Si hay diferencia entre los datos
recolectados y el valor buscado (Promedio ≠
20 min)

Abrir archivo Tankweight


Probando la hipótesis
Obteniendo el valor P
Ejercicio
Cloud seeding has been studied for many decades as a weather
modification procedure (for an interesting study of this subject, see
the article in Technometrics by Simpson, Alsen, and Eden, “A Bayesian
Analysis of a Multiplicative Treatment Effect in Weather Modification”,
Vol. 17, pp. 161– 166). The rainfall in acre-feet from 20 clouds that
were selected at random and seeded with silver nitrate follows: 18.0,
30.7, 19.8, 27.1, 22.3, 18.8, 31.8, 23.4, 21.2, 27.9, 31.9, 27.1, 25.0,
24.7, 26.9, 21.8, 29.2, 34.8, 26.7, and 31.6. Can you support a claim
that mean rainfall from seeded clouds exceeds 25 acre-feet?. (Ver
archive clouds).
Gráfica de datos individuales
Gráfico de datos individuales
Gráfico de datos individuales
Prueba t de student una muestra
Ejemplo
Ruta:statBasic statistics 1 sample t

Variables a analizar

Media a probar H0
Prueba t de student una muestra
Prueba t de student una muestra
Gráfico de valores individuales
Histograma
Valor p
Ejercicio
A manufacturer produces crankshafts for an automobile engine. The
wear of the crankshaft after 100,000 miles (0.0001 inch) is of interest
because it is likely to have an impact on warranty claims. The wear from
15 crankshaft that were selected at random follows: 3, 2.5, 2.8, 3.4, 2.9,
3.5, 2.7, 3.2, 3.8, 2.4, 2.5, 3.6, 3.1, 3.2, 2.9. It is known that σ=0.9. Test µ
= 3 (0.0001 inch). (Ver archivo crankshaft).
Ejercicio – Wait Time

Queremos conocer
si el tiempo de
espera de los
pacientes en el
Hospital South View
Health es igual a 10
min. (Ver archivo
Wait time).
Ejercicio
• Determinar la prueba de hipótesis según
corresponda a los siguientes datos:
• 11.3
• 12.8
• 11.9
• 12.2
• 11.5
• 11.9
• 12.6 • La media es diferente a 12.2
• 12.5 • La media es mayor a 11.8
• 11.6 • La media es menor de 12
• 11.7
• 12.7
• 11.9
• 12.3
Ejercicio
Un cliente cree que las lámparas que compró e instaló en su casa están
consumiendo gran cantidad de Watts, por lo tanto, incrementa el gasto
por concepto de energía eléctrica. La compañía proveedora envió una
muestra de 10 lámparas a probar y confirmar esta situación. Los Watts
consumidos por las lámparas fueron:
61.3
60.8
61.9 La especificación de las lámparas es 60
62.2 watts. ¿El cliente tiene razón?
61.5
60.7
59.9
60.9
61.8
62.0
Ejercicio
Un cliente cree que las lámparas que compró e instaló en su casa están
consumiendo gran cantidad de Watts, por lo tanto, incrementa el gasto
por concepto de energía eléctrica. La compañía proveedora envió una
muestra de 10 lámparas a probar y confirmar esta situación. Los Watts
consumidos por las lámparas fueron:
61.3
60.8
61.9 La especificación de las lámparas es 60
62.2 watts. ¿El cliente tiene razón?
61.5
60.7
59.9
60.9
61.8
62.0
Resumen de las pruebas
Probar que hay diferencia entre la media de una
muestra y un valor medio requerido (cuando la
distribución de la variable es normal y cuando no se
puede probar normalidad).
Objetivo: Analizar
las diferencias
entre la media
obtenida dos
Prueba de hipótesis
poblaciones a
través de dos
muestras 2 NIVELES*
independientes. Datos en cada niveles son:

Normales No Normales
Varianzas son: Varianzas son:

Iguales
Iguales Diferentes
Diferentes * Mann- Whitney
* Prueba t con varianzas * Mann- Whitney
* Prueba t con
* Prueba t con varianzas iguales (si n>25)
varianzas iguales diferentes
* Prueba t con varianzas
* ANOVA de una vía (si diferents (si n>25)
* ANOVA de una n>25) *Prueba Mood (Con
vía * Prueba Mood (Con ooutliers)
outliers)
*Muestras no pareadas
Prueba t 2 muestras
• Diferencias en los promedios de 2 diferentes
muestras.
• Ambas deben tener distribución normal
• La hipótesis nula es que los promedios de los
dos grupos son los mismos: Ho = μa = μb
• La hipótesis alternativa es que los promedios
son diferentes: Ha = μa ≠ μb
Ejercicio
Un departamento estatal de carreteras utiliza dos
marcas de pintura para pintar rayas en las
carreteras. Un funcionario de la autopista quiere
saber si la durabilidad de las dos marcas de pintura
son diferentes. Para cada pintura, el funcionario
registra el número de meses que la pintura persiste
en la carretera. (Ver Archivo Highway).
Normalidad
• Ruta: statbasic statistics2 variances

Si las 2 muestras se
encuentran apiladas en una
columna

Si las 2 muestras se
encuentran en diferentes
columnas
• Para el ejemplo

Se coloca la columna de los


valores de las muestras

Se coloca la columna donde


se tienen las etiquetas de las
muestras
Para
distribución
normal

P value > .05


se deja de
rechazar H0

Las varianzas
son iguales
3.-Prueba de t 2 muestras
Ruta: statbasic statistics 2 sample t

Si las 2 muestras se
encuentran apiladas en una
columna

Si las 2 muestras se
encuentran en diferentes
columnas

Si cuentas con el resumen de


la estadística minitab puede
realizar la prueba t, los datos
se ingresan directo en l
ventana
Ejemplo

Graphs: para gráficos


de la prueba
Los datos muestran un
alto nivel de confianza
en que la nueva ruta
nos proporcionara una
reducción en promedio
de los viajes entre .2 y
4.25 días
Ejercicio –Restaurante Italiano - TA
Un restaurante italiano cercano a un campus universitario está
considerando la posibilidad de utilizar una nueva receta para
hacer la salsa que echa a las pizzas. Se elige una muestra
aleatoria de ocho estudiantes y se pide a cada uno que valore en
una escala de 1 a 10 su opinión sobre la salsa original y sobre la
salsa propuesta. El ejercicio en el archivo Restaurante
Italiano.Mtw muestra las valoraciones obtenidas en la
comparación; los números más altos indican que gusta más el
producto ¿indican los datos una tendencia general a preferir la
nueva salsa a la original?
Ejercicio – Call Center- TA
En el archivo Call Center, se tienen los datos del tiempo en un
call center que se demora un conjunto de operarios atendiendo
una llamada en segundos, antes y después de implementar un
sistema automático de asignación de llamadas. Determine si hay
diferencias importantes entre ambos estados.
Prueba de ANOVA

Permite el análisis de medias entre 2


o más niveles
• v
Prueba de hipotesis
Objetivo: Analizar las
diferencias entre la
media obtenida tres
poblaciones a través de 3 NIVELES
tres muestras
Datos en los niveles son:
independientes.

Normales No Normales
Varianzas son: Varianzas son:

Iguales Iguales Diferentes


Diferentes
* ANOVA de una *ANOVA de una * Kruskall - Wallis
* Kruskall - Wallis
vía vía (si n>25)
* Kruskall - Wallis
Estudio de caso
Ho: Las medias son iguales para todos los nivel
µ0 = µ1 = µ2
H1: Las medias no son iguales al menos para un par de
niveles
µi ≠ µj, para al menos un par i,j
Estudio de caso CPU
Prueba de normalidad
• Para saber si los datos son normales o no , se
realiza una prueba de Hipótesis:

• Ho: Los datos son normales


• Ha: Los datos NO son normales
1. Prueba de normalidad
Ho: Los datos se ajustan a una distribución normal

Ha: Los datos no se ajustan a una distribución normal


Gráfica de probabilidad de Method I
Normal - 95% de IC
99
Media 75.14
Desv.Est. 1.345
95 N 7
AD 0.214
90
Valor p 0.756
80
70
Porcentaje

60
50
40
30
20

10

1
70 72 74 76 78 80
Method I

Se acepta Ho , los datos son normales


1. Prueba de normalidad
Ho: Los datos se ajustan a una distribución normal

Ha: Los datos no se ajustan a una distribución normal

Gráfica de probabilidad de Method II


Normal - 95% de IC
99
Media 76.57
Desv.Est. 1.512
95 N 7
AD 0.300
90
Valor p 0.482
80
70
Porcentaje

60
50
40
30
20

10

1
70 72 74 76 78 80 82
Method II

Se acepta Ho , los datos son normales


1. Prueba de normalidad
Ho: Los datos se ajustan a una distribución normal

Ha: Los datos no se ajustan a una distribución normal

Gráfica de probabilidad de Method III


Normal - 95% de IC
99
Media 77.86
Desv.Est. 1.069
95 N 7
AD 0.406
90
Valor p 0.249
80
70
Porcentaje

60
50
40
30
20

10

1
73 74 75 76 77 78 79 80 81 82
Method III

Se acepta Ho , los datos son normales


2.- Prueba de varianzas iguales
• Para saber si los datos tienen varianzas iguales
, se realiza una prueba de Hipótesis:

• Ho: Las varianzas son iguales


• Ha: Las varianzas NO son iguales
Prueba de varianzas iguales
• Ruta: stat ANOVA ➤test for equal vaiances
Por variable (Días)

Por factores (Centro de envío) Titulo


Prueba de varianzas iguales
Prueba de igualdad de varianzas: Method I; Method II; Method III
Prueba de Bartlett Se acepta
Valor p 0.718 Ho: La
Method I
varianzas
son
iguales
Method II

Method III

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5


Intervalos de confianza de Bonferroni de 95% para Desv.Est.

La prueba de Bartlett, se usa cuando las


distribuciones de probabilidad para todos los
niveles es normal
3. Prueba ANOVA
• Ruta: StatANOVA ➤ One Way
• En Respuesta, ingrese Días. En Factor, ingrese
Centro.
Pruebas de hipótesis
Ho: µI = µII = µIII
Ha: µi ≠ µj , para al menos un par i,j
Haga clic en Comparaciones.
Marque De Tukey, nivel de significancia de la
familia y luego haga clic en Aceptar.
Pruebas de hipótesis
• Haga clic en Gráficas.
• Marque Gráfica de valores individuales y
Gráficas de caja de datos.
• En Gráficas de residuos, elija Cuatro en uno.
• Haga clic en Aceptar en cada cuadro de
diálogo
Pruebas de hipótesis
Pruebas de hipótesis
Se rechaza Ho, hay al
menos diferencia entre
dos medias

Intervalos de confianza
de las medias de cada
método
Prueba de hipótesis

Hay diferencia entre los


niveles que no
comparten una letra

Hay diferencia significativa


entre las medias de los
métodos III y I

Intervalos de confianza entre las


diferencia de medias entre los
métodos
Conclusión
Gráfica de intervalos de Method I; Method II; ... Gráfica de valores individuales de Method I; Method II; ...
95% IC para la media
79
79

78
78

77
77

Datos
Datos

76

76
75

75
74

74
73
Method I Method II Method III
Method I Method II Method III
La desviación estándar agrupada se utilizó para calcular los intervalos.

ICs simultáneos de 95% de Tukey


Diferencia de las medias para Method I; Method II; ...

Method II - Method I

Method III - Method I

Method III - Method II

0 1 2 3 4 5

Si un intervalo no contiene cero, las medias correspondientes son significativamente


diferentes.
Conclusión
• El método de soldado si influyen en la
temperatura en la tarjeta.
• El método tres genera estadísticamente la
temperatura esperada más alta 77.86 grados
centígrados.
• Hay una diferencia estadísticamente
significativa entre las temperaturas generadas
entre los métodos I y III, con valores
esperados de 75.14 y 77.86 grados
centígrados
Pruebas no paramétricas
• Cuando los tamaños de las muestras son
pequeños y las poblaciones originales no son
normales, aplique las pruebas no
paramétricas.
1 NIVEL

Normales No Normales

n<30 n>30  es conocida Pruebas de rangos


Prueba t de una Prueba de Z
muestra Wilcoxon
Prueba de Wilcoxon
• Es usada para hacer pruebas de hipótesis
acerca de la mediana.
• La prueba estadística se basa en el estadístico
de Wilcoxon (1945).
Ejemplo
Un químico para una compañía farmacéutica quiere
determinar si el tiempo de reacción medio para un
antiácido recién desarrollado es menos de 12
minutos. El químico mide el tiempo de reacción
para 16 muestras de la antiácido 1. (Ver archivo
ANTIACIDREACTIONTIME)
ejemplo
• H0: mediana (12 min)= 12 min
• H1 : mediana (12 min)= 12 min
• Ruta:statnon parametrics

Colocar Variables

Valor objetivo

Lo que se va a
probar
Objetivo: Analizar
las diferencias
entre la media
obtenida dos
Prueba de hipótesis
poblaciones a
través de dos
muestras 2 NIVELES*
independientes. Datos en cada niveles son:

Normales No Normales
Varianzas son: Varianzas son:

Iguales
Iguales Diferentes
Diferentes * Mann- Whitney
* Prueba t con varianzas * Mann- Whitney
* Prueba t con
* Prueba t con varianzas iguales (si n>25)
varianzas iguales diferentes
* Prueba t con varianzas
* ANOVA de una vía (si diferents (si n>25)
* ANOVA de una n>25) *Prueba Mood (Con
vía * Prueba Mood (Con ooutliers)
outliers)
*Muestras no pareadas
Prueba Mann Whitney

Prueba de Mood
Prueba de hipotesis

3 NIVELES
Datos en los niveles son:

Normales No Normales
Varianzas son: Varianzas son:

Iguales Iguales Diferentes


Diferentes
* ANOVA de una *ANOVA de una * Kruskall - Wallis
* Kruskall - Wallis
vía vía (si n>25)
* Kruskall - Wallis
Kruskal Wallis
• Compara medianas de diferentes muestras,
cuando la distribución no es normal.
• La prueba de Kruskal-Wallis es una alternativa
no paramétrica al ANOVA de un solo factor. La
prueba no requiere que los datos sean
normales
• Supongamos que en el caso de Estudio
anterior de los 3 centros las varianzas
sean diferentes

Se usaría Prueba no Paramétrica Kruskal


Wallis
Pruebas no paramétricas
• Ruta: stat non parametrics Kruskal Wallis

Días como variable ,


como factor Centros de
envío
Pruebas no paramétricas

Se rechaza la Ho, por lo


que si hay diferencia
Controlar Definir

Improve Medir
(Mejorar)

Analizar

Analizar

 Introducción a prueba de hipótesis


 Y: Continuas, X: Discretas
 Y: Continuas, X: Continuas
 Y: Discretas, X: Discretas
Prueba de Proporciones
Pruebas de hipótesis para
proporciones y porcentajes

Se requiere comparar las proporciones o porcentajes de


las diferentes muestras de datos para decidir si son
estadísticamente diferentes.

Niveles

2 3
1
1 prueba de proporciones
Para comparar una 2 Prueba de proporciones
Ji – cuadrada
proporción vs un target Comparación de 2 Para comparar 3 o más
especifico o proporción proporciones uno vs el otro
histórica
Comparación de proporciones de
dos poblaciones
Esta prueba se basa en las proporciones de la muestra del
evento, y utiliza datos de atributos binarios como:
• '0 ó 1',
• "Éxito o fracaso"
• "Defectuoso o no defectuoso",
• "Ocurrencia o no ocurrencia

También se puede realizar esta prueba si solo se tiene los


datos de resumen de las dos muestras, tales como
"número de ocurrencias" o "proporción de ocurrencias".
• La prueba busca diferencias significativas
entre las proporciones de 2 poblaciones
diferentes.
Ejemplo
Dos encuestas de satisfacción de los clientes se han llevado a
cabo en dos zonas diferentes (A y B). Los resultados fueron:
(Ver Archivo Satisfacción)

120
Planteamiento de hipótesis
100
H0= la satisfacción no tiene diferencia
21 entre región y región (A y B)
80
8
H1:= la satisfacción del cliente es
60 satisfied diferente entre región y región (A y B)
unsatisfied
40
72 79
Nivel α = 0.05
20

0
Area A Area B
RutaMinitab: stat> Basic statistics>2 proportions

Como ingresar la información a minitab:

Las primeras 2 opciones son cuando tienes


los datos en fila en minitab.

Summarised datal esta opción te permite


ingresar los datos directamente a la prueba
de hipótesisc
Step 3 Primero los resultados para cada
muestra se resumen junto con
Interpreting the Results sus proporciones

El valor de P = 0.037, el
valor es bajo (P<0.05)
H0 se rechaza

95% Intervalo de confianza para la diferencia:


La diferencia absoluta entre las 2 proporciones es 0.11(90%-79%= 11%)
Sin embargo, como con todas las estadísticas, debemos colocar un intervalo de confianza en
torno a este valor, con el fin de reflejar la cantidad de datos. El intervalo de confianza del 95%
indica que la diferencia entre las proporciones podría estar en cualquier 0,006-0,21
Ejercicio
Se quiere determinar si un nuevo programa de
de computación producirá menos defectivo de
formas en un proceso de compras. En la tabla se
muestran datos recolectados antes y después de la
implementación del software. Determine si el nuevo
software genera una mejora. (Ver archivo
SOFTWARE).
Software anterior Software nuevo
Piezas ok 193 172
Defectivas 14 10
Ejercicio
• Se quiere determinar si solicitudes atendidas
correctamente dependen de la región, se analizan
los comportamientos de un equipo de trabajo de
finanzas Sur y Finanzas centro. Concluya. (Ver
archivo Finanzas)
Solicitudes Correctas
SUR 1,540 1,499
Centro 2,150 2,002
Ejercicio - Messi
Muchas personas piensan que Messi no juega con el mismo
rendimiento en la Selección de Argentina que en su club.
Realiza una prueba de hipótesis , de acuerdo al rendimiento en
el tiro de penales , para ver si existe una diferencia o no. (Ver
archivo Messi-P).

Penales anotados Penales Fallados Club


16 3 Selección de
Argentina
62 18 Barcelona
Prueba JI cuadrada
Pruebas de hipótesis para
proporciones y porcentajes

Se requiere comparar las proporciones o porcentajes de


las diferentes muestras de datos para decidir si son
estadísticamente diferentes.

Niveles

2 3
1
1 prueba de proporciones
Para comparar una 2 Prueba de proporciones
Ji – cuadrada
proporción vs un target Comparación de 2 Para comparar 3 o más
especifico o proporción proporciones uno vs el otro
histórica
Prueba Ji cuadrada

• La Ji cuadrada mide las diferencias entre los


conteos observados y esperados de la siguiente
forma
2 (𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝐸𝑠𝑝𝑒𝑟𝑎𝑑𝑜)2
Ji = ෍
𝑥
𝐸𝑠𝑝𝑒𝑟𝑎𝑑𝑜

• Los conteos son sumarizados en una tabla


conocida como tabla de contingencia.

• Grados de libertad: (Cantidad de filas –


1)(Cantidad de columnas-1 )
Observado
Consideremos los siguientes datos , donde se
quiere demostrar el tipo de error presentado
en la facturación no difiere de la persona
Tipo de Arturo Juan Luis Marisol
errores
Fallas en 3 6 5 1
la captura
Errores en 7 9 5 1
los
conceptos
Cálculos 9 12 11 23
erróneos
Esperado
De acuerdo a los datos observados:
Tipo de Arturo Juan Luis Marisol
errores
Fallas en la 3.1 4.4 3.42 4.08
captura
Errores en 4.54 6.46 5.02 5.98
los
conceptos

Cálculos 11.36 16.14 12.55 14.95


erróneos
Minitab
Minitab

• Ruta: Stat>Tables>Chi-Square Test

Como ingresar la información a


minitab:

La primera opcion cuando


tienes los datos en fila en
minitab.

Summarised datal esta opción


te permite ingresar los datos
directamente a la prueba de
hipótesis
Ejemplo
• Las mujeres y hombres contestaron un
cuestionario acerca de las diferencias de
género, 3 categorías de respuesta.
¿Existe diferencia en las respuestas por el
género? . (Ver archivo Género).

A B C
Hombres 37 49 72
Mujeres 7 50 31
Ejercicio
Con base en la información presentada en la
parte de abajo, decide si la salida de un
procedimiento quirúrgico depende del hospital
usado. (Ver archivo Hospital).
Controlar Definir

Improve Medir
(Mejorar)

Analizar

Analizar

 Introducción a prueba de hipótesis


 Y: Continuas, X: Discretas
 Y: Continuas, X: Continuas
 Y: Discretas, X: Discretas
Correlación y regresión
Correlación
• La correlación es usada para determinar el grado de asociación
entre dos variables de proceso. Permite la comparación de
una entrada con una salida.
• La correlación es analizada calculando el coeficiente de correlación
de Pearson. Coeficiente cuyo valor fluctúa entre -1 y 1 (r).
– Valor 1 indica perfecta correlación positiva
– Valor -1 indica perfecta correlación negativa

|r| de 0 a 0.3 correlación débil

|r| de 0.31 a .7 correlación moderada

|r| arriba de 0.7 indica fuerte correlación


Gráficament
e
La correlación mide entonces el grado de asociación
entre dos variables continuas independientes. Sin
embargo, aún cuando haya un alto grado de
correlación esta herramienta no establece
causalidad.

•El coeficiente de correlación (r) indica qué tan


pronunciada es la pendiente.
Análisis de Regresión
• El análisis de regresión genera una línea que cuantifica la relación
entre una “X” y la “Y”. La línea, o ecuación de regresión, es
representada como:

Y = a + bX

Donde
Y = variable depediente
a = intercepción en Y ( constante o baseline, da el valor de Y
cuando X = 0),
b = coeficiente de regresión (pendiente)
X = variable independiente

Un modelo de regresión es bueno, dependiendo de que tan bien


describe la variación entre dos variables.
• Los parámetros 'a' y 'b' se calculan utilizando el método de mínimos
cuadrados, una rutina matemática que traza una línea que mejor se ajusta
a los datos de puntos de dispersión, reduciendo al mínimo la variabilidad
de los datos sobre esa línea. Se puede ver un ejemplo a continuación de la
regresión lineal simple usando los 'Días de abonar los créditos' de datos:

En la imagen se puede observar que


los puntos estan cercanos a la linea
y tiene pendiente hacia abajo.
Análisis de regresión (Ver archivo Alturas)
Gráfica de dispersión
Gráfica de dispersión
Gráfica de línea ajustada
Gráfica de línea ajustada
Coeficiente de determinación

El coeficiente determinación da la
proporción de variación de la
variable Y que es explicada por la
variable X.
Decisión
• 𝑟 2 Mide la proporción de variación que es
explicada por el modelo, por la ecuación de
regresión.
Ruta:
Stat>Regression>Fited Line Plot

• Sí r> 0.08el modelo de predicción es valido


Ejercicio
Ejercicio
Una psicoterapeuta con muchos años de servicio le dice a uno
más joven que las personas que viven en viviendas pequeñas
con muchas personas tienen un nivel elevado de estrés. El
terapeuta joven se muestra escéptico, por lo que decide estudiar
la asociación entre las variables densidad habitacional (número
de habitantes de la vivienda entre superficie de construcción de
la misma) y la calificación promedio de un estudio de estrés.
Determine r y diga que concluyó el terapeuta.
Ejercicio
Pedro Daniel Medina Varela

• Pedro Daniel Medina Varela

pemedin@utp.edu.co

+57 302 3398347

You might also like