You are on page 1of 47

Simulación de Eventos

Discretos

Análisis de entrada

Agenda
Pasos a seguir en el análisis de entrada:
• Recolección de datos
• Identificación gráfica de distribuciones de probabilidad adecuadas
– Histogramas, Q-Q plot, P-P plot
• Estimación de parámetros
• Pruebas de bondad de ajuste
– Prueba Ji-cuadrada
• Distribuciones Discretas
• Distribuciones Continuas
– Prueba Kolmogorov-Smirnov
– p-value
• Ajuste de procesos de Poisson no estacionarios (Homogeneidad de los datos)
• Modelos multivariados y de series de tiempo

Recolección de datos
• Una de las tareas más arduas en la resolución de un problema real.
• GIGO  garbage in-garbage out
– Aún teniendo un modelo válido en cuanto a estructura, si los datos se
recogen de una manera inadecuada, o son analizados incorrectamente, los
resultados del modelo serán erróneos y pueden conducir a malas
decisiones.
• Algunas sugerencias:
– Planeación: observación del sistema actual y situaciones atípicas, etc.
– Análisis de los datos a medida que son recolectados. Revisar su
pertinencia.
– Verificar homogeneidad en los diferentes grupos de datos.
– Revisar la relación entre variables.
– Revisar autocorrelación.
– Diferenciar claramente entre datos de entrada y de salida.

Histogramas
• Útiles para la identificación de la forma de una distribución.
– El número de clases depende del número de observaciones y de la
dispersión de los datos.
(Aproximación # de Clases = (número de observacio nes )
– OJO: si los intervalos son muy anchos el histograma no mostrará un
comportamiento claramente.
Histograma de datos DISCRETOS:
Función de masa
Histograma de datos CONTINUOS:
Función de densidad teórica (línea dibujada a
lo largo de los puntos centrales de cada
clase)

Un histograma da una idea, pero no debe usarse
como única herramienta de identificación.

F-1[(j – (1/2))/n ] – Si los datos corresponden a la distribución que se está probando. j = 1. . la gráfica debe ser aproximadamente una línea recta.….2. Q-Q Plot • Sea X una variable aleatoria con función acumulada de probabilidad FX(x). entonces el q-cuantil de X es aquel valor γ tal que Fx ( x)  P( X   )  q Si F tiene inversa entonces   F (q) 1 Algoritmo: – Tomar una muestra de los datos {xi .n} – yj es una estimación del [( j – (1/2))/n] cuantil de X (yi ~ F-1[( j –(1/2))/n]) – Graficar yj Vs.….2.n} – Ordenarlos para obtener {yj . i = 1.

La linealidad en el centro es más importante que la linealidad en los extremos No Ajuste Buen Ajuste . Q-Q Plot • Nunca realmente es una línea recta • Un punto encima de la línea será probablemente seguido por otro • La variación en los extremos es más grande.

103. 120. 100. 90 . 135. 91. Los datos son: 105. 123. 71. 83. Ejercicio Se tienen los siguientes 10 datos y se quiere realizar la gráfica Q-Q Plot ya que se sospecha que esos datos son observaciones de una variable aleatoria normal con media 100 y desviación estándar 13.

4736341 10 135 0.45 98. Ejercicio Sol j Yj Probabilidad Función inversa 1 71 0.0091661 8 120 0.65 105.7683668 9 123 0.52636594 3 90 0.85 113.05 78.75 108.23163325 4 91 0.36640249 6 103 0.3830972 160 140 120 100 80 60 40 20 0 0 50 100 150 200 .25 91.61690285 2 83 0.55 101.15 86.35 94.95 121.99083394 5 100 0.6335975 7 105 0.

2.s. i = 1.2. j = 1.…. Fx(yj) – Si los datos corresponden a la distribución que se está probando.n} – Para cada valor de la muestra calcular:  qj = ( j – (1/2) )/n  Fx(yj) – Graficar qj v.probabilidad (P-P) plot es comúnmente usada para verificar si una muestra de datos sigue una distribución particular de probabilidad. Algoritmo: – Tomar una muestra de los datos {xi . la gráfica debe ser aproximadamente una línea recta. .….n} – Ordenarlos para obtener {yj . P-P Plot La gráfica probabilidad .

ya que se sospecha que esos datos son observaciones de una variable aleatoria exponencial con media de 10 minutos. 9 . Ejercicio Se tienen los siguientes 10 datos de la duración de un servicio bancario en minutos y se quiere realizar el gráfico P-P Plot. 7. 18. 11. Los datos son: 15. 10. 12. 8. 9. 7.

4 0.70 9 15 0.8 1 1.25 0.4 0.50 3 8 0.2 .2 0.2 1 0.63 7 11 0.55 0.50 2 7 0.59 5 9 0.83 1. Ejercicio Sol j Yj Probabilidad Función acumulada 1 7 0.59 6 10 0.05 0.85 0.67 8 12 0.6 0.2 0 0 0.78 10 18 0.65 0.75 0.35 0.45 0.55 4 9 0.15 0.95 0.8 0.6 0.

poisson. nos indica que la variable en estudio tiene una distribución que no se ajusta a la distribución propuesta. exponencial. • La hipótesis nula Ho indica la distribución propuesta. Pruebas de Bondad de Ajuste • Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos observados en una muestra aleatoria se ajustan con algún nivel de significancia a determinada distribución de probabilidad (uniforme. normal. mientras que la hipótesis alternativa H1. u otra cualquiera). Ho: f(x) = fo(x) H1: f(x) ≠ fo(x) .

Prueba Chi-Cuadrada Para realizar la prueba. para posteriormente comparar la frecuencia observada en cada clase con la frecuencia que se esperaría obtener en esa clase si la hipótesis nula es correcta. de clases. se clasifican los datos observados en k clases o categorías. k>2 – FOi = Frecuencia observada en la clase i – FEi = Frecuencia esperada en la clase i. y se contabiliza el número de observaciones en cada clase. – k = No.32  Log10 (n) X max  X min Amplitud del intervalo X  k . si Ho es correcta Fórmula de Sturges k  1  3.

donde: n=tamaño de la muestra y pi=área bajo la curva fo(x) en el intervalo (lim sup-lim inf) de la clase i Si fo(x) es continua. . entonces la probabilidad será el área bajo la curva entre los límites de evaluación. Prueba Chi-Cuadrada FOi pi FEi = n*pi .

de clases. Prueba Chi-Cuadrada • Esta prueba se basa en el estadístico de prueba Chi-cuadrada 𝑘 2 𝐹𝑂𝑖 − 𝐹𝐸𝑖 𝜒0 = ෍ 𝐹𝐸𝑖 𝑖=1 • Este tiene distribución Ji-cuadrada (asumiendo que (FOi-FEi) tiene una distribución normal) con k-r-1 grados de libertad. por el contrario si esas diferencias son grandes (lo observado no se ajusta a lo propuesto). de parámetros estimados en fo(x) para encontrar ei . la región de rechazo de la hipótesis nula se ubica en la cola superior de la distribución Chi- cuadrada al nivel de significancia Rechazo Ho Donde: k = No. por lo tanto. No rechazo Ho Y Y r = no. el valor del estadístico es pequeño. el valor del estadístico es grande. • Si las diferencias (FOi-FEi) son pequeñas.

Se sugiere que n sea aproximadamente igual a 5 veces el número de clases. pues si la muestra es muy pequeña no se podrá formar un número suficiente de clases y si la muestra es muy grande la prueba conducirá al rechazo casi con seguridad. Prueba Chi-Cuadrada • El tamaño de la muestra deberá ser moderadamente grande. • Hacer que toda frecuencia observada o esperada no sea menor que cinco (ya que si es muy pequeño no reflejará las frecuencias previstas). el número de grados de libertad debe reducirse en uno (k es el número de clases efectivas en la tabla de frecuencias). esto puede lograrse combinando clases vecinas. pero para cada par de clases que se combinan. • Si fo(x) es discreta: Tamaño de la Número de Intervalos de Clase k – Cada posible valor puede ser un intervalo muestra n 20 No usar prueba Ji-cuadrada 50 5 a 10 100 10 a 20 >100 √n a n/5 .

calcular pk considerando el intervalo desde el límite inferior de la clase hasta +inf. • Para la última clase. se recomienda tomar clases de igual probabilidad en lugar de clases de igual ancho n n 𝑭𝑬𝒊 = 𝒏𝒑𝒊 ≥ 𝟓 5 k k 5 • Se recomienda entonces usando probabilidades iguales p=1/k . Prueba Chi-Cuadrada Si fo(x) es continua: • Para la primera clase. calcular p1 considerando el intervalo desde -inf hasta el límite superior de la clase. • Si se está haciendo el supuesto de una distribución continua.

de miles de dólares Familias 40 < X ≤ 60 12 60 < X ≤ 80 8 80 < X ≤ 100 25 100 < X ≤ 120 30 120 < X ≤ 140 25 Puede admitirse que los ingresos de las familias que habitan en dicha población sigue una distribución uniforme en el intervalo [40.000 – 140. Ejemplo 1 La distribución de los ingresos anuales en dólares de una muestra de 100 familias que habitan en cierta población presentó los siguientes resultados: Ingresos anuales en No.000] con un nivel de significancia del 5% .

obteniendo la siguiente tabla para la prueba: Rango FOi pi FEi FOi-FEi (FOi-FEi)2 (FOi-FEi)2/FEi 40 < X ≤ 60 12 0. Ejemplo 1 Sol Definamos las clases según los 5 rangos presentados en la tabla anterior....2 20 5 25 1. como todos los rangos tienen la misma longitud..2 80 < X ≤ 100 25 0.5.9 𝐹𝐸𝑖 𝑖=1 . se debe tener que pi = 1/5 para i = 1.2 20 5 25 1.2 20 10 100 5 120 < X ≤ 140 25 0.000 y US $140.25 𝑘 𝐹𝑂𝑖 − 𝐹𝐸𝑖 2 𝜒0 = ෍ = 17.000 entonces.25 100 < X ≤ 120 30 0.2 20 -8 64 3. Si asumimos que los ingresos están uniformemente distribuidos entre US $40.2 20 -12 144 7.2 60 < X ≤ 80 8 0.2.

𝜒0 = 17.9. es mayor a 9. es de 𝜒0.4 = 9. 17. 140.49 Como el valor calculado.49 .49.000].05.9 9.05. Ejemplo 1 Sol El valor crítico para una distribución Chi-Cuadrado con cuatro grados de libertad y α = 0.000. debemos rechazar la hipótesis de que los ingresos de dichas familias están uniformemente distribuidos en el intervalo [40.

2. D  } menores o iguales a j .n} – Calcular D   max j {( j / n)  F ( y j )} Diferencias por arriba y por debajo  D  max j {F ( y j )  (( j  1) / n)} j/n representa la proporción – El estadístico de prueba está dado por de valores observados que son D  max {D  . Algoritmo: – Tomar una muestra de los datos {xi .n} – Ordenarlos para obtener {yj .….2. No requiere de especificación de intervalos y es válida para cualquier tamaño de muestra. j = 1. i = 1. Prueba Kolmogorov-Smirnov Esta prueba compara una función empírica de probabilidad con la función de la distribución hipotética.….

De lo contrario se concluye que no hay evidencia estadística para rechazarla. entonces se procede a rechazar la hipótesis nula. Prueba Kolmogorov-Smirnov – Determinar el valor crítico Dα de la tabla estadística. – Si el estadístico calculado es mayor que el valor crítico. para un nivel de significancia α y un tamaño de muestra n. Función hipotética acumulada Función empírica acumulada .

6.996 5 8.7652 13 12.311 16 13.9245 2 7.3933 8 10.1293 11 11.3884 17 15.965 10 11.6885 6 10.236 15 13.033.5248 . Concluya y comente sus resultados.032 18 15. j Yj (ordenados) 1 6.0469 3 7. Ejemplo 2 Se encontraron los siguientes 18 datos y se sospecha que la variable aleatoria es Normal (11.4929 4 7.6604 12 11.90). realizar una prueba de bondad y ajuste pertinente.9024 14 13.9595 9 10.1901 7 10.

37 0.04 0. No se rechazaría incluso para un nivel de significancia del 10% .04 0.00 0.20 j (ordenad (Distribución j/n (j-1)/n D+ D- os) Hipotética) 1.04 0.05 0.50 0.83 0.9245 0. Ejemplo 2 Sol Yj F(Yi) 1.01 0.03 0.311 0.44 0.09 Con un nivel de significancia del 5% el 14 13.06 -0.09 0.02 rechaza la hipótesis de que los datos 17 15.9024 0.12 0.00 9 10.03 16 13.01 0.94 0.28 0.6604 0.80 3 7.39 -0.72 0.7652 12.60 4 7.94 0.06 0.59 0.05 siguen una distribución normal con los 18 15.02 0.10 0.236 0.94 0.01 0.00 1 6.33 0.49 0.4929 0.996 0.61 0.10 -0.17 0.89 0.3884 0.06 0.44 0.72 -0.80 0.19 0.00 0.17 0.0469 0.07 -0.56 0.78 0.3933 0.05 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 10 11.02 0.49 0.965 0.01 parámetros dados.08 -0.20 8 10.61 0.04 5 8.33 -0.67 0.22 0.6885 0.09 -0.11 0.89 0.9595 0.28 -0.01 11 11.78 0.83 0.56 0.032 0. luego no se 15 13.50 0.11 0.08 valor crítico es 0.1293 0.04 0.04 0.81 0.51 0.06 0 0.07 0.06 2 7.40 0.01 0.10 7 10.76 0.06 0.02 0.67 0.82 0.39 0.04 12 13 11.22 0.40 6 10.309.04 0.5248 0.1901 0.96 1.00 0.61 0.

Prueba Kolmogorov-Smirnov .

de la prueba Chi-cuadrada. podemos ver que el p-value corresponde al (área amarilla + área azul): Estadístico de prueba Y Regla de Rechazo: Si el p-value es menor que el nivel de significancia entonces se debe rechazar la hipótesis nula . Por ejemplo. en este caso. P-Value El p-valor corresponde al área superior derecha (en este caso a la derecha. por ser pruebas de cola superior) a partir del estadístico de prueba.

000 – 140. Pruebas de Bondad de ajuste en Excel La distribución de los ingresos anuales en dólares de una muestra de 100 familias que habitan en cierta población presentó los siguientes resultados: Ingresos anuales en No.000] con un nivel de significancia del 5% . de miles de dólares Familias 40 < X ≤ 60 12 60 < X ≤ 80 8 80 < X ≤ 100 25 100 < X ≤ 120 30 120 < X ≤ 140 25 Puede admitirse que los ingresos de las familias que habitan en dicha población sigue una distribución uniforme en el intervalo [40.

debemos rechazar la hipótesis de que los ingresos de dichas familias están uniformemente distribuidos en el intervalo [40. 0. .05.00129088. 140.000. es menor al nivel de significancia.000]. Pruebas de Bondad de ajuste en Excel Como el p-value. 0.

0 7 8:30 AM 3.0 3 8:08 AM 4.0 12 9:04 AM 9.0 10 8:53 AM 9.0 11 8:55 AM 2.0 15 9:23 AM 6. Tiempo Entre Obs Hora Arribo Arribos (muntos) 1 8:00 AM 0.0 … … … .0 5 8:19 AM 3.0 9 8:44 AM 8.0 4 8:16 AM 8. Pruebas de Bondad de ajuste con Input Analyzer Suponga que se tienen mil observaciones para los tiempos entre arribos de las llamadas en un pequeño centro de atención.0 14 9:17 AM 7.0 13 9:10 AM 6.0 2 8:04 AM 4.0 6 8:27 AM 8.0 8 8:36 AM 6.

Pruebas de Bondad de ajuste con Input Analyzer Se quiere encontrar la distribucion que siguen dichos tiempos con un nivel de significancia del 5% .

podemos afirmar que los tiempos entre arribos se distribuyen Exponencial con media 9.78 minutos . Pruebas de Bondad de ajuste con Input Analyzer Con un nivel de significancia del 5%.

05 para rechazar o no rechazar la hipótesis nula de que la siguiente muestra de 200 lotes proviene de una distribución Binomial con parámetro p. Se sospecha que el número de unidades defectuosas. Para facilitar los cálculos se recomienda redondear los valores de la frecuencia esperada. Ejercicios 1. Frecuencia Xi Observada 0 85 1 82 2 25 3 8 . en un lote de tamaño n=3. sigue una distribución Binomial. Realice una prueba Ji-cuadrada con α=0. x. La frecuencia observada que aparece a continuación se refiere al número de lotes de tamaño 3 en los que se encontraron xi unidades defectuosas.

7). Ejercicios 2. Realice: – Una prueba Chi-Cuadrado plantee las hipótesis y realice los procedimientos necesarios hasta encontrar el valor del estadístico de prueba. – Una prueba Kolmogorov-Smirnov plantee las hipótesis y realice los procedimientos necesarios hasta encontrar el valor del estadístico de prueba. . Con los 50 datos que se encuentran la siguiente diapositiva y asumiendo que son realizaciones de variables aleatorias independientes e idénticamente distribuidas. realice una prueba de bondad de ajuste para determinar si el modelo de probabilidad que las define se puede representar como una función de densidad Normal (13.

Ejercicios .

Etc. . Anexos Distribuciones • Distribución Binomial – X es el número de éxitos en n experimentos independientes Bernoulli con probabilidad p de éxito en cada intento Aplicaciones: Número de unidades defectuosas en un lote de tamaño n. Número de unidades demandadas de un inventario.

Etc. . Anexos Distribuciones • Distribución Geométrica – X es el número de intentos hasta obtener el primer éxito Aplicaciones: Número de piezas inspeccionadas hasta la primera defectuosa.

entonces el número de llegadas por unidad de tiempo es Poisson. por volumen. número de pallets por km2. número de llegadas múltiples en cierto momento. Número aleatorio para asignar tamaño de un lote. Si el tiempo entre llegadas es exponencial. concentración de contaminante por cm3. número de unidades demandadas o vendidas en un sistema de inventario. Anexos Distribuciones • Distribución Poisson – k es el número de eventos que ocurren en un periodo fijo de tiempo Aplicaciones: Número de eventos de cierto tipo que ocurren en un intervalo de tiempo. por área. Tenga en cuenta que . Ej: número de llegadas por hora. etc.

pero sí se puede estimar los valores máximo y mínimo que tiene cierto proceso. . Anexos Distribuciones • Distribución Uniforme Aplicaciones Cuando los valores sobre un rango finito son equiprobables. es decir que sólo se conoce el rango de la variable. Cuando se tiene poca información. Para generar números aleatorios de cualquier otra distribución probabilística.

Anexos Distribuciones • Distribución Exponencial – X es generalmente tiempo Aplicaciones: Para modelar el tiempo aleatorio que transcurre entre llegadas. No memoria La probabilidad condicional de tener que esperar más de otros 10 minutos para la primera llegada dado que ya esperamos 30 minutos es igual a la Propiedad de no memoria probabilidad inicial de haber tenido que esperar 10 minutos. Ej: tiempo entre fallas de un equipo de sonido. Cuando se puede asumir la propiedad de pérdida de memoria. . Generalmente inadecuada para modelar tiempos de demora por su excesiva variabilidad.

. (k es un entero positivo). El tiempo de espera entre k ocurrencias de un evento. tiempos de vida en confiabilidad.. Ej: tiempo para atravesar un arreglo en serie de K estaciones en una red telefónica. …….. Aplicaciones: Cuando la realización de una tarea demanda varias etapas cada una de las cuales se distribuye exponencialmente y donde estas etapas se consideran independientes. etc.Xk son variables exponenciales independientes. Anexos Distribuciones • Distribución Erlang – Si X1. Tenga en cuenta que θ=1/λ . Tiempos de procesamiento de mensajes o tareas en redes de comunicación. entonces la suma de estas k variables se distribuye Erlank-k.. X2.

tiempo de servicio en una estación para un producto o cliente.. Ej: tiempos de reparación de máquinas. Aplicaciones: Para modelar tiempos de demora o de procesamiento. Para modelar tiempos entre llegadas. Anexos Distribuciones • Distribución Gamma – Generalización de la distribución Erlang. . tiempo de reaprovisionamiento en control de inventarios (lead t).. Las mismas aplicaciones que la distribución Erlang cuando el parámetro de forma k toma valores enteros. tiempo hasta que se produzca una falla.

Ej: tiempos de reparación de máquinas. Ej: tiempo de vida de un dispositivo formado por componentes en serie. Para modelar tiempos de demora o de procesamiento. tiempo de servicio en una estación para un producto o cliente. Toma formas similares a la distribución Gamma. Tiempo para completar una tarea cuya distribución está sesgada a la derecha. . Anexos Distribuciones • Distribución Weibull Aplicaciones: Ampliamente usada en teoría de confiabilidad para representar el tiempo de vida de un producto o dispositivo.

Anexos Distribuciones • Distribución Normal Aplicaciones: Cuando se aplica el teorema del límite central: variables que resultan de sumar varios valores. . Procesos de distribución simétrica Para distribución de errores de varios tipos alrededor de un valor objetivo.

Situaciones similares en las que se apliquen las distribuciones Gamma o Weibull. X  LN (  .  2 ) si y sólo si ln X  N (  . Tiempos para realizar tareas que tienen una distribución asimétrica (sesgada a la derecha). Anexos Distribuciones • Distribución Lognormal Aplicaciones: Tiempos de procesamiento compuestos de muchas variables aleatorias. Uso creciente en teoría de confiabilidad.  2 ) .

Proporción de una población que exhibe cierto atributo.1)]. Generalmente cuando se tienen pocos datos y se cuenta con estimados subjetivos de a (optimista) y b (pesimista). Tiempo para realizar una tarea [Beta(a. .b)]. Anexos Distribuciones • Distribución Beta Aplicaciones: Proporción de defectuosos en un lote [Beta(0.

. Anexos Distribuciones • Distribución Triangular Aplicaciones: Cuando se cuenta con datos escasos pero se tiene información sobre valores máximo. Tiempos para ejecutar tareas. mínimo y más probable de la distribución.

Anexos Distribuciones .