You are on page 1of 25

1

Recordando la Estadística
2
Recordando la Estadística
Población:
• Es la recolección completa de todas las observaciones
de interés para el investigador
Parámetro:
• Es una medida descriptiva de la población total de todas
las observaciones de interés para el investigador.
Muestra:
• Es una parte representativa de la población que se
selecciona para ser estudiada
Estadístico:
• Elemento que describe una muestra y sirve como una
estimación del parámetro de la población
Variable:
• Es una característica de la población que se esta
analizando en un estudio estadístico.
3
Medidas de Tendencia Central
La media:
• Es la medida de tendencia central que normalmente es
considerada como el promedio.
• Si tenemos 56, 67, 52, 45, 67, la media se calcula así:


4 . 57
5
67 45 52 67 56
__
=
+ + + +
= X
4
Medidas de Tendencia Central
La mediana:
• La mitad de las observaciones estará por debajo de ella
y la otra mitad por encima.

• Posición de la mediana = =

• Para los datos ordenados, la mediana es 56 (la tercera
posición).
• Si tenemos: 35, 45, 52, 56, 67 y 67. (n es par),
promediamos los dos valores medios (52 + 56)/2 = 54
2
1 + n
3
2
1 5
=
+
5
Medidas de Tendencia Central
La moda:
• Observación que ocurre con mayor frecuencia.
• Si tenemos 35, 45, 52, 56, 67, 67, la moda es 67
• Si agregáramos una observación adicional de 56, el
conjunto de datos seria bimodal, con modas 56 y 67.
6
Medidas de Dispersión
• Miden que tanto se dispersan las observaciones alrededor
de su media.
El rango:
• Es la diferencia entre la observación mas alta y mas baja.
• Su desventaja es que considera solo dos observaciones
del total de observaciones.
7
Medidas de Dispersión
La Varianza:
• Es el promedio de las desviaciones respecto a su media
elevadas al cuadrado
Varianza poblacional:


Varianza de una muestra:
( ) ( ) ( ) ( )
( )
N
x
N
x x x x
i
N
¿
÷
=
÷ + + ÷ + ÷ + ÷
=
2
2 2
3
2
2
2
1
2
...
µ
µ µ µ µ
o
1 1
...
2
__
2
__
2
__
3
2
__
2
2
__
1
2
÷
|
.
|

\
|
÷
=
÷
|
.
|

\
|
÷ + + |
.
|

\
|
÷ + |
.
|

\
|
÷ + |
.
|

\
|
÷
=
¿
n
X x
n
X x X x X x X x
S
i n
8
Medidas de Dispersión
La Varianza:
Si tenemos: 87, 120, 54, 92, 73, 80 y 63






La media de los valores observados es de 81.29, con
tendencia a variar por arriba o debajo de dicha media en
21.58
29 . 81
__
= X
9 . 465
1 7
) 29 . 81 63 ( ... ) 29 . 81 120 ( ) 29 . 81 87 (
2 2 2
2
=
÷
÷ + + ÷ + ÷
= S
58 . 21 9 . 465 = = S
9
Intervalos de Confianza
• El teorema del limite central asume que el resultado de
tendrá una distribución normal.
• Supongamos que la simulación se esta utilizando para
analizar las demoras en un proceso de producción.
• Cada replica independiente del modelo produce una
respuesta potencial de la distribución de todas las
posibles demoras. Una sola salida, produce solo una
muestra de la distribución.
__
X
10
Intervalos de Confianza
• Asumamos 100 puntos estimados del promedio de
demora en un proceso esta normalmente distribuido con
una media de 40 y una desviación estándar de 12.
• Cien muestras de esta distribución pueden ser
distribuidas como siguen
11
Intervalos de Confianza
39 43
35 39 43 47 Distribución Normal
35 39 43 47 µ = 40
35 39 43 47 δ = 12
3 1 3 5
38 42 47 51
31 34 38 42 46 51
27 31 34 38 42 46 51 55
27 30 34 38 42 46 50 55
27 30 34 37 41 46 50 55
23 26 30 33 37 41 45 50 54 58
19 22 26 29 33 37 41 45 49 54 58 63
14 19 21 25 29 33 37 41 45 49 53 57 63 69
12 17 21 25 29 33 37 41 45 49 53 57 61 66
16-20 < 16 20-24 24-28 28-32 32-36 36-40 40-44 44-48 48-52 52-56 56-60 60-64 > 64
12
Intervalos de Confianza
• Los principios de inferencia estadística, nos permiten
hacer estimaciones de una media verdadera µ y una
varianza o2
• Suponga que los siguientes valores son aleatoriamente
seleccionados de la distribución mostrada en el gráfico
anterior: 26, 31, 38, 49, 50 y 58.
• Un punto estimado de µ es designado como:
42
6
58 50 49 38 31 26
) 6 (
__
=
+ + + + +
= X
4 . 152
1 6
] ) 6 ( [
) 6 (
6
1
2
__
2
=
÷
÷
=
¿
X Xi
S
• La varianza de la distribución es aproximada como:
13
Intervalos de Confianza
n
n S
t n X
n
) (
) (
2
2 / 1 , 1
__
o ÷ ÷
±
6
4 . 152
015 . 2 42 ±
16 . 52 84 . 31 s s µ
• Como la cantidad de datos (n=6) es menor que 30, usamos
un valor t de una distribución t, para construir el intervalo de
confianza para el punto estimado µ,
• un intervalo de confianza nos dice con que certeza
(90%), el parámetro de la media verdadera esta contenida
dentro de nuestro intervalo calculado.
Usamos α =
10%
Un 90% de
certeza
14
Media Muestral vs. Verdadera
μ= 40
Media
Muestral
Media
Poblacional
_
X = 42
15
Intervalos de Confianza
• Que son?
– Un intervalo, expresado en el formato (min,
max), el cual provee un estimado realista del
valor verdadero de un parámetro del sistema
particular tal como el ciclo de tiempo o el
promedio diario de atenciones.
• La longitud del intervalo depende del
tamaño “n” de la muestra.
• Los niveles típicos son: 90%, 95% y 99%.
16
Intervalos de Confianza
Media
Muestral
Media
Verdadera
95%
90%
u = 40
_
X = 42
17
Intervalos de Confianza
• El principio del intervalo de confianza puede ser
demostrado utilizando los números descritos en la
distribución normal anterior.
• El siguiente ejercicio ilustra esta explicación.
1) Coloque los números de la distribución normal en 100 papeles
pequeños.
2) Ponga los papeles en un contenedor.
3) Busque en el contenedor y extraiga seis papeles.
4) Registre el número mostrado en cada papel seleccionado.
5) Calcule un intervalo de confianza a un 90%, para los seis
valores obtenidos.
6) Retorne todos los papeles al contenedor.
18
Intervalos de Confianza
• Si ejecutamos los pasos tres al seis, 100 veces,
podemos esperar que 90 de los intervalos de confianza
calculados, contienen el parámetro de la media
verdadera µ (µ = 40 en este ejemplo).
• Desarrollar el siguiente ejemplo y verifique los
resultados para 10 repeticiones.
19
Intervalos de Confianza
) 6 (
__
X ) 6 (
2
S Exp.
Valores
Seleccionados
Intervalo
¿Intervalo contiene
a µ = 40?
1
2
3
4
5
6
7
8
9
10
20
Número de Réplicas
• Un método esencial para mejorar la confiabilidad de los
resultados es ejecutar múltiples replicas independientes
de la simulación.
• Los resultados de múltiples réplicas del modelo deben
ser analizados con principios de inferencia estadística
para realizar conclusiones validas.
• El ejm. anterior puede ser usado para demostrar el nivel
de confianza asociado al numero de replicas necesarias
para asegurar la exactitud de (un punto estimado de µ)
con respecto a la media verdadera de la distribución
21
Número de Réplicas
Random
Input
Random
Output
La simulación usa el principio RIRO
22
Número de Réplicas
La ecuación para conocer el numero de replicas necesarias es:
2
2 / 1 , 1
(
¸
(

¸

=
÷ ÷
e
S t
N
n o
Donde:
N: Numero de replicas necesarias para lograr un nivel de exactitud deseado
S(n): Es un punto estimado de o, basado en n replicas del modelo.
e: Denota la cantidad de error entre la media estimada y µ
t: Valor critico de la tabla t
23
Número de Réplicas
• Deseamos conocer cuantas replicas del modelo deben ser
realizadas para tener un 90% de confianza que nuestra media
estimada no varia de la media verdadera por mas de 9 días.
Media
Muestral
Media
Verdadera
e = 9
24
Número de Réplicas
• Estimamos el valor de o, seleccionando aleatoriamente seis valores
de la distribución (en la simulación esto equivale a realizar 6 replicas
independientes del modelo)
• Si los valores seleccionados son 26, 31, 38, 49, 50 y 58
• El estimado de la desviación estándar es 12.3
• Insertando estos valores en la ecuación anterior, esto nos da N=8.
• Implica que si aleatoriamente seleccionamos 8 muestras de la
distribución y calculamos un valor de
• Podemos esperar que aproximadamente 90 veces de un total de
100, el valor de no variara de la media verdadera µ = 40, por mas
de 9 días, verificar estos resultados en la siguiente tabla.
2
2 / 1 , 1
(
¸
(

¸

=
÷ ÷
e
S t
N
n o
8 58 . 7
9
) 3 . 12 )( 015 . 2 (
2
~ =
(
¸
(

¸

= N
__
X
__
X
25
Número de Réplicas
) 8 (
__
X
exp. Valores
Seleccionados
Dentro del limite µ ± 9?
(µ = 40)
1
2
3
4
5
6
7
8
9
10
verificar los resultados anteriores en la siguiente tabla:

Recordando la Estadística
Población: • Es la recolección completa de todas las observaciones de interés para el investigador Parámetro: • Es una medida descriptiva de la población total de todas las observaciones de interés para el investigador. Muestra: • Es una parte representativa de la población que se selecciona para ser estudiada Estadístico: • Elemento que describe una muestra y sirve como una estimación del parámetro de la población Variable: • Es una característica de la población que se esta analizando en un estudio estadístico.

2

67. 67. 52. 45. la media se calcula así: X __ 56  67  52  45  67  57.4 5 3 .Medidas de Tendencia Central La media: • Es la medida de tendencia central que normalmente es considerada como el promedio. • Si tenemos 56.

promediamos los dos valores medios (52 + 56)/2 = 54 4 . la mediana es 56 (la tercera posición). 56. • Posición de la mediana = n 1 5 1 3 = 2 2 • Para los datos ordenados. 45. • Si tenemos: 35.Medidas de Tendencia Central La mediana: • La mitad de las observaciones estará por debajo de ella y la otra mitad por encima. 67 y 67. (n es par). 52.

con modas 56 y 67. 67. • Si tenemos 35. 45. el conjunto de datos seria bimodal. 67. la moda es 67 • Si agregáramos una observación adicional de 56. 52.Medidas de Tendencia Central La moda: • Observación que ocurre con mayor frecuencia. 56. 5 .

• Su desventaja es que considera solo dos observaciones del total de observaciones. 6 .Medidas de Dispersión • Miden que tanto se dispersan las observaciones alrededor de su media. El rango: • Es la diferencia entre la observación mas alta y mas baja.

.  xN   2   xi   2  N N __ __ __ __ __            x1  X    x2  X    x3  X   ....   xn  X    xi  X            S2   n 1 n 1 2 2 2 2 2 Varianza de una muestra: 7 .Medidas de Dispersión La Varianza: • Es el promedio de las desviaciones respecto a su media elevadas al cuadrado Varianza poblacional:  2 x1   2  x2   2  x3   2  .

.9 7 1 2 __ S  465 .29 ) 2  (120  81 .58 8 .9  21 .29. 73.  (63  81 . 80 y 63 X  81.. con tendencia a variar por arriba o debajo de dicha media en 21. 120.Medidas de Dispersión La Varianza: Si tenemos: 87.29 ) 2 S   465 . 54.29 ) 2  .58 La media de los valores observados es de 81.29 (87  81 . 92.

Una sola salida. __ 9 . produce solo una muestra de la distribución. • Cada replica independiente del modelo produce una respuesta potencial de la distribución de todas las posibles demoras.Intervalos de Confianza • El teorema del limite central asume que el resultado de X tendrá una distribución normal. • Supongamos que la simulación se esta utilizando para analizar las demoras en un proceso de producción.

• Cien muestras de esta distribución pueden ser distribuidas como siguen 10 .Intervalos de Confianza • Asumamos 100 puntos estimados del promedio de demora en un proceso esta normalmente distribuido con una media de 40 y una desviación estándar de 12.

Intervalos de Confianza 35 35 35 3 1 3 5 23 19 22 14 19 21 12 17 21 27 27 27 26 26 25 25 31 31 30 30 30 29 29 29 34 34 34 34 33 33 33 33 39 39 39 39 38 38 38 38 37 37 37 37 37 43 43 43 43 42 42 42 42 41 41 41 41 41 47 47 47 47 46 46 46 46 45 45 45 45 Distribución Normal µ = 40 δ = 12 51 51 51 50 50 50 49 49 49 55 55 55 54 54 53 53 58 58 63 57 63 69 57 61 66 < 16 16-20 20-24 24-28 28-32 32-36 36-40 40-44 44-48 48-52 52-56 56-60 60-64 > 64 11 .

50 y 58. 31. • Un punto estimado de  es designado como: X (6)  __ 26  31  38  49  50  58  42 6 • La varianza de la distribución es aproximada como: S 2 (6)  [ Xi  X (6)] 1 6 __ 2 6 1  152. 38.Intervalos de Confianza • Los principios de inferencia estadística.4 12 . 49. nos permiten hacer estimaciones de una media verdadera  y una varianza 2 • Suponga que los siguientes valores son aleatoriamente seleccionados de la distribución mostrada en el gráfico anterior: 26.

Intervalos de Confianza • Como la cantidad de datos (n=6) es menor que 30. 13 .4 6 Usamos α = 10% Un 90% de certeza 31. X (n)  tn 1.16 • un intervalo de confianza nos dice con que certeza (90%).015 __ S 2 (n) n 152 .84    52. el parámetro de la media verdadera esta contenida dentro de nuestro intervalo calculado. para construir el intervalo de confianza para el punto estimado . usamos un valor t de una distribución t.1 / 2 42  2.

Media Muestral vs. Verdadera _ μ= 40 X = 42 Media Poblacional Media Muestral 14 .

• Los niveles típicos son: 90%. 95% y 99%. max). 15 .Intervalos de Confianza • Que son? – Un intervalo. el cual provee un estimado realista del valor verdadero de un parámetro del sistema particular tal como el ciclo de tiempo o el promedio diario de atenciones. expresado en el formato (min. • La longitud del intervalo depende del tamaño “n” de la muestra.

Intervalos de Confianza u = 40 95% 90% _ X = 42 Media Media Verdadera Muestral 16 .

5) Calcule un intervalo de confianza a un 90%.Intervalos de Confianza • • El principio del intervalo de confianza puede ser demostrado utilizando los números descritos en la distribución normal anterior. 3) Busque en el contenedor y extraiga seis papeles. 4) Registre el número mostrado en cada papel seleccionado. para los seis valores obtenidos. 1) Coloque los números de la distribución normal en 100 papeles pequeños. 17 . 2) Ponga los papeles en un contenedor. El siguiente ejercicio ilustra esta explicación. 6) Retorne todos los papeles al contenedor.

Intervalos de Confianza • Si ejecutamos los pasos tres al seis. 100 veces. • Desarrollar el siguiente ejemplo y verifique los resultados para 10 repeticiones. podemos esperar que 90 de los intervalos de confianza calculados. contienen el parámetro de la media verdadera  ( = 40 en este ejemplo). 18 .

Intervalos de Confianza Exp. 1 2 3 4 5 6 Valores Seleccionados __ X (6) S 2 ( 6) Intervalo ¿Intervalo contiene a  = 40? 7 8 9 10 19 .

anterior puede ser usado para demostrar el nivel de confianza asociado al numero de replicas necesarias para asegurar la exactitud de (un punto estimado de ) con respecto a la media verdadera de la distribución 20 .Número de Réplicas • Un método esencial para mejorar la confiabilidad de los resultados es ejecutar múltiples replicas independientes de la simulación. • Los resultados de múltiples réplicas del modelo deben ser analizados con principios de inferencia estadística para realizar conclusiones validas. • El ejm.

Número de Réplicas La simulación usa el principio RIRO Random Input Random Output 21 .

basado en n replicas del modelo.Número de Réplicas La ecuación para conocer el numero de replicas necesarias es: Donde: N: S(n): e: t:  t n 1. Denota la cantidad de error entre la media estimada y  Valor critico de la tabla t 22 .1 / 2 S  N   e   2 Numero de replicas necesarias para lograr un nivel de exactitud deseado Es un punto estimado de .

Número de Réplicas • Deseamos conocer cuantas replicas del modelo deben ser realizadas para tener un 90% de confianza que nuestra media estimada no varia de la media verdadera por mas de 9 días. Media Verdadera e=9 Media Muestral 23 .

58  8 9   24 2 . 31. seleccionando aleatoriamente seis valores de la distribución (en la simulación esto equivale a realizar 6 replicas independientes del modelo) • Si los valores seleccionados son 26. el valor de X no variara de la media verdadera  = 40. • Implica que si aleatoriamente seleccionamos 8 muestras de la __ distribución y calculamos un valor de X • Podemos esperar que aproximadamente 90 veces de un total de __ 100.Número de Réplicas • Estimamos el valor de .  t n 1. por mas de 9 días. 50 y 58 • El estimado de la desviación estándar es 12.1 / 2 S  N   e   2  (2.3)  N    7.3 • Insertando estos valores en la ecuación anterior. 49. verificar estos resultados en la siguiente tabla. 38. esto nos da N=8.015)(12.

Número de Réplicas verificar los resultados anteriores en la siguiente tabla: exp. 1 2 3 4 5 6 7 Valores Seleccionados __ X (8) Dentro del limite  ± 9? ( = 40) 8 9 10 25 .