Professional Documents
Culture Documents
Estadsticos
aplicados a la
Ingeniera
1 Ingeniera Industrial
2 cuatrimestre 2008/2009
Introduccin - Qu es la Estadstica?
La estadstica es la ciencia que se ocupa del diseo de experimentos o encuestas
mediante muestras, para obtener una cantidad determinada de informacin lo ms
eficazmente posible, y del uso ptimo de esta informacin para hacer inferencias con
respecto a una poblacin.
( )
conjunto de datos.
( )
fr (x ) =
'
j
( )
( )
1
4
3
4
2
2
1
0
1
0
1
0
6
2
1
1
1
3
2
1
3
2
2
1
2
2
5
1
2
3
1
0
2
3
3
2
4
0
2
0
1
0
2
1
1
2
1
2
2
2
1
1
2
3
2
3
2
3
4
1
0
2
2
0
2
2
3
2
3
0
0
0
3
4
4
0
2
3
3
2
3
1
2
5
2
2
3
2
2
1
1
1
0
2
3
0
4
1
1
0
4
2
1
0
2
0
2
0
2
3
4
3
( ) ( )
( ) ( )
x 'j
f a x 'j f r x 'j
Fa x 'j Fr x 'j
0
1
2
3
4
5
6
20
30
38
20
9
2
1
20
50
88
108
117
119
120
0,1667
0,2500
0,3167
0,1667
0,0750
0,0167
0,0833
0,1667
0,4167
0,7334
0,9000
0,9750
0,9917
1,0000
En esta tabla se observa que 31,67% de los datos tienen el valor 2 y que 97,50% tienen
un valor menor o igual a 4.
1.2.5 Agrupamiento
Cuando el nmero de valores distintos que tome una variable discreta sea grande, o
cuando la variable sea continua, conviene agrupar los datos en intervalos de clases,
elegidos de forma que no se pierda mucha informacin.
2,6449
0,4149
1,2292
2,2976
0,0127
1,9646
1,5422
6,0150
8,1102
0,5318
1,7856
1,0304
0,2239
6,1265
0,5707
4,0653
0,5801
0,7033
5,2857
1,5169
1,5780
2,6781
0,9573
0,1958
1,8654
0,4995
4,5410
0,2918
0,8548
7,4964
0,1094
1,8982
9,0298
0,0703
3,5947
0,1659
0,4735
1,6724
6,0339
1,4612
0,9541
1,0826
8,3350
0,7881
5,9078
2,7487
1,7483
0,0466
0,9490
1,1176
0,5541
0,1470
7,2789
4,6069
0,5520
0,9409
0,5582
1,1430
0,5175
3,5367
1,6817
0,2411
0,8949
2,0238
1,4001
2,2691
0,6177
10,1949
1,5376
3,8023
0,7350
1,8357
0,0300
0,8994
0,7002
0,0760
0,8956
0,00-1,00
1,00-2,00
2,00-3,00
3,00-4,00
4,00-5,00
5,00-6,00
6,00-7,00
7,00-8,00
8,00-9,00
9,00-10,00
10,00-11,00
Marca de Clase(x)
0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
f a ( x) f r ( x)
Fa ( x) Fr ( x)
41
21
9
3
4
3
3
2
2
1
1
41
62
71
74
78
81
84
86
88
89
90
0,4555
0,2333
0,1000
0,0333
0,0444
0,0333
0,0333
0,0222
0,0222
0,0111
0,0111
0,4556
0,6889
0,7889
0,8222
0,8667
0,9000
0,9333
0,9556
0,9778
0,9889
1,0000
Vemos que 45,55% de los datos tienen un valor menor de 1,00 y que 78,89% tienen un
valor menor que 3,00.
1.3 Representaciones grficas
En la Estadstica las representaciones grficas tienen un papel muy importante, puesto
que para los seres humanos, es mucho ms fcil interpretar una representacin grfica
de informacin numrica, que un gran conjunto de nmeros.
1.3.1 Representaciones grficas para datos numricos
Si tenemos un conjunto de datos numricos, podemos representar la informacin que
contiene utilizando varias representaciones grficas. A continuacin consideramos las
ms utilizadas.
1.3.1.1 Diagrama de barras
Utilizado para datos de variables discretas y en general para distribuciones de
frecuencias de datos sin agrupar en intervalos. Se traza un par de ejes cartesianos y los
distintos valores de la variable se colocan en la abscisa. Sobre cada uno de ellos se
levanta una barra cuya altura es la frecuencia (absoluta o relativa) de dicho valor. Para
los datos de Ejemplo 1.1 podemos producir el siguiente diagrama de barras (con
frecuencias absolutas).
40
Frecuencia
absoluta
30
20
10
0
0
1.3.1.2 Histograma
La representacin grfica ms frecuente para datos agrupados es el histograma. Sobre
cada intervalo de clase se levanta un rectngulo cuya rea sea igual a la frecuencia de
la clase. A la altura de un rectngulo se le llama densidad del intervalo de clase. Para
los datos de Ejemplo 1.2 tenemos el siguiente histograma.
0.5
Densidad
0.4
0.3
0.2
0.1
0.0
0.5
1.5
2.5 3.5
0,5025
0,4208
0,4301
0,4351
0,4413
0,4742
0,3860
0,3770
0,4673
0,3528
0,3998
0,3936
0,4607
0,4532
0,4204
0,4126
0,4630
0,4579
0,5072
0,4725
0,3697
0,4528
0,3758
0,4327
0,3119
0,3903
0,4293
0,4100
0,3482
0,4307
0,4132
0,3717
0,4200
3
3
3
3
3
4
4
4
4
4
5
= 34
1
45
6777
8999
111
22223333
4555
66677
8
00
0,360
0,400
0,440
0,480
0,520
1,0
0,8
0,6
0,4
0,2
0,0
0
Nmero de fallos
Para los datos de Ejemplo 1.2 podemos construir el siguiente polgono de frecuencias
acumuladas.
90
80
70
60
50
40
30
20
10
0
0
10 11
Tiempo (horas)
Pintura
Nmero de coches
Blanca
Verde
Azul
Roja
2764
672
865
927
En este ejemplo la variable estadstica es cualitativa y no hay un orden natural para las
modalidades que muestra. Decimos que la variable estadstica (el color de un coche) es
no ordinable. A continuacin vamos a introducir las representaciones grficas ms
tiles para resumir la informacin contenida en datos de variables de este tipo.
3000
Nmero de
Coches
2000
1000
0
Blanca
A zul
Roja
Verde
Pintura
i =
f a (i )
360
n
Frecuencia
Blanca
Roja
Azul
Verde
2764
927
865
672
190,3
63,8
59,6
46,3
5228
360
10
Total
Es importante tener en cuenta que estas medidas son informativas para datos
homogneos y no tienen mucho sentido si tenemos un conjunto de datos formado por
datos de distintos poblaciones. Si los datos de una muestra vienen de distintos
poblaciones es ms adecuado dividir los datos en distinto grupos (asociados con los
distinto poblaciones) y calcular las medidas caractersticas para cada uno de los
grupos.
En el resto de esta seccin consideramos en ms detalle las medidas de centralizacin
ms frecuentemente usadas. Supongamos en lo sucesivo que tenemos las observaciones
{x i ,..., x n } de una variable estadstica X.
1.4.1 La media aritmtica
1.4.1.1 Definicin
La media de centralizacin que es ms frecuentemente utilizada en la estadstica
(sobre todo en la estadstica clsica) es la media aritmtica, x , que se define como:
n
x + x 2 +...+ x n
x= 1
=
n
11
x
i =1
Si tenemos la distribucin de frecuencias de los distintos valores tomados por los datos
(es decir, {x i' ,..., x m' } ), vemos que:
x f (x )
m
x=
'
j a
'
j
j =1
= x
j =1
'
j
( )=
fa x 'j
n
x f (x )
m
'
j r
'
j
j =1
( )
x = x 'j f r x 'j
j =1
Considerando esta ultima frmula vemos que la media aritmtica es una suma
ponderada (o combinacin lineal) de los distintos valores, con los pesos definidos por
sus frecuencias de observacin.
Utilizando las frecuencias asociadas con los datos de Ejemplo 1.1, la media aritmtica
de estos datos es x = 0(0,1667) + ... + 6(0,0833) = 218 120 = 1,8167 . En el caso de
Ejemplo 1.2 tenemos 90 datos distintos, entonces: x = (0,2527 + 2,6449 + ... +
1,4001)/90 = 188,35/90 = 2,093.
decir,
(x
x) = 0 .
i =1
i =1
Si una muestra de n1 datos tiene una media x1 , una segunda muestra de n2 datos
tiene una media x2 ,... una k-sima muestra de nk datos tiene media x k , entonces la
k
x=
ni x i
i =1
k
ni
x
i =1 j =1
i =1
12
ij
Supongamos que observamos los valores de las dos variables estadsticas X e Y para
n individuos. Es decir, tenemos los datos { x i ,..., x n } e {yi ,..., y n } , entonces
x+y= x+y.
Si a es un constante, ax = ax .
Si x =
x+a
x+a
.
, entonces x =
b
b
1.4.2 La mediana
La mediana tambin tiene un papel muy importante en la estadstica (sobre todo en los
mtodos non-parametricos y los nuevos mtodos robustos). Ordenando los datos en
forma creciente, la mediana se define como el valor que deja igual nmero de
observaciones inferiores que superiores a el. Si hay un nmero par de datos esta
definicin no proporciona un valor nico y para esta caso tomamos como valor mediano
la media aritmtica de los dos centrales. Por ejemplo, si tenemos el conjunto de datos
{4,1,4,2,4,2,5,3} , ordenando los datos en forma creciente tenemos {1,2,2,3,4,4,4,5} . Los
dos valores centrales son 3 y 4 y su media aritmtica es 3,5.
0
1
1
2
2
3
3
6
Los dos valores centrales son ambos 2. Entonces, la mediana es su media aritmtica (2
+ 2)/2 = 2.
1.4.3 La moda
La moda se define como el valor de una muestra de datos que tiene la mayor
frecuencia. Para los datos de Ejemplo 1.1 la moda es el valor 2 (con una frecuencia
absoluta de 38). En Ejemplo 1.2 tenemos 90 valores distintos de una variable continua
entonces la moda no es nica (cada una de los 90 observaciones tiene una frecuencia de
uno). No obstante, utilizando agrupamiento para esto tipo de datos, podemos definir el
intervalo modal como el intervalo con la frecuencia mxima. Por los datos de Ejemplo
1.2 el intervalo modal es [0,1) (con una frecuencia absoluta de 41).
1.5 Medidas de dispersin
A cada medida de centralizacin podemos asociarle una medida de la variabilidad de
los datos respecto a ella.
13
1.5.1 La varianza
Una medida asociada con la media es la varianza de una muestra, ~
s 2 , definido por:
n
~
s2 =
(x
x)
i =1
Si tenemos la distribucin de frecuencias de los distintos valores que toman los datos,
s 2 utilizando la frmula:
podemos calcular el valor de ~
m
~
s 2 = x 'j x
j =1
) f (x )
2
'
j
s2 =
(x
x)
i =1
n 1
porque tiene ciertas propiedades importantes. Minitab, por ejemplo, utiliza esta
s 2 y s 2 sern muy parecidas.)
definicin. Obviamente, si n es grande, ~
Como podemos ver, la varianza es la media de los cuadrados de las desviaciones de los
valores respecto de su media. Es 0 cuando todos los valores coinciden con la media.
En realidad no es necesario calcular las desviaciones para calcular la varainza porque:
(x
x)
i =1
n
xi
n
2
= xi i =1
n
i =1
~
s=
(x
x)
i =1
s=
(x
x)
i =1
n 1
14
x
i =1
2
i
= 873,62 ,
873,62 ( 188,35) 90
~
s2 =
= 5,327
90
2
873,62 ( 188,35) 90
s =
= 5,387
89
s= ~
s 2 = 2,308
y ~
y s = s 2 = 2,321
1.5.2.2 Propiedades
Es invariante ante un cambio de origen. Es decir, si Y = X + c, ~
sy = ~
s x . Tambin,
sy = sx .
~
s
s
X
(k un constante), ~
sy = x . Tambin, s y = x .
k
k
k
Utilizando las propiedades arriba y las de la media, tenemos el siguiente resultado
importante:
Tipificacin de una variable: Sea {x i ,..., x n } una muestra de datos (de una
variable estadstica X) con media x y desviacin tpica ~
s y definimos la
Si Y =
Xx
variable Y = ~ , entonces: y = 0 y s y = 1 .
sx
Cv =
~
s
x
Esta medida (como la mediana) no es afectado por datos extremos (es decir, muy
grandes o muy pequeos). Lamamos medidas que tienen esta propiedad medidas
robustas o resistentes.
Ordenando los datos de Ejemplo 1.2 en forma creciente, tenemos:
0,0127
0,1470
0,2925
0,5520
0,7033
0,8956
1,0304
1,4612
1,7483
2,2691
2,8120
4,6069
7,2789
0,0300
0,1659
0,3109
0,5541
0,7033
0,8994
1,0826
1,5169
1,7856
2,2976
3,5367
5,2857
7,4964
0,0466
0,0703
0,0760
0,1082
0,1094
0,1958
0,2239
0,2411
0,2527
0,2918
0,4149
0,4735
0,4995
0,5175
0,5318
0,5582
0,5707
0,5801
0,6177
0,7002
0,7350
0,7881
0,8398
0,8548
0,8949
0,9409
0,9490
0,9541
0,9573
1,0275
1,1176 1,1430 1,2292
1,4001
1,4029
1,5376
1,5422
1,5780
1,6724
1,6817
1,8357
1,8654
1,8982
1,9646
2,0238
2,3640
2,6449
2,6660
2,6781
2,7487
3,5947
3,8023
4,0653
4,1283
4,5410
5,9078
5,9698
6,0150
6,0339
6,1265
8,1102
8,3350
9,0298
10,1949
La mediana de los datos es la media de los datos 1,1176 y 1,1430, es decir, 1,1303. Los
valores de las desviaciones absolutas ordenados en forma creciente son:
0,0127
0,1762
0,1813
0,2755
0,2905
0,4270
0,4270
0,5596
0,5721
0,6553
0,6568
0,8385
0,9833
1,0209
1,1388
1,1673
2,4064
2,4644
4,7775
4,8395
7,2047
7,8995
0,0127
0,0477
0,0989
0,0999
0,1028
0,1730
0,1894
0,2309
0,2347
0,2354
0,2698
0,2726
0,3309
0,3422
0,3866
0,3953
0,4073
0,4119
0,4301
0,4477
0,5126
0,5421
0,5502
0,5514
0,5762
0,5783
0,5985
0,6128
0,6180
0,6308
0,7054
0,7154
0,7351 0,7679 0,8194 0,8343
0,8378
0,8776
0,8892
0,8935
0,9064
0,9345
0,9644
1,0221
1,0543
1,0600
1,0837
1,1003
1,1176
1,2337
1,5146
1,5357
1,5478
1,6184
1,6817
2,6720
2,9350
2,9980
3,4107
3,4766
4,1554
4,8847
4,9036
4,9962
6,1486
6,3661
6,9799
9,0646
La mediana de estos valores es la media de los dos valores centrales 0,7679 y 0,8194 =
0,7937. Es decir, en este caso la MEDA = 0,7937.
1.5.5 El recorrido
Como indicado antes, el recorrido (o rango) de un conjunto de datos es la diferencia
entre sus valores mximo y mnimo.
1.5.6 Percentiles, cuartiles y el rango intercuartlico
Si ordenamos los datos en forma creciente podemos identificar los percentiles y
cuartiles de su distribucin. Llamamos percentil , P , al valor que deja inferiores o
iguales a l % de los datos. Por ejemplo, si el nmero de datos es impar la mediana es
el percentil 50, P50 . Llamamos cuartiles a aquellos valores que dividen la distribucin
de un conjunto de dato en cuatro partes iguales. Entonces, el primer cuartil, Q1 , es
16
suma
(x
x)
i =1
Cas =
(x
i =1
x)
ns~ 3
Distribucin 1
x
10 / 9
0
10 / 9
Distribucin 2
x
fr ( x )
0,45 10 / 7
0,1
0
0,45
10 / 7
Distribucin 3
fr ( x )
0,35
0,3
0,35
x
2
0
2
17
fr ( x )
0,25
0,5
0,25
Distribucin 4
x
10 / 3
0
10 / 3
fr ( x )
0,15
0,7
0,15
(x
Cap =
i =1
x)
ns~ 4
Cap
1
2
3
4
1,11
1,43
2
3,33
1.7 Momentos
Se define el momento de orden k respecto del origen como:
n
mk' =
k
i
i =1
(x
mk =
x)
i =1
m0' =
x
i =1
0
i
=1
m1' =
i =1
=x
m1 =
x
i =1
(x
m2 =
x)
(x
=1
i =1
2
i
x)
n
n
m2' =
i =1
m0 =
(x
x)
i =1
18
=0
=~
s2
Cas =
(x
i =1
x)
(x
i =1
m
= ~ 33 =
s
ns~ 3
Cap =
x)
m3
m2
ns~ 4
m
= ~ 44 =
s
m4
m2
s = 2,308,
Para los datos de Ejemplo 1.2 tenemos: x = 2,093, ~
(x
x ) = 1823,09,
3
i =1
(x
i =1
1823,09
90( 2,308)
= 1,648 y Cap =
12773,9
90( 2,308)
= 5,002 .
(x
a) = 0 .
i =1
(x
a) .
2
i =1
n
a .
i =1
1.8.4 Demuestre que si multiplicamos todos los valores de una variable por k, la
media y la desviacin tpica quedarn multiplicadas tambin por k (k > 0).
1.8.5 Qu transformacin sufre el coeficiente de variacin de Pearson de una
variable X cuando se multiplican sus valores por un constante k (k > 0)? Y si
se dividen por k?
1.8.6 Demuestre que si construimos una variable Z mezclando n1 valores de X y n2
valores de Y, la media de Z, es:
z=
n2
n1
x+
y
n1 + n2
n1 + n2
19
1.8.8 Se tienen n valores de una variable estadstica, {x i ,..., x n } que arrojan una
media de 8 y una desviacin tpica de 5. Se construye los nuevos valores
2
yi = ( x i 2) . Cuanto vale y ?
n
( xi x ) = ( xi a) n( x a) para cualquier
i =1
i =1
nmero real a?
1.8.10 Dadas las seis observaciones -10, 3, x, 10, 1, 0, se sabe que su desviacin tpica
es igual a su coeficiente de variacin de Pearson. Se pide:
a) Encontrar el valor de x.
b) Encontrar la media de la distribucin.
c) Es la distribucin simtrica?
20