You are on page 1of 21

Mtodos

Estadsticos
aplicados a la
Ingeniera
1 Ingeniera Industrial

2 cuatrimestre 2008/2009

Introduccin - Qu es la Estadstica?
La estadstica es la ciencia que se ocupa del diseo de experimentos o encuestas
mediante muestras, para obtener una cantidad determinada de informacin lo ms
eficazmente posible, y del uso ptimo de esta informacin para hacer inferencias con
respecto a una poblacin.

Objectivos importantes de la estadstica


Muestreo
Descripcin de datos
Estimacin
Contraste de hiptesis
Medicin de relaciones
Prediccin

Tema 1 - Estadstica Descriptiva


La estadstica descriptiva engloba los procedimientos que resumen la informacin que
contiene un conjunto de datos.
1.1 Conceptos generales
1.1.1 Poblacin estadstica o colectivo
Conjunto de referencia sobre el cual se van a recoger las observaciones. Puede ser
finita o infinita.
1.1.2 Unidad estadstica o individuo
Un elemento de la poblacin (persona, objeto, algo abstracto, ...)
1.1.3 Muestra
Subconjunto de elementos de la poblacin. El nmero de elementos es el tamao de la
muestra.
1.1.4 Variables Estadsticas
Una caracterstica inherente al individuo o unidad estadstica. Por ejemplo: Una
persona tiene las caractersticas: altura, peso, tamao de zapato, color de los ojos, sexo,
.... Pueden ser medibles (variables cuantitativas (peso, altura, tamao de zapato,...)) o
no medibles (variables cualitativas (color de los ojos, sexo)).
Las diferentes formas que puede mostrar una variable cualitativa se llaman
modalidades. Por ejemplo: el estado civil tiene las modalidades casado, soltero y viudo;
el sexo tiene las modalidades varn y hembra.
Una variable estadstica puede ser discreta o continua. Una variable estadstica se
llama discreta cuando el conjunto de sus valores posibles es numerable. Por ejemplo,
el nmero de automviles fabricados diariamente en una fbrica, el nmero de fallos de
una mquina a la hora, .... Una variable estadstica se llama continua cuando puede
tomar valores entre dos distintos, por muy prximos que los fijemos. Por ejemplo, el
tiempo de duracin de un suceso, el peso de un objeto, ....
En lo que sigue, supondremos que el orden en que se recogen los datos es irrelevante (si
no, tenemos que utilizar mtodos especiales para series temporales).

1.2 Distribuciones de frecuencias para datos numricos


Supongamos que tenemos un conjunto de datos numricos de tamao n,
{ x1 , x2 ,..., xn } , de una variable X. Entre los datos hay m (m n) distintos valores

{ x1' , x2' ,..., xm' } .

Podemos resumir un conjunto de datos por una tabla de valores


observados de la variable y sus frecuencias de aparicin tanto absolutas como relativas.
1.2.1 Frecuencia absoluta
La frecuencia absoluta de x 'j , f a x 'j , es el nmero de veces que se observa x 'j en el

( )

conjunto de datos.

1.2.2 Frecuencia relativa


La frecuencia relativa de x 'j , f r x 'j , es

( )

fr (x ) =
'
j

nmero de veces que se observa x 'j entre los datos


n

1.2.3 Frecuencia acumulada


Suele ser til tambin incluir frecuencias acumuladas (tanto absolutas, Fa x 'j , como

( )

( )

relativas, Fr x 'j ). Estas frecuencias acumuladas son simplemente sumas de las


frecuencias definidas antes.
1.2.4 Tabla de frecuencias
Podemos resumir los valores observados y sus frecuencias en una tabla como en el
siguiente ejemplo.
Ejemplo 1.1
Los siguientes 120 datos se han obtenido al observar el nmero de fallos de un sistema
elctrico.
1
1
1
1
0
3
1
2

1
4
3
4
2
2
1
0

1
0
1
0
6
2
1
1

1
3
2
1
3
2
2
1

2
2
5
1
2
3
1
0

2
3
3
2
4
0
2
0

1
0
2
1
1
2
1
2

2
2
1
1
2
3
2
3

2
3
4
1
0
2
2
0

2
2
3
2
3
0
0
0

3
4
4
0
2
3
3
2

3
1
2
5
2
2
3
2

2
1
1
1
0
2
3
0

4
1
1
0
4
2
1
0

2
0
2
0
2
3
4
3

Podemos construir la siguiente tabla para resumirlos.

( ) ( )

( ) ( )

x 'j

f a x 'j f r x 'j

Fa x 'j Fr x 'j

0
1
2
3
4
5
6

20
30
38
20
9
2
1

20
50
88
108
117
119
120

0,1667
0,2500
0,3167
0,1667
0,0750
0,0167
0,0833

0,1667
0,4167
0,7334
0,9000
0,9750
0,9917
1,0000

En esta tabla se observa que 31,67% de los datos tienen el valor 2 y que 97,50% tienen
un valor menor o igual a 4.
1.2.5 Agrupamiento
Cuando el nmero de valores distintos que tome una variable discreta sea grande, o
cuando la variable sea continua, conviene agrupar los datos en intervalos de clases,
elegidos de forma que no se pierda mucha informacin.

1.2.6 Eleccin de los intervalos


Decidir el nmero de clases a considerar. Este nmero debe ser entre 5 y 20. Una
regla frecuentemente utilizada en la prctica es escoger el entero ms prximo a n ,
siendo n el nmero de datos, pero conviene probar con distintos nmeros de clases y
escoger aquel que proporcione una descripcin ms clara (cuando representamos las
frecuencias en una grfica, como un histograma).
Para simplificar es usual seleccionar los lmites de clase que definen los intervalos,
de manera que stos sean de la misma longitud. Cada observacin tiene que
clasificarse sin ambigedad en un solo intervalo. Por ejemplo [1-7), [7-13), [13-19),
... Los nmeros extremos de los intervalos se llaman limites reales de clase. Al
centro del intervalo le llamaremos marca de clase.
Ejemplo 1.2
Los siguientes 90 datos representan el tiempo (en horas) entre dos fallos consecutivos
de una mquina.
0,2527
0,1082
2,3640
0,2925
0,3109
2,6660
4,1283
0,7033
0,8398
2,8120
5,9698
1,4029
1,0275

2,6449
0,4149
1,2292
2,2976
0,0127
1,9646
1,5422
6,0150
8,1102
0,5318
1,7856
1,0304
0,2239

6,1265
0,5707
4,0653
0,5801
0,7033
5,2857
1,5169
1,5780
2,6781
0,9573
0,1958
1,8654
0,4995

4,5410
0,2918
0,8548
7,4964
0,1094
1,8982
9,0298
0,0703
3,5947
0,1659
0,4735
1,6724
6,0339

1,4612
0,9541
1,0826
8,3350
0,7881
5,9078
2,7487
1,7483
0,0466
0,9490
1,1176
0,5541
0,1470

7,2789
4,6069
0,5520
0,9409
0,5582
1,1430
0,5175
3,5367
1,6817
0,2411
0,8949
2,0238
1,4001

2,2691
0,6177
10,1949
1,5376
3,8023
0,7350
1,8357
0,0300
0,8994
0,7002
0,0760
0,8956

Para estos datos el recorrido de los datos es x m x x mn = 10,1949 0,0127 = 10,1822 . Si


definimos intervalos con una amplitud de una unidad, y empezamos con un primer
intervalo con marca de clase de 0,5, 11 intervalos abarcan el campo de los datos. Con
estos intervalos podemos producir la siguiente tabla:
Intervalo

0,00-1,00
1,00-2,00
2,00-3,00
3,00-4,00
4,00-5,00
5,00-6,00
6,00-7,00
7,00-8,00
8,00-9,00
9,00-10,00
10,00-11,00

Marca de Clase(x)

0,5
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5

f a ( x) f r ( x)

Fa ( x) Fr ( x)

41
21
9
3
4
3
3
2
2
1
1

41
62
71
74
78
81
84
86
88
89
90

0,4555
0,2333
0,1000
0,0333
0,0444
0,0333
0,0333
0,0222
0,0222
0,0111
0,0111

0,4556
0,6889
0,7889
0,8222
0,8667
0,9000
0,9333
0,9556
0,9778
0,9889
1,0000

Vemos que 45,55% de los datos tienen un valor menor de 1,00 y que 78,89% tienen un
valor menor que 3,00.
1.3 Representaciones grficas
En la Estadstica las representaciones grficas tienen un papel muy importante, puesto
que para los seres humanos, es mucho ms fcil interpretar una representacin grfica
de informacin numrica, que un gran conjunto de nmeros.
1.3.1 Representaciones grficas para datos numricos
Si tenemos un conjunto de datos numricos, podemos representar la informacin que
contiene utilizando varias representaciones grficas. A continuacin consideramos las
ms utilizadas.
1.3.1.1 Diagrama de barras
Utilizado para datos de variables discretas y en general para distribuciones de
frecuencias de datos sin agrupar en intervalos. Se traza un par de ejes cartesianos y los
distintos valores de la variable se colocan en la abscisa. Sobre cada uno de ellos se
levanta una barra cuya altura es la frecuencia (absoluta o relativa) de dicho valor. Para
los datos de Ejemplo 1.1 podemos producir el siguiente diagrama de barras (con
frecuencias absolutas).

40

Frecuencia
absoluta
30

20

10

0
0

1.3.1.2 Histograma
La representacin grfica ms frecuente para datos agrupados es el histograma. Sobre
cada intervalo de clase se levanta un rectngulo cuya rea sea igual a la frecuencia de
la clase. A la altura de un rectngulo se le llama densidad del intervalo de clase. Para
los datos de Ejemplo 1.2 tenemos el siguiente histograma.

0.5

Densidad
0.4
0.3
0.2
0.1
0.0
0.5

1.5

2.5 3.5

4.5 5.5 6.5

7.5 8.5 9.5 10.5

1.3.1.5 Polgono de frecuencias


Si no hemos agrupado los datos en intervalos, el polgono de frecuencias se obtiene
uniendo los extremos superiores de las barras del diagrama de barras. Si hemos
utilizado intervalos de agrupamiento el polgono de frecuencias se obtiene uniendo los
puntos medios de las bases superiores de cada rectngulo del histograma.
Ejercicio 1.1
Producir los polgonos de frecuencias para los datos de Ejemplos 1.1 y 1.2.
1.3.1.3 Diagrama de tallo y hojas
Un mtodo semi-grfico de representar datos numricos, especialmente til cuando el
tamao del conjunto de datos es pequeo (menor que 50), es el diagrama de tallo y
hojas de Tukey. Para construir dicho diagrama:
Redondear los valores a dos o tres cifras significativas, expresndolos en unidades
convenientes.
Representarlos en una tabla con dos columnas separadas por una lnea vertical como
sigue:
1. Para datos con dos dgitos, escribir a la izquierda de la lnea los dgitos de
las decenas. Estos dgitos forman el tallo del diagrama. A la derecha,
escribir las unidades. Estas ltimas forman las hojas. Por ejemplo, 95 se
escribe 9|5.
2. Para datos con tres dgitos el tallo se forma con los dgitos de las centenas y
decenas (escritos a la izquierda) separados por la lnea de las unidades. Por
ejemplo, 264 se escribe 26|4.
Cada tallo define una clase, y se escribe solo una vez. Es usual tambin ordenar los
valores en el tallo en el orden que crecen. El nmero de hojas representa la
frecuencia de dicha clase.
Si el primer dgito de la clasificacin vara poco, la mayora de los datos se agrupan
alrededor de un tallo y el diagrama resultante tiene poco detalle. En este caso es
conveniente subdividir cada tallo en dos o ms partes.
Ejemplo 1.3
Los siguientes 34 datos representan el peso de 34 distintos cerrojos del mismo tipo en
kg.:
0,4819

0,5025

0,4208

0,4301

0,4351

0,4413

0,4742

0,3860

0,3770

0,4673

0,3528

0,3998

0,3936

0,4607

0,4532
0,4204

0,4126

0,4630

0,4579

0,5072

0,4725

0,3697

0,4528

0,3758

0,4327

0,3119

0,3903

0,4293

0,4100

0,3482

0,4307
0,4132
0,3717

0,4200

Para estos datos podemos producir el siguiente diagrama de tallo y hojas.


Tallo-y-hoja de Peso Kg.
Unidad de hoja = 0,010
1
1
3
7
11
14
(8)
12
8
3
2

3
3
3
3
3
4
4
4
4
4
5

= 34

1
45
6777
8999
111
22223333
4555
66677
8
00

1.3.1.4 Diagrama de puntos


Otro grfico muy til para representar la distribucin de un nmero pequeo de datos
(menor que 50) es el diagrama de puntos. En un diagrama de este tipo, empezamos con
una lnea horizontal suficientemente larga para representar al recorrido de los datos.
Despus, incluimos una escala con suficiente detalle para localizar el lugar de cada dato
respecto la lnea. Para los datos de Ejemplo 1.3 podemos construir el siguiente diagrama
de puntos.
. . .
.
..
..: .: . : : .:.. :.......
..
-----+---------+---------+---------+---------+---------+-Peso
Kg.
0,320

0,360

0,400

0,440

0,480

0,520

1.3.1.6 Diagrama de frecuencias acumuladas


Podemos construir un diagrama de este tipo utilizando frecuencias acumuladas (tanto
absolutas como relativas) para datos no agrupados. En la abscisa, empleamos una
escala suficientemente amplia para el recorrido de los datos. Sobre cada distinto valor
numrico, colocamos un punto cuya altura sobre la abscisa corresponde a la frecuencia
acumulada correspondiente a este valor. Desde cada uno de estos puntos trazamos una
recta horizontal que termina en el punto cuya abscisa es el siguiente valor numrico
observado. Finalmente, conectamos los extremos de estas rectas horizontales con rectas
verticales.
Para los datos de Ejemplo 1.1 podemos construir el siguiente diagrama de frecuencias
acumuladas.

Frecuencia acumulada (relativa)

1,0
0,8
0,6
0,4
0,2
0,0
0

Nmero de fallos

1.3.1.7 Polgono de frecuencias acumuladas


Esta representacin grfica es vlida para variables estadsticas agrupadas en
intervalos. En la abscisa representamos los distintos intervalos de clase (solapados).
Sobre el extremo superior de cada intervalo colocamos un punto cuya ordenada es la
frecuencia acumulada (absoluta o relativa) del intervalo correspondiente. Finalmente,
conectamos con una lnea recta cada punto y el que sigue para conseguir el polgono de
frecuencias acumuladas. Si utilizamos frecuencias acumuladas absolutas, la mxima
altura del ultimo intervalo tendr frecuencia n. Anlogamente, si las frecuencias
acumuladas utilizadas son relativas, la mxima altura alcanzada ser la unidad.

Frecuencia acumulada (absoluta)

Para los datos de Ejemplo 1.2 podemos construir el siguiente polgono de frecuencias
acumuladas.

90
80
70
60
50
40
30
20
10
0
0

10 11

Tiempo (horas)

1.3.2 Representaciones grficas para variables cualitativas no ordenables


Consideramos el siguiente ejemplo.
Ejemplo 1.4
Los siguientes datos representan los nmeros de coches de distintos colores vendidos
en Espaa durante el ao 1996 por una empresa. (La pintura ms barata es la blanca.)

Pintura

Nmero de coches

Blanca
Verde
Azul
Roja

2764
672
865
927

En este ejemplo la variable estadstica es cualitativa y no hay un orden natural para las
modalidades que muestra. Decimos que la variable estadstica (el color de un coche) es
no ordinable. A continuacin vamos a introducir las representaciones grficas ms
tiles para resumir la informacin contenida en datos de variables de este tipo.

1.3.2.1 Diagrama de rectngulos


Este diagrama es muy parecido a un diagrama de barras. En la abscisa se representan
las distintas modalidades. La grfica puede ser ms til si ordenamos las modalidades
de forma que sus modalidades sean no crecientes. Para los datos de Ejemplo 1.4
podemos construir el siguiente diagrama de rectngulos utilizando las frecuencias
absolutas.

3000

Nmero de
Coches
2000

1000

0
Blanca

A zul

Roja

Verde

Pintura

1.3.2.2 Diagrama de sectores


Empezando con un crculo, se asigna un sector circular a cada una de las modalidades
siendo la rea del sector proporcional a la frecuencia de la modalidad. El ngulo
asociado con el sector de la i-sima modalidad, en grados, io , viene dado por:

i =

f a (i )
360
n

donde f a (i ) es la frecuencia absoluta asociada con la i-sima modalidad y n es el


nmero de observaciones. Tambin suele ser til ordenar los sectores en el diagrama
segn el tamao de las frecuencias (para facilitar la comparacin de las frecuencias).
Para los datos de Ejemplo 1.4 tenemos
Modalidad

Frecuencia

Blanca
Roja
Azul
Verde

2764
927
865
672

190,3
63,8
59,6
46,3

5228

360

El diagrama de sectores asociado a estas frecuencias es el siguiente.

10

Total

A zul ( 865, 16,5%)


Roja ( 927, 17,7%)
Verde ( 672, 12,9%)

Blanca (2764, 52,9%)

1.4 Medidas de centralizacin


Hemos visto en la seccin 1.3 que podemos obtener una descripcin grfica de un
conjunto de datos utilizando varios formas de grfico. Estos grficos darnos un sumario
global de la distribucin de los datos contenidos en un conjunto. Tambin hay varios
valores numricos que podemos usar para resumir las caractersticas de un conjunto de
datos (numricos). Nos llamamos estos valores numricos estadsticos y facilitan el
estudio y comparacin de muestras. Dos tipos de estadsticos muy importantes son ellos
que proporcionen sumarios del centro de la distribucin de los datos y el nivel de la
gama de los datos (o su variabilidad). Las medidas que resumen estos dos
caractersticas se llaman medidas de centralizacin y medidas de dispersin,
respectivamente. Tambin hay medidas que resumen el nivel de asimetra y
apuntamiento de una muestra como veremos en la seccin 1.6.

Es importante tener en cuenta que estas medidas son informativas para datos
homogneos y no tienen mucho sentido si tenemos un conjunto de datos formado por
datos de distintos poblaciones. Si los datos de una muestra vienen de distintos
poblaciones es ms adecuado dividir los datos en distinto grupos (asociados con los
distinto poblaciones) y calcular las medidas caractersticas para cada uno de los
grupos.
En el resto de esta seccin consideramos en ms detalle las medidas de centralizacin
ms frecuentemente usadas. Supongamos en lo sucesivo que tenemos las observaciones
{x i ,..., x n } de una variable estadstica X.
1.4.1 La media aritmtica
1.4.1.1 Definicin
La media de centralizacin que es ms frecuentemente utilizada en la estadstica
(sobre todo en la estadstica clsica) es la media aritmtica, x , que se define como:
n

x + x 2 +...+ x n
x= 1
=
n

11

x
i =1

Si tenemos la distribucin de frecuencias de los distintos valores tomados por los datos
(es decir, {x i' ,..., x m' } ), vemos que:

x f (x )
m

x=

x1' fa ( x1' ) +...+ x 'm fa ( x m' )


n

'
j a

'
j

j =1

= x
j =1

'
j

( )=

fa x 'j
n

x f (x )
m

'
j r

'
j

j =1

Es decir, equivalentemente, podemos calcular el valor de x utilizando la frmula

( )

x = x 'j f r x 'j
j =1

Considerando esta ultima frmula vemos que la media aritmtica es una suma
ponderada (o combinacin lineal) de los distintos valores, con los pesos definidos por
sus frecuencias de observacin.
Utilizando las frecuencias asociadas con los datos de Ejemplo 1.1, la media aritmtica
de estos datos es x = 0(0,1667) + ... + 6(0,0833) = 218 120 = 1,8167 . En el caso de
Ejemplo 1.2 tenemos 90 datos distintos, entonces: x = (0,2527 + 2,6449 + ... +
1,4001)/90 = 188,35/90 = 2,093.

1.4.1.2 Propiedades de la media aritmtica


La suma de las desviaciones de un conjunto de datos respecto de la media es cero. Es
n

decir,

(x

x) = 0 .

i =1

La suma de los cuadrados de las desviaciones de los valores respecto de su media es


n

mnima. Es decir que Q( s) = ( x i s) es mnima cuando s = x .


2

i =1

Si una muestra de n1 datos tiene una media x1 , una segunda muestra de n2 datos
tiene una media x2 ,... una k-sima muestra de nk datos tiene media x k , entonces la
k

media aritmtica, x , de todos los N = ni datos es:


i =1

x=

ni x i
i =1
k

ni

x
i =1 j =1

i =1

donde x ij es el j-simo dato de la i-simo muestra.

12

ij

Supongamos que observamos los valores de las dos variables estadsticas X e Y para
n individuos. Es decir, tenemos los datos { x i ,..., x n } e {yi ,..., y n } , entonces
x+y= x+y.
Si a es un constante, ax = ax .
Si x =

x+a
x+a
.
, entonces x =
b
b

1.4.2 La mediana
La mediana tambin tiene un papel muy importante en la estadstica (sobre todo en los
mtodos non-parametricos y los nuevos mtodos robustos). Ordenando los datos en
forma creciente, la mediana se define como el valor que deja igual nmero de
observaciones inferiores que superiores a el. Si hay un nmero par de datos esta
definicin no proporciona un valor nico y para esta caso tomamos como valor mediano
la media aritmtica de los dos centrales. Por ejemplo, si tenemos el conjunto de datos
{4,1,4,2,4,2,5,3} , ordenando los datos en forma creciente tenemos {1,2,2,3,4,4,4,5} . Los
dos valores centrales son 3 y 4 y su media aritmtica es 3,5.

Ordenando los 120 datos de Ejemplo 1.1 en forma creciente, obtenemos:


0

0
1
1
2
2
3
3
6

Los dos valores centrales son ambos 2. Entonces, la mediana es su media aritmtica (2
+ 2)/2 = 2.
1.4.3 La moda
La moda se define como el valor de una muestra de datos que tiene la mayor
frecuencia. Para los datos de Ejemplo 1.1 la moda es el valor 2 (con una frecuencia
absoluta de 38). En Ejemplo 1.2 tenemos 90 valores distintos de una variable continua
entonces la moda no es nica (cada una de los 90 observaciones tiene una frecuencia de
uno). No obstante, utilizando agrupamiento para esto tipo de datos, podemos definir el
intervalo modal como el intervalo con la frecuencia mxima. Por los datos de Ejemplo
1.2 el intervalo modal es [0,1) (con una frecuencia absoluta de 41).
1.5 Medidas de dispersin
A cada medida de centralizacin podemos asociarle una medida de la variabilidad de
los datos respecto a ella.

13

1.5.1 La varianza
Una medida asociada con la media es la varianza de una muestra, ~
s 2 , definido por:
n

~
s2 =

(x

x)

i =1

Si tenemos la distribucin de frecuencias de los distintos valores que toman los datos,
s 2 utilizando la frmula:
podemos calcular el valor de ~
m

~
s 2 = x 'j x
j =1

) f (x )
2

'
j

(Muchos autores definen la varianza de una muestra como:


n

s2 =

(x

x)

i =1

n 1

porque tiene ciertas propiedades importantes. Minitab, por ejemplo, utiliza esta
s 2 y s 2 sern muy parecidas.)
definicin. Obviamente, si n es grande, ~
Como podemos ver, la varianza es la media de los cuadrados de las desviaciones de los
valores respecto de su media. Es 0 cuando todos los valores coinciden con la media.
En realidad no es necesario calcular las desviaciones para calcular la varainza porque:

(x

x)

i =1

n
xi
n

2
= xi i =1
n
i =1

1.5.2 La desviacin tpica


1.5.2.1 Definicin
Es simplemente la raz cuadrada positiva de la varianza, es decir:
n

~
s=

(x

x)

i =1

s=

(x

x)

i =1

n 1

14

(que es la frmula utilizada por Minitab)


La desviacin tpica tiene las mismas dimensiones que los datos originales.
n

Para los datos de Ejemplo 1.2

x
i =1

2
i

= 873,62 ,

x = 188,35 y n = 90. Entonces:


i =1

873,62 ( 188,35) 90
~
s2 =
= 5,327
90
2

873,62 ( 188,35) 90
s =
= 5,387
89

s= ~
s 2 = 2,308
y ~

y s = s 2 = 2,321

1.5.2.2 Propiedades
Es invariante ante un cambio de origen. Es decir, si Y = X + c, ~
sy = ~
s x . Tambin,

sy = sx .

~
s
s
X
(k un constante), ~
sy = x . Tambin, s y = x .
k
k
k
Utilizando las propiedades arriba y las de la media, tenemos el siguiente resultado
importante:
Tipificacin de una variable: Sea {x i ,..., x n } una muestra de datos (de una
variable estadstica X) con media x y desviacin tpica ~
s y definimos la

Si Y =

Xx
variable Y = ~ , entonces: y = 0 y s y = 1 .
sx

1.5.3 El coeficiente de variacin de Pearson


Se denomina coeficiente de variacin al cociente:

Cv =

~
s
x

que es una medida relativa de variabilidad (y que no tiene sentido si x = 0). En la


x
ingeniera se utiliza mucho el coeficiente inverso, ~ , que se conoce como coeficiente
s
2,308
s = 2,308 y Cv =
seal-ruido. Para los datos de Ejemplo 1.2, x = 2,093, ~
= 110
, .
2,093
1.5.4 La mediana de las desviaciones absolutas
Una medida de dispersin asociada a la mediana, M, es la mediana de las
desviaciones absolutas (MEDA) definida por:
MEDA = mediana x i M

Si conocemos la mediana y la MEDA de un conjunto de datos sabemos que, al menos, el


50% de los datos estn en el intervalo (M MEDA).
15

Esta medida (como la mediana) no es afectado por datos extremos (es decir, muy
grandes o muy pequeos). Lamamos medidas que tienen esta propiedad medidas
robustas o resistentes.
Ordenando los datos de Ejemplo 1.2 en forma creciente, tenemos:
0,0127
0,1470
0,2925
0,5520
0,7033
0,8956
1,0304
1,4612
1,7483
2,2691
2,8120
4,6069
7,2789

0,0300
0,1659
0,3109
0,5541
0,7033
0,8994
1,0826
1,5169
1,7856
2,2976
3,5367
5,2857
7,4964

0,0466
0,0703
0,0760
0,1082
0,1094
0,1958
0,2239
0,2411
0,2527
0,2918
0,4149
0,4735
0,4995
0,5175
0,5318
0,5582
0,5707
0,5801
0,6177
0,7002
0,7350
0,7881
0,8398
0,8548
0,8949
0,9409
0,9490
0,9541
0,9573
1,0275
1,1176 1,1430 1,2292
1,4001
1,4029
1,5376
1,5422
1,5780
1,6724
1,6817
1,8357
1,8654
1,8982
1,9646
2,0238
2,3640
2,6449
2,6660
2,6781
2,7487
3,5947
3,8023
4,0653
4,1283
4,5410
5,9078
5,9698
6,0150
6,0339
6,1265
8,1102
8,3350
9,0298
10,1949

La mediana de los datos es la media de los datos 1,1176 y 1,1430, es decir, 1,1303. Los
valores de las desviaciones absolutas ordenados en forma creciente son:
0,0127
0,1762
0,1813
0,2755
0,2905
0,4270
0,4270
0,5596
0,5721
0,6553
0,6568
0,8385
0,9833
1,0209
1,1388
1,1673
2,4064
2,4644
4,7775
4,8395
7,2047
7,8995

0,0127

0,0477

0,0989

0,0999

0,1028

0,1730

0,1894

0,2309

0,2347

0,2354

0,2698

0,2726

0,3309

0,3422

0,3866

0,3953

0,4073

0,4119

0,4301

0,4477

0,5126

0,5421

0,5502

0,5514

0,5762

0,5783

0,5985

0,6128

0,6180

0,6308

0,7054
0,7154
0,7351 0,7679 0,8194 0,8343
0,8378
0,8776
0,8892
0,8935
0,9064
0,9345
0,9644
1,0221

1,0543

1,0600

1,0837

1,1003

1,1176

1,2337

1,5146

1,5357

1,5478

1,6184

1,6817

2,6720

2,9350

2,9980

3,4107

3,4766

4,1554

4,8847

4,9036

4,9962

6,1486

6,3661

6,9799

9,0646

La mediana de estos valores es la media de los dos valores centrales 0,7679 y 0,8194 =
0,7937. Es decir, en este caso la MEDA = 0,7937.
1.5.5 El recorrido
Como indicado antes, el recorrido (o rango) de un conjunto de datos es la diferencia
entre sus valores mximo y mnimo.
1.5.6 Percentiles, cuartiles y el rango intercuartlico
Si ordenamos los datos en forma creciente podemos identificar los percentiles y
cuartiles de su distribucin. Llamamos percentil , P , al valor que deja inferiores o
iguales a l % de los datos. Por ejemplo, si el nmero de datos es impar la mediana es
el percentil 50, P50 . Llamamos cuartiles a aquellos valores que dividen la distribucin
de un conjunto de dato en cuatro partes iguales. Entonces, el primer cuartil, Q1 , es

16

igual al percentil 25, el segundo, Q2 , es la mediana (y percentil 50), el tercero, Q3 , el


percentil 75. Por ultimo, el rango intercuartlico es la diferencia entre Q1 y Q3 .
Utilizando los datos ordenados en forma creciente de Ejemplo 1.2 vemos que el rango
es 10,1949 - 0,0127 = 10,1822; Q1 = P25 = ( 0,5520 + 0,5541) 2 = 0,5531;
Q2 = P50 = 11303
,
; Q3 = P75 = ( 2,6660 + 2,6781) 2 = 2,6721 y entonces el rango
intercuartlico en este caso viene dado por Q3 Q1 = 2.119 .
1.6 Medidas de asimetra y apuntamiento
Hay varios medidas que podemos usar para resumir la asimetra o apuntamiento de
una distribucin. A continuacin consideramos medidas relativas a la media.
1.6.1 Distribuciones simtricas y asimtricas
Decimos que la distribucin de frecuencias asociada con un conjunto de datos es
simtrica cuando valores de la variable equidistantes de un valor central tienen las
mismas frecuencias. En este caso, x = mediana. Como podemos ver desde las
distribuciones de frecuencias de los datos de Ejemplos 1.1 y 1.2, las dos distribuciones
no son simtricas (son asimtricas). El diagrama de barras de la primera y el histograma
del segundo representan distribuciones asimtricas a la derecha (con colas a la
derecha). En este caso x mediana .

Tambin podemos encontrar distribuciones asimtricas a la izquierda (con colas a la


izquierda). Para una distribucin de este tipo x mediana .
1.6.2 Coeficiente de asimetra de Fisher
En un conjunto de datos con una distribucin simtrica respecto a su media, x , la
n

suma

(x

x)

ser nula, mientras para una distribucin asimtrica esta suma

i =1

crecer con el nivel de la asimetra. Se define el coeficiente de asimetra de Fisher,


Cas , como:
n

Cas =

(x
i =1

x)

ns~ 3

que es una media de asimetra adimensional.


1.6.3 Coeficiente de agrupamiento o curtosis
Consideramos los siguientes cuatro distribuciones de frecuencias relativas:

Distribucin 1
x
10 / 9
0
10 / 9

Distribucin 2

x
fr ( x )
0,45 10 / 7
0,1
0
0,45
10 / 7

Distribucin 3

fr ( x )
0,35
0,3
0,35

x
2
0
2

17

fr ( x )
0,25
0,5
0,25

Distribucin 4
x
10 / 3
0
10 / 3

fr ( x )
0,15
0,7
0,15

Vemos que todas son simtricas con medio 0 y ~


s 2 = 1. No obstante, en la primera la
frecuencia relativa del valor central es muy baja, en la segunda es casi la misma que la
de los otros dos valores, en la tercera el valor central es el ms frecuente y en la cuarta
el valor central es mucho ms frecuente que los otras dos valores. La distribucin de las
frecuencias relativas entre los valores centrales y los valores extremos define la
caracterstica llamada apuntamiento o curtosis. Las dos primeras distribuciones tiene
poco apuntamiento, la tercera ms y la cuarto mucho. Podemos medir esta propiedad de
una distribucin mediana el coeficiente de apuntamiento, definido como:
n

(x

Cap =

i =1

x)

ns~ 4

Para las cuatro distribuciones tenemos los siguientes valores de *.


Distribucin

Cap

1
2
3
4

1,11
1,43
2
3,33

1.7 Momentos
Se define el momento de orden k respecto del origen como:
n

mk' =

k
i

i =1

Los momentos respecto a la media se define por:


n

(x

mk =

x)

i =1

Con estas definiciones, vemos que:


n

m0' =

x
i =1

0
i

=1

m1' =

i =1

=x

m1 =

x
i =1

(x

m2 =

x)

(x

=1

i =1

2
i

x)

n
n

m2' =

i =1

m0 =

(x

x)

i =1

Tambin vemos que:

18

=0

=~
s2

Cas =

(x
i =1

x)

(x
i =1

m
= ~ 33 =
s

ns~ 3

Cap =

x)

m3
m2

ns~ 4

m
= ~ 44 =
s

m4
m2

s = 2,308,
Para los datos de Ejemplo 1.2 tenemos: x = 2,093, ~

(x

x ) = 1823,09,
3

i =1

(x

x ) = 12773,9. Entonces Cas =


4

i =1

1823,09
90( 2,308)

= 1,648 y Cap =

12773,9
90( 2,308)

= 5,002 .

1.8 Ejercicios matemticos


n

1.8.1 Encuentre el valor de a para que

(x

a) = 0 .

i =1

1.8.2 Encuentre el valor a que minimiza

(x

a) .
2

i =1
n

1.8.3 Encuentre el valor a que minimiza

a .

i =1

1.8.4 Demuestre que si multiplicamos todos los valores de una variable por k, la
media y la desviacin tpica quedarn multiplicadas tambin por k (k > 0).
1.8.5 Qu transformacin sufre el coeficiente de variacin de Pearson de una
variable X cuando se multiplican sus valores por un constante k (k > 0)? Y si
se dividen por k?
1.8.6 Demuestre que si construimos una variable Z mezclando n1 valores de X y n2
valores de Y, la media de Z, es:
z=

n2
n1
x+
y
n1 + n2
n1 + n2

siendo x e y las medias de las variables iniciales.


1.8.7 Se tienen dos discos con radios 10 y 5 cm, respectivamente. Se construye otra
disco cuya rea es la media de las reas de los dos discos originales. Ser su
radio tambin la media de los radios dados?

19

1.8.8 Se tienen n valores de una variable estadstica, {x i ,..., x n } que arrojan una
media de 8 y una desviacin tpica de 5. Se construye los nuevos valores
2
yi = ( x i 2) . Cuanto vale y ?
n

1.8.9 Es cierta la igualdad

( xi x ) = ( xi a) n( x a) para cualquier
i =1

i =1

nmero real a?
1.8.10 Dadas las seis observaciones -10, 3, x, 10, 1, 0, se sabe que su desviacin tpica
es igual a su coeficiente de variacin de Pearson. Se pide:
a) Encontrar el valor de x.
b) Encontrar la media de la distribucin.
c) Es la distribucin simtrica?

20

You might also like