You are on page 1of 79

ESTADSTICA DESCRIPTIVA

Tema 1
Estadstica descriptiva:
Distribucin de frecuencias,
histogramas y grficos

1.1 DISTRIBUCIONES DE FRECUENCIAS E


HISTOGRAMAS
Cuando se analiza una caracterstica medida por una variable aleatoria cualquiera resultado de un
determinado proceso (de produccin, de medida, econmico, financiero, sociolgico, mdico,
biolgico, demogrfico, etc.), los datos que obtenemos siempre estn dispersos, y nunca tienen
un nico valor constante. Surge entonces el problema de detectar el patrn en la variabilidad de
los datos. Para ayudar en esta tarea existen herramientas estadsticas bsicas, como las
distribuciones de frecuencias y los histogramas, as como tcnicas sencillas de anlisis
exploratorio de datos.
Cuando los datos estn dispersos, la dispersin sigue un cierto patrn. Inicialmente los datos no
nos dicen nada por s mismos, pero si los dividimos en clases o celdas ordenadamente, puede
aclararse la forma de su dispersin; es decir, puede aclararse la forma como estn distribuidos.
Esta forma de la distribucin de los datos inherente a su variabilidad se denomina distribucin
de frecuencias.
Normalmente es posible ver la forma general de una distribucin si se recogen cien o ms valores
y se prepara convenientemente una tabla de frecuencias con diez o veinte clases. Pero la
distribucin se puede ver an con mayor claridad en forma de representacin grfica mediante un
histograma de frecuencias. El histograma es una representacin visual de los datos en la que
pueden observarse ms fcilmente tres propiedades esenciales de una distribucin, como son:
forma, tendencia central o acumulacin y, dispersin o variabilidad. De esta manera, el
histograma da una idea del proceso, lo que un simple examen de los datos tabulados no hace.
Hay muchos mtodos para construir histogramas. Cuando los datos son numerosos, es muy til
reunirlos en clases, y se recomienda utilizar entre 4 y 20 clases (o celdas). A menudo conviene
elegir un nmero total de clases igual aproximadamente a la raz cuadrada del tamao de la
muestra. Las clases deben tener amplitud uniforme, y se construye la primera de ellas
comenzando con un lmite inferior slo un poco menor que el valor ms pequeo de los datos. Se
construye la ltima clase finalizando con un lmite superior slo un poco mayor que el valor ms
grande de los datos. Para realizar el histograma se marcan las clases sobre el eje de abscisas, y
Jos Antonio Rivera ColmeneroPgina 1

ESTADSTICA DESCRIPTIVA
sobre cada clase se levanta un rectngulo de altura proporcional al nmero de observaciones de la
variable (frecuencia absoluta) que caen en la clase.
El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado
una prdida de algo de detalle. As, cuando el nmero de observaciones es relativamente
pequeo, o cuando las observaciones slo toman pocos valores, puede construirse el histograma a
partir de la distribucin de frecuencias de los datos sin agrupar, dando lugar a los diagramas de
barras.
Las distribuciones de frecuencias son la herramienta ms sencilla y ms utilizada y eficaz cuando
estamos rodeados de montones de datos que no nos dicen nada si no hacemos ms que
enumerarlos. Al expresar estos datos en forma de una distribucin de frecuencias, ya nos
proporcionan diversas ideas. Puesto que las distribuciones de frecuencias se utilizan muy a
menudo en el control de calidad, es necesario conocer la finalidad de las mismas y su
interpretacin y uso.

Finalidad de las distribuciones de frecuencias


El fin principal de la preparacin de una distribucin de frecuencias es, usualmente, uno de los
siguientes:

Dejar bien visible la distribucin de la variable estudiada e identificar su forma.


Las distribuciones de frecuencias se utilizan frecuentemente para analizar, controlar y
mostrar las capacidades de los procesos de los que derivan sus datos, tanto cualitativa como
cuantitativamente.
Ayudar a determinar el promedio, la desviacin estndar, los coeficientes de asimetra y
curtosis, as como otras medidas caractersticas de una distribucin.
Probar a qu tipo de distribucin matemtica se puede acoplar estadsticamente la
distribucin emprica de los datos relativos a la variable estudiada, obtenida como salida del
proceso.

Interpretacin de las distribuciones de frecuencias


Las distribuciones de frecuencias facilitan que todo el mundo vea y comprenda intuitivamente la
forma de una distribucin y el estado de un proceso. Sin embargo, hay que prestar atencin a la
interpretacin de las distribuciones. Cuando se miran las distribuciones de frecuencias, se tiene
que prestar atencin a los puntos siguientes:

Est el promedio de la distribucin en una posicin adecuada?


Cmo es la dispersin de la distribucin respecto al promedio?
Cul es la relacin entre valores tales como la desviacin estndar, el valor medio, el rango,
etc.?
Hay algunos huecos, (como dientes que faltan), o subidas o bajadas repentinas (como las
pas de un peine), en la distribucin?
Hay algunos puntos aislados fuera del cuerpo principal de la distribucin?

Jos Antonio Rivera ColmeneroPgina 2

ESTADSTICA DESCRIPTIVA

Son aceptables los valores mximo y mnimo de la distribucin?


Es asimtrica la distribucin (con un extremo mucho ms largo que el otro), o bien es
simtrica?
Tiene aspecto de acantilado la parte izquierda o la derecha de la distribucin?
Tiene ms de un pico la distribucin?
Es demasiado agudo o demasiado chato el pico de la distribucin?

Formalizacin de las distribuciones de frecuencias


Dada la importancia de las distribuciones de frecuencias, derivada de que en todo proceso hay un
momento en el que nos encontramos con un conjunto de datos sobre las variables a tratar, es de
gran importancia formalizar el proceso de recogida, ordenacin y presentacin de los datos que,
en la mayora de las ocasiones, aparecern dispuestos en tablas de frecuencias de simple o doble
entrada, que servirn para analizar las distribuciones de las variables. Dada una variable X
x1 , x2 , , xN

con valores

, aparecen una serie de conceptos generales que se mencionan a

continuacin.

Frecuencia absoluta

(ni ) : Se denomina ftecuencia absoluta del valor

xi

de la variable

xi

de la variable

X , el nmero de veces ni que se repite ese valor.

Frecuencia relativa
X

(f i) :: Se denomina frecuencia relativa del valor

la relacin por cociente entre el nmero de veces que aparece el valor

xi

y el

f =n / N .
nmero total de valores de la variable ( N ) . O sea, i i

Frecuencia absoluta acumulada


valor

xi

a la suma de las frecuencias absolutas de los valores de la variable

anteriores o iguales a

( N i) : Se denomina frecuencia absoluta acumulada del

xi

. Su valor es

Frecuencia relativa acumulada

N i= ni con i=1, , N .

( F i) : Es la frecuencia absoluta acumulada dividida por el

nmero total de valores de la variable. Su valor es

Fi =N i / N

De todas estas definiciones, se extraen inmediatamente las siguientes deducciones:

La suma de las frecuencias absolutas sin acumular es igual a( nmero total de elementos
( f i=1 ) .

La ltima frecuencia relativa acumulada coincide con el total de elementos (N ) .

Jos Antonio Rivera ColmeneroPgina 3

ESTADSTICA DESCRIPTIVA

La suma de todas las frecuencias relativas sin acumular es igual a 1

La ltima frecuencia relativa acumulada es la unidad.

( f i=1 )

Al conjunto de valores que ha tomado una variable (junto con sus frecuencias), se le denomina
distribucin de frecuencias de la caracterstica o variable. Para que una distribucin de
frecuencias quede determinada, es necesario conocer todos los valores de la variable y uno
cualquiera de los conceptos de frecuencia que acabamos de definir, ya que el paso de uno a otro
es inmediato. Adems, segn la forma en que se presenten los valores de la variable ser posible
distinguir dos tipos de distribuciones de frecuencias:

Las que no estn agrupadas en intervalos y surgen cuando la informacin se dispone


asociando a cada valor o categora de la variable su respectiva frecuencia.
Aqullas cuyos valores observados generalmente aparecen agrupados en intervalos o clases
[ Li , Li1 ] debido al elevado nmero de observaciones, y, por tanto, las frecuencias
correspondientes a cada intervalo se obtienen sumando las de los respectivos valores de la
variable que contiene.

Cuando se trabaja con distribuciones agrupadas por intervalos o clases, es necesario que las
frecuencias observadas se asignen de alguna forma a los puntos del intervalo. Se podr optar por
suponer que los valores del intervalo se distribuyen uniformemente a lo largo de l, o por
considerar como representativo de todos los puntos del intervalo un nico valor (por ejemplo, el
X
punto medio del mismo), que denominaremos marca de clase ( i ) y que, en consecuencia, se
obtendr mediante

X i= ( Li1 + Li ) /2

. Aunque la agrupacin de valores tiene la ventaja de

simplificar el manejo de la informacin, presenta en cambio un importante inconveniente,


consistente en la prdida, en mayor o menor medida, de una parte de dicha informacin. La
distribucin de frecuencias de una variable suele presentarse ordenadamente mediante la tabla de
frecuencias siguiente:
Frecuencia
absoluta
acumulada
Ni

Frecuencia
relativa
acumulada
Fi

Interval
o
Ii

Marca
de clase
Xi

Frecuencia
absoluta
ni

Frecuencia
relativa
fi

[ L0 , L1 ]

x1

n1

f 1 =n1 / N

N 1=n1

F1=N 1 /N

[ L1 , L 2 ]

x2

n2

f 2=n2 / N

N 2=n 1+n 1

F2 =N 2 /N

[ L2 , L 3 ]

x3

n3

f 3 =n3 / N

N 3=n 1+ n1+ n3

F3 =N 3 /N

Jos Antonio Rivera ColmeneroPgina 4

ESTADSTICA DESCRIPTIVA

[ Lk1 , Lk ]

xk

nk

f k =n k /N

En cuanto al nmero de intervalos

N k =n1++ nk =N

F k =N k / N=1

a considerar, puede tenerse en cuenta la frmula de

Sturges:
3 log ( N )
k= +
2 log ( 2 )
En algunos libros aparece otra frmula de Sturges, que difiere en el clculo:
k =1+ 3.3 log (N )

O tambin tomar:
k = N

TEORA CON EJEMPLOS RESUELTOS


Ejemplo 1. Suponga que se desean estudiar las caractersticas de la duracin

de las

llantas tipo A que fabrica una empresa. Para ello se extrae una muestra de 60 llantas nuevas y,
bajo condiciones homogneas de experimentacin, se determina la duracin de cada una. En la
Tabla 2 se consignan las duraciones de las 60 llantas nuevas en miles de kms., los datos estn
presentados en la forma en que se colectaron, pero aun as no destaca la informacin que
contienen.
Tabla 2
40.1
47.5
46.9
45.8
47.2
45.2
44.1
42.9
47.0
52.0

Duraciones de 60 llantas en miles de kms.


50.2
48.9
40.4
39.6
42.3
43.7
48.8
44.4
41.5
45.0
47.7
43.3
46.0
47.7
43.9
44.2
45.5
43.9
41.3
42.8
46.7
48.2
39.1
44.7
49.8
37.4
43.6
47.6
40.7
46.3

Jos Antonio Rivera ColmeneroPgina 5

ESTADSTICA DESCRIPTIVA
42.1
42.6
41.9
43.9
46.7

42.6
49.1
46.1
50.8
51.2

40.6
46.9
46.7
44.5
43.4

43.1
41.8
45.5
48.3
44.8

2.1 Histograma y polgono de frecuencias relativas acumuladas


En la Figura 2.1 se tiene la representacin grfica de las frecuencias que recibe el nombre de
histograma. Este da de un vistazo un cuadro bastante efectivo de los datos, por ejemplo, es claro
que la mayor concentracin de las observaciones se encuentra entre los 42 y 48 mil kilmetros.
Es tambin importante notar que la figura empieza a crecer hacia la derecha llegando a un
mximo entre los 43 y 45 mil kilmetros, despus del cual empieza a decrecer; esto hace que la
figura tenga una forma acampanada.

En la Figura 2.2 se tiene el llamado polgono de frecuencias relativas acumuladas que se


construye con las columnas (4) y (8) de la Tabla 2.1. De esta figura es inmediato que el 50% de
las llantas tienen una duracin menor a 44 mil kilmetros.

Jos Antonio Rivera ColmeneroPgina 6

ESTADSTICA DESCRIPTIVA

Histograma
14
12
10
8
Frecuencias 6
4
2
0

12
9

11
8

5
3

6
2

38 39.5 41 42.5 44 45.5 47 48.5 50 51.5

Marcas de clase

Figura 2.1 Histograma

2.2 Fractiles
En el polgono de frecuencias se puede observar que a una abscisa dada le corresponde una
ordenada que representa a la fraccin del nmero total de observaciones que es menor o igual
que el valor dado de la abscisa.
Inversamente, a cada ordenada le corresponde una abscisa que da el lmite abajo del cual se tiene
a la fraccin de observaciones indicada por la ordenada. A la abscisa se le llama el fractil
correspondiente a la fraccin dada. Por ejemplo, los fractiles de 15% , 50% y 95% estn dados
respectivamente por 41, 44 y 50 mil kilmetros.

Fractiles
Algunos de los fractiles reciben nombres especiales, as el fractil 50% se le llama mediana
porque la mitad de las observaciones son mayores que dicho valor y el resto son menores que l.
A los fractiles 25% y 75% se les llama cuartiles, "inferior" al primero y "superior" al segundo y
q1 y q3
se les representa con las letras
, respectivamente. Observe que para la poblacin deber
tenerse:
q1

f (x )dx= f ( x ) dx=0.25

q2

Finalmente a los fractiles 10, 20, ..., 90% se les denomina deciles y a los fractiles 1, 2, ..., 99% se
les llama percentiles.

Jos Antonio Rivera ColmeneroPgina 7

ESTADSTICA DESCRIPTIVA

Figura 2.2 Polgono de frecuencias relativas acumuladas


Hasta ahora se ha tratado de presentar los datos en una forma grfica til, pero esto no es
suficiente, es necesario reemplazar la coleccin de datos por algunos nmeros o medidas que den
la mayor parte la informacin esencial contenida en las observaciones, esto se logra mediante el
estudio de los llamados parmetros descriptivos de la distribucin emprica que se presentan
enseguida.

2.2 Medidas de tendencia central


2.2.1 Momentos con respecto al origen
Si al estudiar una distribucin emprica de la v.a. (variable aleatoria) X se considera el caso
x1 , x2 , , xn
ms general en el que los n valores observados:
son diferentes entre s, sus
frecuencias relativas estarn dada respectivamente por:

Jos Antonio Rivera ColmeneroPgina 8

ESTADSTICA DESCRIPTIVA
f 1 =f 2 ==f n=

Y al aplicar la definicin de momento de orden k


n

i=1

i=1

con respecto al origen resulta:

m1k = x ki p i= x ki f i=

Si en particular se tiene que de los


iguales a

x2

fm

son iguales a

1
n

1
x k (1)
n i=1 i

valores observados:
xm

f1

son iguales a

x1

f2

son

, con:

f 1 + f 2 ++ f m=n
entonces el momento de orden k

con respecto al origen estar dado por:


m

m1k = x kj f j=
j=1

Suponga ahora que los

fj

x1 , x2, , xn

n valores observados:

de clase de igual longitud


Sea

1
x k f (2)
n j=1 j j

y que sus marcas de clase sean

estn agrupados en m intervalos


ti , t2 , , tm

, respectivamente.

en nmero de observaciones que caen en el intervalo cuya marca de clase es

tj

. En

este caso se supone que todos los valores que caen en un intervalo de clase coinciden con la
marca de clase de dicho intervalo y, consecuentemente, el momento de orden k con respecto al
origen de la correspondiente distribucin emprica ser:
m

m k = t j f j (3)
1

j=1

2.2.2 La media ( x )
La ms comn y til medida de tendencia central es la media, que se define como el primer
momento con respecto al origen y se representa con el smbolo x . De esta manera la media
x

del conjunto de valores observados:

x1 , x2, , xn

Jos Antonio Rivera ColmeneroPgina 9

est dada por:

ESTADSTICA DESCRIPTIVA

1
x =m = x i (3)
n j=1
1
1

Y si los datos estn agrupados resulta:


m

x =

1
t f (4)
n j=1 j j

Si los datos al representarse en un histograma muestran una figura que empieza a crecer hacia la
derecha hasta alcanzar un mximo para despus decrecer suavemente, la media es un valor tpico
en el sentido que identifica al punto donde las observaciones se concentran ms. En el Ejemplo
2 de la duracin de las llantas se tiene para datos agrupados y considerando la Tabla 2.1 que la
media es:
m

x =

1
=44.975
t f = 2,698.50
n j=1 j j
60

y este valor est bastante prximo al centro que intuitivamente se sealara para la distribucin de
los datos.
~
2.2.3 La moda ( x )
La moda es el valor de
frecuencia relativa

x para el cual la probabilidad

f ( x)

p ( x ) , o en la distribucin emprica, la

es mxima. Muchas curvas de probabilidad tienen mximo nico

cerca de la mitad; otras presentan dos mximos o ms, stas se llaman bimodales o multimodales,
segn sea el caso, esto se muestra en la Figura 2.3.

Figura 2.3. Unimodal, bimodal y multimodal


Suponga que los datos estn agrupados y que el rectngulo central del histograma es el asociado
con la frecuencia mxima (frecuencia modal). Se supone tambin que los intervalos de clase son
de igual tamao.
Jos Antonio Rivera ColmeneroPgina 10

ESTADSTICA DESCRIPTIVA

Se definir la moda como la abscisa

~
x del punto de interseccin P de las rectas QS y RT que

se muestran en la Figura 2.4.

Figura 2.4. Rectngulo central de la moda.


Sean

x=L1

x=L2

los lmites de clase del intervalo modal y

las

diferencias de la frecuencia modal y las frecuencias asociadas respectivamente al intervalo


inmediato anterior e inmediato siguiente al modal.
De los tringulos semejantes PQR y PST se obtiene:
EP PF
=
RQ ST
o bien,

~
xL1 L2~
x
=
1
2

~
Y despejando a x :
2(~
xL1 )=1 ( L2~
x)
~
x 22 L1=1 L2~
x 1

Jos Antonio Rivera ColmeneroPgina 11

ESTADSTICA DESCRIPTIVA
~
x 1 + ~
x 2=1 L2 + 2 L1
~
x ( 1 + 2 )=1 L2 + 2 L1
L + L
~
x= 1 2 2 1
1+2

Pero,

L2=L1+ C

, en donde C
~
x=

es el tamao del intervalo de clase modal, esto nos lleva a:

1 ( L1 +C ) + L1 2
1 + 2

L1 1+ 1 C+ L1 2 L1 ( 1+ 2 ) + 1 C
=
1+ 2
1+ 2

o bien,

~
x=L1 +

1
C(5)
1+ 2

En el ejemplo de la duracin de las llantas, se tienen dos intervalos modales.


Para el intervalo modal que tiene los extremos (43.2544.75), se obtiene:
L1

43.25

129 = 3

128 =4

1.5

Usando la Ecuacin (5), la moda, es:

~
x=L1 +

1
3
C=43.25+
( 1.5 )=43.9
1+ 2
3+4

( )

Observe que la frecuencia mxima 12 corresponde al intervalo cuya marca de clase es 44. Este
valor puede considerarse aproximadamente como el valor de la moda
Para el intervalo modal que tiene los extremos (46.2547.75), se obtiene:
L1

46.25

118 = 3

116 =5

1.5

Jos Antonio Rivera ColmeneroPgina 12

ESTADSTICA DESCRIPTIVA
Usando la Ecuacin (5), la moda, es:

~
x=L1 +

1
3
C=46.25+
( 1.5 )=46.8
1+ 2
3+5

( )

Observe que la frecuencia mxima 11 corresponde al intervalo cuya marca de clase es 47. Este
valor puede considerarse aproximadamente como el valor de la moda.
2.2.4 La mediana ( x )
La mediana
+

es el valor ( X =x )

que divide la suma integral de probabilidades de a

en dos partes iguales. La mediana de un conjunto de observaciones se define como el

valor tal que la mitad del nmero total de observaciones son mayores o iguales que ella y la otra
mitad son menores o iguales que ella.
Si los datos no estn agrupados bastar ponerlos en orden creciente y el que ocupe el lugar central
ser la mediana. Si el nmero de observaciones es para, la mediana ser el promedio de los dos
valores centrales.
Si los valores observados estn agrupados, la mediana

es la abscisa correspondiente a la

recta LM que divide el histograma en dos partes de igual rea, como se muestra en la Figura 2.5.
Se supondr que los intervalos de clase son de igual magnitud.

Figura 2.5. Determinacin de la mediana


De esta manera las reas bajo histograma corresponden a frecuencias y LM es tal que las reas
que se encuentran a su derecha y a su izquierda son iguales a la mitad de la frecuencia total, esto
es, iguales a n/2 .
Luego el rea AMLD corresponder una frecuencia dada por:
Jos Antonio Rivera ColmeneroPgina 13

ESTADSTICA DESCRIPTIVA

n
rea AMLD = ( f )1
2

en donde

( f )1

es la suma de las frecuencias de todos aquellos intervalos de clase menores

que aqul que contiene a la mediana. De esta manera se tendr:

| AM|=
en donde f

n/2( f ) 1
|AB|
f

es la frecuencia asociada al intervalo que contiene a la mediana y

AB=C

es su

longitud. Consecuentemente la mediana estar dada por:


x=L1+

en donde

L1

n /2( f )1
C (6)
f

es el lmite inferior del intervalo de clase que contiene a la mediana. En el

ejemplo de la duracin de las llantas la mediana cae en el intervalo de extremos (44.75, 46.25) y
se obtiene:
L1

n/2

( f )1

44.75

60/2 = 30

1+3+5+9+12 =30

1.5

x=L1+

n /2( f )1
3030
( 1.50 )=44.75
C=44.75+
f
8

Este valor de la mediana est muy cercano a los valores que se obtuvieron para la media y la
moda. Entre ms perfecta es la forma acampanada del histograma, la media, la moda y la
mediana difieren menos.
Al estudiar distribuciones con misma media, stas pueden diferir segn que los valores de

estn dispersos o concentrados a cada lado de la media. Para analizar esta caracterstica
numricamente se estudiarn algunas medidas de dispersin y concentracin.

2.3 Medidas de dispersin


Jos Antonio Rivera ColmeneroPgina 14

ESTADSTICA DESCRIPTIVA
2.3.1 Momentos con respecto a la media
Una discusin enteramente similar a la del inciso 2.2. permite establecer las siguientes
definiciones.
Dado el conjunto de observaciones:

x1 , x2 , , xn

respecto a la media y se representa con

mk

; se llama momento de orden

con

a la expresin:
n

mk =

Suponga que los valores observados:


clase de igual longitud

1
( x x ) k (7)
n i=1 i

x1 , x2, , xn

estn agrupados en

t1 , t2 , , tm

y que sus marcas de clase sean:

frecuencia correspondiente al intervalo cuya marca de clase es

tj

intervalos de
. Sea

fj

la

. En este caso se supone que

todos los valores que caen en un intervalo de clase coinciden con la marca de clase de dicho
k respecto a la media de la
intervalo y, consecuentemente, el momento de orden
correspondiente distribucin emprica ser:
m

mk =

1
( t x )k f j (8)
n j=1 j

Por otra parte, se verifican las relaciones:


m1=0
m 2=m 12( m11 )

m3=m133 m11 m12 +2 ( m11 )

m 4=m144 m 11 m 13 +6 ( m11 ) m 123 ( m 11 )


2.3.2 La variancia y la desviacin estndar

La ms comn y til medida de dispersin es la varianza que se define como el momento de


2
segundo orden con respecto a la media y se representa con el smbolo s x . De esta manera la
2
variancia s x del conjunto de valores

x1 , x2 , , xn

Jos Antonio Rivera ColmeneroPgina 15

est dada por:

ESTADSTICA DESCRIPTIVA
n

s x =m2 =

1
( x x )2 (9)
n i=1 i

Y si los valores estn agrupados resulta.


s 2x =

1
t j x )2 f j (10)

(
n j=1

A la raz cuadrada de la variancia se le llama desviacin estndar, esto es:


s x = m2 (11)
En ele ejemplo de la duracin de las llantas se obtiene:
s x = m2= 9.74=3.12
2.3.3 El coeficiente de variacin
Es fcil observar que la desviacin estndar por si sola puede conducir a conclusiones errneas.
Por ejemplo, el efecto de una variacin o dispersin de 10 centmetros en la medida de una
distancia de 300 metros es absolutamente diferente al efecto de la misma variacin de 10
centmetros en una distancia de 6 metros. Una medida de este efecto la da el coeficiente de
variacin, ( CV )x que se define como el cociente de la desviacin estndar entre la media, esto
es:

( CV )x =

sx
(12)
x

Observe que el coeficiente de variacin es independiente de las unidades usadas lo cual puede ser
de utilidad cuando se traten de comparar dos distribuciones cuyas unidades sean distintas. Una
desventaja es que el coeficiente de variacin es de poca utilidad como una medida de dispersin
cuando x est muy prxima a cero.
2.3.4 El rango
Una medida simple de dispersin de los datos es la diferencia entre la mxima y la mnima
observacin que recibe el nombre de rango.
As, por ejemplo, el rango del conjunto de datos 2, 3, 7, 8, 9, 10, 12, es 12 2 = 10. Algunas
veces el rango se expresa escribiendo simplemente los valores de las observaciones mnima y
mxima respectivamente. En el ejemplo anterior el rango se indicara como 2 a 12 o (2,12).
Jos Antonio Rivera ColmeneroPgina 16

ESTADSTICA DESCRIPTIVA

2.4 Medidas de concentracin


2.4.1 El medial

xl

Considere un conjunto de observaciones tales que cada una est afectada de una caracterstica
susceptible de sumarse. Tal es el caso de un grupo de individuos clasificados segn su salario, de
un conjunto de unidades de produccin ordenadas de acuerdo con su precio, etc.
Dichas observaciones pueden clasificarse de acuerdo con su nmero o conforme a la importancia
de la caracterstica considerada. Esta distincin conduce a la posibilidad de construir dos
histogramas:

f
Uno que proporcione el nmero de observaciones por clase ( j ) .

f t
Otro que refleje la importancia de la caracterstica poseda por clase ( j j ) .

A la mediana de este ltimo se le llama el medial y se representa con

xl

Para el ejemplo de la duracin de las llantas, la tabla de frecuencias y el histograma


correspondiente a la caracterstica poseda se muestran en la Tabla 3 y en la Figura 6,
respectivamente.

Jos Antonio Rivera ColmeneroPgina 17

ESTADSTICA DESCRIPTIVA

Histograma de la importancia de la caracterstica


600.00

528.00 517.00

500.00
382.50

400.00

291.00

300.00

Caracterstica fjtj

200.00

205.00

118.50
100.00
38.00
0.00

100.00

364.00

154.50

Marcas de clase tj

Figura 6. Histograma que refleja la importancia de la caracterstica


poseda por la clase.
Para calcular la mediana del nuevo histograma deben considerarse las columnas asociadas con la
caracterstica estudiada, esto es las tres ltimas de la Tabla 3. La mediana debe encontrarse en el
primer intervalo para el cual la caracterstica relativa acumulada es mayor que 0.5, que resulta ser
el sexto intervalo.
x l=L1+

n/2( f j t j )1
C(13)
f jt j

Para aplicar la Ecuacin (13) debe considerarse:


n 2,698.5
=
=1,349.25
2
2

( f j t j )1=38.00+ 118.50+205.50+382.50+528.00=1,276.50
f j t j=364.00

Jos Antonio Rivera ColmeneroPgina 18

ESTADSTICA DESCRIPTIVA
L1=44.75
C=1.5

Y por tanto el medial est dado por:


x l=44.75+

( 1,349.251,272.00
) 1.5=45.07
364

Mientras que para la mediana se haba obtenido

x=44.75

Como se sabe, la mediana es una medida de tendencia central; es un valor x tal que el nmero
de observaciones mayor que x es igual al nmero de observaciones menores que x .
El medial es una mediana particular calculada sobre una caracterstica totalizable. Por
ejemplo, en una distribucin de salarios, el salario medial ser el de aqul individuo que divide al
conjunto de individuos, clasificados segn sus salarios, en dos grupos tales que en cada uno de
ellos el total de los salarios percibidos es el mismo y por tanto es igual a la mitad del total
general. Observe que si los salarios estuviesen altamente concentrados, ello se reflejara en una
xl
fuerte diferencia entre los valores de la mediana, x y los de la medial
2.4.2 Curva de Lorenz, ndice de concentracin
La concentracin puede enjuiciarse a travs de la desviacin existente entre el medial y la
mediana. Otra manera de hacerlo es construyendo una curva tomando para cada clase las
frecuencias relativas acumuladas de las observaciones como abscisas, y como ordenadas a las
frecuencias relativas acumuladas de la caracterstica poseda por la clase.
De esta manera se obtiene una curva llamada de concentracin o de Lorenz, como se muestra en
la Figura 7.

Jos Antonio Rivera ColmeneroPgina 19

ESTADSTICA DESCRIPTIVA

Curva de Lorenz, ndice de concentracin


1.000
0.800
0.600

fjtj %

0.400
0.200
0.000
0.000

0.200

0.400

0.600

0.800

1.000

fj %

Figura 7. Curva de Lorenz, indica ausencia de concentracin

2.5 Medidas de asimetra


Cuando la media se toma como origen

( x =0 ) puede ocurrir que f ( x )=f (x) , es decir, que

la distribucin sea simtrica. La falta de simetra se reconoce numricamente de varias maneras.


En una distribucin simtrica la distancia de los cuartiles

q1

q3

a la mediana

q2

sern

iguales. En una distribucin asimtrica la diferencia entre estas cantidades da el siguiente


coeficiente de asimetra.

[ ( q3 q2 ) ( q 2q 1) ] = q 32 q 2+ q1 (14)
sx

en donde la divisin entre

sx

da por resultado un parmetro adimensional.

Sin embargo, una medida natural de la asimetra es el momento


distribucin es simtrica se tendr
las

sx

m3=0

respecto a la media. Si la

. Si la rama larga de la distribucin est en el lado de

positivas, los cubos de los valores positivos

valores negativos, de esta manera

m3

m3

Jos Antonio Rivera ColmeneroPgina 20

( x ix ) sobrepasarn a los cubos de los

ser positiva y se tendr asimetra positiva.

ESTADSTICA DESCRIPTIVA
Anlogamente si la rama larga de la distribucin est en el lado de los valores negativos, entonces
m3
ser negativo y se tendr asimetra negativa, esto se observa en la Figura 8.

Figura 8. Simetra y asimetra de una distribucin emprica.


En algunos casos la curva de probabilidad no desciende por un lado o por el otro. A una curva de
tal tipo, caso extremo de asimetra, se le llama positiva en forma de J o negativa en forma de J,
segn el caso. Asimismo, en un tipo raro de distribucin, llamado la curva en forma de U, la
ordenada mnima se encuentra en la regin media, Figura 9.

Figura 9. Casos extremos de asimetra

Jos Antonio Rivera ColmeneroPgina 21

ESTADSTICA DESCRIPTIVA
Con el fin de utilizar un parmetro adimensional y puesto que
, o de

m3

tiene la dimensin de

s x , se construye una medida absoluta de asimetra dividiendo

m3

entre

x3

s x , entre

m3/2 2 ; al cuadrado de esta relacin se le representa generalmente con b1 , es decir:

b1=

m23
( 15)
m32

Obsrvese que para la poblacin se tendr:


1=

23
(16)
32

En ele ejemplo de la duracin de las llantas se obtiene

b1=0.012

lo cual muestra una asimetra

positiva muy ligera.

2.6 Medidas de aplanamiento o exceso, kurtosis


Dos distribuciones pueden tener la misma media, la misma variancia, la misma asimetra y, sin
embargo, pueden diferir en que la curva de una de ellas sea ms aplanada en el centro que la otra.
El grado de aplanamiento de una distribucin se mide adecuadamente por medio del parmetro
adimensional:
b2=

m4
m22

(17)

Observe que para la poblacin se tendr:


2=

4
22

(18)

Se ha notado en una amplia clase de curvas de probabilidad, escogiendo de la escala en forma tal
que la variancia fuera la unidad, que la ordenada correspondiente a la media o a el modo es
s
2
mayor o menor segn que x sea mayor o menor. Esto es, el valor de
sirve para indicar
si la curva es alta y estrecha en el centro (leptocrtica) o achatada (platicrtica).

Jos Antonio Rivera ColmeneroPgina 22

ESTADSTICA DESCRIPTIVA
Para clasificar el grado de aplanamiento de una distribucin se le compara con la distribucin
2=3
normal estndar. Se demuestra que para esta distribucin se tiene
. Es por esta razn
que a la diferencia:
2=

2< 0

Se le llama exceso, curvas para las cuales


2> 0

b 23 ( muestra )
(19)
2 3( poblacin)

son platicrticas, aquellas para las cuales

son leptocrticas, todo ello tomando como referencia a la curva normal estndar que es

mesocrtica,

2=0

. Esto se muestra en la Figura 10.

Figura 10. Aplanamiento

2.7 Medidas de tendencia


x1 , x2 , , xn

Sean X una variable aleatoria:

de la poblacin correspondiente, y

xj

los valores observados de X al extraer una muestra


las marcas de clase del histograma asociado a la

distribucin emprica obtenida de la muestra. Si se hace el cambio de variable


bien, X =Y b en donde b es una constante, se obtiene:
n

x =

1
1
1
b
f j x j= f j ( y jb )= y j f j f j

n j=1
n j =1
n j =1
n j=1

Jos Antonio Rivera ColmeneroPgina 23

Y = X+ b , o

ESTADSTICA DESCRIPTIVA
Pero como el primer sumando es la media de la distribucin emprica asociada a la variable
aleatoria Y , y el segundo sumando es igual a (b /n)( n)=b , resulta:
x = y b(20)

Adems, de acuerdo con las ecuacin (8),


m

mk =

1
k
x jx ) f j

(
n j=1

y (20), puede escribirse:


n

k
1
1
1
mk ( X ) = ( x j x ) k f j = [ ( y jb )( y b ) ] f j= ( y j y )k f j
n j=1
n j=1
n j=1

Esto es:
mk ( X ) =mk ( Y ) (21)
Y de la ecuacin (21) y de las relaciones,
m1=0
1

1 2

m2=m2( m1 )

m 3=m 133 m 11 m12 +2 ( m 11 )


1

1 2

1 4

m4=m44 m1 m3 +6 ( m1 ) m23 ( m1 )
resulta:
m2 ( X )=m2 ( Y ) =m12 ( Y )[ m 11 (Y ) ]

m3 ( X )=m3 ( Y )=m13 ( Y )3 m11 ( Y ) m12 ( Y ) +2 [ m11 ( Y ) ] (22)


2

m4 ( X )=m4 ( Y ) =m14 ( Y ) 4 m11 ( Y ) m 13 ( Y ) +6 [ m11 ( Y ) ] m12 ( Y ) 3 [ m11 ( Y ) ]

Jos Antonio Rivera ColmeneroPgina 24

ESTADSTICA DESCRIPTIVA
Las expresiones (20) y (22) facilitan el clculo de los parmetros descriptivos de una distribucin
emprica. En la Tabla 4 se ilustra dicho clculo para el ejemplo de las llantas; en ella se tiene
y j =x j45
ya que x=45 es bastante prxima a x .

b=45

Sustituyendo en (20) y (22) , con

y los valores obtenidos en el ltimo rengln de la

Tabla 4, resulta:
m11= x = y b=0.025+ 45=44.975
2

m2 ( X )=m2 ( Y ) =m12 ( Y )[ m 11 (Y ) ] =9.738(0.025 )2=9.737


m3 ( X )=m3 ( Y )=m13 ( Y )3 m11 ( Y ) m12 ( Y ) +2 [ m11 ( Y ) ]

1.7563 (0.025 ) ( 9.738 ) +2 (0.025 )2=2.487


2

m4 ( X )=m4 ( Y ) =m14 ( Y ) 4 m11 ( Y ) m 13 ( Y ) +6 [ m11 ( Y ) ] m12 ( Y ) 3 [ m11 ( Y ) ]

241.19694 (0.025 )( 1.756 )+ 6 (0.025 )2 ( 9.738 )3 (0.025 ) 4=241.409


Y consecuentemente:
x =m11=44.975.
2

s x =m2 ( X )=9.737

Jos Antonio Rivera ColmeneroPgina 25

ESTADSTICA DESCRIPTIVA

s x = m2 ( X )=3.1204
s 3.1204
( CV )x = x =
=0.069
x 44.975
m23 ( 2.487 )2
b1= 3 =
=0.0067
m2 ( 9.737 )3

b2 =

m4
2
2

241.409
=2.5463
( 9.737 )2

Problemas resueltos
Problema 1. En la Tabla 1.1 se muestra el nmero semanal de accidentes por cada mil
automviles que circularon en cierta carretera muy transitada. Construya una tabla que muestre
las frecuencias de clase de los accidentes y la importancia de esta caracterstica. Dibuje el
histograma y el polgono de frecuencia correspondientes.
Tabla 1.1
3.0
2.9
2.9
2.8
2.8
2.7
Ayuda:

Nmero de accidentes por cada mil automviles

3.4
3.3
3.3
3.3
3.3
3.2

3.8
3.7
3.7
3.7
3.7
3.6

5.3
4.7
4.6
4.4
4.3
4.3

1.8
2.1
2.3
2.4
2.5
2.5

3.0
3.1
3.1
3.1
3.2
3.2

3.4
3.4
3.5
3.5
3.5
3.5

3.8
3.9
3.9
4.0
4.0
3.0

2.6
3.2
3.6
4.2

Primera marca de clase = 1.7; longitud del intervalo de clase = 0.5; nmero de
intervalos de clase = 8.

Problema 2. Con relacin al Problema 1, calcule los parmetros descriptivos de la distribucin


emprica asociada a los accidentes de trnsito.
Problema 3. Una planta armadora se abastece de remaches que le surten diversos proveedores;
el registro del nmero de defectuosos por millar que ha detectado la planta se muestra en la Tabla
3.1. Construya una tabla que consigne las frecuencias de clase de los remaches defectuosos y
dibuje el histograma correspondiente. Haga las observaciones que considere convenientes.

Jos Antonio Rivera ColmeneroPgina 26

ESTADSTICA DESCRIPTIVA
Tabla 3.1
16.5
10.3
8.4
2.7
14.2
6.8
1.1
9.6
3.5
12.1
10.2
11.3
2.1

Nmero de remaches defectuosos por millar

0.5
17.8
12.5
4.3
3.7
10.1
10.4
11.6
12.8
14.9
7.1
16.4
10.2

16.6
13.6
11.7
9.1
14.2
2.3
17.5
4.5
1.6
16.8
2.9
13.1
15.3

4.7
11.2
15.1
1.3
12.8
9.4
3.1
18.4
7.5
8.3
10.6
18.5
13.5

3.8
11.6
13.9
4.4
8.5
0.8
12.1
9.2
11.4
15.6
3.3
16.7
17.9

9.1
2.4
11.8
5.6
15.3
7.6
17.2
19.3
3.7
8.7
11.9
18.2
5.7

Problema 4. En la Tabla 4.1 se muestran, en m3/seg., los escurrimientos mximos registrados en


un ro a lo largo de varios aos. Construya un histograma con intervalos de clase de amplitud 210
m3/seg., y cuya primera marca de clase sea 1,465 m 3/seg. Calcule los parmetros descriptivos de
la correspondiente distribucin emprica.
Tabla 4.1
2169
2469
3525
1912
2264
2617
2984
2243
4764
3121
1640
1798
1880
2835
3259

Escurrimientos mximos anuales en un ro


2721
2160
2108
2713
2160
1452
1840
2579
2208
2526
2740
2836
3428
2696
2913
2244
2827
2626
1896
2535
1939
3258
3482
2768
2589
1990
2655
1883
2506
2143
3085
2414
1361
2543
1801
2229
2827
2508
2575
3515
2001
1952
2570

2759
2135
1936
3623
5530
1435
2352
2682
4731
2699
2034
3063
3239
2372

2299
2430
2018
2834
2433
2080
2797
2640
2325
2997
2273
2574
4040
2588

Soluciones
Problema 1. Puesto que solo se tienen 52 observaciones que cubren un intervalo que va de 1.8
hasta 5.3 posiblemente sean convenientes ocho clases de amplitud (5.31.8)/8=0.5 . La
primera marca de clase que es de 1.7, se fij de tal manera que la observacin mnima cayera en
Jos Antonio Rivera ColmeneroPgina 27

ESTADSTICA DESCRIPTIVA
la primera clase (1.45 1.95). Con esta base se construy la siguiente Tabla 1.1 en donde se
muestran simultneamente las frecuencias de clase de los accidentes semanales y la importancia
de esta caracterstica.

Con base en los datos consignados en la Tabla 1.1 es posible dibujar el histograma y el polgono
de frecuencias que se muestran en las Figuras 1.1 y 1.2, respectivamente.

Figura 1.1 Histograma.

Jos Antonio Rivera ColmeneroPgina 28

ESTADSTICA DESCRIPTIVA

Figura 1.2 Polgono de frecuencias de accidentes.


Problema 2. Dicho clculo se basa en la Tabla 2.1; en ella se tiene:
ya que de la Tabla 2.1 se observa que:
j=n

1
1
x = f j x j= ( 175.90 ) =3.383
n j=1
52

De lo calculado en la Tabla 2.1, dado que:

Jos Antonio Rivera ColmeneroPgina 29

y j =x jx =x j3.383

ESTADSTICA DESCRIPTIVA
n

y =

1
f y =0 ,
n i =1 j j

se obtiene:
m11=3.4 ,

m2=0.452 , m3 =0.037 , m4=0.681

y consecuentemente:
a) Medidas de tendencia central
Media:

x =m11=3.383

Moda: De la columna de frecuencias relativas acumulados vemos que el valor cercano a la


L1=2.95, 1=178=9, 2 =1714=3, C=0.5
moda es 0.558:
, y al aplicar la ecuacin
de la moda resulta:

~
x=L1 +

1
9
C=2.95+
( 0.5 )=3.325
1+ 2
9+ 3

Mediana: De la Tabla 2.1 se tiene que:

( )

L1=2.95, ( f )1=1+3+8=12, f =17, C=0.5, n=52

, y al aplicar la ecuacin de la median resulta:


x=L1+

n /2( f )1
2612
( 0.5 )=3.362
C=2.95+
f
17

Se observa que la media, la moda y la mediana son prcticamente iguales esto significa que
la distribucin emprica puede considerarse simtrica.
A este respecto se ha observado que para distribuciones empricas ligeramente asimtricas se
tiene:
1
x x= ( x~
x ) (23)
3

Para este ejemplo, conocidas la media


mediana ( x ) :

Jos Antonio Rivera ColmeneroPgina 30

( x )

y la moda

( ~x ) , se puede determinar la

ESTADSTICA DESCRIPTIVA
1
1
x=x ( x~
x )=3.383 ( 3.3833.325 )=3.363
3
3
Que coincide sensiblemente con el valor ya calculado.

b) Medidas de dispersin
Variancia:

s x =m2 =0.452

Desviacin estndar: s x = m2=0.672


Coeficiente de variacin: ( CV )x =s x / x =0.672/3.383=0.20
c) Medidas de asimetra
b1=

m23 ( 0.037 )2
=
=0.015
m32 ( 0.452 )3

Lo que indica una asimetra positiva muy ligera.


d) Medidas de aplanamiento o exceso
Se tiene:
b2=

m4
2
2

0.681
=3.333
( 0.452 )2

2=b 23=3.3333=0.333

Recordemos que las curvas para las cuales


cuales

2> 0

2< 0

son platicrticas, aquellas para las

son leptocrticas, todo ello tomando como referencia a la curva normal

estndar que es mesocrtica,


prcticamente mesocrtica,

2=0

. Lo cual hace ver que la distribucin emprica es

es muy cercana a cero.

Jos Antonio Rivera ColmeneroPgina 31

ESTADSTICA DESCRIPTIVA

Problema 3. La Tabla 3.2 muestra las frecuencias de clase y la Figura 3.1 el histograma
correspondiente consignando en cada uno de sus rectngulos la frecuencia que le corresponde. Se
P1 , P2
distinguen tres modos que pueden asociarse a las zonas identificadas con las letras
y
P3

. El comportamiento trimodal del histograma podra deberse a diferencias en la calidad del

producto abastecido por los diversos proveedores, pudindose identificar tres grupos de ellos, que
P
P
P
podran llamarse: bueno ( 1 ) , regular ( 2 ) y malo ( 3 ) .

Jos Antonio Rivera ColmeneroPgina 32

ESTADSTICA DESCRIPTIVA

De esta manera puede aceptarse que el fenmeno se divide en tres partes y que el anlisis de la
distribucin emprica debe disociar estos tres subfenmenos y estudiar separadamente a cada
uno de ellos. Con este objeto se llen la Tabla 3.4, como se explica enseguida.
La moda correspondiente a cada grupo puede leerse directamente en la Tabla 3.3 o en la Figura
3.1.
~
x 1=3.5
~
x 2=11.5
~
x 3=16.5
Las medianas se obtuvieron grficamente a partir del histograma aplicando la definicin
correspondiente; esto tambin se ilustra en la Figura 3.1.

x 1=L1+

n /2( f )1
22/210
( 1.0 )=3.2
C=3+
f
6

x 2=L1+

n /2( f )1
39/219
( 1.0 ) =11.1
C=11+
f
8

x 3=L1+

n /2( f )1
17/24
( 1.0 )=16.9
C=16+
f
5

Jos Antonio Rivera ColmeneroPgina 33

ESTADSTICA DESCRIPTIVA

Figura 3.1 Histograma.


Finalmente, como los tres subhistogramas son ligeramente asimtricos, es posible aplicar la
ecuacin (23), que se transcribe a continuacin:
1
x x= ( x~
x)
3
En la forma:

3 x 3 x=x~
x

2 x =3 x ~x

x =

3 x~x
(24)
2

Y con la ecuacin (24) se calculan las medias en funcin de las medianas y las modas que les
corresponden:
x 1=

3 x 1 ~
x 1 3 ( 3.2 )3.5
=
=3.05
2
2

Jos Antonio Rivera ColmeneroPgina 34

ESTADSTICA DESCRIPTIVA
x 2=

3 x 2 ~
x 2 3 ( 11.1 )11.5
=
=10.9
2
2

x 3=

3 x 3 ~
x 3 3 (16.9 )16.5
=
=17.1
2
2

Tabla 3.4
Grupos de
proveedores

Cuadro resumen de resultados


Moda
Mediana
Media
~
xj
xj
x j

Naturaleza

P1

3.5

3.2

3.05

Asimtrica positiva

P2

11.5

11.1

10.9

Asimtrica positiva

P3

16.5

16.9

17.1

Asimtrica negativa

Es claro que la informacin anterior no se habra tenido si se hubiesen calculado, sin ningn
anlisis previo, los parmetros descriptivos de la distribucin emprica con base en lo consignado
en la Tabla 3.3. As para la media general se tendra:
783
=10.04
78
n
1
x =
n i =1

f j x j=

Sin identificar los grupos de proveedores mencionados; adems este valor tambin puede
obtenerse en forma aproximada a travs de la Tabla 3.4:
x =

n1 x 1 +n2 x2 +n 3 x 3 22 ( 3.05 ) +39 ( 10.9 ) +17(17.1) 782.9


=
=
=10.4
n1+ n2+ n3
22+39+17
78

El hecho ilustrado en este ejemplo se presenta con frecuencia, esto es, a menudo, con base en
alguna caracterstica, los elementos de una poblacin se asignan a grupos llamados estratos y,
posteriormente, se extrae una muestra aleatoria de cada uno de ellos. Los elementos de todas las
muestras tomados conjuntamente constituyen a la muestra de la poblacin. Este tipo de muestreo
se estudia ms adelante.

Jos Antonio Rivera ColmeneroPgina 35

ESTADSTICA DESCRIPTIVA

Problema 4. Los valores de los pesos en gramos de 80 anillos metlicos producidos por una
mquina son los siguientes:
7.33
7.31
7.26
7.33
7.37
7.27
7.30
7.33
a)
b)
c)
d)

7.32
7.35
7.39
7.33
7.38
7.33
7.37
7.35

7.34
7.32
7.29
7.35
7.38
7.32
7.33
7.32

7.40
7.33
7.32
7.34
7.33
7.31
7.32
7.33

7.28
7.33
7.34
7.33
7.35
7.34
7.31
7.32

7.29
7.36
7.30
7.36
7.30
7.32
7.33
7.34

7.35
7.32
7.34
7.33
7.31
7.34
7.32
7.32

7.33
7.31
7.32
7.35
7.33
7.32
7.30
7.34

7.34
7.35
7.39
7.31
7.35
7.31
7.29
7.32

7.28
7.36
7.30
7.33
7.33
7.36
7.38
7.33

Construir la distribucin de frecuencias adecuada a los datos.


Construir el histograma de frecuencias absolutas.
Construir el polgono de frecuencias relativas acumuladas.
Comprobar la normalidad de los datos.

Solucin:
Comenzamos introduciendo los datos como la variable de nombre PA (peso anillo) en la primera
columna de la hoja de clculo. Es decir los copiamos de la tabla de datos y los pegamos en forma
de columna. A continuacin seleccionamos la opcin Anlisis de datos del men Datos y en la
pantalla Anlisis de datos elegimos Histograma.

Jos Antonio Rivera ColmeneroPgina 36

ESTADSTICA DESCRIPTIVA

Rellenamos la pantalla Histograma tal y como se indica en a continuacin.

En el campo Rango de entrada se introduce el rango en el que se sitan los datos de la variable.
En el campo Rango de clases se sita el rango que ocupa la columna de los extremos superiores
de los intervalos de clase, pero en nuestro caso lo dejamos en blanco para que Excel divida los
datos automticamente en un nmero adecuado de clases de la misma anchura. En el campo
Jos Antonio Rivera ColmeneroPgina 37

ESTADSTICA DESCRIPTIVA
Rango de salida se sita el rango que ocupar la tabla de frecuencias, pero en nuestro caso
situaremos slo el extremo superior izquierdo de dicho rango (Celda D12). Sealamos la opcin
Grfico para obtener el histograma de frecuencias absolutas, y la opcin Porcentaje acumulado
para obtener el polgono de frecuencias relativas acumuladas. Al pulsar Aceptar se obtiene la
figura que se muestra a continuacin, cuyo histograma se ajusta bien a una campana de Gauss, lo
que indica normalidad en los datos.

Problema 5. Se han medido los dimetros de 50 tornillos y se han obtenido los resultados
siguientes en milmetros:
32.1
34.0
33.0
31.8
32.2
a)
b)
c)
d)

31.0
31.7
31.4
33.0
33.1

32.6
33.0
32.4
32.3
34.2

30.0
31.0
31.6
31.4
31.3

32.8
32.3
32.7
32.4
29.6

31.4
32.6
34.0
31.4
32.7

32.0
32.0
33.2
34.0
33.0

30.0
31.4
33.1
33.4
31.4

30.1
30.2
33.7
32.7
32.6

31.8
32.0
31.0
32.3
33.0

Elaborar la tabla de frecuencias adecuadamente para la variable dimetro.


Construir el histograma de frecuencias absolutas.
Se puede intuir si los datos provienen de una distribucin normal?
Estudiar la simetra de la distribucin.

Solucin:
Comenzaremos introduciendo los datos en la hoja de clculo como la variable numrica de
nombre DIAME. Para formar la tabla de frecuencias adecuadamente tomaremos el nmero de
k =1+ ENTERO ( 3.3log ( N ) )=6 ; o bien:
clases dado por la frmula de Sturges:

Jos Antonio Rivera ColmeneroPgina 38

ESTADSTICA DESCRIPTIVA
k =ENTERO ( RAIZ ( N ) ) =7 , siendo ENTERO la funcin parte entera y

N=50 . Luego, lo

lgico ser tomar 6 o 7 clases para la tabla de frecuencias. De esta forma, considerando la clase
inferior formada por los dimetros menores o iguales a 30 y la superior por los mayores que 34,
los extremos superiores de los intervalos de clase (salvo el ltimo) sern 30, 31, 32, 33 y 34 y
sern introducidos como una columna de nombre CLASES en la hoja de clculo.
A continuacin, seleccionamos la opcin Anlisis de datos del men Datos, y en la pantalla
Anlisis de datos elegimos Histograma. Pulsamos Aceptar y rellenamos la pantalla
Histograma, tal y como se indica en la siguiente figura.

En el campo Rango de entrada se introduce el rango en el que se sitan los datos de la variable
(incluidos los Rtulos). En el campo Rango de clases se sita el rango que ocupa la columna de
los extremos superiores de los intervalos de clase (CLASES). En el campo Rango de salida se
sita el rango que ocupar la tabla de frecuencias, pero basta con situar slo el extremo superior
izquierdo de dicho rango. Adems, sealamos la opcin Grfico para obtener el histograma de
frecuencias absolutas.
Al pulsar Aceptar se obtiene la figura siguiente, que nos ofrece la tabla de frecuencias, y cuyo
histograma presenta un dudoso ajuste a una campana de Gauss, lo que no permite intuir
claramente normalidad en los datos, ya que se observa una ligera simetra hacia la izquierda.

Jos Antonio Rivera ColmeneroPgina 39

ESTADSTICA DESCRIPTIVA

Problema 6.

Sea una variable

frecuencias absolutas

X , que presenta los valores

n1=1, n2=2,n 3=8, n4 =5

{ x1 , x2 , x3 , x4 , x5 }

con

n5=6.

a) Construir la tabla de frecuencias absolutas de X .


b) Representar la variable X mediante un diagrama de barras horizontales.
c) Representar la variable

mediante un diagrama de barras verticales.


d) Construir la tabla de frecuencias relativas de X y el histograma correspondiente.
e) Representar la variable X mediante un diagrama de barras verticales con la lnea base
situada a la altura del punto 4.
Solucin:

Jos Antonio Rivera ColmeneroPgina 40

ESTADSTICA DESCRIPTIVA
Comenzamos introduciendo los 22 valores de la variable

como una columna de Excel. A

continuacin, elegimos la el men Insertar y el icono Tablas dinmicas obtener la siguiente


figura.

TAREA 1
Problema 1. Una muestra de 120 componentes elctricos se probaron mediante la operacin de
cada uno de ellos de forma continua hasta que fallan. Se registr el tiempo de la hora ms cercana
a la falla. Los resultados se muestran en la Tabla 1.
TABLA 1
1347
2075
2242
3391
1945
932
1296
1104
916
678
983

Tiempos de falla de los componentes elctricos, en horas.


33
1544
1295
1541
14
2813
727
215
346
153
735
1452
2422
1160
977
1096
965
315
209
1269
447
709
3416
151
2390
644
1585
3066
844
1829
1279
1027
5
372
869
61
3253
47
4732
120
523
174
755
28
305
710
1075
74
1765
248
863
1908
2052
1036
359
202
2344
581
1913
2230
1126
22
1562
1977
167
573
186
804
6
637
1490
877
152
2096
185
53
39

Jos Antonio Rivera ColmeneroPgina 41

3385
2297
1550
17
535
2366
1274
1459
219
316
3997

2960
594
317
933
635
323
180
3
166
159
310

ESTADSTICA DESCRIPTIVA
1878

1952

5312

4042

4825

639

1989

132

432

1413

Ayuda: Use 9 intervalos de clase. Un ancho del intervalo de clase ms conveniente es de 600
horas.
Lmite inferior de la clase = 0.5.

Tema 2
Estadstica descriptiva:
Medidas de concentracin,
dispersin y forma

2.1 Expresin cuantitativa de las distribuciones


Una vez definidos los conceptos bsicos en el estudio de una distribucin de frecuencias de una
variable, estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de
posicin (o de centralizacin), teniendo presente el error cometido en el resumen mediante las
correspondientes medidas de dispersin. A su vez, analizaremos la forma de la distribucin
mediante las medidas de forma. El histograma de frecuencias ya nos daba una representacin
visual de las tres propiedades ms importantes de los datos muestrales relativos a variables: la
forma de su distribucin, su tendencia central y su dispersin. Ahora se trata de cuantificar estos
conceptos.

Medidas de posicin
Se trata de encontrar medidas que sinteticen las distribuciones de frecuencias. En vez de manejar
todos los datos sobre las caractersticas o variables de calidad, tarea que puede ser pesada,
podemos caracterizar su distribucin de frecuencias mediante algunos valores numricos,
eligiendo como resumen de los datos un valor central alrededor del cual se encuentran
distribuidos los valores de la variable. El valor de la variable elegido para representar a una
distribucin se llama promedio o medida de posicin, y es un valor representativo de todos los
valores que toma la variable. Debe hallarse entre el mayor y el menor valor de la variable.

Jos Antonio Rivera ColmeneroPgina 42

ESTADSTICA DESCRIPTIVA
Pero estas medidas de posicin de una distribucin de frecuencias han de cumplir determinadas
condiciones para que sean verdaderamente representativas de la variable a la que resumen. Toda
sntesis de una distribucin se considerar como operativa si intervienen en su determinacin
todos y cada uno de los valores de la distribucin, siendo nica para cada distribucin de
frecuencias, y siendo siempre calculable y de fcil obtencin. A continuacin, se hace una
relacin de las medidas de posicin ms comunes utilizadas en estadstica.
Media aritmtica: Se define como la suma de todos los valores de la distribucin dividida por

el nmero total de datos. La expresin matemtica que representa la media aritmtica coincide
con el momento de primer orden respecto al origen. Pero esto slo es vlido en el supuesto ms
sencillo, en el que los datos de la variable estn sin agrupar. En el caso de que tuvisemos una
distribucin con datos agrupados en intervalos, los valores individuales de la variable seran
desconocidos y, por tanto, no podramos utilizar la frmula anterior. En este supuesto, los datos
estarn agrupados en clases, y se postula la hiptesis de que el punto medio del intervalo de clase
(marca de clase) representa adecuadamente el valor medio de dicha clase, por lo que aplicaramos
la frmula original de la media simple para dichos valores. En el caso de que la variable presente
valores anormalmente extremos, stos pueden distorsionar la media aritmtica, hacindola
incluso poco representativa. A los estadsticos que no son afectados por los valores extremos de la
muestra, se les denomina estadsticos robustos. La media no es un estadstico robusto. Como
veremos posteriormente, este inconveniente no lo posee la mediana. Si la distribucin de
x ,n
xi
frecuencias es ( i i ) , siendo
los valores de la variable o las marcas de clase, y siendo
ni

las frecuencias absolutas, la media aritmtica, que representaremos por

X , se define

como sigue:
k

1
X = xi ni
N i=1

Media aritmtica ponderada: Caso particular de la media aritmtica, que aparece cuando

se otorga a cada valor de la variable


o repeticin

ni

xi

una ponderacin o peso

wi

, distinto de la frecuencia

. En este caso, no todos los valores de la distribucin intervienen con el mismo

peso en el clculo de la media. La cuanta de dichos pesos define la importancia de cada valor de
x ,n ,w
la distribucin en el clculo de la media. Si la distribucin de frecuencias es ( i i i ) , siendo
xi

los valores de la variable o las marcas de clase,

ni

las frecuencias absolutas, y

pesos o ponderaciones, la media aritmtica ponderada, que representaremos como


define como sigue:

Jos Antonio Rivera ColmeneroPgina 43

wi

los

W , se

ESTADSTICA DESCRIPTIVA
k

x i ni w i

W = i=1k

ni w i
i=1

Media geomtrica: Sea una distribucin de frecuencias

G , se define como la raz

representaremos como

( x i , ni ) . La media geomtrica, que

Nsima

del producto de los

valores de la distribucin.
N

G= x1 x 2 x k
n1

n2

nk

El empleo ms frecuente de la media geomtrica es el de promediar variables tales como


porcentajes, tasas, nmeros ndices, etc.; es decir, se usa en los casos en los que se supone que la
variable presenta variaciones acumulativas. Adems, cuando la variable toma al menos un valor
x i=0
, entonces G se anula, y si la variable toma valores negativos se pueden presentar una
gama de casos particulares en los que tampoco queda detenninada debido al problema de las
races de ndice par de nmeros negativos.
x ,n
Media armnica: Sea una distribucin de frecuencias ( i i ) . La media armnica, que
representaremos como

H , se define como sigue:

H=

N
k

1
x n
n i=1 i i

Observe que la inversa de la media armnica es la media aritmtica de los inversos de los valores
de la variable. No es aconsejable en distribuciones de variables con valores pequeos. Se suele
utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos,
cambios, etc.

Media cuadrtica: Sea una distribucin de frecuencias

representaremos como C , se define como sigue:

n1 x 21+ n2 x 22 ++ nk x 2k
C=
N
Jos Antonio Rivera ColmeneroPgina 44

( x i , ni ) . La media cuadrtica, que

ESTADSTICA DESCRIPTIVA

La media cuadrtica es la raz cuadrada de la media aritmtica de los cuadrados de los valores de
la variable.
Mediana: Se define como mediana el valor de la distribucin, suponiendo que sta est

ordenada de menor a mayor, que deja a su izquierda y a su derecha la misma frecuencia de


observaciones, es decir, el valor de la variable que ocupa el lugar central, supuesto un nmero
impar de datos. Si el nmero de datos fuese par, puede decirse que hay dos valores medianos, y
se toma como mediana la media aritmtica entre ellos. Tambin se podra definir la mediana
ni
como aquel valor de la distribucin cuya frecuencia absoluta acumulada es N= . Para
N /2
distribuciones agrupadas en intervalos, y suponiendo que todos los valores comprendidos dentro
L ,L
del intervalo mediano [ i1 i ] se encuentran distribuidos uniformemente a lo largo de l,
puede calcularse la mediana,

Me , mediante la expresin:

Me=Li1+

dnde

N i1< N /2< N i

siendo

ci

[ Li1 , Li ]

[(

N
N i1 /ni ci
2

es el intervalo siguiente al que contiene a

N /2 ,

su amplitud.

Como ventaja de la mediana tenemos que no influyen en ella los valores extremos (estadstico
robusto). La mediana tiene gran utilidad en los grficos de control de procesos.
Moda: La moda es el valor de la variable que ms veces se repite, y en consecuencia, en una

distribucin de frecuencias, es el valor de la variable que viene afectado por la mxima


frecuencia de la distribucin. En distribuciones no agrupadas en intervalos, se observa la columna
de las frecuencias absolutas, y el valor de la distribucin al que corresponde la mayor frecuencia
ser la moda. A veces aparecen distribuciones de variables con ms de una moda (bimodales,
trimodales, etc.), e incluso distribuciones de frecuencias que presentan una moda absoluta y una
relativa.
En distribuciones agrupadas en intervalos de la misma amplitud, realmente no tendremos un
L ,L
valor modal, sino un intervalo modal (el intervalo que presenta la mayor frecuencia [ i1 i ] ).
Podemos tomar como valor modal el extremo inferior del intervalo
Jos Antonio Rivera ColmeneroPgina 45

[ Mo=Li1 ]

o el extremo

ESTADSTICA DESCRIPTIVA
superior

[ Mo=xi ]

[ Mo=Li ]

, o bien hacer que la moda sea igual a la marca de clase del intervalo modal

. En caso de que todos los valores del intervalo modal estn distribuidos

uniformemente dentro de l, la moda estar ms cerca de aquel intervalo contiguo cuya


frecuencia sea mayor, siendo las distancias de la moda, Mo , a los intervalos contiguos
inversamente proporcionales a las frecuencias de dichos intervalos. La moda puede calcularse
mediante la expresin:

Mo=Li1+ ni +

1
1
c i=Li1 + ni +
ci
( ni1+n i+1 )
( 2 ni )

Para intervalos de distinta amplitud, realmente las densidades de frecuencias nos dan el nmero
de valores que hay en cada unidad de intervalo para cada intervalo. La mayor densidad de
L ,L
frecuencia, ahora s, nos determina el intervalo modal [ i1 i ] , calculndose la moda
mediante la expresin:
Mo=Li1+

d i +1
c
d i1 +d i+1 i

con:
d i=

ni
ci

Cabe sealar que la moda es la medida ms representativa en caso de distribuciones de variables


en escala nominal. Esto es debido a que las distribuciones de este tipo presentan datos no
susceptibles de ordenacin, de tal forma que para estas distribuciones no es posible realizar
operaciones elementales con sus observaciones. La moda se emplea sobre todo cuando los
valores de la variable presentan una gran concentracin hacia un valor determinado. Slo se
utilizar en distribuciones de gran frecuencia total.
Cuantiles: Se definen los cuantiles de orden

como los valores de la distribucin,


suponiendo que sta est ordenada de menor a mayor, que la dividen en k partes con la misma
frecuencia de observaciones. Por lo tanto, existirn r=k1 cuantiles de orden k . El
k deja a su izquierda la fraccin 1/ k de frecuencia de
observaciones. El segundo cuantil de orden k deja a su izquierda la fraccin 2/k de
frecuencia de observaciones. El rsimo cuantil de orden k deja a su izquierda la fraccin
primer cuantil de orden

Jos Antonio Rivera ColmeneroPgina 46

ESTADSTICA DESCRIPTIVA
r /k

( 100 r /k

1r /k

por ciento) de frecuencia de observaciones, y a su derecha deja la uaccin

( 100(k r )/k

de orden k

por ciento) de frecuencia de observaciones. El

rsimo

suele designarse como Qr , k .

Para el caso ms general, en que la distribucin est agrupada en intervalos, el


cuantil de orden k tomar el valor:
Qr , k =Li1+

donde

N i1<

siendo

ci

rN
<Ni
k

[ Li1 , Li ]

[(

rsimo

rN
N i1 /ni c i
k

es el intervalo siguiente al que contiene a

rN /k ,

su amplitud.

tendremos los 3 cuartiles. Para k =10 y r=1,2,. .. , 9,


tendremos los 9 deciles, y para k =100 y r=1,2,. .. , 99 , tendremos los 99 percentiles. Los
Para

k =4

cuantil

r=1,2,3,

cuartiles son, por tanto, los tres valores de la distribucin que la dividen en 4 partes iguales, es
decir, en 4 intervalos dentro de cada cual est incluido el 25% de los valores de la distribucin.
Los deciles son los 9 puntos que dividen la distribucin en 10 partes, tales que dentro de cada una
est incluido el 10% de los valores de la distribucin. Los percentiles son los 99 puntos que
dividen la distribucin en 100 partes, tales que dentro de cada una est incluido el 1% de los
valores de la distribucin.
Para distribuciones sin agrupar en intervalos, el primer cuartil, Q1,4 , es el valor
distribucin que ocupa el lugar N /4 ; el segundo cuartil, Q2,4 , es el valor
distribucin que ocupa el lugar 2 N /4 ; el tercer cuartil, Q3,4 , es el valor
distribucin que ocupa el lugar 3 N /4 ; el rsimo decil , Qr , 10 , es el valor
distribucin que ocupa el lugar

rN /10

(r=1, 2,. .., 9) ; y el

de la
de la
de la
de la

rsimo percentil , Qr,100,

es el valor de la distribucin que ocupa el lugar rN /100( r=1, 2,... , 99) .


Momentos potenciales: Entre los valores que caracterizan una distribucin de frecuencias,

tenemos los momentos potenciales. Dos distribuciones que tienen sus momentos iguales son
iguales, y sern ms parecidas cuanto ms prximos sean sus momentos. Los momentos suelen
considerarse respecto del origen y respecto de la media.
Jos Antonio Rivera ColmeneroPgina 47

ESTADSTICA DESCRIPTIVA

El momento de orden r

respecto del origen se define como:


1
ar =
N

x ri ni
i=1

El momento de orden r respecto de la media se define como:


k

m r=

1
( x x )r ni
N i=1 j

Se observa que el momento de orden 1 centrado en el origen coincide con la media aritmtica de
la distribucin, y el momento de orden 2 centrado en la media coincide con la varianza de la
distribucin.

Medidas de dispersin
Las medidas de dispersin permiten calcular la representatividad de una medida de posicin, para
lo cual ser preciso cuantificar la distancia de los diferentes valores de la distribucin respecto a
dicha medida. A tal distancia es a lo que, en trminos estadsticos, denominaremos variabilidad o
dispersin de la distribucin. Las medidas de dispersin tienen como finalidad estudiar hasta qu
punto, para una determinada distribucin de frecuencias, las medidas de tendencia central o de
posicin son representativas como sntesis de toda la informacin de la distribucin. Medir la
representatividad de una medida de posicin equivale a cuantificar la separacin de los valores de
la distribucin respecto a dicha medida. Por ejemplo, si queremos estudiar en qu grado una
media aritmtica nos marca una tendencia central generalizable del comportamiento de todos los
elementos del conjunto estudiado, tendremos que fijamos en la separacin o desviacin de cada
valor respecto a la media. Si todos los valores estn cercanos al valor medio, ste ser
representativo de ellos. A la mayor o menor separacin de los valores de una distribucin
respecto de otro, que se pretende que sea sus sntesis, se le llama dispersin o variabilidad. Ser,
pues, tanto ms representativa la media aritmtica de una variable cuanto ms agrupados en torno
a ella estn los valores promediados; por el contrario, ser tanto ms rechazable, por no ser
representativa, cuanta mayor dispersin exista de los valores de la variable respecto a la media.
Resulta pues necesario para completar la informacin que pueda deducirse de una medida de
posicin o centralizacin, acompaada de uno o varios coeficientes que nos midan el grado de
dispersin de la distribucin de la variable respecto de esa medida de centralizacin. Estos
coeficientes son los que llamamos medidas de dispersin. Inicialmente, se distingue entre
medidas de dispersin absolutas y relativas, entendindose por relativas las que no dependen de
las unidades de medida. Posteriormente, se clasifican las medidas absolutas y relativas segn sean
medidas referidas a promedios o no lo sean.

Jos Antonio Rivera ColmeneroPgina 48

ESTADSTICA DESCRIPTIVA
Entre las medidas de dispersin absolutas no referidas a promedios tenemos el recorrido, o
diferencia entre el mayor valor y el menor valor de una distribucin, y el recorrido
intercuartlico, o diferencia existente entre el tercer cuartil y el primero.
Entre las medidas de dispersin relativas no referidas a promedios tenemos el coeficiente de
apertura, o cociente entre el mayor valor y el menor valor de una distribucin, y el recorrido
relativo, o cociente entre el recorrido y la media, as como el recorrido semintercuartlico, o
cociente entre el recorrido intercuartlico y la suma del primer y tercer cuartil.
Entre las medidas de dispersin absolutas referidas a promedios tenemos las desviaciones medias,
la varianza y la desviacin tpica. Estas medidas de dispersin involucran a los promedios, y
permiten medir el error que cometemos utilizando el promedio en cuestin como resumen de los
datos. Como medida de dispersin ms simple relativa a la medida de posicin P , podramos
considerar las desviaciones de cada valor al promedio y promediar estas desviaciones, es decir,
considerar el valor:
k
1
D= ( x iP ) n i
N i=1
Pero esto, que sera lo primero que se nos ocurrira, tiene como grave inconveniente las posibles
compensaciones de las desviaciones positivas con las negativas al efectuar la suma, pudiendo
obtenerse una medida pequea siendo la dispersin grande. Para solucionar este inconveniente se
consideran los valores absolutos de las desviaciones, o bien se elevan stas al cuadrado. A
continuacin, se definen las medidas de dispersin ms interesantes, entre las que tenemos:
Desviaciones medias: Para medir la eficacia de la media se considera la desviacin media

respecto de la media aritmtica, que se define como la media aritmtica de los valores absolutos
de las diferencias entre los valores de la variable y la media aritmtica, y cuya expresin es la
siguiente:
k

1
D m= | x jx|ni
N i=1

Para medir la eficacia de la mediana,

Me , suele considerarse la desviacin media respecto de

la mediana, que se define como la media aritmtica de los valores absolutos de las diferencias
entre los valores de la variable y la mediana, y cuya expresin es la siguiente:
k

1
D Me = | x jMe|ni
N i=1

Varianza, cuasivarianza, desviacin tpica y error estndar: De todas las medidas

de dispersin absolutas respecto a la media aritmtica, la varianza y su raz cuadrada (la


Jos Antonio Rivera ColmeneroPgina 49

ESTADSTICA DESCRIPTIVA
desviacin tpica), son las ms importantes. Si en vez de considerar los valores absolutos de las
desviaciones respecto del promedio consideramos sus cuadrados, surge una nueva medida de
dispersin denominada varianza, y que definimos como la media aritmtica de los cuadrados de
las desviaciones de los valores de la variable a la media aritmtica, es decir, el momento de
segundo orden respecto a la media aritmtica. Se define mediante la expresin:
k

1
2
= ( x jx ) ni
N i =1
2

Como propiedades ms importantes de la varianza tenemos que nunca puede ser negativa, que
es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al
cuadrado, que si en la distribucin de frecuencias sumamos a todos los valores de la variable una
constante la varianza no vara (un cambio de origen en la variable no afecta a la varianza), y que
al multiplicar los valores de una distribucin de frecuencias por una constante k la varianza
queda multiplicada por el cuadrado de la constante.
As como las desviaciones medias vienen expresadas en las mismas unidades de medida que la
distribucin, la varianza no, ya que vendr dada en las unidades correspondientes, pero elevadas
al cuadrado. Esto dificulta su interpretacin, y hace necesario definir la desviacin tpica o
desviacin estndar. La desviacin tpica es la raz cuadrada, con signo positivo, de la varianza,
con lo que su expresion ser:
=

1
( x x )2 ni
N i=1 j

Al ser la raz cuadrada de la varianza, vendr expresada en las mismas unidades de medida que la
distribucin, lo cual la hace ms apta como medida de dispersin.
Un estadstico muy utilizado como medida de dispersin, sobre todo debido a sus propiedades
muestrales, es la cuasivarianza, cuya expresin es:
k

S=

1
( x x )2 ni
N1 i=1 j

Tambin se considera la cuasidesviacin tpica, cuya expresin es:

1
2
S=
( x j x ) ni

N1 i=1
Error estndar. Otro estadstico muy utilizado como medida de dispersin, tambin por sus

propiedades muestrales, es el error estndar, cuyo valor es:


Jos Antonio Rivera ColmeneroPgina 50

ESTADSTICA DESCRIPTIVA
e=

Siempre se cumple que:

S
.
n

D Me < Dm < .

Entre las medidas de dispersin absolutas referentes a promedios, podramos haber definido
tambin la desviacin media respecto a la moda y las desviaciones cuadrticas respecto a la
mediana y a la moda, que vienen dadas en las mismas unidades de medida que la distribucin, y
que marcan la representatividad de los promedios con los que se relacionan.
Entre las medidas de dispersin relativas (valores adimensionales que no se ven afectados por
las unidades de medida y que siempre se concretan en forma de cociente) utilizadas para
comparar medidas de posicin o promedios, tenemos el ndice de dispersin respecto a la
mediana y el coeficiente de variacin de Pearson.
Coeficiente de variacin de Pearson: Se usa para resolver el problema de comparacin

de medias aritmticas de varias distribuciones que pueden venir, en general, en unidades


diferentes. Se define como la relacin por cociente entre la desviacin tpica y la media
aritmtica:
CV =

Evidentemente, a menor coeficiente de variacin ( CV ), mejor es la media. Observamos


que al efectuar el cociente eliminamos las unidades, y por tanto CV es adimensional. Por otra
parte, CV representa el nmero de veces que contiene a x , y est claro que cuanto
mayor sea CV ms veces contendr a x , luego, relativamente, a mayor valor de
CV menor representatividad de x . Este coeficiente tambin se suele expresar en tantos
por ciento como:
CV =100

( x )

Como tanto en el clculo de como en el clculo de x han intervenido todos los valores
de la distribucin, CV presenta la garanta, frente a otros coeficientes, de que utiliza toda la

Jos Antonio Rivera ColmeneroPgina 51

ESTADSTICA DESCRIPTIVA
informacin de la distribucin. La cota inferior de CV es cero, y el nico caso problemtico
se presenta cuando x =0 , lo que hara que CV tendiera a infinito.
ndice de dispersin respecto a la mediana: Se usa para resolver el problema de

comparacin de medianas de varias distribuciones, que pueden venir, en general, en unidades


diferentes. Se define como la relacin por cociente entre la desviacin media respecto de la
mediana y la mediana aritmtica:
V Me =

D Me
.
Me

Evidentemente, a menor ndice de dispersin mejor es la mediana.

Medidas de forma
Una vez iniciado el anlisis estadstico de sintetizacin de la informacin, para lo cual hemos
estudiado las medidas de posicin y dispersin de la distribucin de una variable, necesitamos
conocer ms sobre el comportamiento de la misma. No podemos basar nuestras conclusiones
nicamente en expresiones que vengan dadas en trminos de medidas de posicin y dispersin. Si
bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio,
para lo cual las medidas de posicin son nuestro mejor instrumento, no debemos proceder a una
interpretacin que implique un comportamiento de todos los elementos del colectivo
uniformemente constante e igual a la medida de posicin en cuestin con un error dado por la
correspondiente medida de dispersin. Este error o disparidad se hace ms ostensible al analizar
la representacin grfica de la distribucin. Pues bien, las medidas de forma de una distribucin
se basan en su representacin grfica, sin llegar a realizar la misma.
Las medidas de forma se clasifican en medidas de asimetra y medidas de curtosis o
apuntamiento.
Las medidas de asimetra tienen como finalidad el elaborar un indicador que permita establecer
el grado de simetra (o asimetra) que presenta una distribucin, sin necesidad de llevar a cabo su
representacin grfica. Supongamos que hemos representado grficamente una distribucin de
frecuencias. Si trazamos una perpendicular al eje de abscisas por x y tomamos esta
perpendicular como eje de simetra, diremos que una distribucin es simtrica si existe el mismo
nmero de valores a ambos lados de dicho eje, equidistantes de x dos a dos, y tales que cada
par de valores equidistantes de

tengan la misma frecuencia. En caso contrario, las

distribuciones sern asimtricas.


Las medidas de curtosis estudian la distribucin de frecuencias en la zona central de la misma. La
mayor o menor concentracin de frecuencias alrededor de la media y en la zona central de la
distribucin dar lugar a una distribucin ms o menos apuntada. Por esta razn, a las medidas
de curtosis se les llama tambin de apuntamiento o concentracin central. Las medidas de
Jos Antonio Rivera ColmeneroPgina 52

ESTADSTICA DESCRIPTIVA
curtosis se aplican a distribuciones campaniformes, es decir, unimodales simtricas o con ligera
asimetra. Para estudiar la curtosis de una distribucin es necesario definir previamente una
distribucin tipo, que vamos a tomar como modelo de referencia. Esta distribucin es la normal,
que corresponde a fenmenos muy corrientes en la naturaleza, y cuya representacin grfica es
una campana de Gauss.
Tomando la normal como referencia, diremos que una distribucin puede ser ms apuntada que
la normal (es decir, leptocrtica), o menos apuntada (es decir, platicrtica). A la distribucin
normal, desde el punto de vista de la curtosis, se le llama mesocrtica. Con la curtosis se estudia
la deformacin, en sentido vertical, respecto a la normal, de una distribucin. A continuacin, se
definen las medidas de asimetra ms comunes, entre las que destacan las siguientes:
Coeficiente de asimetra de Fisher: Ahora se intenta buscar una medida que recoja la

simetra o asimetra de una distribucin. Si la distribucin es simtrica, el eje de simetra de su


representacin grfica ser una recta paralela al eje de ordenadas, que pasa por el punto cuya
abscisa es la media aritmtica. Por ello, cuando la distribucin es asimtrica, referiremos los
valores de la distribucin a este promedio. Si una distribucin es simtrica, existe el mismo
nmero de valores a la derecha que a la izquierda de x , y por tanto el mismo nmero de
desviaciones con signo positivo que con signo negativo, siendo la suma de desviaciones positivas
x x
igual a la suma de las negativas. Podemos partir, pues, de las desviaciones ( i ) elevadas a
una potencia impar para no perder los signos de las desviaciones. Lo ms sencillo sera tomar
como medida de asimetra el promedio de estas desviaciones, elevadas a la potencia impar ms
simple (que es tres); es decir, tomaramos como medida de asimetra el momento de orden tres
centrado en la media. Pero, de hacer esto, esta medida vendra expresada en las mismas unidades
que las de la variable pero elevadas al cubo, por lo que no es invariante ante un cambio de escala.
Para conseguir un indicador adimensional, debemos dividir la expresin anterior por una cantidad
que venga en sus mismas unidades de medida. Esta cantidad es el cubo de la desviacin tpica.
De este modo obtenemos el coeficiente de asimetra de R. A. Fisher, cuya expresin es:
k

g1=

Si

g1=0

m3
3

1
( x x )3 ni
N i=1 j
=

, la distribucin es simtrica; si

derechas); y si

g1 <0

1
N

3 /2

( x j x ) ni
i=1

g1 >0

, la distribucin es asimtrica positiva (a

, la distribucin es asimtrica negativa (a izquierdas). La distribucin es

asimtrica a derechas o positiva cuando la suma de las desviaciones positivas de sus valores
Jos Antonio Rivera ColmeneroPgina 53

ESTADSTICA DESCRIPTIVA
respecto de la media es mayor que la suma de las desviaciones con signo negativo (la grfica de
la distribucin tiene ms densidad a la derecha de la media). En caso contrario, la distribucin es
asimtrica a la izquierda o negativa.
N >150 , el coeficiente de
6/ N . Este hecho nos lleva a

Coeficiente de asimetra de Fisher estandarizado: Para

asimetra es asintticamente normal de media cero y varianza

considerar el coeficiente de asimetra estandarizado, cuya expresin es:


gs =

g1

6
N

Este coeficiente es asintticamente normal (0,1).


Coeficiente de asimetra de Pearson: Karl Pearson propuso para distribuciones

campaniformes, unimodales y moderadamente asimtricas, el coeficiente definido como:


Ap=

donde

x Mo

Mo es la moda. Como en una distribucin campaniforme simtrica:


x =Mo=Me

si la distribucin es asimtrica positiva o a derechas, x se desplaza a la derecha de la moda, y


por tanto, x Mo> 0 . En el caso de distribucin asimtrica negativa, la media se sita por
debajo de Mo , por lo que el valor x Mo< 0 . La desviacin tpica que aparece en el
x Mo , y sirve para eliminar las unidades
de medida de dicha diferencia. As tendremos que si Ap=0 la distribucin es simtrica, si
Ap> 0 la distribucin es asimtrica positiva, y si Ap< 0 la distribucin es asimtrica

denominador no modifica el signo de la diferencia

negativa. Tambin Pearson comprob empricamente para este tipo de distribuciones que se
cumple 3 ( x Me ) x Mo (la mediana siempre se sita entre la media y la moda en las
distribuciones moderadamente asimtricas). Por esta razn, algunos autores utilizan como
coeficiente de asimetra de Pearson el valor:

Jos Antonio Rivera ColmeneroPgina 54

ESTADSTICA DESCRIPTIVA
Ap

3 ( x Me )
.

Coeficiente de asimetra de Bowley: Est basado en la posicin de los cuartiles y la

mediana, y viene dado por la expresin:


Ab=

(C 3+C 12 Me )
.
( C 3+C 1 )

Se cumple que si Ab=0 la distribucin es simtrica, si Ab> 0 la distribucin es asimtrica


positiva, y si Ab< 0 la distribucin es asimtrica negativa. C 1 y C 3 son el primer y
tercer cuartil respectivamente.
Coeficiente absoluto de asimetra: Est basado tambin en la posicin de los cuartiles y

la mediana, y viene dado por la expresin:


A=

[ ( C 3C 2 )( C 2C 1 ) ] = C 3+C 12C 2 =C 3+C 12 Me/S


S

Si A=0 la distribucin es simtrica, si A >0 la distribucin es asimtrica positiva, y si


A <0 la distribucin es asimtrica negativa. C 1 , C 2 y C 3 son los cuartiles de la
distribucin.
Una vez presentadas las medidas de asimetra, a continuacin se definen las medidas de curtosis
ms comunes, entre las que destacan las siguientes:
Coeficiente de curtosis: En la distribucin normal, se verifica que:

m4

el momento de orden 4 respecto a la media, y

la expresin

m4=3 4 , siendo

la desviacin tpica. Si consideramos

g2=m4 / 4 3 , su valor ser cero para la distribucin normal. Por ello, como

coeficiente de apuntamiento o curtosis se utiliza la expresin:


g2=

m4

3=
4

1
4
x j x ) ni

(
N i=1

Jos Antonio Rivera ColmeneroPgina 55

ESTADSTICA DESCRIPTIVA

1
N

( x j x ) ni
i=1

Una distribucin es mesocrtica (apuntamiento igual al de la normal) cuando


leptocrtica (apuntamiento mayor que el de la normal) si
(apuntamiento menor que el de la normal) si

g2=0 , es

g >0 , y es platicrtica

g <0 .

Coeficiente de curtosis estandarizado: Para

asintticamente normal de media cero y varianza

N >150 , el coeficiente de curtosis es

24 / N . Este hecho nos lleva a considerar el

coeficente de curtosis estandarizado, cuya expresin es:


g2
gks =
6
N

Este coeficiente es asintticamente normal (0,1).

2.2 Funciones de Excel para medidas de concentracin,


dispersin y forma
Excel dispone de una amplia gama de funciones que permiten calcular medidas de posicin
(media, mediana, etc.), medidas de dispersin (varianza, desviacin tpica, etc.), medidas de
asimetra y curtosis, coeficientes de correlacin y muchos otros conceptos.
Ya sabemos que para ver las funciones de la categora Estadsticas, se hace clic sobre el icono
Insertar funcin, de la barra de frmulas:

Con lo que se obtiene la siguiente Figura 2-1, en cuyo cuadro Seleccionar una categora se elige
Estadsticas, presentndose todas las funciones de dicha categora elegida en el cuadro
Seleccionar una funcin (Figura 2-2).

Jos Antonio Rivera ColmeneroPgina 56

ESTADSTICA DESCRIPTIVA

Figura 2-1
Figura 2-2
Si en el cuadro Seleccionar una funcin hacemos dic con el ratn sobre una funcin (por ejemplo
la funcin CONTAR), se obtiene la paleta de la funcin con su sintaxis (Figura 2-3).

Figura 2-3
Una vez completados los argumentos, se obtiene el resultado en la parte inferior de la paleta
(=15). Al pulsar Aceptar, la frmula y su resultado se insertan en la celda activa de la hoja de
clculo (Figura 2-4).

Jos Antonio Rivera ColmeneroPgina 57

ESTADSTICA DESCRIPTIVA

Figura 2-4
A continuacin, se presenta una relacin de funciones de Excel para medidas de centralizacin,
dispersin y forma, acompaadas de un ejemplo referido a la variable X de la hoja de clculo
de la Figura 3-4, cuyos valores ocupan el rango A2:A16. Para algunas funciones se presenta su
paleta, omitindose dicha presentacin para paletas de funciones muy similares en su sintaxis.
CONTAR(numvar)
CONTAR(A2:A16)

Halla el total de observaciones no desaparecidas de la variable


numvar. Slo cuenta celdas con nmeros, o celdas con fechas
traducibles a nmeros. No cuenta celdas con texto, valores de
error o blancas.

Jos Antonio Rivera ColmeneroPgina 58

ESTADSTICA DESCRIPTIVA

CONTAR.SI(rango,criterio)
CONTAR(A2:A16, >2)

PROMEDIO(numvar)
PROMEDIO(A2:A16)

Cuenta las celdas en el rango dado que


coinciden con el criterio especificado.

Halla la media aritmtica de numvar. Si numvar contiene texto,


valores lgicos o celdas vacas, esos valores se pasan por alto;
sin embargo, se incluyen las celdas cuyo valor sea 0.

Jos Antonio Rivera ColmeneroPgina 59

ESTADSTICA DESCRIPTIVA
MEDIA.GEOM (numvar)
MEDIAGEOM(A2:A16)

Halla la media geomtrica de numvar. Si


numvar contiene texto, valores lgicos o celdas
vacas, esos valores se pasan por alto; sin
embargo, se incluirn las celdas con el valor 0.

MEDIA.ARMO (numvar)
MEDIA.ARMO(A2:A16)

Halla la media armnica de numvar. Si numvar


contiene texto, valores lgicos o celdas vacas,
esos valores se pasan por alto; sin embargo, se
incluirn las celdas con el valor 0.

MEDIANA(numvar)
MEDIANA(A2:A16)

Halla la mediana de numvar. Si numvar


contiene texto, valores lgicos o celdas vacas,
esos valores se pasan por alto; sin embargo, se
incluirn las celdas con el valor 0.

MODA(numvar)
MODA(A2:A16)

Halla la moda de numvar. Si numvar contiene


texto, valores lgicos o celdas vacas, esos
valores se pasan por alto; sin embargo, se
incluirn las celdas con el valor 0.

Jos Antonio Rivera ColmeneroPgina 60

ESTADSTICA DESCRIPTIVA

MIN(numvar)
MIN(A2:A16)

Halla el mnimo de las observaciones no desaparecidas de la


variable numrica numvar. Slo cuenta celdas con nmeros o
fechas traducibles a nmeros. No se usa para celdas con texto o
valores de error.

Jos Antonio Rivera ColmeneroPgina 61

ESTADSTICA DESCRIPTIVA
MAX(numvar)
MAX(A2:A16)

Halla el mximo de las observaciones no desaparecidas de la


variable numrica numvar. Slo cuenta celdas con nmeros o
fechas traducibles a nmeros. No se usa para celdas con texto o
valores de error.

PERCENTIL(numvar,n)
PERCENTIL(A2:A16,0.75)

Jos Antonio Rivera ColmeneroPgina 62

Halla el ensimo percentil de numvar.

ESTADSTICA DESCRIPTIVA
CUARTIL(numvar,n)
CUARTlL(A2:A16,1)

Halla el ensimo cuartil de numvar. Si n=0 se tiene el


mnimo, si n=1 se tiene el primer cuartil (percentil 25), si
n=2 se tiene la mediana (percentil 50), si n=3 se tiene el
tercer cuartil (percentil 75), y si n=4 se tiene el mximo.

COEFICIENTE.ASIMETRIA
(numvar)
COEFICIENTE.ASIMETRIA(A2:A 16)
CURTOSIS(numvar)
CURTOSIS(A2:A16)

NORMALlZACON(m,a,b)
NORMALIZACION(10)

Halla el coeficiente de asimetra de numvar. Si


numvar contiene texto, valores lgicos o celdas
vacas, esos valores se pasan por alto; sin
embargo, se incluirn las celdas con el valor 0.
Halla el coeficiente de curtosis de numvar. Si
numvar contiene texto, valores lgicos o celdas
vacas, esos valores se pasan por alto; sin
embargo,
se incluirn las celdas con el valor 0.
Estandariza el nmero m segn a y b; es decir, al
valor de m se le resta la media (a) y se divide el
resultado por la desviacin tpica (b).

Jos Antonio Rivera ColmeneroPgina 63

ESTADSTICA DESCRIPTIVA

Estas funciones de estadstica descriptiva pueden escribirse directamente sobre las celdas de
la hoja de clculo de igual modo que cualquier otra frmula.
La Figura 2-5 presenta varias funciones de clculo de medidas de concentracin, dispersin y
forma situadas en las celdas de la hoja de clculo, y referidas a los valores de la variable X que
ocupa la primera columna de la hoja. La Figura 2-6 presenta los resultados de las frmulas
cuando no se encuentra activada la casilla Frmulas.

Figura 2-5

Jos Antonio Rivera ColmeneroPgina 64

Figura 2-6

ESTADSTICA DESCRIPTIVA

2.3

Medidas de posicin, dispersin y forma con


herramientas de anlisis de datos

Podemos utilizar las herramientas de anlisis estadstico avanzado para calcular medidas de
posicin, dispersin y forma, seleccionando la opcin Anlisis de datos en el men Datos
(Figura 2-7), y eligiendo la opcin Estadstica descriptiva en el cuadro Funciones para anlisis
de la Figura 2-8.

Figura 2-7

Figura 2-8
Al hacer clic en Aceptar, se obtiene la pantalla Estadstica descriptiva de la Figura 2-9, cuyos
campos tienen las siguientes funcionalidades:
Jos Antonio Rivera ColmeneroPgina 65

ESTADSTICA DESCRIPTIVA

Rango de entrada: Introduzca la referencia de celda correspondiente al rango de datos que desee
analizar. La referencia deber contener dos o ms rangos adyacentes organizados en columnas o
filas.
Agrupado por: Haga clic en el botn Filas o Columnas para indicar si los datos del rango de
entrada estn organizados en filas o en columnas.
Rtulos en la primera fila y rtulos en la primera columna: Si la primera fila del rango de
entrada contiene rtulos, active la casilla de verificacin Rtulos en la primera fila. Si los rtulos
estn en la primera columna del rango de entrada, active la casilla de verificacin Rtulos en la
primera columna. Esta casilla de verificacin estar desactivada si el rango de entrada carece de
rtulos; Microsoft Excel generar los rtulos de datos correspondientes para la tabla de
resultados.
Nivel de confianza para la media: Active esta casilla si desea incluir una fila correspondiente al
nivel de confianza de la media en la tabla de resultados. En el cuadro, escriba el nivel de
confianza que desee utilizar. Por ejemplo, un valor de 95% calcular el nivel de confianza de la
media con un nivel de importancia del 5%.
K-simo mayor: Active esta casilla si desea incluir una fila correspondiente al valor k-simo
mayor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el nmero que va a
utilizarse para k . Si escribe 1, esta fila contendr el mximo del conjunto de datos.
K-simo menor: Active esta casilla si desea incluir una fila correspondiente al valor k-simo
menor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el nmero que va a
utilizarse para k . Si escribe 1, esta fila contendr el mnimo del conjunto de datos.
Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados. Esta herramienta genera dos columnas de informacin por cada conjunto de
datos. La columna de la izquierda contiene los rtulos de estadstica, y la columna de la derecha
contiene las estadsticas. Excel escribir una tabla de estadsticas de dos columnas por cada
columna o fila del rango de entrada, dependiendo de la opcin que se haya seleccionado en el
cuadro Agrupado por.
En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un
nombre a la nueva hoja de clculo, escrbalo en el cuadro.
En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado.
Resumen de estadsticas: Seleccione esta opcin si desea que Excel genere un campo en la tabla
de resultados por cada una de las siguientes variables estadsticas: media, error tpico (de la

Jos Antonio Rivera ColmeneroPgina 66

ESTADSTICA DESCRIPTIVA
media), mediana, moda, desviacin estndar, varianza, curtosis, coeficiente de asimetra, rango,
mnimo, mximo, suma, cuenta, mayor (#), menor (#) y nivel de confianza.
Al pulsar Aceptar en la Figura 2-9, se obtiene la Figura 2-10 con todos los estadsticos, incluido
el radio del intervalo de confianza para la media de la variable, suponiendo normalidad con
desconocida (ltima celda). El intervalo de confianza para la media viene definido por
t
x t n1, / 2(S / n)
, siendo S la cuasivarianza muestral y n1, / 2 el valor de la abscisa de
una T de Student con n1 grados de libertad que deja a su derecha /2

Figura 2-9

Jos Antonio Rivera ColmeneroPgina 67

de rea.

ESTADSTICA DESCRIPTIVA

Figura 2-10

EJERCICIOS
Ejercicio 1. Se han medido los dimetros de 50 tornillos y se han obtenido los resultados
siguientes en milmetros:
32.1
34.0
33.0
31.8
32.2

31.0
31.7
31.4
33.0
33.1

32.6
33.0
32.4
32.3
34.2

30.0
31.0
31.6
31.4
31.3

32.8
32.3
32.7
32.4
29.6

31.4
32.6
34.0
31.4
32.7

32.0
32.0
33.2
34.0
33.0

30.0
31.4
33.1
33.4
31.4

30.1
30.2
33.7
32.7
32.6

31.8
32.0
31.0
32.3
33.0

a) Calcular la mediana, la moda, el primer y tercer cuartil, el sexto y sptimo deciles y los
percentiles 54, 47 y 82.
b) Calcular tambin los momentos de orden 3 y 4 centrados en la media.
Solucin:
La forma ms sencilla de resolver el primer inciso de este problema es introducir los datos de la
variable en una columna de la hoja de clculo y plantear las frmulas que se indican en la Figura
2-11. Los resultados que se obtienen se presentan en la Figura 2-12.

Jos Antonio Rivera ColmeneroPgina 68

ESTADSTICA DESCRIPTIVA

Figura 2-11

Figura 2-12

Para resolver la segunda parte del problema no existen frmulas adecuadas predefinidas en Excel,
ni tampoco existe un procedimiento de herramientas de anlisis que incorpore los momentos de
orden 3 y 4 centrados en la media. Por lo tanto, tendremos que resolver el problema partiendo de
las propias definiciones de los momentos (Figura 2-13):
m 3=

1
N

( x j x ) 3

m 4=

i=1

Figura 2-13

Jos Antonio Rivera ColmeneroPgina 69

1
( x x )4
N i =1 j

ESTADSTICA DESCRIPTIVA
Ejercicio 2. Los valores sobre el metabolismo basal1 de 50 individuos de una poblacin que se
supone normal son los siguientes:
102
115
116
112
120

98
130
118
114
106

93
100
89
106
110

100
86
102
114
100

98
95
128
100
106

105
103
99
116
117

115
105
119
108
109

110
92
128
113
108

99
99
110
106
105

120
134
130
105
106

a) Hallar un intervalo de confianza para la media poblacional basado en la muestra de los 50


individuos al 95% de coeficiente de confianza. Hallarlo tambin al 90%.
b) Cul es el metabolismo basal ms frecuente?
c) Hallar el valor del metabolismo basal tal que la mitad de los restantes valores sean inferiores
a l.
d) Representar el histograma de frecuencias y el polgono de frecuencias acumulado para la
distribucin de la variable metabolismo basal y comprobar si la poblacin puede
considerarse efectivamente normal y simtrica.
Solucin:
Comenzamos introduciendo los datos del metabolismo basal en la hoja de clculo como una
columna de nombre BASAL. Para calcular los intervalos de confianza es necesario utilizar las
herramientas de anlisis estadstico avanzado, seleccionando la opcin Anlisis de datos en el
men Datos y eligiendo la opcin Estadstica descriptiva en el cuadro Funciones para anlisis de
la Figura 2-14.

Figura 2-14
Al hacer clic en Aceptar, se obtiene la pantalla Estadstica descriptiva, cuyos campos se rellenan
como se indica en la Figura 2-15.
1 El metabolismo basal es el valor mnimo de energa necesaria para que la clula subsista. Esta energa
mnima es utilizada por la clula en las reacciones qumicas intracelulares necesarias para la realizacin de
funciones metablicas esenciales, como es el caso de la respiracin.
Jos Antonio Rivera ColmeneroPgina 70

ESTADSTICA DESCRIPTIVA

Figura 2-15
Al hacer dic en Aceptar se obtiene la Figura 2-16, que presenta varios de los estadsticos pedidos
en el problema, incluyendo el radio del intervalo de confianza para la media al 95% suponiendo
poblacin normal de varianza desconocida.

Figura 2-16
Como la media es 108.38 y el radio es 3.0721, el intervalo de confianza al 95% ser 108.38
3.0721=[105.308 , 111.452].
Jos Antonio Rivera ColmeneroPgina 71

ESTADSTICA DESCRIPTIVA
Para calcular el intervalo de confianza para al media al 90%, seleccionamos otra vez la opcin
Anlisis de datos en el men Datos, elegimos la opcin Estadstica descriptiva en el cuadro
Funciones para anlisis de la Figura 2-14, y rellenamos la pantalla Estadstica descriptiva como
se indica en la Figura 2-17.

Figura 2-17
Al pulsar Aceptar se obtiene el resultado de la Figura 2-18.

Figura 2-18
Jos Antonio Rivera ColmeneroPgina 72

ESTADSTICA DESCRIPTIVA
El nuevo intervalo de confianza ser 108.38 2.563 = [105.817 , 110.943].
Para ver si la poblacin es efectivamente normal, observamos que los coeficientes de asimetra
(0.388) y curtosis (0.0445) caen dentro del intervalo [2, 2], en cuyo caso habr normalidad.
Para hallar el metabolismo basal ms frecuente, calculamos la moda de la variable BASAL, que
ya hemos visto que es 106. Para hallar el valor del metabolismo basal tal que la mitad de los
restantes valores sean inferior a l, calculamos la mediana de la variable BASAL, que ya hemos
visto que tambin es 106.
Para realizar el histograma de Frecuencias absolutas y el polgono de frecuencias relativas
acumuladas, es necesario utilizar las herramientas de anlisis estadstico avanzado, seleccionando
la opcin Anlisis de datos en el men Datos, y eligiendo la opcin Histograma en el cuadro
Funciones para anlisis de la Figura 2-19.

Figura 2-19
Se rellena la pantalla Histograma como se indica en la Figura 2-20, y al pulsar Aceptar.

Figura 2-20
Jos Antonio Rivera ColmeneroPgina 73

ESTADSTICA DESCRIPTIVA
Se obtiene el histograma pedido y las distribuciones de frecuencias absolutas y relativas
acumuladas (Figura 2-21).

Figura 2-21
Ejercicio 3. Supongamos que una poblacin finita de 50 unidades, respecto de una caracterstica
W , presenta la siguiente distribucin de frecuencias:
Wi

ni

10

20

10

20

50

100

200

a) Si se estratifica la poblacin en tres estratos, construidos con los criterios:


W <10, 10 W <100 y 100 W ,
calcular las sumas, medias, varianzas, desviaciones tpicas y co~flCientes de asimetra para
cada estrato.
b) Realizar tablas e histogramas de frecuencias para los tres estratos.
Jos Antonio Rivera ColmeneroPgina 74

ESTADSTICA DESCRIPTIVA

Solucin:
Se trata de un problema de clculo de estadsticos por subconjuntos de datos definidos en una
poblacin. Comenzaremos introduciendo en la hoja de clculo los datos de la variable W y los
de una variable auxiliar
La variable
W

W1

W1

, que se utiliza para dividir la poblacin en estratos (subconjuntos).

valdr 1 para los valores de

en el primer estrato, 2 para los valores de

en el segundo estrato, y 3 para los valores de W

en el tercer estrato.

Como se trata de calcular estadsticos por subconjuntos, en el men Insertar se hace dic en
Tablas dinmica (Figura

Figura 2-21
En la ventana Crear tabla dinmica se selecciona el rango y la celda a partir de la cual de desea
colocar el informe de tabla dinmica(Figura 2-22).

Jos Antonio Rivera ColmeneroPgina 75

ESTADSTICA DESCRIPTIVA

Figura 2-22
Al dar clic en Aceptar, aparece la siguiente pantalla (Figura 2-23):

Figura 2-23
Para disear el informe, se arrastran los campos cuyos valores van a situarse en filas en la tabla,
desde la derecha de la figura a la zona FILAS (en nuestro caso W). Tambin se arrastran los
campos cuyos valores van a situarse en columnas a la zona COLUMNA (en nuestro caso la
variable de estratificacin W1). Por ltimo, se arrastra el campo por cuyos valores se tabula (en
nuestro caso Cantidad (Figura 2-24).

Jos Antonio Rivera ColmeneroPgina 76

ESTADSTICA DESCRIPTIVA
Figura 2-24
Para construir el Histograma de frecuencias se da un clic sobre el informe de la Tabla dinmica,
se selecciona el men INSERTAR/Grficos recomendados (Figura 2-25).

Se da clic en
cualquier parte
del informe

Figura 2-25
Y se selecciona el siguiente grfico (Figura 2-26):

Jos Antonio Rivera ColmeneroPgina 77

ESTADSTICA DESCRIPTIVA

Figura 2-26
Damos clic en Aceptar y se tiene finalmente el Histograma (Figura 2-27).

Figura 2-27
Jos Antonio Rivera ColmeneroPgina 78

ESTADSTICA DESCRIPTIVA

Jos Antonio Rivera ColmeneroPgina 79