ESTADÍSTICA DESCRIPTIVA

Tema 1
Estadística descriptiva:
Distribución de frecuencias,
histogramas y gráficos

1.1 DISTRIBUCIONES DE FRECUENCIAS E
HISTOGRAMAS
Cuando se analiza una característica medida por una variable aleatoria cualquiera resultado de un
determinado proceso (de producción, de medida, económico, financiero, sociológico, médico,
biológico, demográfico, etc.), los datos que obtenemos siempre están dispersos, y nunca tienen
un único valor constante. Surge entonces el problema de detectar el patrón en la variabilidad de
los datos. Para ayudar en esta tarea existen herramientas estadísticas básicas, como las
distribuciones de frecuencias y los histogramas, así como técnicas sencillas de análisis
exploratorio de datos.
Cuando los datos están dispersos, la dispersión sigue un cierto patrón. Inicialmente los datos no
nos dicen nada por sí mismos, pero si los dividimos en clases o celdas ordenadamente, puede
aclararse la forma de su dispersión; es decir, puede aclararse la forma como están distribuidos.
Esta forma de la distribución de los datos inherente a su variabilidad se denomina distribución
de frecuencias.
Normalmente es posible ver la forma general de una distribución si se recogen cien o más valores
y se prepara convenientemente una tabla de frecuencias con diez o veinte clases. Pero la
distribución se puede ver aún con mayor claridad en forma de representación gráfica mediante un
histograma de frecuencias. El histograma es una representación visual de los datos en la que
pueden observarse más fácilmente tres propiedades esenciales de una distribución, como son:
forma, tendencia central o acumulación y, dispersión o variabilidad. De esta manera, el
histograma da una idea del proceso, lo que un simple examen de los datos tabulados no hace.
Hay muchos métodos para construir histogramas. Cuando los datos son numerosos, es muy útil
reunirlos en clases, y se recomienda utilizar entre 4 y 20 clases (o celdas). A menudo conviene
elegir un número total de clases igual aproximadamente a la raíz cuadrada del tamaño de la
muestra. Las clases deben tener amplitud uniforme, y se construye la primera de ellas
comenzando con un límite inferior sólo un poco menor que el valor más pequeño de los datos. Se
construye la última clase finalizando con un límite superior sólo un poco mayor que el valor más
grande de los datos. Para realizar el histograma se marcan las clases sobre el eje de abscisas, y
José Antonio Rivera ColmeneroPágina 1

ESTADÍSTICA DESCRIPTIVA
sobre cada clase se levanta un rectángulo de altura proporcional al número de observaciones de la
variable (frecuencia absoluta) que caen en la clase.
El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado
una pérdida de algo de detalle. Así, cuando el número de observaciones es relativamente
pequeño, o cuando las observaciones sólo toman pocos valores, puede construirse el histograma a
partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a los diagramas de
barras.
Las distribuciones de frecuencias son la herramienta más sencilla y más utilizada y eficaz cuando
estamos rodeados de montones de datos que no nos dicen nada si no hacemos más que
enumerarlos. Al expresar estos datos en forma de una distribución de frecuencias, ya nos
proporcionan diversas ideas. Puesto que las distribuciones de frecuencias se utilizan muy a
menudo en el control de calidad, es necesario conocer la finalidad de las mismas y su
interpretación y uso.

Finalidad de las distribuciones de frecuencias
El fin principal de la preparación de una distribución de frecuencias es, usualmente, uno de los
siguientes:



Dejar bien visible la distribución de la variable estudiada e identificar su forma.
Las distribuciones de frecuencias se utilizan frecuentemente para analizar, controlar y
mostrar las capacidades de los procesos de los que derivan sus datos, tanto cualitativa como
cuantitativamente.
Ayudar a determinar el promedio, la desviación estándar, los coeficientes de asimetría y
curtosis, así como otras medidas características de una distribución.
Probar a qué tipo de distribución matemática se puede acoplar estadísticamente la
distribución empírica de los datos relativos a la variable estudiada, obtenida como salida del
proceso.

Interpretación de las distribuciones de frecuencias
Las distribuciones de frecuencias facilitan que todo el mundo vea y comprenda intuitivamente la
forma de una distribución y el estado de un proceso. Sin embargo, hay que prestar atención a la
interpretación de las distribuciones. Cuando se miran las distribuciones de frecuencias, se tiene
que prestar atención a los puntos siguientes:




¿Está el promedio de la distribución en una posición adecuada?
¿Cómo es la dispersión de la distribución respecto al promedio?
¿Cuál es la relación entre valores tales como la desviación estándar, el valor medio, el rango,
etc.?
¿Hay algunos huecos, (como dientes que faltan), o subidas o bajadas repentinas (como las
púas de un peine), en la distribución?
¿Hay algunos puntos aislados fuera del cuerpo principal de la distribución?

José Antonio Rivera ColmeneroPágina 2

ESTADÍSTICA DESCRIPTIVA




¿Son aceptables los valores máximo y mínimo de la distribución?
¿Es asimétrica la distribución (con un extremo mucho más largo que el otro), o bien es
simétrica?
¿Tiene aspecto de acantilado la parte izquierda o la derecha de la distribución?
¿Tiene más de un pico la distribución?
¿Es demasiado agudo o demasiado chato el pico de la distribución?

Formalización de las distribuciones de frecuencias
Dada la importancia de las distribuciones de frecuencias, derivada de que en todo proceso hay un
momento en el que nos encontramos con un conjunto de datos sobre las variables a tratar, es de
gran importancia formalizar el proceso de recogida, ordenación y presentación de los datos que,
en la mayoría de las ocasiones, aparecerán dispuestos en tablas de frecuencias de simple o doble
entrada, que servirán para analizar las distribuciones de las variables. Dada una variable X
x1 , x2 , … , xN

con valores

, aparecen una serie de conceptos generales que se mencionan a

continuación.

Frecuencia absoluta

(ni ) : Se denomina ftecuencia absoluta del valor

xi

de la variable

xi

de la variable

X , el número de veces ni que se repite ese valor.

Frecuencia relativa
X

(f i) :: Se denomina frecuencia relativa del valor

la relación por cociente entre el número de veces que aparece el valor

xi

y el

f =n / N .
número total de valores de la variable ( N ) . O sea, i i

Frecuencia absoluta acumulada
valor

xi

a la suma de las frecuencias absolutas de los valores de la variable

anteriores o iguales a

( N i) : Se denomina frecuencia absoluta acumulada del

xi

. Su valor es

Frecuencia relativa acumulada

X

N i=∑ ni con i=1, … , N .

( F i) : Es la frecuencia absoluta acumulada dividida por el

número total de valores de la variable. Su valor es

Fi =N i / N

.

De todas estas definiciones, se extraen inmediatamente las siguientes deducciones:

La suma de las frecuencias absolutas sin acumular es igual a( número total de elementos
( ∑ f i=1 ) .

La última frecuencia relativa acumulada coincide con el total de elementos (N ) .

José Antonio Rivera ColmeneroPágina 3

y. de una parte de dicha información. el X punto medio del mismo). Li−1 ] debido al elevado número de observaciones. se obtendrá mediante X i= ( Li−1 + Li ) /2 .ESTADÍSTICA DESCRIPTIVA  La suma de todas las frecuencias relativas sin acumular es igual a 1  La última frecuencia relativa acumulada es la unidad. L1 ] x1 n1 f 1 =n1 / N N 1=n1 F1=N 1 /N [ L1 . La distribución de frecuencias de una variable suele presentarse ordenadamente mediante la tabla de frecuencias siguiente: Frecuencia absoluta acumulada Ni Frecuencia relativa acumulada Fi Interval o Ii Marca de clase Xi Frecuencia absoluta ni Frecuencia relativa fi [ L0 . presenta en cambio un importante inconveniente. o por considerar como representativo de todos los puntos del intervalo un único valor (por ejemplo. las frecuencias correspondientes a cada intervalo se obtienen sumando las de los respectivos valores de la variable que contiene. Para que una distribución de frecuencias quede determinada. L 3 ] x3 n3 f 3 =n3 / N N 3=n 1+ n1+ n3 F3 =N 3 /N ⋮ ⋮ ⋮ ⋮ José Antonio Rivera ColmeneroPágina 4 ⋮ ⋮ . en mayor o menor medida. que denominaremos marca de clase ( i ) y que. ya que el paso de uno a otro es inmediato. Aunque la agrupación de valores tiene la ventaja de simplificar el manejo de la información. por tanto. Cuando se trabaja con distribuciones agrupadas por intervalos o clases. Al conjunto de valores que ha tomado una variable (junto con sus frecuencias). consistente en la pérdida. según la forma en que se presenten los valores de la variable será posible distinguir dos tipos de distribuciones de frecuencias:   Las que no están agrupadas en intervalos y surgen cuando la información se dispone asociando a cada valor o categoría de la variable su respectiva frecuencia. ( ∑ f i=1 ) . es necesario que las frecuencias observadas se asignen de alguna forma a los puntos del intervalo. Aquéllas cuyos valores observados generalmente aparecen agrupados en intervalos o clases [ Li . se le denomina distribución de frecuencias de la característica o variable. Además. en consecuencia. es necesario conocer todos los valores de la variable y uno cualquiera de los conceptos de frecuencia que acabamos de definir. Se podrá optar por suponer que los valores del intervalo se distribuyen uniformemente a lo largo de él. L 2 ] x2 n2 f 2=n2 / N N 2=n 1+n 1 F2 =N 2 /N [ L2 .

se determina la duración de cada una.4 43. Lk ] xk nk f k =n k /N En cuanto al número de intervalos k N k =n1+⋯+ nk =N F k =N k / N=1 a considerar..3 José Antonio Rivera ColmeneroPágina 5 . los datos están presentados en la forma en que se colectaron.2 39.2 45.6 40.9 44. que difiere en el cálculo: k =1+ 3.2 44.6 47. Tabla 2 40. puede tenerse en cuenta la fórmula de Sturges: 3 log ( N ) k= + 2 log ( 2 ) En algunos libros aparece otra fórmula de Sturges.2 48. Suponga que se desean estudiar las características de la duración x de las llantas tipo A que fabrica una empresa.9 41. pero aun así no destaca la información que contienen.4 41.5 46.7 43.1 47.3 46.5 45.3 43.0 47.6 42.0 Duraciones de 60 llantas en miles de kms.0 47.3 42.3 log (N ) O también tomar: k =√ N TEORÍA CON EJEMPLOS RESUELTOS Ejemplo 1.9 47.8 44.7 43. 50.9 45.7 49. bajo condiciones homogéneas de experimentación.8 46.0 52.1 42.8 37.7 48.8 47.9 40.ESTADÍSTICA DESCRIPTIVA [ Lk−1 . En la Tabla 2 se consignan las duraciones de las 60 llantas nuevas en miles de kms.5 43.7 48.1 44.7 46. Para ello se extrae una muestra de 60 llantas nuevas y.4 39.2 45.

ESTADÍSTICA DESCRIPTIVA 42.8 45.1 41.8 2.1 50.1.7 42. Es también importante notar que la figura empieza a crecer hacia la derecha llegando a un máximo entre los 43 y 45 mil kilómetros. es claro que la mayor concentración de las observaciones se encuentra entre los 42 y 48 mil kilómetros.8 51.9 46. De esta figura es inmediato que el 50% de las llantas tienen una duración menor a 44 mil kilómetros. Este da de un vistazo un cuadro bastante efectivo de los datos.1 42.9 43.1 Histograma y polígono de frecuencias relativas acumuladas En la Figura 2.3 44.5 48.4 43.5 43. por ejemplo.7 44.2 se tiene el llamado polígono de frecuencias relativas acumuladas que se construye con las columnas (4) y (8) de la Tabla 2.6 46. después del cual empieza a decrecer.1 se tiene la representación gráfica de las frecuencias que recibe el nombre de histograma. esto hace que la figura tenga una forma acampanada. José Antonio Rivera ColmeneroPágina 6 .6 49.2 40.6 41.9 46. En la Figura 2.1 46.

Inversamente. así el fractil 50% se le llama mediana porque la mitad de las observaciones son mayores que dicho valor y el resto son menores que él.1  Histograma 2.ESTADÍSTICA DESCRIPTIVA Histograma 14 12 10 8 Frecuencias 6 4 2 0 12 9 11 8 5 3 6 2 1 3 38 39. José Antonio Rivera ColmeneroPágina 7 ..2 Fractiles En el polígono de frecuencias se puede observar que a una abscisa dada le corresponde una ordenada que representa a la fracción del número total de observaciones que es menor o igual que el valor dado de la abscisa.. A los fractiles 25% y 75% se les llama cuartiles.. "inferior" al primero y "superior" al segundo y q1 y q3 se les representa con las letras . 20. . los fractiles de 15% .5 41 42. 2. 50% y 95% están dados respectivamente por 41.5 44 45. Observe que para la población deberá tenerse: q1 ∞ ∫ f (x )dx=∫ f ( x ) dx=0. respectivamente.5 Marcas de clase Figura 2. Por ejemplo... Fractiles Algunos de los fractiles reciben nombres especiales. a cada ordenada le corresponde una abscisa que da el límite abajo del cual se tiene a la fracción de observaciones indicada por la ordenada. 44 y 50 mil kilómetros.5 50 51.. .25 −∞ q2 Finalmente a los fractiles 10. 90% se les denomina deciles y a los fractiles 1.5 47 48. 99% se les llama percentiles. A la abscisa se le llama el fractil correspondiente a la fracción dada.

sus frecuencias relativas estarán dada respectivamente por: José Antonio Rivera ColmeneroPágina 8 . xn más general en el que los n valores observados: son diferentes entre sí.1 Momentos con respecto al origen Si al estudiar una distribución empírica de la v.ESTADÍSTICA DESCRIPTIVA Figura 2.2  Polígono de frecuencias relativas acumuladas Hasta ahora se ha tratado de presentar los datos en una forma gráfica útil. (variable aleatoria) X se considera el caso x1 . … . 2. es necesario reemplazar la colección de datos por algunos números o medidas que den la mayor parte la información esencial contenida en las observaciones.2 Medidas de tendencia central 2.2. esto se logra mediante el estudio de los llamados parámetros descriptivos de la distribución empírica que se presentan enseguida.a. pero esto no es suficiente. x2 .

x2. … . … . con: f 1 + f 2 +…+ f m=n entonces el momento de orden k con respecto al origen estará dado por: m m1k =∑ x kj f ¿j= j=1 Suponga ahora que los fj x1 . … . el momento de orden k con respecto al origen de la correspondiente distribución empírica será: m m k =∑ t j f j (3) 1 k j=1 2. fm son iguales a 1 n n 1 ∑ x k (1) n i=1 i valores observados: xm f1 son iguales a x1 .ESTADÍSTICA DESCRIPTIVA f 1¿ =f ¿2 =…=f ¿n= Y al aplicar la definición de momento de orden k n n i=1 i=1 con respecto al origen resulta: m1k =∑ x ki p i=∑ x ki f i= n Si en particular se tiene que de los iguales a x2 .2. xn n valores observados: de clase de igual longitud Sea m 1 ∑ x k f (2) n j=1 j j ∆t y que sus marcas de clase sean están agrupados en m intervalos ti . f2 son . tm . que se define como el primer momento con respecto al origen y se representa con el símbolo ´x . x2. De esta manera la media ´x del conjunto de valores observados: x1 . consecuentemente. En este caso se supone que todos los valores que caen en un intervalo de clase coinciden con la marca de clase de dicho intervalo y. respectivamente. xn José Antonio Rivera ColmeneroPágina 9 está dada por: .2 La media ( ´x ) La más común y útil medida de tendencia central es la media. en número de observaciones que caen en el intervalo cuya marca de clase es tj . t2 .

Figura 2. En el Ejemplo 2 de la duración de las llantas se tiene para datos agrupados y considerando la Tabla 2.50 n j=1 j j 60 y este valor está bastante próximo al centro que intuitivamente se señalaría para la distribución de los datos.ESTADÍSTICA DESCRIPTIVA n 1 ´x =m = ∑ x i (3) n j=1 1 1 Y si los datos están agrupados resulta: m ´x = 1 ∑ t f (4) n j=1 j j Si los datos al representarse en un histograma muestran una figura que empieza a crecer hacia la derecha hasta alcanzar un máximo para después decrecer suavemente.975 ∑ t f = 2. Muchas curvas de probabilidad tienen máximo único cerca de la mitad. bimodal y multimodal Suponga que los datos están agrupados y que el rectángulo central del histograma es el asociado con la frecuencia máxima (frecuencia modal). la media es un valor típico en el sentido que identifica al punto donde las observaciones se concentran más. Se supone también que los intervalos de clase son de igual tamaño. la es máxima.3 La moda ( x ) La moda es el valor de frecuencia relativa x para el cual la probabilidad f ¿ ( x) p ( x ) .698. ~ 2. o en la distribución empírica. José Antonio Rivera ColmeneroPágina 10 .2.1 que la media es: m ´x = 1 =44. esto se muestra en la Figura 2. otras presentan dos máximos o más. Unimodal.3. éstas se llaman bimodales o multimodales.3. según sea el caso.

4. De los triángulos semejantes PQR y PST se obtiene: EP PF = RQ ST o bien. Sean x=L1 y x=L2 los límites de clase del intervalo modal y ∆1 y ∆2 las diferencias de la frecuencia modal y las frecuencias asociadas respectivamente al intervalo inmediato anterior e inmediato siguiente al modal.ESTADÍSTICA DESCRIPTIVA Se definirá la moda como la abscisa ~ x del punto de intersección P de las rectas QS y RT que se muestran en la Figura 2.4. Figura 2. Rectángulo central de la moda. ~ x−L1 L2−~ x = ∆1 ∆2 ~ Y despejando a x : ∆ 2(~ x−L1 )=∆1 ( L2−~ x) ~ x ∆2−∆2 L1=∆1 L2−~ x ∆1 José Antonio Rivera ColmeneroPágina 11 .

es: ( ~ x=L1 + ∆1 3 C=43.25 118 = 3 116 =5 1. la moda.ESTADÍSTICA DESCRIPTIVA ~ x ∆1 + ~ x ∆2=∆1 L2 +∆ 2 L1 ~ x ( ∆1 +∆ 2 )=∆1 L2 +∆ 2 L1 ∆ L +∆ L ~ x= 1 2 2 1 ∆1+∆2 Pero.5 )=43.75).5 Usando la Ecuación (5). Este valor puede considerarse aproximadamente como el valor de la moda Para el intervalo modal que tiene los extremos (46. L2=L1+ C . esto nos lleva a: ∆1 ( L1 +C ) + L1 ∆ 2 ∆1 +∆ 2 = L1 ∆1+ ∆1 C+ L1 ∆2 L1 ( ∆1+ ∆2 ) + ∆1 C = ∆ 1+ ∆ 2 ∆ 1+ ∆2 o bien. ( ~ x=L1 + ∆1 C(5) ∆ 1+ ∆ 2 ) En el ejemplo de la duración de las llantas.5 José Antonio Rivera ColmeneroPágina 12 .75). Para el intervalo modal que tiene los extremos (43. en donde C ~ x= es el tamaño del intervalo de clase modal. se obtiene: L1 ∆1 ∆2 C 43.25+ ( 1.9 ∆ 1+ ∆ 2 3+4 ) ( ) Observe que la frecuencia máxima 12 corresponde al intervalo cuya marca de clase es 44. se obtiene: L1 ∆1 ∆2 C 46.25 129 = 3 128 =4 1.2547. se tienen dos intervalos modales.2544.

es: ( ~ x=L1 + ∆1 3 C=46. 2. Se supondrá que los intervalos de clase son de igual magnitud. Si el número de observaciones es para. la mediana x es la abscisa correspondiente a la recta LM que divide el histograma en dos partes de igual área.25+ ( 1. como se muestra en la Figura 2. La mediana de un conjunto de observaciones se define como el valor tal que la mitad del número total de observaciones son mayores o iguales que ella y la otra mitad son menores o iguales que ella.ESTADÍSTICA DESCRIPTIVA Usando la Ecuación (5). esto es. Si los datos no están agrupados bastará ponerlos en orden creciente y el que ocupe el lugar central será la mediana. Figura 2. Si los valores observados están agrupados. Luego el área AMLD corresponderá una frecuencia dada por: José Antonio Rivera ColmeneroPágina 13 . la mediana será el promedio de los dos valores centrales.4 La mediana ( x ) La mediana +∞ x es el valor ( X =x ) que divide la suma integral de probabilidades de −∞ a en dos partes iguales. la moda.5.2.5 )=46.5. Este valor puede considerarse aproximadamente como el valor de la moda.8 ∆ 1+ ∆ 2 3+5 ) ( ) Observe que la frecuencia máxima 11 corresponde al intervalo cuya marca de clase es 47. iguales a n/2 . Determinación de la mediana De esta manera las áreas bajo histograma corresponden a frecuencias y LM es tal que las áreas que se encuentran a su derecha y a su izquierda son iguales a la mitad de la frecuencia total.

la media. éstas pueden diferir según que los valores de X están dispersos o concentrados a cada lado de la media. la moda y la mediana difieren menos. Entre más perfecta es la forma acampanada del histograma. Al estudiar distribuciones con misma media. De esta manera se tendrá: | AM|= en donde f n/2−( ∑ f ) 1 |AB| f es la frecuencia asociada al intervalo que contiene a la mediana y AB=C es su longitud.ESTADÍSTICA DESCRIPTIVA n área AMLD = −( ∑ f )1 2 en donde ( ∑ f )1 es la suma de las frecuencias de todos aquellos intervalos de clase menores que aquél que contiene a la mediana.3 Medidas de dispersión José Antonio Rivera ColmeneroPágina 14 . En el ejemplo de la duración de las llantas la mediana cae en el intervalo de extremos (44. Para analizar esta característica numéricamente se estudiarán algunas medidas de dispersión y concentración.5 x=L1+ n /2−( ∑ f )1 30−30 ( 1.75 C=44.75 60/2 = 30 1+3+5+9+12 =30 8 1.25) y se obtiene: L1 n/2 ( ∑ f )1 f C 44.50 )=44. 46. 2.75+ f 8 ( ) Este valor de la mediana está muy cercano a los valores que se obtuvieron para la media y la moda.75. Consecuentemente la mediana estará dada por: x=L1+ en donde L1 n /2−( ∑ f )1 C (6) f es el límite inferior del intervalo de clase que contiene a la mediana.

En este caso se supone que todos los valores que caen en un intervalo de clase coinciden con la marca de clase de dicho k respecto a la media de la intervalo y. De esta manera la 2 variancia s x del conjunto de valores x1 .2. se llama momento de orden k con a la expresión: n mk = Suponga que los valores observados: clase de igual longitud ∆t 1 ∑ ( x −´x ) k (7) n i=1 i x1 .ESTADÍSTICA DESCRIPTIVA 2.1 Momentos con respecto a la media Una discusión enteramente similar a la del inciso 2. xn están agrupados en t1 . x2 . permite establecer las siguientes definiciones. … .2 La variancia y la desviación estándar La más común y útil medida de dispersión es la varianza que se define como el momento de 2 segundo orden con respecto a la media y se representa con el símbolo s x . xn José Antonio Rivera ColmeneroPágina 15 está dada por: . el momento de orden correspondiente distribución empírica será: m mk = 1 ∑ ( t −´x )k f j (8) n j=1 j Por otra parte. consecuentemente. Dado el conjunto de observaciones: x1 . … . Sea fj la . tm y que sus marcas de clase sean: frecuencia correspondiente al intervalo cuya marca de clase es tj m intervalos de . … . xn respecto a la media y se representa con mk . x2.3. se verifican las relaciones: m1=0 m 2=m 12−( m11 ) 2 3 m3=m13−3 m11 m12 +2 ( m11 ) 2 4 m 4=m14−4 m 11 m 13 +6 ( m11 ) m 12−3 ( m 11 ) 2. x2 . t2 .3. … .

12).3. José Antonio Rivera ColmeneroPágina 16 .3 El coeficiente de variación Es fácil observar que la desviación estándar por si sola puede conducir a conclusiones erróneas. 9. ( CV )x que se define como el cociente de la desviación estándar entre la media. Algunas veces el rango se expresa escribiendo simplemente los valores de las observaciones mínima y máxima respectivamente. Por ejemplo. Una medida de este efecto la da el coeficiente de variación. 7. es 12 −¿ 2 = 10. 10. el efecto de una variación o dispersión de 10 centímetros en la medida de una distancia de 300 metros es absolutamente diferente al efecto de la misma variación de 10 centímetros en una distancia de 6 metros.3.12 2. 2. el rango del conjunto de datos 2. esto es: ( CV )x = sx (12) x´ Observe que el coeficiente de variación es independiente de las unidades usadas lo cual puede ser de utilidad cuando se traten de comparar dos distribuciones cuyas unidades sean distintas. 3. Así. Una desventaja es que el coeficiente de variación es de poca utilidad como una medida de dispersión cuando ´x está muy próxima a cero.4 El rango Una medida simple de dispersión de los datos es la diferencia entre la máxima y la mínima observación que recibe el nombre de rango. 12.ESTADÍSTICA DESCRIPTIVA n 2 s x =m2 = 1 ∑ ( x −´x )2 (9) n i=1 i Y si los valores están agrupados resulta. 8. por ejemplo. En el ejemplo anterior el rango se indicaría como 2 a 12 o (2.74=3. esto es: s x =√ m2 (11) En ele ejemplo de la duración de las llantas se obtiene: s x =√ m2= √9. s 2x = m 1 t j− x´ )2 f j (10) ∑ ( n j=1 A la raíz cuadrada de la variancia se le llama desviación estándar.

la tabla de frecuencias y el histograma correspondiente a la característica poseída se muestran en la Tabla 3 y en la Figura 6. Para el ejemplo de la duración de las llantas.4. Esta distinción conduce a la posibilidad de construir dos histogramas:  f Uno que proporcione el número de observaciones por clase ( j ) . respectivamente. de un conjunto de unidades de producción ordenadas de acuerdo con su precio. A la mediana de este último se le llama “el medial” y se representa con xl . Dichas observaciones pueden clasificarse de acuerdo con su número o conforme a la importancia de la característica considerada.  f t Otro que refleje la “importancia de la característica” poseída por clase ( j j ) .1 El medial xl Considere un conjunto de observaciones tales que cada una está afectada de una “característica” susceptible de sumarse.4 Medidas de concentración 2.ESTADÍSTICA DESCRIPTIVA 2. etc. Tal es el caso de un grupo de individuos clasificados según su salario. José Antonio Rivera ColmeneroPágina 17 .

349.00 291.50 Marcas de clase tj Figura 6.276.00 154.00 205.5.00 517. Para calcular la mediana del nuevo histograma deben considerarse las columnas asociadas con la característica estudiada.00 100.00 364. Histograma que refleja la “importancia de la característica” poseída por la clase.50 f j t j=364.00 528.00 118.00 38. que resulta ser el sexto intervalo.50 400.698.00 382. La mediana debe encontrarse en el primer intervalo para el cual la característica relativa acumulada es mayor que 0.50+205.00 0.5 = =1.50 100.25 2 2 ( Σ f j t j )1=38.50+528.00 300. esto es las tres últimas de la Tabla 3.00 Característica fjtj 200. x l=L1+ ( ) n/2−( ∑ f j t j )1 C(13) f jt j Para aplicar la Ecuación (13) debe considerarse: n 2.00+ 118.00 José Antonio Rivera ColmeneroPágina 18 .00=1.ESTADÍSTICA DESCRIPTIVA Histograma de la importancia de la característica 600.00 500.50+382.

5=45. De esta manera se obtiene una curva llamada de concentración o de Lorenz.25−1.5 Y por tanto el medial está dado por: x l=44. Por ejemplo.349. es un valor x tal que el número de observaciones mayor que x es igual al número de observaciones menores que x .4. y como ordenadas a las frecuencias relativas acumuladas de la característica poseída por la clase. la mediana es una medida de tendencia central. en una distribución de salarios.2 Curva de Lorenz. El medial es una mediana particular calculada sobre una “característica totalizable”. José Antonio Rivera ColmeneroPágina 19 .00 ) 1.75+ ( 1.75 Como se sabe. el salario medial será el de aquél individuo que divide al conjunto de individuos. Otra manera de hacerlo es construyendo una curva tomando para cada clase las frecuencias relativas acumuladas de las observaciones como abscisas. clasificados según sus salarios. x y los de la medial 2. como se muestra en la Figura 7. Observe que si los salarios estuviesen altamente concentrados. índice de concentración La concentración puede enjuiciarse a través de la desviación existente entre el medial y la mediana.272.07 364 Mientras que para la mediana se había obtenido x=44. ello se reflejaría en una xl fuerte diferencia entre los valores de la mediana. en dos grupos tales que en cada uno de ellos el total de los salarios percibidos es el mismo y por tanto es igual a la mitad del total general.ESTADÍSTICA DESCRIPTIVA L1=44.75 C=1.

200 0.ESTADÍSTICA DESCRIPTIVA Curva de Lorenz.400 0. Si la .800 1.5 Medidas de asimetría Cuando la media se toma como origen ( ´x =0 ) puede ocurrir que f ( x )=f (−x) . La falta de simetría se reconoce numéricamente de varias maneras.000 0.600 0.800 0.000 0. .200 0. una medida natural de la asimetría es el momento distribución es simétrica se tendrá las x sx m3=0 respecto a la media. Si la rama larga de la distribución está en el lado de positivas.000 0. de esta manera m3 m3 José Antonio Rivera ColmeneroPágina 20 ( x i−´x ) sobrepasarán a los cubos de los será positiva y se tendrá asimetría positiva. [ ( q3 −q2 ) −( q 2−q 1) ] = q 3−2 q 2+ q1 (14) sx en donde la división entre sx da por resultado un parámetro adimensional. índice de concentración 1. Sin embargo. los cubos de los valores positivos valores negativos.000 fj % Figura 7. es decir. indica ausencia de concentración 2.400 0. Curva de Lorenz. En una distribución asimétrica la diferencia entre estas cantidades da el siguiente coeficiente de asimetría.600 fjtj % 0. que la distribución sea simétrica. En una distribución simétrica la distancia de los cuartiles q1 y q3 a la mediana q2 serán iguales.

la ordenada mínima se encuentra en la región media. entonces m3 será negativo y se tendrá asimetría negativa. llamado la curva en forma de U. Simetría y asimetría de una distribución empírica. esto se observa en la Figura 8. A una curva de tal tipo.ESTADÍSTICA DESCRIPTIVA Análogamente si la rama larga de la distribución está en el lado de los valores negativos. Casos extremos de asimetría José Antonio Rivera ColmeneroPágina 21 . En algunos casos la curva de probabilidad no desciende por un lado o por el otro. se le llama positiva en forma de J o negativa en forma de J. Asimismo. en un tipo raro de distribución. Figura 9. Figura 8. caso extremo de asimetría. según el caso. Figura 9.

pueden diferir en que la curva de una de ellas sea más aplanada en el centro que la otra. José Antonio Rivera ColmeneroPágina 22 . al cuadrado de esta relación se le representa generalmente con b1 . escogiendo de la escala en forma tal que la variancia fuera la unidad. se construye una medida absoluta de asimetría dividiendo m3 entre x3 3 s x . 2. entre m3/2 2 .6 Medidas de aplanamiento o exceso. es decir: b1= m23 ( 15) m32 Obsérvese que para la población se tendrá: β 1= μ 23 (16) μ 32 En ele ejemplo de la duración de las llantas se obtiene b1=0. la misma variancia. El grado de aplanamiento de una distribución se mide adecuadamente por medio del parámetro adimensional: b2= m4 m22 (17) Observe que para la población se tendrá: β 2= μ4 μ22 (18) Se ha notado en una amplia clase de curvas de probabilidad. la misma asimetría y. Esto es. que la ordenada correspondiente a la media o a el modo es s β2 mayor o menor según que x sea mayor o menor. el valor de sirve para indicar si la curva es alta y estrecha en el centro (leptocúrtica) o achatada (platicúrtica). o de m3 3 tiene la dimensión de s x . kurtosis Dos distribuciones pueden tener la misma media.012 lo cual muestra una asimetría positiva muy ligera. sin embargo.ESTADÍSTICA DESCRIPTIVA Con el fin de utilizar un parámetro adimensional y puesto que .

curvas para las cuales γ 2> 0 { b 2−3 ( muestra ) (19) ¿ β2 −3( población) son platicúrticas.7 Medidas de tendencia x1 . γ 2=0 . x2 . Esto se muestra en la Figura 10. y xj los valores observados de X al extraer una muestra las marcas de clase del histograma asociado a la distribución empírica obtenida de la muestra. Se demuestra que para esta distribución se tiene .ESTADÍSTICA DESCRIPTIVA Para clasificar el grado de aplanamiento de una distribución se le compara con la distribución β 2=3 normal estándar. xn Sean X una variable aleatoria: de la población correspondiente. Aplanamiento 2. o . Figura 10. Si se hace el cambio de variable bien. X =Y −b en donde b es una constante. todo ello tomando como referencia a la curva normal estándar que es mesocúrtica. … . aquellas para las cuales son leptocúrticas. se obtiene: n ´x = n n n 1 1 1 b f j x j= ∑ f j ( y j−b )= ∑ y j f j− ∑ f j ∑ n j=1 n j =1 n j =1 n j=1 José Antonio Rivera ColmeneroPágina 23 Y = X+ b . Es por esta razón que a la diferencia: γ 2= γ 2< 0 Se le llama exceso.

de acuerdo con las ecuación (8). resulta: ´x = ´y −b(20) Además. y el segundo sumando es igual a (b /n)( n)=b . puede escribirse: n n n k 1 1 1 mk ( X ) = ∑ ( x j −´x ) k f j = ∑ [ ( y j−b )−( ´y −b ) ] f j= ∑ ( y j −´y )k f j n j=1 n j=1 n j=1 ¿ Esto es: mk ( X ¿ ) =mk ( Y ¿ ) (21) Y de la ecuación (21) y de las relaciones. m mk = 1 k x j−´x ) f j ∑ ( n j=1 y (20).ESTADÍSTICA DESCRIPTIVA Pero como el primer sumando es la media de la distribución empírica asociada a la variable aleatoria Y . m1=0 1 1 2 m2=m2−( m1 ) 3 m 3=m 13−3 m 11 m12 +2 ( m 11 ) 1 1 1 1 2 1 1 4 m4=m4−4 m1 m3 +6 ( m1 ) m2−3 ( m1 ) resulta: m2 ( X ¿ )=m2 ( Y ¿ ) =m12 ( Y ¿ )−[ m 11 (Y ¿ ) ] 2 3 m3 ( X ¿ )=m3 ( Y ¿ )=m13 ( Y ¿ )−3 m11 ( Y ¿ ) m12 ( Y ¿ ) +2 [ m11 ( Y ¿ ) ] (22) 2 m4 ( X ¿ )=m4 ( Y ¿ ) =m14 ( Y ¿ ) −4 m11 ( Y ¿ ) m 13 ( Y ¿ ) +6 [ m11 ( Y ¿ ) ] m12 ( Y ¿ ) −3 [ m11 ( Y ¿ ) ] José Antonio Rivera ColmeneroPágina 24 4 .

737 m3 ( X ¿ )=m3 ( Y ¿ )=m13 ( Y ¿ )−3 m11 ( Y ¿ ) m12 ( Y ¿ ) +2 [ m11 ( Y ¿ ) ] 3 ¿ 1. resulta: m11= ´x = ´y −b=−0. 2 ¿ s x =m2 ( X )=9. con y los valores obtenidos en el último renglón de la Tabla 4.737 José Antonio Rivera ColmeneroPágina 25 .ESTADÍSTICA DESCRIPTIVA Las expresiones (20) y (22) facilitan el cálculo de los parámetros descriptivos de una distribución empírica.738 ) +2 (−0.025 ) ( 9.487 2 m4 ( X ¿ )=m4 ( Y ¿ ) =m14 ( Y ¿ ) −4 m11 ( Y ¿ ) m 13 ( Y ¿ ) +6 [ m11 ( Y ¿ ) ] m12 ( Y ¿ ) −3 [ m11 ( Y ¿ ) ] 4 ¿ 241.025 )2=2.025 )( 1.975. En la Tabla 4 se ilustra dicho cálculo para el ejemplo de las llantas.409 Y consecuentemente: ´x =m11=44. b=−45 Sustituyendo en (20) y (22) .1969−4 (−0.756 )+ 6 (−0.738 )−3 (−0.756−3 (−0.738−(−0.025 ) 4=241.025 )2=9.025+ 45=44.025 )2 ( 9. en ella se tiene y j =x j−45 ya que x=45 es bastante próxima a ´x .975 2 m2 ( X ¿ )=m2 ( Y ¿ ) =m12 ( Y ¿ )−[ m 11 (Y ¿ ) ] =9.

5 3.3 3.4 3.2 3. Problema 3.1 se muestra el número semanal de accidentes por cada mil automóviles que circularon en cierta carretera muy transitada.3 4.0067 m2 ( 9. Dibuje el histograma y el polígono de frecuencia correspondientes.0 2.8 2.2 Primera marca de clase = 1.7 3.0 2. calcule los parámetros descriptivos de la distribución empírica asociada a los accidentes de tránsito. Problema 2.1 3.8 2.5 3.5463 ( 9.1204 ( CV )x = x = =0.8 2.487 )2 b1= 3 = =0.2 3.5 2. Tabla 1.3 3. Una planta armadora se abastece de remaches que le surten diversos proveedores.1 3.3 4.975 m23 ( 2.6 3.6 4.5. Con relación al Problema 1.4 3.8 3.1 3.7 3.8 3.5 3.9 4.4 4.7 Ayuda: Número de accidentes por cada mil automóviles 3.2 3.7. número de intervalos de clase = 8. Construya una tabla que consigne las frecuencias de clase de los remaches defectuosos y dibuje el histograma correspondiente.1204 s 3.7 4.0 4.7 3. longitud del intervalo de clase = 0.0 3.9 2.7 3. José Antonio Rivera ColmeneroPágina 26 . Haga las observaciones que considere convenientes.737 )2 Problemas resueltos Problema 1.0 3.1 2.5 3.9 2.3 1.1.ESTADÍSTICA DESCRIPTIVA s x =√ m2 ( X ¿ )=3.2 3. Construya una tabla que muestre las frecuencias de clase de los accidentes y la importancia de esta característica.6 5.4 3.3 2.4 2.6 4.9 3. el registro del número de defectuosos por millar que ha detectado la planta se muestra en la Tabla 3.1 3.409 =2.737 )3 b2 = m4 2 2 m = 241. En la Tabla 1.5 3.069 x´ 44.3 3.3 3.

4 3.8 2.3 3.2 15.5 .3 17.6 3.1 16. se fijó de tal manera que la observación mínima cayera en José Antonio Rivera ColmeneroPágina 27 .9 9.5 4.5 17.1 10.3 16.2 19.9 7.1 10.6 15.1 16.3 7.2 11.4 10.465 m 3/seg.5 12.5 4.3 4.2 6.1 Número de remaches defectuosos por millar 0. Calcule los parámetros descriptivos de la correspondiente distribución empírica.8 12.2 11.8 1.9 4.6 13. Construya un histograma con intervalos de clase de amplitud 210 m3/seg.2 2.1 1.4 11.8 14.5 8.4 8.1 2.1 18.6 17.3 3.8 11. Tabla 4..5 13. Puesto que solo se tienen 52 observaciones que cubren un intervalo que va de 1.5 3.3 12.7 9.7.1 9. los escurrimientos máximos registrados en un río a lo largo de varios años.6 16.4 11.7 14.1 se muestran.7 17.1 15.1 9. En la Tabla 4.5 0.3 8.9 18.ESTADÍSTICA DESCRIPTIVA Tabla 3.6 13.6 18.7 11.6 12.4 15.3 posiblemente sean convenientes ocho clases de amplitud (5..6 3. en m3/seg.8 12.7 8.4 2.6 11.2 5.3 2.2 16.3 10.3−1.9 13. y cuya primera marca de clase sea 1.5 1.8 hasta 5.8 5.1 14.4 7.5 10.8 9.8)/8=0.7 10.7 Problema 4. La primera marca de clase que es de 1.7 11.1 2169 2469 3525 1912 2264 2617 2984 2243 4764 3121 1640 1798 1880 2835 3259 Escurrimientos máximos anuales en un río 2721 2160 2108 2713 2160 1452 1840 2579 2208 2526 2740 2836 3428 2696 2913 2244 2827 2626 1896 2535 1939 3258 3482 2768 2589 1990 2655 1883 2506 2143 3085 2414 1361 2543 1801 2229 2827 2508 2575 3515 2001 1952 2570 2759 2135 1936 3623 5530 1435 2352 2682 4731 2699 2034 3063 3239 2372 2299 2430 2018 2834 2433 2080 2797 2640 2325 2997 2273 2574 4040 2588 Soluciones Problema 1.

95).45 −¿ 1. Figura 1. José Antonio Rivera ColmeneroPágina 28 . respectivamente.ESTADÍSTICA DESCRIPTIVA la primera clase (1.2.1 es posible dibujar el histograma y el polígono de frecuencias que se muestran en las Figuras 1.1 y 1. Con base en los datos consignados en la Tabla 1. Con esta base se construyó la siguiente Tabla 1.1 Histograma.1 en donde se muestran simultáneamente las frecuencias de clase de los accidentes semanales y la importancia de esta característica.

Problema 2. en ella se tiene: ya que de la Tabla 2.1. dado que: José Antonio Rivera ColmeneroPágina 29 y j =x j−´x =x j−3. .1. Dicho cálculo se basa en la Tabla 2.383 n j=1 52 De lo calculado en la Tabla 2.2 Polígono de frecuencias de accidentes.ESTADÍSTICA DESCRIPTIVA Figura 1.1 se observa que: j=n 1 1 ´x = ∑ f j x j= ( 175.383 .90 ) =3.

4 .ESTADÍSTICA DESCRIPTIVA n ´y = 1 ∑ f y =0 .558: .95. y al aplicar la ecuación de la median resulta: x=L1+ n /2−( ∑ f )1 26−12 ( 0.95+ ( 0.681 y consecuentemente: a) Medidas de tendencia central Media: ´x =m11=3.1 se tiene que: ( ) L1=2.5 )=3. n=52 .383 Moda: De la columna de frecuencias relativas acumulados vemos que el valor cercano a la L1=2.95+ f 17 ( ) Se observa que la media.5 )=3. la moda y la mediana son prácticamente iguales esto significa que la distribución empírica puede considerarse simétrica. m4=0.95. y al aplicar la ecuación de la moda resulta: ( ~ x=L1 + ∆1 9 C=2.5. m3 =0. C=0.037 . ( Σ f )1=1+3+8=12. n i =1 j j se obtiene: m11=3. A este respecto se ha observado que para distribuciones empíricas ligeramente asimétricas se tiene: 1 ´x −x= ( x−~ x ) (23) 3 Para este ejemplo. ∆1=17−8=9. ∆2 =17−14=3.452 . f =17. se puede determinar la . m2=0.5 moda es 0. conocidas la media mediana ( x ) : José Antonio Rivera ColmeneroPágina 30 ( ´x ) y la moda ( ~x ) .325 ∆ 1+ ∆ 2 9+ 3 ) Mediana: De la Tabla 2.362 C=2. C=0.

452 )2 γ 2=b 2−3=3. γ2 γ 2=0 .333 ( 0.383− ( 3.015 m32 ( 0.333−3=0.383=0.363 3 3 Que coincide sensiblemente con el valor ya calculado. José Antonio Rivera ColmeneroPágina 31 .452 )3 Lo que indica una asimetría positiva muy ligera. b) Medidas de dispersión Variancia: 2 s x =m2 =0. aquellas para las son leptocúrticas.325 )=3.672/3. prácticamente mesocúrtica.ESTADÍSTICA DESCRIPTIVA 1 1 x=´x − ( x−~ x )=3. Lo cual hace ver que la distribución empírica es es muy cercana a cero.333 Recordemos que las curvas para las cuales cuales γ 2> 0 γ 2< 0 son platicúrticas. d) Medidas de aplanamiento o exceso Se tiene: b2= m4 2 2 m = 0. todo ello tomando como referencia a la curva normal estándar que es mesocúrtica.452 Desviación estándar: s x =√ m2=0.037 )2 = =0.672 Coeficiente de variación: ( CV )x =s x / x´ =0.681 =3.20 c) Medidas de asimetría b1= m23 ( 0.383−3.

Se P1 . El comportamiento trimodal del histograma podría deberse a diferencias en la calidad del producto abastecido por los diversos proveedores. que P P P podrían llamarse: bueno ( 1 ) . P2 distinguen tres modos que pueden asociarse a las zonas identificadas con las letras y P3 .ESTADÍSTICA DESCRIPTIVA Problema 3. La Tabla 3.1 el histograma correspondiente consignando en cada uno de sus rectángulos la frecuencia que le corresponde. pudiéndose identificar tres grupos de ellos. José Antonio Rivera ColmeneroPágina 32 . regular ( 2 ) y malo ( 3 ) .2 muestra las frecuencias de clase y la Figura 3.

0 )=3. x 1=L1+ n /2−( ∑ f )1 22/2−10 ( 1.1. Con este objeto se llenó la Tabla 3. La moda correspondiente a cada grupo puede leerse directamente en la Tabla 3.4.5 Las medianas se obtuvieron gráficamente a partir del histograma aplicando la definición correspondiente.ESTADÍSTICA DESCRIPTIVA De esta manera puede aceptarse que el fenómeno se divide en tres partes y que el análisis de la distribución empírica debe disociar estos tres “subfenómenos” y estudiar separadamente a cada uno de ellos. esto también se ilustra en la Figura 3.3 o en la Figura 3. ~ x 1=3.9 C=16+ f 5 ( José Antonio Rivera ColmeneroPágina 33 ( ) ) .0 ) =11.2 C=3+ f 6 ( ) x 2=L1+ n /2−( ∑ f )1 39/2−19 ( 1.0 )=16.1.1 C=11+ f 8 x 3=L1+ n /2−( ∑ f )1 17/2−4 ( 1.5 ~ x 3=16.5 ~ x 2=11. como se explica enseguida.

es posible aplicar la ecuación (23). que se transcribe a continuación: 1 ´x −x= ( x−~ x) 3 En la forma: 3 ´x −3 x=x−~ x 2 x´ =3 x −~x ´x = 3 x−~x (24) 2 Y con la ecuación (24) se calculan las medias en función de las medianas y las modas que les corresponden: ´x 1= 3 x 1− ~ x 1 3 ( 3.05 2 2 José Antonio Rivera ColmeneroPágina 34 .2 )−3.ESTADÍSTICA DESCRIPTIVA Figura 3.5 = =3. como los tres subhistogramas son ligeramente asimétricos. Finalmente.1 Histograma.

a menudo. Así para la media general se tendría: 783 =10. José Antonio Rivera ColmeneroPágina 35 .9 Asimétrica positiva P3 16.05 ) +39 ( 10. los elementos de una población se asignan a grupos llamados estratos y.3.1 2 2 Tabla 3. Los elementos de todas las muestras tomados conjuntamente constituyen a la muestra de la población.5 11. los parámetros descriptivos de la distribución empírica con base en lo consignado en la Tabla 3. esto es.4: ´x = n1 x´ 1 +n2 ´x2 +n 3 ´x 3 22 ( 3.1) 782. posteriormente.4 Grupos de proveedores Cuadro resumen de resultados Moda Mediana Media ~ xj xj ´x j Naturaleza P1 3.05 Asimétrica positiva P2 11. además este valor también puede obtenerse en forma aproximada a través de la Tabla 3.1 10.9 2 2 ´x 3= 3 x 3− ~ x 3 3 (16.5 = =10.1 Asimétrica negativa Es claro que la información anterior no se habría tenido si se hubiesen calculado.5 16.9 = = =10. Este tipo de muestreo se estudia más adelante.5 = =17.04 78 n 1 ´x = ∑ ¿ n i =1 f j x j=¿ Sin identificar los grupos de proveedores mencionados.2 3.1 )−11. se extrae una muestra aleatoria de cada uno de ellos.9 )−16.ESTADÍSTICA DESCRIPTIVA ´x 2= 3 x 2− ~ x 2 3 ( 11. con base en alguna característica.5 3.4 n1+ n2+ n3 22+39+17 78 El hecho ilustrado en este ejemplo se presenta con frecuencia. sin ningún análisis previo.9 17.9 ) +17(17.

33 7.36 7.33 7.35 7.33 7. Solución: Comenzamos introduciendo los datos como la variable de nombre PA (peso anillo) en la primera columna de la hoja de cálculo.32 7.33 7.31 7.34 7.35 7.35 7.33 7.36 7.33 7.36 7.33 7.35 7.32 7.33 7.37 7.32 7.40 7.26 7.32 7.34 7.30 7.30 7.38 7.32 7.28 7.29 7.32 7.29 7.39 7.38 7.35 7.32 7.32 7.28 7.33 7.33 7.30 7. Construir el histograma de frecuencias absolutas.33 Construir la distribución de frecuencias adecuada a los datos.32 7.37 7.29 7.ESTADÍSTICA DESCRIPTIVA Problema 4.30 7.31 7.34 7.35 7.36 7.31 7.33 7.34 7.33 a) b) c) d) 7.39 7.33 7. Es decir los copiamos de la tabla de datos y los pegamos en forma de columna.32 7.34 7.32 7.31 7.38 7. José Antonio Rivera ColmeneroPágina 36 .34 7.33 7. Los valores de los pesos en gramos de 80 anillos metálicos producidos por una máquina son los siguientes: 7.35 7.31 7. A continuación seleccionamos la opción Análisis de datos del menú Datos y en la pantalla Análisis de datos elegimos Histograma.34 7.27 7.33 7.35 7.33 7.30 7.34 7.34 7. Comprobar la normalidad de los datos.31 7.32 7.32 7.32 7.31 7. Construir el polígono de frecuencias relativas acumuladas.33 7.

ESTADÍSTICA DESCRIPTIVA Rellenamos la pantalla Histograma tal y como se indica en a continuación. En el campo José Antonio Rivera ColmeneroPágina 37 . pero en nuestro caso lo dejamos en blanco para que Excel divida los datos automáticamente en un número adecuado de clases de la misma anchura. En el campo Rango de entrada se introduce el rango en el que se sitúan los datos de la variable. En el campo Rango de clases se sitúa el rango que ocupa la columna de los extremos superiores de los intervalos de clase.

4 32.0 33.7 32.0 33.8 32.1 32.0 31.8 32.3 32. ¿Se puede intuir si los datos provienen de una distribución normal? Estudiar la simetría de la distribución.4 29.4 32. Solución: Comenzaremos introduciendo los datos en la hoja de cálculo como la variable numérica de nombre DIAME. cuyo histograma se ajusta bien a una campana de Gauss. Problema 5.4 33.1 34.2 30.7 32.4 33. Señalamos la opción Gráfico para obtener el histograma de frecuencias absolutas.0 31.0 32.0 30.3 32.4 30. o bien: clases dado por la fórmula de Sturges: José Antonio Rivera ColmeneroPágina 38 .6 31.6 31.1 33.ESTADÍSTICA DESCRIPTIVA Rango de salida se sitúa el rango que ocupará la tabla de frecuencias. Para formar la tabla de frecuencias adecuadamente tomaremos el número de k =1+ ENTERO ( 3.0 31. pero en nuestro caso situaremos sólo el extremo superior izquierdo de dicho rango (Celda D12). y la opción Porcentaje acumulado para obtener el polígono de frecuencias relativas acumuladas.7 32.8 32.0 31.3 34.6 34.0 Elaborar la tabla de frecuencias adecuadamente para la variable diámetro.0 33.3 33.4 31.0 32.2 34. Se han medido los diámetros de 50 tornillos y se han obtenido los resultados siguientes en milímetros: 32.6 33.0 31.7 32.3∗log ( N ) )=6 .0 31.0 31.2 33.2 a) b) c) d) 31.0 33.0 32.4 32. lo que indica normalidad en los datos.1 30.4 31.6 31.7 31. Construir el histograma de frecuencias absolutas. Al pulsar Aceptar se obtiene la figura que se muestra a continuación.

lo lógico será tomar 6 o 7 clases para la tabla de frecuencias. Al pulsar Aceptar se obtiene la figura siguiente. tal y como se indica en la siguiente figura. Además. 31. seleccionamos la opción Análisis de datos del menú Datos. que nos ofrece la tabla de frecuencias. pero basta con situar sólo el extremo superior izquierdo de dicho rango. señalamos la opción Gráfico para obtener el histograma de frecuencias absolutas. En el campo Rango de entrada se introduce el rango en el que se sitúan los datos de la variable (incluidos los Rótulos). 33 y 34 y serán introducidos como una columna de nombre CLASES en la hoja de cálculo. En el campo Rango de salida se sitúa el rango que ocupará la tabla de frecuencias. y en la pantalla Análisis de datos elegimos Histograma. y cuyo histograma presenta un dudoso ajuste a una campana de Gauss. Luego. ya que se observa una ligera simetría hacia la izquierda. En el campo Rango de clases se sitúa el rango que ocupa la columna de los extremos superiores de los intervalos de clase (CLASES). considerando la clase inferior formada por los diámetros menores o iguales a 30 y la superior por los mayores que 34. De esta forma. José Antonio Rivera ColmeneroPágina 39 . lo que no permite intuir claramente normalidad en los datos. 32. A continuación. siendo ENTERO la función parte entera y N=50 .ESTADÍSTICA DESCRIPTIVA k =ENTERO ( RAIZ ( N ) ) =7 . los extremos superiores de los intervalos de clase (salvo el último) serán 30. Pulsamos Aceptar y rellenamos la pantalla Histograma.

Sea una variable frecuencias absolutas X . c) Representar la variable X mediante un diagrama de barras verticales. n2=2. que presenta los valores n1=1. d) Construir la tabla de frecuencias relativas de X y el histograma correspondiente. x4 . b) Representar la variable X mediante un diagrama de barras horizontales.n 3=8. x2 . a) Construir la tabla de frecuencias absolutas de X . x5 } con n5=6. Solución: José Antonio Rivera ColmeneroPágina 40 . x3 .ESTADÍSTICA DESCRIPTIVA Problema 6. e) Representar la variable X mediante un diagrama de barras verticales con la línea base situada a la altura del punto 4. n4 =5 y { x1 .

TAREA 1 Problema 1.ESTADÍSTICA DESCRIPTIVA Comenzamos introduciendo los 22 valores de la variable X como una columna de Excel. 33 1544 1295 1541 14 2813 727 215 346 153 735 1452 2422 1160 977 1096 965 315 209 1269 447 709 3416 151 2390 644 1585 3066 844 1829 1279 1027 5 372 869 61 3253 47 4732 120 523 174 755 28 305 710 1075 74 1765 248 863 1908 2052 1036 359 202 2344 581 1913 2230 1126 22 1562 1977 167 573 186 804 6 637 1490 877 152 2096 185 53 39 José Antonio Rivera ColmeneroPágina 41 3385 2297 1550 17 535 2366 1274 1459 219 316 3997 2960 594 317 933 635 323 180 3 166 159 310 . elegimos la el menú Insertar y el icono Tablas dinámicas obtener la siguiente figura. Los resultados se muestran en la Tabla 1. en horas. Se registró el tiempo de la hora más cercana a la falla. Una muestra de 120 componentes eléctricos se probaron mediante la operación de cada uno de ellos de forma continua hasta que fallan. TABLA 1 1347 2075 2242 3391 1945 932 1296 1104 916 678 983 Tiempos de falla de los componentes eléctricos. A continuación.

y es un valor representativo de todos los valores que toma la variable. Ahora se trata de cuantificar estos conceptos. tarea que puede ser pesada.ESTADÍSTICA DESCRIPTIVA 1878 1952 5312 4042 4825 639 1989 132 432 1413 Ayuda: Use 9 intervalos de clase. Un ancho del intervalo de clase más conveniente es de 600 horas. A su vez. teniendo presente el error cometido en el resumen mediante las correspondientes medidas de dispersión. su tendencia central y su dispersión. El valor de la variable elegido para representar a una distribución se llama promedio o medida de posición. José Antonio Rivera ColmeneroPágina 42 . podemos caracterizar su distribución de frecuencias mediante algunos valores numéricos. eligiendo como resumen de los datos un valor central alrededor del cual se encuentran distribuidos los valores de la variable. Tema 2 Estadística descriptiva: Medidas de concentración. En vez de manejar todos los datos sobre las características o variables de calidad. Límite inferior de la clase = 0.1 Expresión cuantitativa de las distribuciones Una vez definidos los conceptos básicos en el estudio de una distribución de frecuencias de una variable. Debe hallarse entre el mayor y el menor valor de la variable. estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de posición (o de centralización). Medidas de posición Se trata de encontrar medidas que sinteticen las distribuciones de frecuencias.5. El histograma de frecuencias ya nos daba una representación visual de las tres propiedades más importantes de los datos muestrales relativos a variables: la forma de su distribución. analizaremos la forma de la distribución mediante las medidas de forma. dispersión y forma 2.

En este supuesto. éstos pueden distorsionar la media aritmética. La cuantía de dichos pesos define la importancia de cada valor de x . la media aritmética. Media aritmética: Se define como la suma de todos los valores de la distribución dividida por el número total de datos. y siendo siempre calculable y de fácil obtención. A los estadísticos que no son afectados por los valores extremos de la muestra. no todos los valores de la distribución intervienen con el mismo peso en el cálculo de la media. que representaremos como define como sigue: José Antonio Rivera ColmeneroPágina 43 wi los W . se les denomina estadísticos robustos. A continuación. y se postula la hipótesis de que el punto medio del intervalo de clase (marca de clase) representa adecuadamente el valor medio de dicha clase. haciéndola incluso poco representativa. este inconveniente no lo posee la mediana. la media aritmética ponderada. y pesos o ponderaciones. siendo única para cada distribución de frecuencias. los valores individuales de la variable serían desconocidos y. En este caso. los datos estarán agrupados en clases. no podríamos utilizar la fórmula anterior. La media no es un estadístico robusto.n . distinto de la frecuencia . Pero esto sólo es válido en el supuesto más sencillo. La expresión matemática que representa la media aritmética coincide con el momento de primer orden respecto al origen.w la distribución en el cálculo de la media.ESTADÍSTICA DESCRIPTIVA Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que sean verdaderamente representativas de la variable a la que resumen. siendo los valores de la variable o las marcas de clase. y siendo ni las frecuencias absolutas.n xi frecuencias es ( i i ) . siendo xi los valores de la variable o las marcas de clase. ni las frecuencias absolutas. Como veremos posteriormente. que representaremos por X´ . por lo que aplicaríamos la fórmula original de la media simple para dichos valores. que aparece cuando se otorga a cada valor de la variable o repetición ni xi una ponderación o peso wi . Toda síntesis de una distribución se considerará como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución. En el caso de que tuviésemos una distribución con datos agrupados en intervalos. Si la distribución de x . en el que los datos de la variable están sin agrupar. En el caso de que la variable presente valores anormalmente extremos. Si la distribución de frecuencias es ( i i i ) . por tanto. se define como sigue: k 1 X´ = ∑ xi ni N i=1 Media aritmética ponderada: Caso particular de la media aritmética. se . se hace una relación de las medidas de posición más comunes utilizadas en estadística.

es decir. N G= √ x1 x 2 ⋯ x k n1 n2 nk El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes. y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda detenninada debido al problema de las raíces de índice par de números negativos. ni ) . velocidades. que representaremos como H . x . rendimientos. La media cuadrática. entonces G se anula.. La media armónica.ESTADÍSTICA DESCRIPTIVA k ∑ x i ni w i W = i=1k ∑ ni w i i=1 Media geométrica: Sea una distribución de frecuencias G . No es aconsejable en distribuciones de variables con valores pequeños. se define como la raíz representaremos como ( x i . ni ) . La media geométrica. se define como sigue: √ n1 x 21+ n2 x 22 +⋯+ nk x 2k C= N José Antonio Rivera ColmeneroPágina 44 ( x i . números índices. Media cuadrática: Sea una distribución de frecuencias representaremos como C . etc. Además. Se suele utilizar para promediar variables tales como productividades.n Media armónica: Sea una distribución de frecuencias ( i i ) . cambios. se define como sigue: H= N k 1 ∑x n n i=1 i i Observe que la inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. que N−ésima del producto de los N valores de la distribución. tasas. tiempos. se usa en los casos en los que se supone que la variable presenta variaciones acumulativas. que . cuando la variable toma al menos un valor x i=0 . etc.

A veces aparecen distribuciones de variables con más de una moda (bimodales. y se toma como mediana la media aritmética entre ellos. sino un intervalo modal (el intervalo que presenta la mayor frecuencia [ i−1 i ] ). puede decirse que hay dos valores medianos. se observa la columna de las frecuencias absolutas.L del intervalo mediano [ i−1 i ] se encuentran distribuidos uniformemente a lo largo de él. Si el número de datos fuese par.). suponiendo que ésta esté ordenada de menor a mayor. es decir. supuesto un número impar de datos. Me . y en consecuencia. En distribuciones no agrupadas en intervalos. el valor de la variable que ocupa el lugar central. Mediana: Se define como mediana el valor de la distribución. En distribuciones agrupadas en intervalos de la misma amplitud. en una distribución de frecuencias. e incluso distribuciones de frecuencias que presentan una moda absoluta y una relativa. También se podría definir la mediana ni como aquel valor de la distribución cuya frecuencia absoluta acumulada es N=∑ ¿ . es el valor de la variable que viene afectado por la máxima frecuencia de la distribución. su amplitud.ESTADÍSTICA DESCRIPTIVA La media cuadrática es la raíz cuadrada de la media aritmética de los cuadrados de los valores de la variable. Como ventaja de la mediana tenemos que no influyen en ella los valores extremos (estadístico robusto). Moda: La moda es el valor de la variable que más veces se repite. realmente no tendremos un L . y suponiendo que todos los valores comprendidos dentro L . etc. y el valor de la distribución al que corresponde la mayor frecuencia será la moda. puede calcularse la mediana. La mediana tiene gran utilidad en los gráficos de control de procesos. Podemos tomar como valor modal el extremo inferior del intervalo José Antonio Rivera ColmeneroPágina 45 [ Mo=Li−1 ] o el extremo . Li ] [( ] N −N i−1 /ni ci 2 ) es el intervalo siguiente al que contiene a N /2 .L valor modal. Para N /2 ¿ distribuciones agrupadas en intervalos. trimodales. mediante la expresión: Me=Li−1+ dónde N i−1< N /2< N i siendo ci y [ Li−1 . que deja a su izquierda y a su derecha la misma frecuencia de observaciones.

L frecuencia. La mayor densidad de L . la moda estará más cerca de aquel intervalo contiguo cuya frecuencia sea mayor. de tal forma que para estas distribuciones no es posible realizar operaciones elementales con sus observaciones. El segundo cuantil de orden k deja a su izquierda la fracción 2/k de frecuencia de observaciones. Por lo tanto.ESTADÍSTICA DESCRIPTIVA superior [ Mo=xi ] [ Mo=Li ] . La moda puede calcularse mediante la expresión: [ Mo=Li−1+ ni + ] [ ] 1 1 c i=Li−1 + ni + ci ( ni−1+n i+1 ) ( 2 ni ) Para intervalos de distinta amplitud. o bien hacer que la moda sea igual a la marca de clase del intervalo modal . suponiendo que ésta esté ordenada de menor a mayor. realmente las densidades de frecuencias nos dan el número de valores que hay en cada unidad de intervalo para cada intervalo. Esto es debido a que las distribuciones de este tipo presentan datos no susceptibles de ordenación. En caso de que todos los valores del intervalo modal estén distribuidos uniformemente dentro de él. El r−ésimo cuantil de orden k deja a su izquierda la fracción primer cuantil de orden José Antonio Rivera ColmeneroPágina 46 . siendo las distancias de la moda. nos determina el intervalo modal [ i−1 i ] . ahora sí. a los intervalos contiguos inversamente proporcionales a las frecuencias de dichos intervalos. Cuantiles: Se definen los cuantiles de orden k como los valores de la distribución. El k deja a su izquierda la fracción 1/ k de frecuencia de observaciones. Sólo se utilizará en distribuciones de gran frecuencia total. existirán r=k−1 cuantiles de orden k . Mo . que la dividen en k partes con la misma frecuencia de observaciones. calculándose la moda mediante la expresión: Mo=Li−1+ [ ] d i +1 c d i−1 +d i+1 i con: d i= ni ci Cabe señalar que la moda es la medida más representativa en caso de distribuciones de variables en escala nominal. La moda se emplea sobre todo cuando los valores de la variable presentan una gran concentración hacia un valor determinado.

los tres valores de la distribución que la dividen en 4 partes iguales.. 2... tendremos los 9 deciles. . es el valor distribución que ocupa el lugar N /4 . .2. su amplitud... .100. Momentos potenciales: Entre los valores que caracterizan una distribución de frecuencias. k =Li−1+ donde N i−1< siendo ci rN <Ni k y [ Li−1 . Qr . es el valor distribución que ocupa el lugar 2 N /4 . 99 . 10 . José Antonio Rivera ColmeneroPágina 47 . Para el caso más general. Q1. k . 2. el r−ésimo decil . el primer cuartil. Q3. en 4 intervalos dentro de cada cual está incluido el 25% de los valores de la distribución. es el valor distribución que ocupa el lugar 3 N /4 .2. tales que dentro de cada una está incluido el 1% de los valores de la distribución.3. ..4 . en que la distribución esté agrupada en intervalos.. el tercer cuartil. 9) .ESTADÍSTICA DESCRIPTIVA r /k ( 100 r /k 1−r /k por ciento) de frecuencia de observaciones. y el de la de la de la de la r−ésimo percentil . es decir. . Dos distribuciones que tienen sus momentos iguales son iguales.. es el valor distribución que ocupa el lugar rN /10 (r=1. El r−ésimo suele designarse como Qr . Los deciles son los 9 puntos que dividen la distribución en 10 partes. el segundo cuartil. Para k =10 y r=1. tenemos los momentos potenciales. tendremos los 99 percentiles..4 . y serán más parecidas cuanto más próximos sean sus momentos. Qr. y a su derecha deja la uacción ( 100(k −r )/k de orden k por ciento) de frecuencia de observaciones. 99) . tendremos los 3 cuartiles.2. cuartiles son. Li ] [( r−ésimo ] rN −N i−1 /ni c i k ) es el intervalo siguiente al que contiene a rN /k . Para distribuciones sin agrupar en intervalos. tales que dentro de cada una está incluido el 10% de los valores de la distribución. Los momentos suelen considerarse respecto del origen y respecto de la media.. por tanto. Los percentiles son los 99 puntos que dividen la distribución en 100 partes. es el valor de la distribución que ocupa el lugar rN /100( r=1. . el cuantil de orden k tomará el valor: Qr . Los Para k =4 cuantil y r=1. Q2. 9. y para k =100 y r=1.4 .

que se pretende que sea sus síntesis. Resulta pues necesario para completar la información que pueda deducirse de una medida de posición o centralización. tendremos que fijamos en la separación o desviación de cada valor respecto a la media. se clasifican las medidas absolutas y relativas según sean medidas referidas a promedios o no lo sean. José Antonio Rivera ColmeneroPágina 48 . Por ejemplo. entendiéndose por relativas las que no dependen de las unidades de medida. las medidas de tendencia central o de posición son representativas como síntesis de toda la información de la distribución. Las medidas de dispersión tienen como finalidad estudiar hasta qué punto. por el contrario. cuanta mayor dispersión exista de los valores de la variable respecto a la media. si queremos estudiar en qué grado una media aritmética nos marca una tendencia central generalizable del comportamiento de todos los elementos del conjunto estudiado. para lo cual será preciso cuantificar la distancia de los diferentes valores de la distribución respecto a dicha medida. acompañada de uno o varios coeficientes que nos midan el grado de dispersión de la distribución de la variable respecto de esa medida de centralización. se distingue entre medidas de dispersión absolutas y relativas. Estos coeficientes son los que llamamos medidas de dispersión. Inicialmente.ESTADÍSTICA DESCRIPTIVA El momento de orden r respecto del origen se define como: 1 ar = N k ∑ x ri ni i=1 El momento de orden r respecto de la media se define como: k m r= 1 ∑ ( x −´x )r ni N i=1 j Se observa que el momento de orden 1 centrado en el origen coincide con la media aritmética de la distribución. A tal distancia es a lo que. A la mayor o menor separación de los valores de una distribución respecto de otro. y el momento de orden 2 centrado en la media coincide con la varianza de la distribución. Será. Si todos los valores están cercanos al valor medio. denominaremos variabilidad o dispersión de la distribución. por no ser representativa. Medir la representatividad de una medida de posición equivale a cuantificar la separación de los valores de la distribución respecto a dicha medida. en términos estadísticos. tanto más representativa la media aritmética de una variable cuanto más agrupados en torno a ella estén los valores promediados. Medidas de dispersión Las medidas de dispersión permiten calcular la representatividad de una medida de posición. será tanto más rechazable. pues. se le llama dispersión o variabilidad. Posteriormente. para una determinada distribución de frecuencias. éste será representativo de ellos.

considerar el valor: k 1 D= ∑ ( x i−P ) n i N i=1 Pero esto.ESTADÍSTICA DESCRIPTIVA Entre las medidas de dispersión absolutas no referidas a promedios tenemos el recorrido. que se define como la media aritmética de los valores absolutos de las diferencias entre los valores de la variable y la mediana. y cuya expresión es la siguiente: k 1 D Me = ∑ | x j−Me|ni N i=1 Varianza. y el recorrido intercuartílico. Me . la varianza y su raíz cuadrada (la José Antonio Rivera ColmeneroPágina 49 . o diferencia entre el mayor valor y el menor valor de una distribución. A continuación. cuasivarianza. o cociente entre el recorrido y la media. que se define como la media aritmética de los valores absolutos de las diferencias entre los valores de la variable y la media aritmética. Estas medidas de dispersión involucran a los promedios. y permiten medir el error que cometemos utilizando el promedio en cuestión como resumen de los datos. entre las que tenemos: Desviaciones medias: Para medir la eficacia de la media se considera la desviación media respecto de la media aritmética. pudiendo obtenerse una medida pequeña siendo la dispersión grande. Entre las medidas de dispersión relativas no referidas a promedios tenemos el coeficiente de apertura. o cociente entre el mayor valor y el menor valor de una distribución. Entre las medidas de dispersión absolutas referidas a promedios tenemos las desviaciones medias. es decir. la varianza y la desviación típica. desviación típica y error estándar: De todas las medidas de dispersión absolutas respecto a la media aritmética. tiene como grave inconveniente las posibles compensaciones de las desviaciones positivas con las negativas al efectuar la suma. o cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil. o bien se elevan éstas al cuadrado. y el recorrido relativo. Como medida de dispersión más simple relativa a la medida de posición P . y cuya expresión es la siguiente: k 1 D m= ∑ | x j−´x|ni N i=1 Para medir la eficacia de la mediana. o diferencia existente entre el tercer cuartil y el primero. Para solucionar este inconveniente se consideran los valores absolutos de las desviaciones. suele considerarse la desviación media respecto de la mediana. así como el recorrido semintercuartílico. que sería lo primero que se nos ocurriría. se definen las medidas de dispersión más interesantes. podríamos considerar las desviaciones de cada valor al promedio y promediar estas desviaciones.

el momento de segundo orden respecto a la media aritmética. la varianza no. surge una nueva medida de dispersión denominada varianza. con signo positivo. Así como las desviaciones medias vienen expresadas en las mismas unidades de medida que la distribución. con lo que su expresion será: σ= √ k 1 ∑ ( x − ´x )2 ni N i=1 j Al ser la raíz cuadrada de la varianza. lo cual la hace más apta como medida de dispersión. es decir. Si en vez de considerar los valores absolutos de las desviaciones respecto del promedio consideramos sus cuadrados. cuya expresión es: k 2 S= 1 ∑ ( x −´x )2 ni N−1 i=1 j También se considera la cuasidesviación típica. de la varianza. que es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al cuadrado. pero elevadas al cuadrado. cuya expresión es: √ k 1 2 S= ( x j− ´x ) ni ∑ N−1 i=1 Error estándar. es la cuasivarianza. y hace necesario definir la desviación típica o desviación estándar. que si en la distribución de frecuencias sumamos a todos los valores de la variable una constante la varianza no varía (un cambio de origen en la variable no afecta a la varianza). sobre todo debido a sus propiedades muestrales. y que al multiplicar los valores de una distribución de frecuencias por una constante k la varianza queda multiplicada por el cuadrado de la constante. son las más importantes. Un estadístico muy utilizado como medida de dispersión. ya que vendrá dada en las unidades correspondientes. La desviación típica es la raíz cuadrada. y que definimos como la media aritmética de los cuadrados de las desviaciones de los valores de la variable a la media aritmética. también por sus propiedades muestrales. es el error estándar. Se define mediante la expresión: k 1 2 σ = ∑ ( x j−´x ) ni N i =1 2 Como propiedades más importantes de la varianza tenemos que nunca puede ser negativa. Otro estadístico muy utilizado como medida de dispersión. cuyo valor es: José Antonio Rivera ColmeneroPágina 50 .ESTADÍSTICA DESCRIPTIVA desviación típica). vendrá expresada en las mismas unidades de medida que la distribución. Esto dificulta su interpretación.

Se define como la relación por cociente entre la desviación típica y la media aritmética: CV = σ ´x Evidentemente. y que marcan la representatividad de los promedios con los que se relacionan. y está claro que cuanto mayor sea CV más veces contendrá σ a ´x . de que utiliza toda la José Antonio Rivera ColmeneroPágina 51 . CV representa el número de veces que σ contiene a ´x . relativamente. √n D Me < Dm <σ . Entre las medidas de dispersión absolutas referentes a promedios. podríamos haber definido también la desviación media respecto a la moda y las desviaciones cuadráticas respecto a la mediana y a la moda. mejor es la media. Este coeficiente también se suele expresar en tantos por ciento como: CV =100 ( σ´x ) Como tanto en el cálculo de σ como en el cálculo de ´x han intervenido todos los valores de la distribución. luego. a mayor valor de CV menor representatividad de ´x . Entre las medidas de dispersión relativas (valores adimensionales que no se ven afectados por las unidades de medida y que siempre se concretan en forma de cociente) utilizadas para comparar medidas de posición o promedios. en general. Coeficiente de variación de Pearson: Se usa para resolver el problema de comparación de medias aritméticas de varias distribuciones que pueden venir. frente a otros coeficientes.ESTADÍSTICA DESCRIPTIVA e= Siempre se cumple que: S . Por otra parte. en unidades diferentes. CV presenta la garantía. que vienen dadas en las mismas unidades de medida que la distribución. Observamos que al efectuar el cociente eliminamos las unidades. tenemos el índice de dispersión respecto a la mediana y el coeficiente de variación de Pearson. a menor coeficiente de variación ( CV ). y por tanto CV es adimensional.

Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. Se define como la relación por cociente entre la desviación media respecto de la mediana y la mediana aritmética: V Me = D Me . Si trazamos una perpendicular al eje de abscisas por ´x y tomamos esta perpendicular como eje de simetría. sin llegar a realizar la misma. Si bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio. Medidas de forma Una vez iniciado el análisis estadístico de sintetización de la información. que pueden venir.ESTADÍSTICA DESCRIPTIVA información de la distribución. Pues bien. Supongamos que hemos representado gráficamente una distribución de frecuencias. y tales que cada par de valores equidistantes de ´x tengan la misma frecuencia. Este error o disparidad se hace más ostensible al analizar la representación gráfica de la distribución. en general. Me Evidentemente. necesitamos conocer más sobre el comportamiento de la misma. lo que haría que CV tendiera a infinito. equidistantes de ´x dos a dos. Las medidas de José Antonio Rivera ColmeneroPágina 52 . no debemos proceder a una interpretación que implique un comportamiento de todos los elementos del colectivo uniformemente constante e igual a la medida de posición en cuestión con un error dado por la correspondiente medida de dispersión. en unidades diferentes. sin necesidad de llevar a cabo su representación gráfica. diremos que una distribución es simétrica si existe el mismo número de valores a ambos lados de dicho eje. a menor índice de dispersión mejor es la mediana. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. para lo cual las medidas de posición son nuestro mejor instrumento. Índice de dispersión respecto a la mediana: Se usa para resolver el problema de comparación de medianas de varias distribuciones. las medidas de forma de una distribución se basan en su representación gráfica. No podemos basar nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. y el único caso problemático se presenta cuando ´x =0 . Por esta razón. las distribuciones serán asimétricas. Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o apuntamiento. La cota inferior de CV es cero. En caso contrario. Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el grado de simetría (o asimetría) que presenta una distribución. para lo cual hemos estudiado las medidas de posición y dispersión de la distribución de una variable. a las medidas de curtosis se les llama también de apuntamiento o concentración central.

es decir. entre las que destacan las siguientes: Coeficiente de asimetría de Fisher: Ahora se intenta buscar una medida que recoja la simetría o asimetría de una distribución. Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones. Esta cantidad es el cubo de la desviación típica. tomaríamos como medida de asimetría el momento de orden tres centrado en la media. Tomando la normal como referencia. esta medida vendría expresada en las mismas unidades que las de la variable pero elevadas al cubo. se le llama mesocúrtica. debemos dividir la expresión anterior por una cantidad que venga en sus mismas unidades de medida. la distribución es asimétrica positiva (a . y cuya representación gráfica es una campana de Gauss. por lo que no es invariante ante un cambio de escala. Si la distribución es simétrica. cuya expresión es: k g1= Si g1=0 m3 σ3 1 ∑ ( x − x´ )3 ni N i=1 j =¿ . A. si derechas). desde el punto de vista de la curtosis. la distribución es simétrica. A la distribución normal. el eje de simetría de su representación gráfica será una recta paralela al eje de ordenadas. leptocúrtica). se definen las medidas de asimetría más comunes. diremos que una distribución puede ser más apuntada que la normal (es decir. Si una distribución es simétrica. de las desviaciones ( i ) elevadas a una potencia impar para no perder los signos de las desviaciones. unimodales simétricas o con ligera asimetría. existe el mismo número de valores a la derecha que a la izquierda de ´x . o menos apuntada (es decir. Podemos partir. Con la curtosis se estudia la deformación. de una distribución. De este modo obtenemos el coeficiente de asimetría de R. siendo la suma de desviaciones positivas x −´x igual a la suma de las negativas. Para conseguir un indicador adimensional. pues. que pasa por el punto cuya abscisa es la media aritmética. elevadas a la potencia impar más simple (que es tres). es decir. respecto a la normal. Por ello. que vamos a tomar como modelo de referencia.ESTADÍSTICA DESCRIPTIVA curtosis se aplican a distribuciones campaniformes. referiremos los valores de la distribución a este promedio. Pero. la distribución es asimétrica negativa (a izquierdas). Para estudiar la curtosis de una distribución es necesario definir previamente una distribución tipo. de hacer esto. que corresponde a fenómenos muy corrientes en la naturaleza. en sentido vertical. y si g1 <0 ( 1 N k 3 /2 ∑ ( x j −´x ) ni i=1 g1 >0 2 ) . y por tanto el mismo número de desviaciones con signo positivo que con signo negativo. A continuación. platicúrtica). Fisher. La distribución es asimétrica a derechas o positiva cuando la suma de las desviaciones positivas de sus valores José Antonio Rivera ColmeneroPágina 53 . cuando la distribución es asimétrica. Esta distribución es la normal.

cuya expresión es: gs = g1 √ 6 N Este coeficiente es asintóticamente normal (0. Así tendremos que si Ap=0 la distribución es simétrica. ´x se desplaza a la derecha de la moda. algunos autores utilizan como coeficiente de asimetría de Pearson el valor: José Antonio Rivera ColmeneroPágina 54 . Este hecho nos lleva a Coeficiente de asimetría de Fisher estandarizado: Para asimetría es asintóticamente normal de media cero y varianza considerar el coeficiente de asimetría estandarizado. por lo que el valor ´x −Mo< 0 . la media se sitúa por debajo de Mo . unimodales y moderadamente asimétricas. y por tanto.ESTADÍSTICA DESCRIPTIVA respecto de la media es mayor que la suma de las desviaciones con signo negativo (la gráfica de la distribución tiene más densidad a la derecha de la media).1). el coeficiente definido como: Ap= donde x´ −Mo σ Mo es la moda. La desviación típica que aparece en el ´x −Mo . y si Ap< 0 la distribución es asimétrica denominador no modifica el signo de la diferencia negativa. En caso contrario. si Ap> 0 la distribución es asimétrica positiva. la distribución es asimétrica a la izquierda o negativa. y sirve para eliminar las unidades de medida de dicha diferencia. Por esta razón. Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes. También Pearson comprobó empíricamente para este tipo de distribuciones que se cumple 3 ( ´x −Me ) ≈ ´x −Mo (la mediana siempre se sitúa entre la media y la moda en las distribuciones moderadamente asimétricas). Como en una distribución campaniforme simétrica: ´x =Mo=Me si la distribución es asimétrica positiva o a derechas. En el caso de distribución asimétrica negativa. ´x −Mo> 0 . el coeficiente de 6/ N . N >150 .

Una vez presentadas las medidas de asimetría. Si consideramos g2=m4 /σ 4 −3 . si Ab> 0 la distribución es asimétrica positiva. y viene dado por la expresión: Ab= (C 3+C 1−2 Me ) . a continuación se definen las medidas de curtosis más comunes. y si A <0 la distribución es asimétrica negativa. y si Ab< 0 la distribución es asimétrica negativa.ESTADÍSTICA DESCRIPTIVA Ap ≈ 3 ( x´ −Me ) . si A >0 la distribución es asimétrica positiva. Por ello. σ Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana. entre las que destacan las siguientes: Coeficiente de curtosis: En la distribución normal. C 1 . ( C 3+C 1 ) Se cumple que si Ab=0 la distribución es simétrica. C 2 y C 3 son los cuartiles de la distribución. su valor será cero para la distribución normal. y la expresión σ m4=3 σ 4 . C 1 y C 3 son el primer y tercer cuartil respectivamente. siendo la desviación típica. se verifica que: m4 el momento de orden 4 respecto a la media. como coeficiente de apuntamiento o curtosis se utiliza la expresión: g2= m4 σ −3=¿ 4 k 1 4 x j− x´ ) ni ∑ ( N i=1 José Antonio Rivera ColmeneroPágina 55 −3 . y viene dado por la expresión: A= [ ( C 3−C 2 )−( C 2−C 1 ) ] = C 3+C 1−2C 2 =C 3+C 1−2 Me/S S S Si A=0 la distribución es simétrica. Coeficiente absoluto de asimetría: Está basado también en la posición de los cuartiles y la mediana.

1). y es platicúrtica 2 g <0 . en cuyo cuadro Seleccionar una categoría se elige Estadísticas. el coeficiente de curtosis es 24 / N . 2. dispersión y forma Excel dispone de una amplia gama de funciones que permiten calcular medidas de posición (media. es 2 g >0 . etc.). José Antonio Rivera ColmeneroPágina 56 . etc. Coeficiente de curtosis estandarizado: Para asintóticamente normal de media cero y varianza N >150 . mediana. medidas de dispersión (varianza.2 Funciones de Excel para medidas de concentración. cuya expresión es: g2 gks = 6 N √ Este coeficiente es asintóticamente normal (0. se hace clic sobre el icono Insertar función. Este hecho nos lleva a considerar el coeficente de curtosis estandarizado. presentándose todas las funciones de dicha categoría elegida en el cuadro Seleccionar una función (Figura 2-2).ESTADÍSTICA DESCRIPTIVA ( 1 N k 2 ∑ ( x j −´x ) ni i=1 2 ) Una distribución es mesocúrtica (apuntamiento igual al de la normal) cuando leptocúrtica (apuntamiento mayor que el de la normal) si (apuntamiento menor que el de la normal) si g2=0 . medidas de asimetría y curtosis. desviación típica.). de la barra de fórmulas: Con lo que se obtiene la siguiente Figura 2-1. coeficientes de correlación y muchos otros conceptos. Ya sabemos que para ver las funciones de la categoría Estadísticas.

se obtiene la paleta de la función con su sintaxis (Figura 2-3). Al pulsar Aceptar. la fórmula y su resultado se insertan en la celda activa de la hoja de cálculo (Figura 2-4).ESTADÍSTICA DESCRIPTIVA Figura 2-1 Figura 2-2 Si en el cuadro Seleccionar una función hacemos dic con el ratón sobre una función (por ejemplo la función CONTAR). José Antonio Rivera ColmeneroPágina 57 . Figura 2-3 Una vez completados los argumentos. se obtiene el resultado en la parte inferior de la paleta (=15).

valores de error o blancas. se presenta una relación de funciones de Excel para medidas de centralización. José Antonio Rivera ColmeneroPágina 58 . No cuenta celdas con texto. CONTAR(numvar) CONTAR(A2:A16) Halla el total de observaciones no desaparecidas de la variable numvar.ESTADÍSTICA DESCRIPTIVA Figura 2-4 A continuación. acompañadas de un ejemplo referido a la variable X de la hoja de cálculo de la Figura 3-4. cuyos valores ocupan el rango A2:A16. o celdas con fechas traducibles a números. Para algunas funciones se presenta su paleta. dispersión y forma. omitiéndose dicha presentación para paletas de funciones muy similares en su sintaxis. Sólo cuenta celdas con números.

valores lógicos o celdas vacías. José Antonio Rivera ColmeneroPágina 59 .ESTADÍSTICA DESCRIPTIVA CONTAR.criterio) CONTAR(A2:A16. sin embargo. Halla la media aritmética de numvar.SI(rango. Si numvar contiene texto. “>2”) PROMEDIO(numvar) PROMEDIO(A2:A16) Cuenta las celdas en el rango dado que coinciden con el criterio especificado. esos valores se pasan por alto. se incluyen las celdas cuyo valor sea 0.

se incluirán las celdas con el valor 0. sin embargo.GEOM (numvar) MEDIAGEOM(A2:A16) Halla la media geométrica de numvar. Si numvar contiene texto. valores lógicos o celdas vacías. sin embargo.ARMO (numvar) MEDIA. sin embargo. esos valores se pasan por alto. valores lógicos o celdas vacías.ESTADÍSTICA DESCRIPTIVA MEDIA. esos valores se pasan por alto. Si numvar contiene texto. esos valores se pasan por alto.ARMO(A2:A16) Halla la media armónica de numvar. se incluirán las celdas con el valor 0. MODA(numvar) MODA(A2:A16) Halla la moda de numvar. Si numvar contiene texto. Si numvar contiene texto. MEDIANA(numvar) MEDIANA(A2:A16) Halla la mediana de numvar. José Antonio Rivera ColmeneroPágina 60 . esos valores se pasan por alto. valores lógicos o celdas vacías. se incluirán las celdas con el valor 0. valores lógicos o celdas vacías. MEDIA. se incluirán las celdas con el valor 0. sin embargo.

José Antonio Rivera ColmeneroPágina 61 . No se usa para celdas con texto o valores de error.ESTADÍSTICA DESCRIPTIVA MIN(numvar) MIN(A2:A16) Halla el mínimo de las observaciones no desaparecidas de la variable numérica numvar. Sólo cuenta celdas con números o fechas traducibles a números.

ESTADÍSTICA DESCRIPTIVA MAX(numvar) MAX(A2:A16) Halla el máximo de las observaciones no desaparecidas de la variable numérica numvar.n) PERCENTIL(A2:A16. PERCENTIL(numvar.0. . No se usa para celdas con texto o valores de error. Sólo cuenta celdas con números o fechas traducibles a números.75) José Antonio Rivera ColmeneroPágina 62 Halla el enésimo percentil de numvar.

sin embargo.a.b) NORMALIZACION(10) Halla el coeficiente de asimetría de numvar. y si n=4 se tiene el máximo. valores lógicos o celdas vacías.ASIMETRIA(A2:A 16) CURTOSIS(numvar) CURTOSIS(A2:A16) NORMALlZACON(m.n) CUARTlL(A2:A16.ESTADÍSTICA DESCRIPTIVA CUARTIL(numvar. se incluirán las celdas con el valor 0. Si numvar contiene texto. sin embargo.1) Halla el enésimo cuartil de numvar. Si n=0 se tiene el mínimo. Halla el coeficiente de curtosis de numvar. Estandariza el número m según a y b. es decir.ASIMETRIA (numvar) COEFICIENTE. José Antonio Rivera ColmeneroPágina 63 . valores lógicos o celdas vacías. al valor de m se le resta la media (a) y se divide el resultado por la desviación típica (b). si n=2 se tiene la mediana (percentil 50). COEFICIENTE. esos valores se pasan por alto. si n=3 se tiene el tercer cuartil (percentil 75). esos valores se pasan por alto. se incluirán las celdas con el valor 0. Si numvar contiene texto. si n=1 se tiene el primer cuartil (percentil 25).

La Figura 2-5 presenta varias funciones de cálculo de medidas de concentración. y referidas a los valores de la variable X que ocupa la primera columna de la hoja. La Figura 2-6 presenta los resultados de las fórmulas cuando no se encuentra activada la casilla Fórmulas. dispersión y forma situadas en las celdas de la hoja de cálculo.ESTADÍSTICA DESCRIPTIVA Estas funciones de estadística descriptiva pueden escribirse directamente sobre las celdas de la hoja de cálculo de igual modo que cualquier otra fórmula. Figura 2-5 José Antonio Rivera ColmeneroPágina 64 Figura 2-6 .

ESTADÍSTICA DESCRIPTIVA

2.3

Medidas de posición, dispersión y forma con
herramientas de análisis de datos

Podemos utilizar las herramientas de análisis estadístico avanzado para calcular medidas de
posición, dispersión y forma, seleccionando la opción Análisis de datos en el menú Datos
(Figura 2-7), y eligiendo la opción Estadística descriptiva en el cuadro Funciones para análisis
de la Figura 2-8.

Figura 2-7

Figura 2-8
Al hacer clic en Aceptar, se obtiene la pantalla Estadística descriptiva de la Figura 2-9, cuyos
campos tienen las siguientes funcionalidades:
José Antonio Rivera ColmeneroPágina 65

ESTADÍSTICA DESCRIPTIVA

Rango de entrada: Introduzca la referencia de celda correspondiente al rango de datos que desee
analizar. La referencia deberá contener dos o más rangos adyacentes organizados en columnas o
filas.
Agrupado por: Haga clic en el botón Filas o Columnas para indicar si los datos del rango de
entrada están organizados en filas o en columnas.
Rótulos en la primera fila y rótulos en la primera columna: Si la primera fila del rango de
entrada contiene rótulos, active la casilla de verificación Rótulos en la primera fila. Si los rótulos
están en la primera columna del rango de entrada, active la casilla de verificación Rótulos en la
primera columna. Esta casilla de verificación estará desactivada si el rango de entrada carece de
rótulos; Microsoft Excel generará los rótulos de datos correspondientes para la tabla de
resultados.
Nivel de confianza para la media: Active esta casilla si desea incluir una fila correspondiente al
nivel de confianza de la media en la tabla de resultados. En el cuadro, escriba el nivel de
confianza que desee utilizar. Por ejemplo, un valor de 95% calculará el nivel de confianza de la
media con un nivel de importancia del 5%.
K-ésimo mayor: Active esta casilla si desea incluir una fila correspondiente al valor k-ésimo
mayor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el número que va a
utilizarse para k . Si escribe 1, esta fila contendrá el máximo del conjunto de datos.
K-ésimo menor: Active esta casilla si desea incluir una fila correspondiente al valor k-ésimo
menor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el número que va a
utilizarse para k . Si escribe 1, esta fila contendrá el mínimo del conjunto de datos.
Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados. Esta herramienta genera dos columnas de información por cada conjunto de
datos. La columna de la izquierda contiene los rótulos de estadística, y la columna de la derecha
contiene las estadísticas. Excel escribirá una tabla de estadísticas de dos columnas por cada
columna o fila del rango de entrada, dependiendo de la opción que se haya seleccionado en el
cuadro Agrupado por.
En una hoja nueva: Haga clic en esta opción para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de cálculo. Para darle un
nombre a la nueva hoja de cálculo, escríbalo en el cuadro.
En un libro nuevo: Haga clic en esta opción para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado.
Resumen de estadísticas: Seleccione esta opción si desea que Excel genere un campo en la tabla
de resultados por cada una de las siguientes variables estadísticas: media, error típico (de la

José Antonio Rivera ColmeneroPágina 66

ESTADÍSTICA DESCRIPTIVA
media), mediana, moda, desviación estándar, varianza, curtosis, coeficiente de asimetría, rango,
mínimo, máximo, suma, cuenta, mayor (#), menor (#) y nivel de confianza.
Al pulsar Aceptar en la Figura 2-9, se obtiene la Figura 2-10 con todos los estadísticos, incluido
el radio del intervalo de confianza para la media de la variable, suponiendo normalidad con σ
desconocida (última celda). El intervalo de confianza para la media viene definido por
t
´x ± t n−1, α / 2(S / √n)
, siendo S la cuasivarianza muestral y n−1, α / 2 el valor de la abscisa de
una T de Student con n−1 grados de libertad que deja a su derecha α /2

Figura 2-9

José Antonio Rivera ColmeneroPágina 67

de área.

b) Calcular también los momentos de orden 3 y 4 centrados en la media.4 32.0 31.0 a) Calcular la mediana.7 32. Los resultados que se obtienen se presentan en la Figura 2-12.7 31.ESTADÍSTICA DESCRIPTIVA Figura 2-10 EJERCICIOS Ejercicio 1.0 32.4 29.2 34.2 31.2 30.6 33. Se han medido los diámetros de 50 tornillos y se han obtenido los resultados siguientes en milímetros: 32.1 32.0 31.0 33.0 30. la moda.3 32.6 31.0 33. Solución: La forma más sencilla de resolver el primer inciso de este problema es introducir los datos de la variable en una columna de la hoja de cálculo y plantear las fórmulas que se indican en la Figura 2-11.8 32. el sexto y séptimo deciles y los percentiles 54.7 32.4 33.4 31.3 32. José Antonio Rivera ColmeneroPágina 68 . el primer y tercer cuartil.0 31.4 31.0 32.1 33.3 34.0 31.6 34.4 33.7 32.0 31. 47 y 82.7 32.6 31.4 32.3 33.6 31.8 32.1 30.1 34.0 33.0 31.2 33.0 33.4 32.4 30.0 32.8 32.0 31.

Por lo tanto. tendremos que resolver el problema partiendo de las propias definiciones de los momentos (Figura 2-13): m 3= 1 N N N ∑ ( x j −´x ) 3 m 4= i=1 Figura 2-13 José Antonio Rivera ColmeneroPágina 69 1 ∑ ( x −´x )4 N i =1 j .ESTADÍSTICA DESCRIPTIVA Figura 2-11 Figura 2-12 Para resolver la segunda parte del problema no existen fórmulas adecuadas predefinidas en Excel. ni tampoco existe un procedimiento de herramientas de análisis que incorpore los momentos de orden 3 y 4 centrados en la media.

José Antonio Rivera ColmeneroPágina 70 . b) ¿Cuál es el metabolismo basal más frecuente? c) Hallar el valor del metabolismo basal tal que la mitad de los restantes valores sean inferiores a él. como es el caso de la respiración. 1 El metabolismo basal es el valor mínimo de energía necesaria para que la célula subsista. se obtiene la pantalla Estadística descriptiva.ESTADÍSTICA DESCRIPTIVA Ejercicio 2. Para calcular los intervalos de confianza es necesario utilizar las herramientas de análisis estadístico avanzado. Hallarlo también al 90%. seleccionando la opción Análisis de datos en el menú Datos y eligiendo la opción Estadística descriptiva en el cuadro Funciones para análisis de la Figura 2-14. Los valores sobre el metabolismo basal1 de 50 individuos de una población que se supone normal son los siguientes: 102 115 116 112 120 98 130 118 114 106 93 100 89 106 110 100 86 102 114 100 98 95 128 100 106 105 103 99 116 117 115 105 119 108 109 110 92 128 113 108 99 99 110 106 105 120 134 130 105 106 a) Hallar un intervalo de confianza para la media poblacional basado en la muestra de los 50 individuos al 95% de coeficiente de confianza. cuyos campos se rellenan como se indica en la Figura 2-15. d) Representar el histograma de frecuencias y el polígono de frecuencias acumulado para la distribución de la variable metabolismo basal y comprobar si la población puede considerarse efectivamente normal y simétrica. Figura 2-14 Al hacer clic en Aceptar. Esta energía mínima es utilizada por la célula en las reacciones químicas intracelulares necesarias para la realización de funciones metabólicas esenciales. Solución: Comenzamos introduciendo los datos del metabolismo basal en la hoja de cálculo como una columna de nombre BASAL.

que presenta varios de los estadísticos pedidos en el problema. José Antonio Rivera ColmeneroPágina 71 . 111.38  3. incluyendo el radio del intervalo de confianza para la media al 95% suponiendo población normal de varianza desconocida.0721.0721=[105.308 .452].38 y el radio es 3. el intervalo de confianza al 95% será 108.ESTADÍSTICA DESCRIPTIVA Figura 2-15 Al hacer dic en Aceptar se obtiene la Figura 2-16. Figura 2-16 Como la media es 108.

Figura 2-17 Al pulsar Aceptar se obtiene el resultado de la Figura 2-18. Figura 2-18 José Antonio Rivera ColmeneroPágina 72 . seleccionamos otra vez la opción Análisis de datos en el menú Datos. y rellenamos la pantalla Estadística descriptiva como se indica en la Figura 2-17.ESTADÍSTICA DESCRIPTIVA Para calcular el intervalo de confianza para al media al 90%. elegimos la opción Estadística descriptiva en el cuadro Funciones para análisis de la Figura 2-14.

388) y curtosis (0. que ya hemos visto que también es 106. en cuyo caso habrá normalidad. Figura 2-20 José Antonio Rivera ColmeneroPágina 73 . y al pulsar Aceptar. 2]. observamos que los coeficientes de asimetría (0. Para realizar el histograma de Frecuencias absolutas y el polígono de frecuencias relativas acumuladas. calculamos la mediana de la variable BASAL. seleccionando la opción Análisis de datos en el menú Datos. que ya hemos visto que es 106. Para hallar el valor del metabolismo basal tal que la mitad de los restantes valores sean inferior a él. es necesario utilizar las herramientas de análisis estadístico avanzado. Para ver si la población es efectivamente normal.943]. calculamos la moda de la variable BASAL.38  2.563 = [105.ESTADÍSTICA DESCRIPTIVA El nuevo intervalo de confianza será 108. Para hallar el metabolismo basal más frecuente.0445) caen dentro del intervalo [2. Figura 2-19 Se rellena la pantalla Histograma como se indica en la Figura 2-20.817 . y eligiendo la opción Histograma en el cuadro Funciones para análisis de la Figura 2-19. 110.

medias. respecto de una característica W . construidos con los criterios: W <10. Figura 2-21 Ejercicio 3. b) Realizar tablas e histogramas de frecuencias para los tres estratos. presenta la siguiente distribución de frecuencias: Wi ni 2 10 3 8 5 20 10 3 20 3 50 3 100 2 200 1 a) Si se estratifica la población en tres estratos. José Antonio Rivera ColmeneroPágina 74 . desviaciones típicas y co~flCientes de asimetría para cada estrato. varianzas. 10≤ W <100 y 100 ≤W . Supongamos que una población finita de 50 unidades. calcular las sumas.ESTADÍSTICA DESCRIPTIVA Se obtiene el histograma pedido y las distribuciones de frecuencias absolutas y relativas acumuladas (Figura 2-21).

Como se trata de calcular estadísticos por subconjuntos. que se utiliza para dividir la población en estratos (subconjuntos). valdrá 1 para los valores de W en el primer estrato. y 3 para los valores de W en el tercer estrato. en el menú Insertar se hace dic en Tablas dinámica (Figura Figura 2-21 En la ventana Crear tabla dinámica se selecciona el rango y la celda a partir de la cual de desea colocar el informe de tabla dinámica(Figura 2-22). Comenzaremos introduciendo en la hoja de cálculo los datos de la variable W y los de una variable auxiliar La variable W W1 W1 . José Antonio Rivera ColmeneroPágina 75 . 2 para los valores de en el segundo estrato.ESTADÍSTICA DESCRIPTIVA Solución: Se trata de un problema de cálculo de estadísticos por subconjuntos de datos definidos en una población.

ESTADÍSTICA DESCRIPTIVA Figura 2-22 Al dar clic en Aceptar. También se arrastran los campos cuyos valores van a situarse en columnas a la zona COLUMNA (en nuestro caso la variable de estratificación W1). se arrastra el campo por cuyos valores se tabula (en nuestro caso Cantidad (Figura 2-24). Por último. aparece la siguiente pantalla (Figura 2-23): Figura 2-23 Para diseñar el informe. se arrastran los campos cuyos valores van a situarse en filas en la tabla. desde la derecha de la figura a la zona FILAS (en nuestro caso W). José Antonio Rivera ColmeneroPágina 76 .

Se da clic en cualquier parte del informe Figura 2-25 Y se selecciona el siguiente gráfico (Figura 2-26): José Antonio Rivera ColmeneroPágina 77 .ESTADÍSTICA DESCRIPTIVA Figura 2-24 Para construir el Histograma de frecuencias se da un clic sobre el informe de la Tabla dinámica. se selecciona el menú INSERTAR/Gráficos recomendados (Figura 2-25).

Figura 2-27 José Antonio Rivera ColmeneroPágina 78 .ESTADÍSTICA DESCRIPTIVA Figura 2-26 Damos clic en Aceptar y se tiene finalmente el Histograma (Figura 2-27).

ESTADÍSTICA DESCRIPTIVA José Antonio Rivera ColmeneroPágina 79 .