COnceptos Estadistica Descriptiva

Medidas tendencia central: Media Mediana y Moda
Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del
cual se tienden ha reunir los datos (Punto central). Estas medidas aplicadas a
las caractersticas de las unidades de una muestra se les denomina estimadores o
estadgrafos; mientras que aplicadas a poblaciones se les denomina parmetros o
valores estadsticos de la poblacin. Los principales mtodos utilizados para ubicar el
punto central son la media, la mediana y la moda.
1. MEDIA
Es la medida de posicin central ms utilizada, la ms conocida y la ms sencilla
de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo
algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su
sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado
grandes o pequeos. La media se define como la suma de todos los valores observados,
dividido por el nmero total de observaciones.
Ecuacin 5-1
Cuando los valores representan una poblacin la ecuacin se define como:
Ecuacin 5- 2
Donde (m) representa la media, (N) representa el tamao de la poblacin y (Xi)
representa cada uno de los valores de la poblacin. Ya que en la mayora de los casos se
trabajan con muestras de la poblacin todas las ecuaciones que se presenten a
continuacin sern representativas para las muestras. La media aritmtica para una
muestra esta determinada como
Ecuacin 5-3
Donde (X) representa la Media para la muestra, (n) el tamao de la muestra y (Xi)
representa cada uno de los valores observados. Esta frmula nicamente es aplicable si
los datos se encuentran desagrupados; en caso contrario debemos calcular la media
mediante la multiplicacin de los diferentes valores por la frecuencia con que se
encuentren dentro de la informacin; es decir,
Ecuacin 5-4
Donde (Yi) representa el punto medio de cada observacin, (ni) es la frecuencia o
nmero de observaciones en cada clase y (n) es el tamao de la muestra siendo igual a
la suma de las frecuencias de cada clase.
Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5
personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su
interpretacin se han generado tres rangos de edad los cuales se han establecido de 21 a
30 aos, de 31 a 40 aos y de 41 a 50 aos. Si nos fijamos en estos rangos notaremos
que los puntos medios son 25, 35 y 45 respectivamente. Los resultados de la
organizacin de estos datos se representan en la tabla [5-1].
Figura 5-1
Si aplicamos la frmula para valores agrupados obtendramos que la media es igual a
Lo que nos indicara que el promedio de edad de los encuestados es de 35 aos. Si ha

estos mismos resultados le aplicamos la ecuacin para datos desagrupados (Ecuacin 53), tomando como referencia cada uno de los valores individuales, obtendramos que la
media es igual a
Lo que nos indicara que el promedio de edad para los datos desagrupados es de
34 aosaproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde
parcialmente la exactitud de los clculos, principalmente al aumentar el nmero de
datos. Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si
se trataran de valores desagrupados, aunque tiene algunos procedimientos para valores
agrupados.
Es importante resaltar que existe una gran variedad de medias como la Media
geomtrica, la Media ponderada, la Media cuadrtica, etc. Por el momento slo
hacemos nfasis en la media aritmtica ya que es la ms utilizada, aunque se
recomienda a los lectores profundizar en estos temas.
2. MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos,
es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del
conjunto de datos despus que las observaciones se han ubicado en serie ordenada. Esta
medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la
otra mitad por encima del mismo. Para determinar la posicin de lamediana se utiliza la
frmula
Ecuacin 5-5
Para comprender este concepto vamos a suponer que tenemos la serie ordenada de
valores (2, 5, 8, 10 y 13), la posicin de la mediana sera:
Lo que nos indica que el valor de la mediana corresponde a la tercera posicin de la

serie, que equivale al nmero (8). Si por el contrario contamos con un conjunto de datos
que contiene un nmero par de observaciones, es necesario promediar los dos valores
medios de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendramos la serie
ordenada (2, 5, 8, 10, 13 y 15) y la posicin de la mediana sera,
Es decir, la posicin tres y medio. Dado que es imposible destacar la posicin tres y
medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para
producir una mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo
que nos indicara que la mitad de los valores se encuentra por debajo del valor 9 y la
otra mitad se encuentra por encima de este valor.
En conclusin la mediana nos indica el valor que separa los datos en dos fracciones
iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan
con un nmero impar de observaciones o datos, la mediana dar como resultado una de
las posiciones de la serie ordenada; mientras que para las muestras con un nmero par
de observaciones se debe promediar los valores de las dos posiciones centrales.
3. MODA
La medida modal nos indica el valor que ms veces se repite dentro de los datos; es
decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que ms veces se repite es el
nmero 2 quien seria la moda de los datos. Es posible que en algunas ocasiones se
presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros
casos ms de dos valores, lo que se conoce como multimodal.
En conclusin las Medidas de tendencia central, nos permiten identificar los

valores ms representativos de los datos, de acuerdo a la manera como se tienden a
concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor
que obtendra cada uno de los individuos si se distribuyeran los valores en partes
iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos
partes iguales, cada una de las cuales cuenta con el cincuenta porciento de los datos. Por
ltimo la Moda nos indica el valor que ms se repite dentro de los datos.
Medidas de Dispersin - Varianza y Desviacin

As como las medidas de tendencia central nos permiten identificar el punto central de
los datos, las Medidas de dispersin nos permiten reconocer que tanto se dispersan los
datos alrededor del punto central; es decir, nos indican cuanto se desvan las
observaciones alrededor de su promedio aritmtico (Media). Este tipo de medidas son
parmetros informativos que nos permiten conocer como los valores de los datos se
reparten a travs de eje X, mediante un valor numrico que representa el promedio de
dispersin de los datos. Las medidas de dispersinms importantes y las ms utilizadas
son la Varianza y laDesviacin estndar (o Tpica).
1. VARIANZA
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de
los valores respecto a su punto central (Media
). Este promedio es calculado,
elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los
signos negativos), y calculando su promedio o media; es decir, sumado todos los
cuadrados de las diferencias de cada valor respecto a la media y dividiendo este
resultado por el nmero de observaciones que se tengan. Si la varianza es calculada a
una poblacin (Total de componentes de un conjunto), la ecuacin sera:
Ecuacin 5-6
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( )
representa la media poblacional y (N) es el nmero de observaciones tamao de la
poblacin. En el caso que estemos trabajando con una muestra la ecuacin que se
debe emplear es:
Ecuacin 5-7
Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( )
representa la media de la muestra y (n) es el nmero de observaciones tamao de la
muestra. Si nos fijamos en la ecuacin, notaremos que se le resta uno al tamao de la
muestra; esto se hace con el objetivo de aplicar una pequea medida de correccin a la
varianza, intentando hacerla ms representativa para la poblacin. Es necesario resaltar
que la varianza nos da como resultado el promedio de la desviacin, pero este valor se
encuentra elevado al cuadrado.
2. Desviacin estndar o Tpica
Esta medida nos permite determinar el promedio aritmtico de fluctuacin de los datos
respecto a su punto central o media. La desviacin estndar nos da como resultado un
valor numrico que representa el promedio de diferencia que hay entre los datos y la
media. Para calcular la desviacin estndar basta conhallar la raz cuadrada de la
varianza, por lo tanto su ecuacin sera:
Ecuacin 5-8
Para comprender el concepto de las medidas de distribucin vamos a suponer que el
gerente de una empresa de alimentos desea saber que tanto varan los pesos de
los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al
azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos
(490, 500, 510, 515 y 520) gramos respectivamente.
Por lo que su media es:
La varianza sera:
Por lo tanto la desviacin estndar sera:
Con lo que concluiramos que el peso promedio de los empaques es de 507 gramos, con
una tendencia a variar por debajo o por encima de dicho peso en 12 gramos.
Esta informacin le permite al gerente determinar cuanto es el promedio de perdidas
causado por el exceso de peso en los empaques y le da las bases para tomar los
correctivos necesarios en el proceso de empacado.
Medidas de Distibucin - Asimetra y Curtosis

Las medidas de distribucin nos permiten identificar la forma en que se separan o
aglomeran los valores de acuerdo a su representacin grfica. Estas medidas describen
la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se
hallen dentro de la informacin. Su utilidad radica en la posibilidad de identificar
las caractersticas de la distribucin sin necesidad de generar el grfico. Sus principales
medidas son la Asimetra y la Curtosis.
1. ASIMETRA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmtica). La asimetra presenta tres estados
diferentes [Fig.5-1], cada uno de los cuales define de forma concisa como estn
distribuidos los datos respecto al eje de asimetra. Se dice que la asimetra es
positiva cuando la mayora de los datos se encuentran por encima del valor de la media
aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como asimetra
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la
media.
Figura 5-1
El Coeficiente de asimetra, se representa mediante la ecuacin matemtica,
Ecuacin 5-9
Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada uno de los
valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de
esta ecuacin se interpretan:
(g1 = 0): Se acepta que la distribucin es Simtrica, es decir, existe aproximadamente la
misma cantidad de valores a los dos lados de la media. Este valor es difcil de conseguir
por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos
( 0.5).
(g1 > 0): La curva es asimtricamente positiva por lo que los valores se tienden a reunir
ms en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimtricamente negativa por lo que los valores se tienden a reunir
ms en la parte derecha de la media.
Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia
que separa la aglomeracin de los valores con respecto a la media.
2. CURTOSIS
Esta medida determina el grado de concentracin que presentan los valores en la regin
central de la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentracin de valores (Leptocrtica), una concentracin normal
(Mesocrtica) una baja concentracin (Platicrtica).
Figura 5-2
Para calcular el coeficiente de Curtosis se utiliza la ecuacin:
Ecuacion 5-10
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta frmula se
interpretan:
(g2 = 0) la distribucin es Mesocrtica: Al igual que en la asimetra es bastante difcil
encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores
cercanos ( 0.5 aprox.).
(g2 > 0) la distribucin es Leptocrtica
(g2 < 0) la distribucin es Platicrtica
Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g1 = 0.5) y
un coeficiente de Curtosis de (g2 = 0.5), se le denomina Curva Normal. Este criterio es
de suma importancia ya que para la mayora de los procedimientos de la estadstica de
inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribucin normal radica en el supuesto que el 95% de los
valores se encuentra dentro de una distancia de dos desviaciones estndar de la media
aritmtica (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la
desviacin y despus le restamos a la media dos desviaciones, el 95% de los casos se
encontrara dentro del rango que compongan estos valores.
Figura 5-3
Desde luego, los conceptos vistos hasta aqu, son slo una pequea introduccin a las
principales medidas de Estadstica Descriptiva; es de gran importancia que los lectores
profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el
desconocimiento de los conceptos estadsticos.
Las definiciones plasmadas en este captulo han sido extradas de los
libros Estadstica para administradores escrito por Alan Wester de la
editorial McGraw-Hill y el libro Estadstica y Muestreo escrito por Ciro
Martnez editorial Ecoe editores (Octava edicin). No necesariamente tienes que guiarte
por estos libros ya que en las libreras encontraras una gran variedad de textos que
pueden ser de bastante utilidad en la introduccin a esta ciencia.
Escalas de Medida
Para realizar un correcto anlisis de los datos es fundamental conocer de antemano el
tipo de medida de la variable, ya que para cada una de ellas se utiliza diferentes
estadsticos. La clasificacin ms convencional de las escalas de medida las divide en
cuatro grupos denominados Nominal, Ordinal, Intervaloy Razn.
1. NOMINAL
Son variables numricas cuyos valores representan una categora o identifican un grupo
de pertenencia. Este tipo de variables slo nos permite establecer relaciones de
igualdad/desigualdad entre los elementos de la variable. La asignacin de los valores se
realiza en forma aleatoria por lo que NO cuenta con un orden lgico. Un ejemplo de este
tipo de variables es el Gnero ya que nosotros podemos asignarle un valor a los
hombres y otro diferente a las mujeres y por ms machistas o feministas que seamos no
podramos establecer que uno es mayor que el otro.
2. ORDINAL
Son variables numricas cuyos valores representan una categora o identifican un grupo
de pertenencia contando con un orden lgico. Este tipo de variables nos permite
establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si
una categora es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel
de educacin, ya que se puede establecer que una persona con ttulo de Postgrado tiene
un nivel de educacin superior al de una persona con ttulo de bachiller. En las variables
ordinales no se puede determinar la distancia entre sus categoras, ya que no es
cuantificable o medible.
3. INTERVALO
Son variables numricas cuyos valores representan magnitudes y la distancia entre los
nmeros de su escala es igual. Con este tipo de variables
podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de
sus valores y medir la distancia existente entre cada valor de la escala. Las variables de
intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicacin y
ladivisin no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya
que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente
entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10
grados equivale a la mitad de una temperatura de 20 grados.
4. RAZN
Las variables de razn poseen las mismas caractersticas de las variables de intervalo,
con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa
la ausencia total de medida, por lo que se puede realizar cualquier
operacin Aritmtica (Suma, Resta, Multiplicacin y Divisin) y Lgica(Comparacin y
ordenamiento). Este tipo de variables permiten el nivel ms alto de medicin. Las
variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala
de medida.
Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.
Las variables de escala son para SPSS todas aquellas variables cuyos valores
representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo
esto en cuenta discutiremos a continuacin los diferentes procedimientos estadsticos
que se pueden utilizar de acuerdo al tipo de medida de cada variable.
B. Anlisis Descriptivo de acuerdo al nivel de Medida
No todos los procedimientos estadsticos son realmente tiles para la totalidad de los
niveles de medida. Cada uno de los tipos de medida posee ciertas caractersticas, las
cuales debemos tener en cuenta en el momento de realizar un anlisis descriptivo. En la

tabla [5-2], encontrars algunos de los procedimientos que resultan ventajosos en
los anlisis descriptivos de los diferentes niveles de medida. Es necesario aclarar que
esta tabla es slo una muestra de las medidas que se pueden emplear; en algunos textos
deestadstica aparecen tablas ms amplias y detalladas de los procedimientos.
Tabla 5-2
Si nos fijamos en la tabla 5-2, notaremos que los niveles Nominal y Ordinal cuentan con
los mismos procedimientos de anlisis, por lo que se agrupan como variables
categricas. A partir de este punto cuando nos refiramos a las variables categricas
debemos recordar que se alude a las variables de tipoNominal y Ordinal.
Es importante resaltar que para los anlisis descriptivos no hay una gran diferencia entre
estos dos tipos de variables, pero si existe diferencia en los anlisis de Inferencia. Antes
de conocer como se efectan estos procedimientos en SPSS, es necesario exponer las
razones por las que ciertos procedimientos no son de utilidad en algunos de los niveles
de medida.
B.1. Variables Categricas
Para las variables que representan categoras o grupos de pertenencia, los principales
procedimientos estadsticos, que se pueden utilizar en su anlisis descriptivo son
las frecuencias (Recuento), el Porcentaje, la Moda, en algunos casos la mediana y los
grficos ms favorables son el de Sectores y el de Barras.
Para comprender mejor la razn de estos procedimientos vamos a realizar el anlisis de
la variable Gnero, la cual cuenta con los valores (1, 1, 1, 1, 1, 1, 1, 1, 2, 2); en donde el
valor uno (1) representa al gnero Femenino y el valor Dos (2) al gnero Masculino. Las
frecuencias y sus respectivos porcentajes para esta variable seran los expuestos en la
tabla [5-3]. Ahora si hallamos las principales medidas de tendencia central, obtenemos
los resultados expuestos en la tabla [5-4].
Figura 5-4
Si nos fijamos en los resultados notaremos que la Media toma el valor 1.2, el cual nos
indica que en promedio los encuestados cuenta con un gnero de (1.2). Este resultado no
posee una interpretacin aplicable a la informacin de la variable, por lo que esta
medida no es de utilidad en el anlisis descriptivo.
Si observamos la Mediana notaremos que toma el valor 1, que para el caso corresponde
al gnero Femenino, pero si en vez de 10 valores tuviramos nicamente dos (1 y 2), la
mediana sera de (1.5), cuya interpretacin no es aplicable a la informacin de la
variable. La mediana se puede utilizar cuando estamos trabajando con variables que
contienen un elevado nmero de categoras y su interpretacin se debe manejar como un
factor informativo para el investigador y no como una medida representativa en
el reporte.
Por ltimo encontramos la Moda, la cual para el caso asume el valor 1 y nos indica que
la categora con mayor frecuencia dentro de la variable es la correspondiente al gnero
Femenino. Las medidas de dispersin y distribucin no son aplicables a este tipo de
variables ya que sus ecuaciones nos permiten determinar como se comportan los datos
respecto a un punto central o media. Si hallamos la desviacin estndar para los datos
del ejemplo, obtendramos un valor de 0.42164, que nos indicara que el promedio del
gnero presenta una variacin de 0.42, cuyo resultado no sera aplicable a la
interpretacin de la variable.
B.2. Variables de Escala
Este tipo de variables nos permite realizar anlisis ms profundos de los datos,
aplicando una gran variedad de medidas. Al contrario de las variables categricas en
este tipo de variables las frecuencias no son de utilidad en los anlisis descriptivos,
debido a la gran cantidad de valores que suele tomar. Supongamos que realizamos un
sondeo de edad con una muestra de 500 personas, si generamos una tabla de frecuencias
obtendramos fcilmente unos 60 o 70 rangos diferentes hacindola muy extensa y poco
informativa.
Para las variables de escala son ms informativas la medidas como la media, la
mediana, la desviacin estndar, la asimetra y otras ms, a las cuales se les suele
denominar Medidas de Resumen.

COnceptos Estadistica Descriptiva

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

COnceptos Estadistica Descriptiva

Uploaded by

Copyright:

Available Formats

Medidas tendencia central: Media Mediana y Moda

Lo que nos indicara que el promedio de edad de los encuestados es de 35 aos. Si ha

Lo que nos indica que el valor de la mediana corresponde a la tercera posicin de la

En conclusin las Medidas de tendencia central, nos permiten identificar los

Medidas de Dispersin - Varianza y Desviacin

Por lo tanto la desviacin estndar sera:

Medidas de Distibucin - Asimetra y Curtosis

cuales debemos tener en cuenta en el momento de realizar un anlisis descriptivo. En la

You might also like