You are on page 1of 19

TEMA I

Introducción a la Estadística
Para quién es la estadística?
Para el científico?,
el investigador? o para el ingeniero?

En realidad todos utilizamos la Estadística aunque sea inconscientemente. Claro!, en


el quehacer cotidiano cuántas veces miramos el reloj?, o predecimos el aguacero que
se va a venir basados en el fuerte sol que se está haciendo?
El elemento Estadística aparece en el momento en que a partir de observaciones o
mediciones se compara con datos anteriores para llegar a alguna conclusión.
Este Manual de Estadística no es un curso de formación teórica, sino más bien una
especie de recetario práctico al que pueda acudir el administrador agropecuario, el
granjero o el pequeño empresario (las grandes empresas ya cuentan con sus
ingenieros que les resuelven todo) para aplicar la receta a su problema específico.
La estadística es parte del método científico que tiene por objeto la recolección, la
organización, el análisis, la interpretación y la representación de datos; la estimación
de cantidades de población, el probar hipótesis, la determinación de la exactitud en
las estimaciones, cuantificación y estudio de la variación y el diseño de experimentos
y reconocimientos. En todos los casos anteriormente citados, esta inherente y
confusamente implícito el proceso conocido como método de reducción de datos, o
el aspecto computacional de la Estadística.
Los métodos estadísticos constituyen uno de los medios por los que el hombre trata
de comprender la realidad de la vida. Fuera del tumulto de eventos individuales, la
existencia humana busca indefinidamente las tendencias generales. Los métodos
objetivos y controlados que permiten abstraer grupos de muchos individuos aislados,
son llamados Métodos Estadísticos.
Cabe aclarar que el termino popular "Estadísticas" es utilizado para mostrar un
conjunto de cifras que representan algún evento o fenómeno ocurrido de tipo
histórico o cronológico, y que es muy diferente del significado de la ESTADISTICA.
La Estadística puede estudiarse como dos grandes ramas: ESTADISTICA
DESCRIPTIVA y ESTADISTICA INFERENCIAL.
Por Estadística Descriptiva se entiende aquellas técnicas e instrumentos que se
emplean cuando únicamente se desea describir y analizar un conjunto de datos. La
confección de cuadros y gráficos, la distribución de frecuencias, el calculo de
promedios, varianzas y correlaciones, son ejemplos de técnicas empleadas en la
Estadística Descriptiva.

1
Por Estadística Inferencial se entienden las técnicas o procedimientos que se
emplean cuando el propósito perseguido es no solo describir los datos sino
generalizar lo observado en ellos para un conjunto o universo mayor, del cual fueron
seleccionados.

Algunos conceptos básicos


En el análisis estadístico de una masa de información los datos pueden ser de
acuerdo a su naturaleza, variables o constantes.
Constantes
Son como su nombre lo indica, aquellas características que la observar en diferentes
personas, lugares o cosas, cuyo valor no cambia.
Por ejemplo el peso de una carreta vacía es una constante.
Variables
En el estricto sentido de la palabra, es la propiedad que tiene un elemento de
diferenciarse de otro del mismo conjunto, grupo o muestra. Las variables pueden
clasificarse en dos grandes grupos que son cualitativas y cuantitativas y éstas a su
vez se dividen en discretas y continuas.
Variables cualitativas
Son aquellas que se refieren a atributos no medibles tales como el color, olor, sexo,
etc.
Variables cuantitativas
Son aquellas cuyos diferentes estados pueden ser expresados de una manera
numérica. Longitud, altura y peso, son ejemplos de variables cuantitativas.
Variables discretas
Son aquellas que se caracterizan por saltos o interrupciones en los valores que estas
pueden tener. Estos saltos indican la ausencia de valores intermedios entre los
valores particulares.
Por ejemplo:
Una palma puede producir en cierto período 10 racimos, 15 o 20, pero no puede
decirse que produjo 12.5 racimos.

Variables continuas
Se caracterizan por alcanzar (teóricamente), un número infinito de valores entre 2
puntos cualesquiera. Cualquier lectura de una variable continua es aproximación de
la medida exacta.
Por ejemplo:
La longitud de una hoja de palma es de 645 cm, pero si se quiere ser más preciso se
pueden contar los milímetros que hay después del 654 cm y aún así, si se contara con
un instrumento de mayor precisión se podrían contar las micras y así sucesivamente.

2
TEMA II
Distribución de Frecuencias
Cuando la información que se tiene es un gran volumen, resulta muy conveniente
ordenar y agrupar los datos para manejarlos de acuerdo a la distribución de
frecuencias la cual consiste en agrupar los datos en clases o categorías que estarán
definidas por un límite mínimo y uno máximo de variación, mostrando en cada clase
el número de elementos que contiene o sea la frecuencia.
Clase: Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados
con características comunes

Reglas para formar las clases


Determinación del rango: El rango es la diferencia del valor máximo menos el
valor mínimo de todo el bloque de datos.
Determinación del intervalo de clase: Es el cociente del rango entre el número
de clases. El número de clases queda a criterio del investigador y se aconseja
que este sea entre 8 y 12.
Determinación de los límites de clases: Arrancando de un valor cercano al
mínimo se establece el primer límite de clase, a este se le suma el intervalo para
obtener la segunda clase y así sucesivamente.
Determinación de la frecuencia: Consiste en contar cuantos datos caen dentro de
cada clase.

Ejemplo :

Límites
Peso de racimos por palma producidos en un lote de clase
comercial
30-35
32 42 47 52 60 Rango: 35-40
74-32=42
35 43 47 53 60 40-45
36 43 48 53 62 Intérvalo: 45-50
42/8 =
37 44 49 54 66 5.25 50-55
40 45 49 55 67 =5 55-60
40 45 50 56 68 60-65
41 46 51 57 70 65-70
41 46 51 59 74 70-75
Las clases así construidas tienden a crear cierta ambigüedad ya que no haber la
posibilidad de que ningún dato se quede sin incluir ni que se incluya mas de una vez.
Por lo consiguiente, se hace necesario a definir los límites reales de las clases. Estos
se obtienen fraccionando las unidades.

Distribución.

3
29.5 - 34.5 / 1
34.5 - 39.5 /// 3
39.5 - 44.5 //////// 8
44.5 - 49.5 ///////// 9
49.5 - 54.5 /////// 7
54.5 - 59.5 //// 4
59.5 - 64.5 /// 3
64.5 - 69.5 /// 3
69.5 - 74.5 // 2
Para establecer los límites reales de las clases es necesario conocer el método de
redondeo empleado ya que de éste dependerán los límites.
Hay tres formas de redondeo a saber:

Método dígito siguiente último dígito ejemplo


menor que 5 no cambia 48.3 = 48
usual mayor que 5 aumenta 48.6 = 49
aumenta si es impar 47.5 = 48
igual a 5
no cambia si es par 48.5 = 48
hacia arriba siempre sube 48.1 = 49
hacia abajo siempre baja 48.8 = 48
De esta manera, se puede ejemplificar con los datos presentados anteriormente, tres
diferentes clasificaciones según el redondeo empleado.

Clase Método usual Hacia arriba Hacia abajo


29.5 - 34.5 30 - 34 Más de 29 a 34 30 a menos de 35
34.5 - 39.5 34 - 40 Más de 34 a 39 35 a menos de 40
39.5 - 44.5 40 - 44 Más de 39 a 44 40 a menos de 45
44.5 - 49.5 44 - 50 Más de 44 a 49 45 a menos de 50
49.5 - 54.5 50 - 54 Más de 49 a 54 50 a menos de 55
54.5 - 59.5 54 - 60 Más de 54 a 59 55 a menos de 60
59.5 - 64.5 60 - 64 Más de 59 a 64 60 a menos de 65
64.5 - 69.5 64 - 70 Más de 64 a 69 65 a menos de 70
69.5 - 74.5 70 - 74 Más de 69 a 74 70 a menos de 75

Las frecuencias pueden ser absolutas o relativas, simples o acumuladas.


Absoluta: Es el número de elementos u observaciones de una misma clase.

4
Relativa: Es el porcentaje de frecuencia observado en una clase con respecto al total.

Frecuencia acumulada: Es la suma de las frecuencias que se hayan en cada límite. O


sea, el acumulado de la segunda clase es la suma de la primera más la segunda, el
acumulado de la tercera clase es la suma de la primera, más la segunda, más la
tercera, y así sucesivamente.
Punto medio de la clase:
Es el promedio de los límites reales.

Frecuencia Punto Frec. Acumulada Frec. Acumumulada Porcentual


Clase
absoluta medio Menos de Más de Ascendentes Descendentes
29.5-34.5 1 32 1 40 2.5 100
34.5-39.5 3 37 4 39 10.0 97.5
39.5-44.5 8 42 12 36 30.0 90.0
44.5-49.5 9 47 21 28 52.5 70.0
49.5-54.5 7 52 28 19 70.0 47.5
54.5-59.5 4 57 32 12 80.0 30.0
59.5-64.5 3 62 35 8 87.5 20.0
64.5-69.5 3 67 38 5 95.0 12.5
69.5-74.5 2 72 40 2 100 5.0

Representación Gráfica
El patrón de variación de los datos puede apreciarse mejor representando
gráficamente la información contenida en el cuadro.
Generalmente los gráficos empleados para representar distribuciones de frecuencias
son : los polígonos de frecuencias, gráficos de barras, histogramas, ojivas y gráficos
de bastones
Histograma
Son gráficos construidos de barras verticales
sin separaciones entre sí.
Para construir un histograma, se define una
escala horizontal apropiada y en ella se
marcan los límites reales de todas las clases
de la distribución que se quiere representar.
La escala no necesita comenzar en cero, pero
si un intervalo de clase antes del límite
inferior de la clase más baja.
Las frecuencias se representan en la escala
vertical, la cual si debe comenzar en cero, no tener cortes o interrupciones y ser lo
suficientemente amplia para incluir la mayor de las frecuencias.
Definidas las escalas, se procede a trazar el gráfico como en el ejemplo.

5
Polígono de frecuencias
El polígono consiste en marcar sobre cada clase un
punto, tomando como occisa el punto medio de la
clase y como ordenada la frecuencia. Esos puntos se
unen luego con secciones de rectas y la figura
resultante es el polígono.
Las Ojivas
Estas son en
realidad polígonos que utilizan las
frecuencias acumuladas con la salvedad de
que las ordenadas no se levanten sobre
el punto medio de la clase, sino sobre el límite
inferior o superior según se haya
acumulado (ascendente o descendente).
Esto se hace porque debido al
procedimiento de acumulación, la frecuencia
"menos", para un cierta clase, incluye todas
las frecuencias menores que el límite superior
de esa clase; y la acumulada "mas de", todas las frecuencias mayores que el límite
inferior de la clase.
Gráficos de bastones
El gráfico de bastones son simples líneas
gruesas verticales separadas, de altura
proporcional a la frecuencia de la clase.
Gráficos de barras
Es similar al histograma, excepto que se usa
para escalas cualitativas. Las categorías que
aparecen en el eje horizontal no tienen que
llevar un orden específico, sino colocadas en
orden alfabético. se exceptúan de esto las
escalas ordinales, por ejemplo la posición de los equipos. Es preferible que haya
separación de las barras y éstas deben ser del mismo ancho.

TEMA III
Medidas tendencia central: Media Mediana
Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se
tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características
de las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que
aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la
población. Los principales métodos utilizados para ubicar el punto central son la media, la
mediana y la moda.

1. MEDIA

6
Es la medida de posición central más utilizada, la más conocida y la más sencilla de
calcular, debido principalmente a que sus ecuaciones se prestan para el manejo
algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su
sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes
o pequeños. La media se define como la suma de todos los valores observados, dividido
por el número total de observaciones.

Ecuación 5-1

Cuando los valores representan una población la ecuación se define como:

Ecuación 5- 2

Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa
cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan
con muestras de la población todas las ecuaciones que se presenten a continuación serán
representativas para las muestras. La media aritmética para una muestra esta determinada
como

Ecuación 5-3

Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi)
representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si
los datos se encuentran desagrupados; en caso contrario debemos calcular la media
mediante la multiplicación de los diferentes valores por la frecuencia con que se
encuentren dentro de la información; es decir,

Ecuación 5-4

Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número
de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma
de las frecuencias de cada clase.

Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5
personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su
interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a
30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos
que los puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización
de estos datos se representan en la tabla [5-1].

7
Figura 5-1

Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a

Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha


estos mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-
3), tomando como referencia cada uno de los valores individuales, obtendríamos que la
media es igual a

Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años
aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde
parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos.
Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se
trataran de valores desagrupados, aunque tiene algunos procedimientos para valores
agrupados.

Es importante resaltar que existe una gran variedad de medias como la Media geométrica,
la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en la
media aritmética ya que es la más utilizada, aunque se recomienda a los lectores
profundizar en estos temas.

2. MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos,
es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del
conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta
medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la
otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la
fórmula

Ecuación 5-5

Para comprender este concepto vamos a suponer que tenemos la serie ordenada de
valores (2, 5, 8, 10 y 13), la posición de la mediana sería:

Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie,
que equivale al número (8). Si por el contrario contamos con un conjunto de datos que
contiene un número par de observaciones, es necesario promediar los dos valores medios
de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada
(2, 5, 8, 10, 13 y 15) y la posición de la mediana sería,

8
Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio,
es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una
mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaría
que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra
por encima de este valor.

En conclusión la mediana nos indica el valor que separa los datos en dos fracciones
iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan
con un número impar de observaciones o datos, la mediana dará como resultado una de
las posiciones de la serie ordenada; mientras que para las muestras con un número par de
observaciones se debe promediar los valores de las dos posiciones centrales.

3. MODA
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir,
si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2
quien seria la moda de los datos. Es posible que en algunas ocasiones se presente dos
valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de
dos valores, lo que se conoce como multimodal.

En conclusión las Medidas de tendencia central, nos permiten identificar los valores más
representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La
Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría
cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana
por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una
de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica
el valor que más se repite dentro de los datos

Media ponderada.

La media ponderada es una medida de tendencia central, se


construye asignándole a cada clase un peso, y obteniendo un
promedio para los pesos.

w x  i i
xw  i 1
n

w
i 1
i

donde

9
wi  valor de peso para xi o ponderación
xi  dato i

Ejemplo:

En una materia dada se asignan pesos de importancia, de la siguiente forma:


Unida I (20% del curso), Unidad II (25% del curso), Unidad III (20% del
curso), Unidad IV (15% de la calificación), Unidad V (20% de la calificación ).
Si las calificaciones de un alumno son 8 en la primera unidad, 5 en la segunda, 8
en la tercera unidad, 10 en la cuarta unidad y 8 en la última unidad. Es decir, se
tienen la siguiente tabla:

Unidad Ponderacion (Wi) Datos (Wi)


I 20% = 0.2 8
II 25% = 0.35 5
III 20% = 0.2 8
IV 15% = 0.15 10
V 20% = 0.10 8

8 (0.2)  5 (0.35)  8 (0.2)  10 (0.15)  8 (0.1) 7.25


xw    7.25
0.2  0.35  0.2  0.15  0.10 1.0

10
observe que diferencia existe con la media aritmética. La media para los datos es
igual a

8  5  8  10  8
x  7 .8
5

Ejercicio sobre mediadas de tendencia central es el siguiente:

Los siguientes datos representan el nivel de glucosa en sangre, en ayunas, de una


muestra de 10 años.

Número Valor
1 56
2 62
3 63
4 65
5 65
6 65
7 65
8 68
9 70
10 72

Calcular la media, la moda y la mediana.

a) Media = 65.1

b) Moda = 65

c) Mediana = 65

La media Geométrica

11
La media geométrica (MG) de un conjunto de n números positivos se define como la raíz n-
ésima del producto de los n valores. Su fórmula es:

La media geométrica se usa para encontrar el promedio de porcentajes, razones, índices o


tasas de crecimiento.

Ejemplo

Las tasas de interés de tres bonos son 5%, 7% y 4%.

La media geométrica es = 5.192.

La media aritmética es (6 + 3 + 2)/3 = 5.333.


La MG da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la
tasa de 7%.

Otra aplicación de la media geométrica es determinar el porcentaje promedio del incremento en


ventas, producción u otros negocios o series económicas de un periodo a otro.
La fórmula para este tipo de problema es:

Ejemplo
El número total de mujeres inscritas en colegios americanos aumentó de 755 000 en 1986 a
835 000 en 1995.

Aquí n = 10, así (n - 1) = 9.

Es decir, la media geométrica de la tasa de crecimiento es 1.27%.

TEMA IV
Medidas de Dispersión - Varianza y
Desviación
Así como las medidas de tendencia central nos permiten identificar el punto central de los
datos, las Medidas de dispersión nos permiten reconocer que tanto se dispersan los datos
alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones
alrededor de su promedio aritmético (Media). Este tipo de medidas son parámetros
informativos que nos permiten conocer como los valores de los datos se reparten a través
de eje X, mediante un valor numérico que representa el promedio de dispersión de los
datos. Las medidas de dispersión más importantes y las más utilizadas son la Varianza y la
Desviación estándar (o Típica).

1. VARIANZA
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los
valores respecto a su punto central (Media ). Este promedio es calculado, elevando cada
una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y

12
calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias
de cada valor respecto a la media y dividiendo este resultado por el número de
observaciones que se tengan. Si la varianza es calculada a una población (Total de
componentes de un conjunto), la ecuación sería:

Ecuación 5-6

Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa
la media poblacional y (N) es el número de observaciones ó tamaño de la población. En el
caso que estemos trabajando con una muestra la ecuación que se debe emplear es:

Ecuación 5-7

Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa
la media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si
nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto
se hace con el objetivo de aplicar una pequeña medida de corrección a la varianza,
intentando hacerla más representativa para la población. Es necesario resaltar que la
varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra
elevado al cuadrado.

2. Desviación estándar o Típica


Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos
respecto a su punto central o media. La desviación estándar nos da como resultado un
valor numérico que representa el promedio de diferencia que hay entre los datos y la
media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la
varianza, por lo tanto su ecuación sería:

Ecuación 5-8

Para comprender el concepto de las medidas de distribución vamos a suponer que el


gerente de una empresa de alimentos desea saber que tanto varían los pesos de los
empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar
cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490,
500, 510, 515 y 520) gramos respectivamente.

Por lo que su media es:

La varianza sería:

13
Por lo tanto la desviación estándar sería:

Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con
una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta
información le permite al gerente determinar cuanto es el promedio de perdidas causado
por el exceso de peso en los empaques y le da las bases para tomar los correctivos
necesarios en el proceso de empacado.

Medidas de Distibución - Asimetría y Curtosis


Las medidas de distribución nos permiten identificar la forma en que se separan o
aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la
manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen
dentro de la información. Su utilidad radica en la posibilidad de identificar las
características de la distribución sin necesidad de generar el gráfico. Sus principales
medidas son la Asimetría y la Curtosis.

1. ASIMETRÍA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig.5-
1], cada uno de los cuales define de forma concisa como están distribuidos los datos
respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los
datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica
cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de
la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se
aglomeran en los valores menores que la media.

Figura 5-1

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

Ecuación 5-9

14
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, (
) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuación se interpretan:

 (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe


aproximadamente la misma cantidad de valores a los dos lados de la
media. Este valor es difícil de conseguir por lo que se tiende a tomar los
valores que son cercanos ya sean positivos o negativos (± 0.5).
 (g1 > 0): La curva es asimétricamente positiva por lo que los valores se
tienden a reunir más en la parte izquierda que en la derecha de la media.
 (g1 < 0): La curva es asimétricamente negativa por lo que los valores
se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que
separa la aglomeración de los valores con respecto a la media.

2. CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).

Figura 5-2

Para calcular el coeficiente de Curtosis se utiliza la ecuación:

Ecuacion 5-10

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se
interpretan:

 (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es


bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo que
se suelen aceptar los valores cercanos (± 0.5 aprox.).
 (g2 > 0) la distribución es Leptocúrtica
 (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de

15
suma importancia ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que el 95% de los


valores se encuentra dentro de una distancia de dos desviaciones estándar de la media
aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y
después le restamos a la media dos desviaciones, el 95% de los casos se encontraría
dentro del rango que compongan estos valores.

Figura 5-3

Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las
principales medidas de Estadística Descriptiva; es de gran importancia que los lectores
profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el
desconocimiento de los conceptos estadísticos.

Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística
para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro
Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición).
No necesariamente tienes que guiarte por estos libros ya que en las librerías encontraras
una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta
ciencia.

Escalas de Medida
Para realizar un correcto análisis de los datos es fundamental conocer de antemano el tipo
de medida de la variable, ya que para cada una de ellas se utiliza diferentes estadísticos.
La clasificación más convencional de las escalas de medida las divide en cuatro grupos
denominados Nominal, Ordinal, Intervalo y Razón.

1. NOMINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo
de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de
igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se
realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este
tipo de variables es el Género ya que nosotros podemos asignarle un valor a los hombres
y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos
establecer que uno es mayor que el otro.

2. ORDINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo
de pertenencia contando con un orden lógico. Este tipo de variables nos permite
establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una
categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de
educación, ya que se puede establecer que una persona con título de Postgrado tiene un

16
nivel de educación superior al de una persona con título de bachiller. En las variables
ordinales no se puede determinar la distancia entre sus categorías, ya que no es
cuantificable o medible.

3. INTERVALO
Son variables numéricas cuyos valores representan magnitudes y la distancia entre los
números de su escala es igual. Con este tipo de variables podemos realizar
comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y
medir la distancia existente entre cada valor de la escala. Las variables de intervalo
carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no
son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos
decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17
grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la
mitad de una temperatura de 20 grados.

4. RAZÓN
Las variables de razón poseen las mismas características de las variables de intervalo, con
la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la
ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética
(Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo
de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o
el salario, son algunos ejemplos de este tipo de escala de medida.

Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las
variables de escala son para SPSS todas aquellas variables cuyos valores representan
magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta
discutiremos a continuación los diferentes procedimientos estadísticos que se pueden
utilizar de acuerdo al tipo de medida de cada variable.

B. Análisis Descriptivo de acuerdo al nivel de Medida


No todos los procedimientos estadísticos son realmente útiles para la totalidad de los
niveles de medida. Cada uno de los tipos de medida posee ciertas características, las
cuales debemos tener en cuenta en el momento de realizar un análisis descriptivo. En la
tabla [5-2], encontrarás algunos de los procedimientos que resultan ventajosos en los
análisis descriptivos de los diferentes niveles de medida. Es necesario aclarar que esta
tabla es sólo una muestra de las medidas que se pueden emplear; en algunos textos de
estadística aparecen tablas más amplias y detalladas de los procedimientos.

Tabla 5-2

Si nos fijamos en la tabla 5-2, notaremos que los niveles Nominal y Ordinal cuentan con
los mismos procedimientos de análisis, por lo que se agrupan como variables categóricas.

17
A partir de este punto cuando nos refiramos a las variables categóricas debemos recordar
que se alude a las variables de tipo Nominal y Ordinal.

Es importante resaltar que para los análisis descriptivos no hay una gran diferencia entre
estos dos tipos de variables, pero si existe diferencia en los análisis de Inferencia. Antes de
conocer como se efectúan estos procedimientos en SPSS, es necesario exponer las
razones por las que ciertos procedimientos no son de utilidad en algunos de los niveles de
medida.

B.1. Variables Categóricas


Para las variables que representan categorías o grupos de pertenencia, los principales
procedimientos estadísticos, que se pueden utilizar en su análisis descriptivo son las
frecuencias (Recuento), el Porcentaje, la Moda, en algunos casos la mediana y los gráficos
más favorables son el de Sectores y el de Barras.

Para comprender mejor la razón de estos procedimientos vamos a realizar el análisis de la


variable Género, la cual cuenta con los valores (1, 1, 1, 1, 1, 1, 1, 1, 2, 2); en donde el
valor uno (1) representa al género Femenino y el valor Dos (2) al género Masculino. Las
frecuencias y sus respectivos porcentajes para esta variable serían los expuestos en la
tabla [5-3]. Ahora si hallamos las principales medidas de tendencia central, obtenemos los
resultados expuestos en la tabla [5-4].

Figura 5-4

Si nos fijamos en los resultados notaremos que la Media toma el valor 1.2, el cual nos
indica que en promedio los encuestados cuenta con un género de (1.2). Este resultado no
posee una interpretación aplicable a la información de la variable, por lo que esta medida
no es de utilidad en el análisis descriptivo.

Si observamos la Mediana notaremos que toma el valor 1, que para el caso corresponde al
género Femenino, pero si en vez de 10 valores tuviéramos únicamente dos (1 y 2), la
mediana sería de (1.5), cuya interpretación no es aplicable a la información de la variable.
La mediana se puede utilizar cuando estamos trabajando con variables que contienen un
elevado número de categorías y su interpretación se debe manejar como un factor
informativo para el investigador y no como una medida representativa en el reporte.

Por último encontramos la Moda, la cual para el caso asume el valor 1 y nos indica que la
categoría con mayor frecuencia dentro de la variable es la correspondiente al género
Femenino. Las medidas de dispersión y distribución no son aplicables a este tipo de
variables ya que sus ecuaciones nos permiten determinar como se comportan los datos
respecto a un punto central o media. Si hallamos la desviación estándar para los datos del
ejemplo, obtendríamos un valor de 0.42164, que nos indicaría que el promedio del género
presenta una variación de ±0.42, cuyo resultado no sería aplicable a la interpretación de la
variable.

B.2. Variables de Escala


Este tipo de variables nos permite realizar análisis más profundos de los datos, aplicando
una gran variedad de medidas. Al contrario de las variables categóricas en este tipo de

18
variables las frecuencias no son de utilidad en los análisis descriptivos, debido a la gran
cantidad de valores que suele tomar. Supongamos que realizamos un sondeo de edad con
una muestra de 500 personas, si generamos una tabla de frecuencias obtendríamos
fácilmente unos 60 o 70 rangos diferentes haciéndola muy extensa y poco informativa.

Para las variables de escala son más informativas la medidas como la media, la mediana,
la desviación estándar, la asimetría y otras más, a las cuales se les suele denominar
Medidas de Resumen.

19

You might also like