You are on page 1of 54

Medidas Estadísticas

• Medidas de Centralización: Nos sirven para ver sobre que


valores se concentra la variable.
• Medidas de Dispersión: Cuantifican la concentración o no
concentración de los datos. También nos van a dar una idea
sobre la representatividad de las medidas centrales, a mayor
dispersión menor representatividad.
• Medidas de Localización: Útiles para encontrar
determinados valores importantes, para una “clasificación”
de los elementos del colectivo de datos.
• Medidas de Forma: Sirven para ver si la distribución tiene
el mismo comportamiento por encima y por debajo de
los
valores centrales. Comparan la forma de la distribución con
la forma de la distribución Normal, que es la
distribución que se toma como referencia.
MEDIDAS REPRESENTATIVAS DE UN
CONJUNTO DE DATOS ESTADÍSTICOS
Medidas de Centralización
Media aritmética: La media aritmética de una variable se
define como la suma ponderada de los valores de la variable
por sus frecuencias relativas:
n
n
x   xi hi   fi
x n
i1 i i1

xi representa el valor de la variable o en su caso la marca de


clase.
Ventajas y Desventajas
• Única, fácil cálculo e interpretable y tiene en cuenta todos los
valores.
• Con valores extremos no es representativa.
• No se puede calcular para caracteres cualitativos o intervalos no
acotados.
• Depende de la división en intervalos en el caso de variables
continuas.
Ejemplo
Cálculo de la media aritmética para datos clasificados en intervalos
de clase.
li-1 - li ni xi x i ni
li-1 - li ni
0 - 10 1 5 5 -19 -19
0 - 10 1
10 - 20 2 10 - 20 2 15 30 -9 -18
20 - 30 4 20 - 30 4 25 100 +1 +4
30 - 40 3 30 - 40 3 35 105 +11 +33
n=10

Solución

La media aritmética es:

Se puede comprobar sumando los elementos de la última


columna que:
Propiedades:
• M[k.X] = k.M[X], k:constante
• M[kX] = k  M[X]
• Para cualquier posible valor k que consideremos como
candidato a medida central, , lo mejora en el sentido de
los mínimos cuadrados, es decir:

• Dados r grupos con n1, n2, ..., nr observaciones y siendo


, , . . , las respectivas medias de cada uno de
ellos.
Entonces la media global es

• Linealidad
Ejemplo

Solución
Ejemplo

Solución
Ejemplo
Xi ni
Calcular la media de la siguiente distribución. 38432 4
38434 8
38436 4
38438 3
Si efectuamos un cambio de variable 38440 8

y i  x i  38436
2
tomando como nueva variable el valor más centrado, tendremos::

xi ni yi yi ni
38432 4 (38432 - 38436)/2 = -2 -8
38434 8 (38434 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
n = 27 3
Medidas de Centralización
Mediana: La mediana es el valor central de la variable, es
decir, supuesta una muestra ordenada en orden creciente o
decreciente, es el valor que divide en dos partes a dicha
muestra. Para calcular la mediana debemos tener en cuenta
si la variable es discreta o continua.

Ventajas
• Representativa para datos en escala ordinal.
• Influenciada por valores centrales y es insensible a
los valores extremos u “outliers ”.
• No tiene en cuenta todas las observaciones.
• Depende de la posición relativa de los datos, no de sus
valores.
• Es función de los intervalos escogidos.
Propiedades
• Si una población está formada por 2 subpoblaciones de
medianas Med1 y Med2, sólo se puede afirmar que la mediana,
Med, de la población está comprendida entre Med1 y Med2.

• La suma de las diferencias de los valores absolutos de n


puntuaciones respecto a su mediana es menor o igual que
cualquier otro valor.
A.- Cálculo de la mediana (caso discreto sin tabular):

Tendremos en cuenta el tamaño de la muestra


Ejemplo:
B- Cálculo de la mediana (caso discreto tabulado):

Tendremos en cuenta si n/2 = Ni


Ejemplo:
Xi. ni Ni
5 8 8
10 17 25 n/2 = 50 /2 = 25 = N2
15 12 37
20 10 47
25 3 50

Me = (10 + 15) / 2 = 12.5


C.- Cálculo de la mediana (caso continuo):
n
n
N i1  2  Ni 2 N i.1
• ai

Me  L i1
 N Ni i1

Ejemplo:

Intervalo mediano

Observación: Si n /2 es igual al límite inferior  Me = L i-1 de la siguiente


clase (asumimos intervalos semicerrados, [ ).
Figura: Cálculo geométrico de la mediana
Medidas de Centralización
Moda: La moda es el valor de la variable que tenga mayor
frecuencia absoluta, la que más se repite, es la única
medida de centralización que tiene sentido estudiar en una
variable cualitativa, pues no precisa la realización de
ningún cálculo.

Ventajas y Desventajas
• Pueden existir varias modas (distrib.
bimodales, trimodales,...)
• No tiene en cuenta todas las
observaciones.
• Es menos representativa
que la media.
• Se puede calcular para características
• Es función de los intervalos elegidos a través de su
amplitud, número y límites de los mismos.
• Aunque el primero o el último de los intervalos no
posean extremos inferior o superior respectivamente, la
moda puede ser calculada.
• La moda también es menos afectada por unas pocas
observaciones atípicas.
• Si el conjunto de datos es bimodal, su uso puede ser
confuso.
Figura: Cálculo geométrico de la moda
A.- Cálculo de la moda (caso discreto):

Tendremos en cuenta el valor con mayor frecuencia.


Ejemplo:

Distribución de 100 familias según número de hijos

X: nº hijos fi hi %
0 15 15/100 15
Mayor
Moda 1 31 31/100 31 frecuencia
2 50 50/100 50
3 2 2/100 2
>4 2 2/100 2
B.- Cálculo de la moda (caso continuo)

Mo  L i1
 ni  ni1 •a i

(n  n )(n  n )
i i1 i i1

ni-1 < ni > ni+1

Intervalo modal
Relación entre media, mediana y moda
• En el caso de distribuciones unimodales, la mediana está con
frecuencia comprendida entre la media y la moda (incluso más
cerca de la media).
• En distribuciones que presentan cierta inclinación, es más
aconsejable el uso de la mediana. Sin embargo en estudios
relacionados con propósitos estadísticos y de inferencia suele
ser más apta la media.

La medida que se seleccione depende de la naturaleza de los datos o de la


forma como se utilicen los datos.
Comparación entre media, mediana y moda

Ejemplo

• Un vendedor minorista popular de equipos para acampar, se beneficiaría muy poco del
hecho de saber que la talla promedio de las botas de excursionismo que vendió fue de
7.3492. De mayor utilidad para las decisiones futuras del negocio será conocer el
tamaño modal reconociendo que vendió más botas de talla 8 que de cualquier otra
talla.

• Sin embargo, si se desea comercializar una nueva tienda de acampar. Las dimensiones
de la tienda dependerán, entre otras cosas, de la estatura promedio de los adultos.

• La experiencia ha demostrado que la media sirve muy bien como medida de tendencia
central cuando se trata de productos que están hechos para acomodarse a la
estatura de las personas. El tamaño de los marcos de las puertas de las entradas de
los hogares y negocios minoristas, y gran parte del mobiliario se fabrica con base en la
estatura promedio.
Observación:
Para distribuciones unimodales moderadamente asimétricas
(sesgadas) tenemos las siguientes tres relaciones empíricas entre
la media, moda y mediana (válidas tanto para datos aislados
como para datos agrupados por clases):
Medidas de Localización
Cuantiles: Son medidas de localización que dividen a la
serie estadística en grupos particulares
percentil

deja a su izquierda, a lo más, el deja a su derecha, al menos, el (1-


k% de las observaciones k)% de las observaciones
Tipos:
Cuartiles: Q1 = X0,25 , Q2 = X0,50 , Q3 = X0,75

Deciles: D1 = X0,1 , D2 = X0,2 ,…, D9 = X0,9

Percentiles: P1 = X0,01 , P2 = X0,02 ,…, D99 = X0,99


Medidas de Localización
Cuartiles: Datos sin clasificar
Posición:
(n+1)/4
Qi = xi +f*( xi+1 – xi)

Ejemplo: n = 12
111222334567

Posición: 13/4=3.25 Q1 = 1+ 0.25(2-1) = 1.25


Ejemplo
Medidas de Localización
Cuartiles, Deciles y Percentiles: Datos Clasificados

kn
N i1  4  N i 

k•
kn 10 
Ni1   Ni d  L i1  n N i1 • ai
10
k
N N
i i1


k•
kn
n 100 N i1 • ai
Ni1   Ni p k  Li1  N i  N i1
100

Medidas de Localización
Ejemplo:
Cuartiles, Deciles y Percentiles: Caso continuo

Intervalo cuartílico
para Q1

1(50)
6 4  12.5  16  i 
2
Ejercicios
1. Supóngase que un estudiante tiene las siguientes notas en cuatro cursos
matriculados un cuatrimestre: 67, 82, 90, 71. El número de créditos que
vale cada curso es, respectivamente: 3, 2, 2, 4. Calcule un promedio
adecuado.

2. Los siguientes datos representan los gastos diarios por impresión de


fotocopias de dos estudiantes que realizaron en 8 sesiones de
clases.
¿cuál es el promedio por gastos de fotocopias?
3. ¿En cuál de las siguientes situaciones, la muestra es
más homogénea?
20
50

40
15

Frecuencia
Frecuencia

30

10

20

10

0 0
0 ,00 2,0 0 4 ,0 0 6,00 8 ,00 10 ,00 0,00 2 ,00 4,00 6 ,00 8,00 1 0,00

A C

* 25

20
Frecuencia

15

10

0
-2 ,00 0,0 0 2,00 4 ,00 6,0 0 8,00 1 0 ,00
B
4. Según la distribución de las notas (en una escala de 1 a 10), ¿cómo
crees que es la prueba A?
a. Fácil *
b. Normal, ni fácil ni difícil
c. Difícil

A B

1 00 80

80

60
Frecuencia

Frecuencia
60

40

40

20

20

0 0
2,00 3,00 4,00 5,00 6 ,00 7,00 8 ,0 0 9,0 0 1 ,0 0 2 ,00 3,0 0 4,00 5 ,00 6 ,00 7,0 0 8 ,00

A B
5. La tabla presentada a continuación representa el consumo de energía
eléctrica de 80 usuarios en el primer mes del 2005:
Consumo Número de
(Kwh) usuarios
5 – 25 04
25 – 45 06
45 – 65 14
65 – 85 26
85 – 105 14
105 – 125 08
125 – 145 06
145 – 165 02
Total 80

a) Construya el histograma de la variable consumo y la ojiva ascendente.


b) Examine la centralidad de la distribución con un promedio adecuado.
c) ¿Qué porcentaje de usuarios consume entre 50 y 150 Kwh?
d) ¿Qué nivel mínimo tiene el 25% de los usuarios con mayor consumo?
Solución con SPSS
Case Summariesa
li ls fi Yi
1 5 25 4 15
2 25 45 6 35
3 45 65 14 55
4 65 85 26 75
5 85 105 14 95
6 105 125 8 115
7 125 145 6 135
8 145 165 2 155

a. Limited to first 100 cases.

Statistics

Yi
N Valid 80
Missing 0
Mean 79.50
Median 78.00a
Mode 75
Percentiles 25 58.00b
50 78.00
75 100.45
a. Calculated from grouped data.
b. Percentiles are calculated from grouped data.
Solución con Casio fx-9860

Elementos de cálculo para Me

Elementos de cálculo para Mo


ESTADÍSTICOS DE LOCALIZACIÓN
(POSICIÓN NO CENTRAL)
Ejercicios: Responder usando cuantiles.
– El 5% de los productos elaborados tiene
un peso demasiado bajo. ¿Qué peso se
“demasiado bajo”?
considera • Percentil 5 o cuantil 0,05

– ¿Qué peso es superado sólo por el 25% de los


artículos?
• Percentil 75

– El colesterol se distribuye simétricamente en la


población. Se considera patológico los valores
extremos. El 90% de los individuos son normales
¿Entre qué valores se encuentran los individuos
normales? • Entre el percentil 5 y el 95

– ¿Entre qué valores se encuentran la mitad de


los individuos “más normales” de una población?
• Entre el cuartil 1º y 3º
Ejercicios resueltos
Ejercicio 1:

Se analizó el índice de ventas en diversos países europeos, a la compra de obras


de arte. Los resultados obtenidos fueron los siguientes:

a) Calculo de la media aritmética, la mediana y la moda.


b) Calcular los cuartiles:
Solución :
a) Construimos las siguientes cuatro frecuencias:
b) Como sabemos el segundo cuartil es igual a la mediana
Ejercicio 2:

¿Se producen alteraciones en las medidas de posición al realizar un


cambio de origen?
Solución :

El cambio de origen supone una traslación del tipo y = x + a. Las


medidas de posición son afectadas de la siguiente forma:

Media

Moda
Mediana
Cuartiles, deciles y percentiles

Ejercicio 3: Nº de
Salarios empleados
La distribución de los costes salariales de los 0-15000 2145
10000 empleados de una multinacional se 15000-20000 1520
presenta en la tabla siguiente:
20000-25000 840
Calcular el salario medio por trabajador, el
25000-30000 955
salario típico y el salario central. Calcular
30000-35000 1110
también el primer cuartil salarial y el percentil
75. Interpretar. 35000-40000 2342
40000-50000 610
50000-100000 328
100000-300000 150
Solución :
La tabla siguiente contiene los elementos relativos a la distribución de
frecuencia de la variable salario (X) necesarios para realizar los cálculos
pedidos en el problema.
Nº de
empleado Marcas =
Salarios s (ni) xi xi* ni Ni ci di= ni/ ci
0-15000 2145 7500 16087500 2145 15000 0,143
15000-20000 1520 17500 26600000 3665 5000 0,304
20000-25000 840 22500 18900000 4505 5000 0,168
25000-30000 955 27500 26262500 5460 5000 0,191
30000-35000 1110 32500 36075000 6570 5000 0,222
35000-40000 2342 37500 87825000 8912 5000 0,4684
40000-50000 610 45000 27450000 9522 10000 0,061
50000-100000 328 75000 2460000 9850 50000 0,0056
100000-300000 150 200000 30000000 10000 200000 0,00075
10000 293800000
Para hallar el salario medio por trabajador calculamos la media de la
variable X.

Para hallar el salario más frecuente se calcula la moda de la variable


X. Para ello hemos de tener presente que los intervalos de la distribución de
frecuencias son desiguales, por lo que el intervalo modal será el
correspondiente al mayor valor de di, es decir será el intervalo (35000 –
40000). Por lo tanto la moda se calcula como sigue:
Para hallar el salario central, tal que la mitad de los restantes sea inferior a él
se calcula la mediana. Para ello, como N/2 = 5000, el intervalo mediano será
(25000 – 30000) ya que Ni-1 < N/2 < Ni es equivalente en este problema a
4505 < 5000 <5460. La mediana
se calculará como sigue:

Para calcular el primer cuartil observamos que como N/4 = 2500, el intervalo
relativo al primer cuartel será (15000-20000) ya que Ni- 1<2500<Ni es
equivalente en este problema a 2145<2500<3665.El primer cuartel se
calculará como sigue:
El primer cuartel se interpreta como el valor de la variable para el que la
cuarta parte de los valores son menores que él y las tres cuartas partes
restantes son superiores.

Para calcular el percentil 75 (cuantil 75 de orden 100), observamos que como


75N/100 = 7500, el intervalo relativo al percentil 75 será (35000-40000) ya
que Ni-1<7500<Ni es equivalente en este problema a 6570<7500<8190. El
percentil 75 se calculará como sigue:

El percentil 75 se interpreta como el valor de la variable para el que el 75%


de los valores son inferiores a él y el 25% restante son superiores. El
percentil 75 también podrá haberse calculado como el tercer cuartil (cuantil
3de orden 4). Como 75N/100=7500=3N/4, el tercer cuartil se calcularía
como sigue:
El tercer cuartil se interpreta como el valor de la variable para el que las
tres cuartas partes de los valores son inferiores a él y la cuarta parte
restante es superior. Como las tres cuartas partes son el 75%, el
percentil 75 coincide con el tercer cuartil.
Ejercicio 4:
En el marco de un estudio sobre la posible incidencia que tiene la religión
profesada por los distintos matrimonios en la presencia de una mayor ó
menor frecuencia de divorcios, se ha tomado una muestra aleatoria a nivel
mundial de tamaño 32000

Religión \ Divorcio Divorcio No divorcio


Católicos 1435 7565
Ateos 845 2155
Musulmanes 160 7840
Protestantes 610 4390
Otros 1250 5750

a)Basando tus razonamientos y afirmaciones en las frecuencias relativas que


resulten mas informativas para este estudio señala cual es la religión donde
los matrimonios presentan una mayor probabilidad de terminar en divorcio
y cual es en la que se dan menos.
b)Obtener las frecuencias marginales absolutas y relativas de la
variable divorcio.
a) En este caso las frecuencias que proporcionan más información son las
frecuencias relativas condicionales de Divorcio/Religión.

Frec. Relativa (Divorcio/ Católicos) = 1435/(1435+7565)=15.94% de los


matrimonios católicos acaban en divorcio

Frec. Relativa (Divorcio/Ateos) = 845/(845+2155)=28.17% de los matrimonios


ateos acaban en divorcio.

Frec. Relativa (Divorcio/Musulmanes) =160/(160+7840)=2% de los


matrimonios musulmanes acaban en divorcio.

Frec. Relativa (Divorcio/Protestantes) = 610/(610+4390)= 12.2% de los


matrimonios musulmanes acaban en divorcio.

Frec. Relativa (Divorcio/ Otros) = 1250/(1250+5750)=17.9% de los otros


matrimonios acaban en divorcio.

A partir de los datos se observa que en el caso de los ateos hay mas
probabilidad de que los matrimonios acaben en divorcio 28.17%. En la religión
musulmana ocurrirá justo lo contrario con solo un 2% de divorcios.
b) Obtener las frecuencias marginales absolutas y relativas de la
variable divorcio.

Frecuencias marginales de la variable divorcio:

Frecuencias absolutas marginales: divorcio si: 4300 divorcio no:


27700

Frecuencias relativas marginales: divorcio si: 4300/32000=13.44%


divorcio no:27700/32000=86.56%
Ejercicio 5:

You might also like