You are on page 1of 72

Estadística

descriptiva

VARIABLES
CUANTITATIVAS
DESCRIPTIVA
• Medidas de tendencia central
• Media
• Mediana
• Moda

• Medidas de dispersión
• Rango
• Varianza
• Desviación estándar
• Coeficiente de variación
• Cuantiles ( cuartiles, percentiles)
Media aritmética
• Propiedades de la Media aritmética
– En la mayoría de los casos, de todas las medidas utilizadas para calcular
la tendencia central, la media es la menos susceptible a la variaciones
debidas al muestreo.
– Una desventaja es que a pesar de que es confiable, porque toma en
cuenta todos los valores del conjunto de datos, puede verse afectada
por los valores extremos que no son representativos del resto de los
datos
• No nos da información de la variabilidad del conjunto de datos lo que hace difícil
su empleo para la toma de decisiones
Media aritmética
• Propiedades de la Media aritmética

– Es el promedio de un conjunto de datos


– Todo conjunto de datos de intervalo o de nivel de razón
poseen una media
– La suma de las desviaciones de los valores con respecto a
la media es igual a cero , esto es, la ∑ ( x – x
media) = 0
valores Media Diferencia
9 9 0 Una propiedad
8 9 -1 muy importante de
la media es que la
9 9 0
suma algebraica
8 9 -1 de las
7 9 -2 desviaciones de
10 9 1 los valores
9 9 0
respecto a la
media es igual a
11 9 2
cero
10 9 1
9 9 0
SUMA 90
Media = 9 ∑= 0
Medidas de tendencia central
• Mediana Md
– Es el valor que se encuentra a la mitad de una serie ordenada de
datos
– La mitad de los elementos están por arriba de este punto y la otra
mitad está por debajo.
– Una de las ventajas es que los términos extremos no afectan tan
intensamente como en el caso de la media
– Una de las desventajas es que no considera a todos los datos de una
serie, sino únicamente a los valores centrales empleados para su
cálculo
Medidas de tendencia central

• Moda Mo
• La moda es aquel valor que más se repite en el conjunto de datos y
normalmente lo podemos observar gráficamente cuando se elabora un
histograma o una gráfica de barras
• Se puede definir como el dato más frecuente en una distribución de
datos
• Su determinación nos permite conocer la categoría o dato que más se
repite y que términos de probabilidad nos puede permitir pronosticar
eventos.
Calcular media, mediana t Horas
y moda 1 13
2 13
• El director de relaciones humanas de 3 12
una empresa determino el número de 4 15
horas extras en el departamento de 5 7
inspección en el último mes. Una 6 15
muestra de 15 trabajadores reveló que
7 5
éstos trabajaron la siguiente cantidad
8 12
de horas extras.
9 6
10 7
11 12
12 10
13 9
14 13
15 12
Problema uno
• El jefe de producción está interesado en conocer la calidad que se tiene en
la materia prima que recibe de dos proveedores diferentes ya que pronto
iniciara la producción de un nuevo medicamento. La tabla siguiente
muestra un análisis de los gramos de principio activo en cada una de 10
muestras analizadas

Cepamex 6.6 6.5 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7
Pronal 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10

1.- Calcule la media , la moda y la mediana para ambos casos


2.- Con los datos obtenidos , cuál de los dos proveedores seleccionaría para su
empresa?
Calcular media moda y mediana
37 30 23 46 42
18 40 58 43 39
55 64 42 28 21
57 40 57 59 42
35 26 13 42 38
Tarea Calcular media moda y mediana
142 128 163 108 124
132 135 130 140 128
136 133 146 137 149
136 133 137 129 144
139 137 139 137 146
137 125 156 115 119
Media agrupada
• TABLA DE FRECUENCIAS
Limitantes de las medidas de
tendencia central
PISA 2006 PRUEBA DE CIENCIAS

Los valores medios nos sirven para comparar diferentes muestras o


poblaciones , sin embargo no nos indican como se encuentra la distribución
de los datos, no nos dice nada acerca de la forma en que se distribuyen o
dispersan los datos
8

7.15 7.15
7

0
1

CEPAMEX PRONAL

En el caso de las dos compañías, los resultados


nos dieron valores idénticos en media, mediana
y moda.
CEPAMEX
7

3 CEPAMEX

0
4.1 A 5 5.1 A 6 6.1 A 7 7.1 A 8 8.1 A 9 9.1 A 10

PRONAL
2.5

1.5

PRONAL
1

0.5

0
4.1 A 5 5.1 A 6 6.1 A 7 7.1 A 8 8.1 A 9 9.1 A 10
Medidas de dispersión
Medidas de variabilidad o dispersión

• Las medidas de variabilidad de una serie de datos, muestra o


población, permiten identificar que tan dispersos o concentrados se
encuentran los datos respecto a una medida de tendencia central.

– Una medida de variabilidad pequeña indica que los datos están agrupados
muy cerca, digamos, de la media. La media, por lo tanto es considerada
bastante representativa de la serie de datos.
– Inversamente, una gran medida de variabilidad indica que la media no es muy
representativa de los datos.
Banco 1 Banco 2
Por ejemplo si examinamos el
9 9 tiempo de atención en cajas en
8 12 dos bancos
9 6
Nos damos cuenta que ambos
8 5 bancos presentan un nivel de
7 13 atención promedio por persona
de 9 minutos, pero en el banco
10 9 dos se encuentran valores que
9 11 van desde los 5 minutos hasta
los 13 minutos
11 7
10 10 Si consideramos solo el valor
9 8 promedio no podríamos tomar
decisiones sobre la eficiencia
media= 9 Media = 9 en que trabajan los dos
S= 1.15 S= 2.58 diferentes bancos
Cómo podemos calcular la
variación?
• 1.-Rango ( alcance) Banco 1 Banco 2

–Es la diferencia entre el valor 9 9


más alto y el valor más 8 12
pequeño
9 6

8 5
• R = Vmax – Vmin
7 13
• De manera general podemos 10 9
decir que cuando más grande
sea el rango, mayor será la 9 11
dispersión de los datos de una 11 7
distribución de datos
• Sólo nos es útil cuando se 10 10
desea determinar la extensión 9 8
de las variaciones en los
extremos R = 4 R= 8
valores Media Diferencia
• Desviación media En valores
• Es la medida aritmética de los absolutos
valores absolutos de las 9 9 0
desviaciones de los datos 8 9 1
respecto a su media
9 9 0
8 9 1
7 9 2
10 9 1
9 9 0
11 9 2
10 9 1
9 9 0
En este caso los signos de las diferencias
no se toman en cuenta, lo cual hace que
el método no sea algebraicamente X= 9 DM= 8
correcto
Medidas de dispersión
• 3.-¿ Cómo podemos eliminar los signos negativos en una operación?

• Multiplicándolos por si mismos

• Multiplicándolos por otro número negativo


valores Media Diferencia Cuadrado de la
• Desviación estándar X- µ diferencia
(X-µ)2
9 9 0 0
8 9 -1 1
9 9 0 0
1.09 8 9 -1 1
7 9 -2 4
10 9 +1 1
9 9 0 0
11 9 +2 4
10 9 +1 1
9 9 0 0
1.15

µ= 9 D= 0 ∑ =12
Medidas de dispersión
• 3.-Desviación estándar es el promedio de la desviación de las
puntaciones con respecto a su valor medio

• La desviación estándar nos permite determinar, dónde están localizados los


valores de una distribución de frecuencias con relación a la media
tiempo de atención en cajas
14

12

10

8
minutos

0
1 2 3 4 5 6 7 8 9 10
banco 1 9 8 9 8 7 10 9 11 10 9
banco 2 9 12 6 5 13 9 11 7 10 8

La desviación estándar se interpreta como “cuánto se desvía, en promedio,


de la media un conjunto de puntaciones”

s1 = 1.15 s2 = 2.58
Variancia de la población

Desviación estándar

La varianza de una población de N mediciones es el promedio de los


cuadrados de las desviaciones de las mediciones respecto a su media
Varianza de la muestra

Desviación estándar de la muestra


Desviación estándar
Y cuál es su utilidad?
1.- La desviación estándar se usa al emplear la media con
datos numéricos simétricos
2.- Los percentiles se usan cuando el objetivos es comparar las
observaciones individuales con un grupo de valores normales
3.- La variación intercuartil se usa para describir el 50%
central de una distribución sin importar su forma
• Obtenga la desviación estándar de los
siguientes datos
x x2
2 4
3 9
4 16
5 25
5 25
6 36
3 9

28 124
Problema uno
• El jefe de producción está interesado en conocer la calidad que se tiene en
la materia prima que recibe de dos proveedores diferentes ya que pronto
iniciara la producción de un nuevo medicamento. La tabla siguiente
muestra un análisis de los gramos de principio activo en cada una de 10
muestras analizadas

Cepamex 6.6 6.5 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7
Pronal 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10

1.- Emplee el rango., la desviación estándar y la


varianza para determinar sus conclusiones?
• Una casa de bolsa desea realizar un comparativo entre los
rendimientos anuales y los riesgos de los instrumentos
financieros que han estado operando durante los últimos
años. Los rendimientos anules , expresados en
porcentajes son los siguientes
• Calcule rango, varianza y desviación estándar
• Cuál es su interpretación a los resultados ?

A 12 14. 19. 14. 26. 37. 23. 17. 15

B 6 5 4 7 8 9 6 5 6
tilidad de la desviación estándar
Utilidad de la desviación estándar
• Nos permite medir la variación y la posibilidad de encontrar un
valor en términos de probabilidad de un conjunto de datos y para
ello podemos emplear tres reglas:

• 1.- La regla práctica del intervalo


• 2.- Teorema de Chebyshev
• 3.- Regla empírica
Utilidad de la desviación estándar
Banco 1

• 1.- La regla práctica del intervalo 9


– De manera general podemos decir que el 95% de 8
los valores muestrales se ubican dentro de dos 9
desviaciones estándar respecto al valor de la
media 8
7
– Si continuamos con el ejercicio de los bancos y 10
consideramos los datos del banco uno y la
9
desviación estándar de la muestra
– Entonces podríamos considerar que entre el valor 11
de 6.70 ( media - dos desviaciones estándar) y el 10
valor de 11.30 ( media + dos desviaciones estándar)
9
tendríamos al 95% de los datos
media= 9
S= 1.15
Banco 2
9
12
6 • Calcule el intervalo para el 95% de los
5 datos de acuerdo a la regla practica
13
9
11
7
10
8
Media = 9
S= 2.58
2.- El Teorema de Chebyshev se aplica a cualquier distribución de un
conjunto de datos, aunque sus resultados son muy aproximados

• “La proporción ( o fracción) de cualquier conjunto de datos que está


dentro de k desviaciones estándar de la media es siempre al menos:

• Donde K es cualquier número positivo mayor que 1


• Para calcular porcentaje , la fracción la multiplicamos por 100.
• Por ejemplo cuando se tiene k con un valor de 2, nos
indica que es probable encontrar al menos al 75% la
proporción de las mediciones en el intervalo de 2
desviaciones estándar por encima y por debajo del valor
medio.

• En resumen el teorema de Chebyshev nos dice la


proporción de datos que se encuentran en el intervalo
de k desviciones estándar de separación respecto a la
media
Límites de intervalo
• Valor inferior
• µ - kσ población
• x - ks muestra

• Valor superior
• µ + kσ población
• x + ks muestra
• Si en una distribución cuya media es 2000 y la desviación estándar de
300, calcula el porcentaje mínimo que se encuentra dentro del rango
de 1.2 veces (k veces) la desviación estándar por encima y por debajo
de la media, así como sus respectivos valores que delimitan este
rango
abla siguiente se expone la participación mes
ual de la inversión extranjera en el mercado Enero 44.
ario de la Bolsa Mexicana de Valores en el Febrero 46.5
000. Marzo 44.8
ando el teorema de Chebyshev: Abril 47.3
cula el porcentaje mínimo que se encuentra Mayo 45
o del rango de 2.5 desviaciones estándar por Junio 46.7
a y por debajo de la media Julio 44
uentra los valores superior e inferior que Agosto 45
minan este rango Septiembre 44.7
Octubre 44.6
a el punto (1) y (2) empleando valores de K
Noviembre 43.
5 y de 3.0
Diciembre 41.3
mes % (x) x2
Enero 44 1936
Febrero 46.5 2162.25
Marzo 44.8 2007.04
Abril 47.3 2237.29
Mayo 45 2025
Junio 46.7 2180.89
Julio 44 1936
Agosto 45 2025
Septiembre 44.7 1998.09
Octubre 44.6 1989.16
Noviembre 43 1849
Diciembre 41.3 1705.69
536.9 24051.41
S =1.6406
• S = 1.64
• x = 44. 74
• k = z = 2 .5
mes Tipo de cambio
Enero 5.7
Los siguientes son los datos de la
Febrero 5.8
variación del tipo de cambio en 1995
Marzo 6.8
Abril 5.8
Calcula el porcentaje mínimo que se
encuentra dentro del rango de 2.0
Mayo 6.2
desviaciones estándar por encima y por
Junio 6.3
debajo de la media
Julio 6.1
Agosto 6.3
2.-Encuentra los valores superior e inferior
Septiembre 6.4
que determinan este INTERVALO
Octubre 7.2
Noviembre 7.7
Diciembre 6.6
Repita el punto (1) y (2) empleando
valores de k de 1.8 y de 3.0
mes Tipo de
cambio x2
Enero 5.7 32.49
Febrero 5.8 33.64
Marzo 6.8 46.24
Abril 5.8 33.64
Mayo 6.2 38.44
Junio 6.3 39.69
Julio 6.1 37.21
Agosto 6.3 39.69
Septiembre 6.4 40.96
Octubre 7.2 51.84
Noviembre 7.7 59.29
Diciembre 6.6 43.56

S= 0.59460962
76.9 496.69
• Los datos de un grupo de piezas de acero muestran que tienen un
media de 300 kg. Y una desviación estándar de 40 kg. De acuerdo al
teorema de Chebyshev, ¿ por lo menos qué porcentaje de ingresos se
encontrará entre 220 y 380 kg?
• Una compañía vende un producto cuya media es 95 unidades y tiene
una desviación estándar de 25, de acuerdo al teorema de Chebyshev,
¿ que porcentaje mínimo se encuentra entre 60 y 130 unidades ?
REGLA EMPIRICA
• 3.- Regla empírica para datos con una distribución normal
• Nos dice que el 68% de todos los valores están dentro de una
desviación estándar de la media
• El 95% de todos los valores están dentro de 2 desviaciones
estándar de la media
• y el 99.7% de todos los valores están dentro de 3 desviaciones
estándar de la media
• Una muestra de tarifas de renta de departamentos se asemeja a una
distribución simétrica en forma de campana. La media de la muestra es de
5000 y la desviación estándar es de $200. De acuerdo a la regla empírica :
• Entre qué intervalo ( limite inferior y límite superior) se encuentran:
• EL 68% de los datos
• El 95% de los datos
• El 99.7% de los datos
• La distribución de pesos ( en toneladas) de una muestra de
1400 contenedores de carga es simétrica y tiene una forma de
campana. De acuerdo a la regla empírica, ¿ qué porcentaje de
pesos se encontrará entre:
• χ - 2s y x + 2s
• x -1s y x +2s
• x y x +2s
• debajo de x -2s
• Pipe Company es uno de los fabricantes nacionales de tubos de
PVC. El departamento de control de calidad tomó una muestra de
600 tubos y encontró que el promedio del diámetro externo es
de 14.0 pulgadas y una desviación de 0.1 pulgadas
• Si no se conoce la distribución, ¿ ´por lo menos que porcentaje de las
observaciones se encontrarán entre 13.85 y 14. 15 pulgadas?
• Si se supone que la distribución de los diámetros es simétrica y tiene
forma de campana¿ entre qué dos valores se encontrará
aproximadamente 95 % de las observaciones?
• Un estudio sobre el ingreso medio de un jardinero mostro que los
datos tienen una media de 500 pesos diarios y una desviación
estándar de 40 pesos. De acuerdo con el teorema de Chebyshev, ¿
por lo menos qué porcentaje de ingresos se encontrará entre 400 y
600 pesos?
• Y entre 625 pesos y 375 pesos?
Puntuación z
En una recta podemos colocar los diferentes valores que
nos da sumar o restar ciertos valores de la desviación
estándar a la media de los datos

Asimismo podemos calcular el porcentaje de los datos que


se encuentran en un determinado intervalo en términos
de probabilidad
Puntuación estándar (z)
• Puntuación estándar ( z) :
• Nos indica a qué distancia se encuentra un valor alejado de la media en
términos de desviación estándar

Si el valor de Z es
negativo, no dice que
se encuentra debajo de
la media, por otro lado
si es positivo nos dice
que se encuentra por
encima del valor media
EJERCICIO
• Si tenemos una población cuya media es 300 y su desviación estándar
es de 100 y se desea conocer a qué distancia de la media se
encuentra el valor de Z si los valores de x son:
• 450
• 500
• 250
Puntuación estándar (z)
• Michel Jordan mide 78 pulgadas, mientras que la
jugadora de la WNBA Rebeca Lobo mide 76 pulgadas.
¿Cuál de los dos jugadores es relativamente más alto?
¿ la estatura de Jordan, entre los hombres, excede la
estatura de Lobo entre las mujeres?
• La estatura promedio de los hombre es de 69.o pulgadas
con una desviación estándar de 2.8
• La estatura promedio de las mujeres es de 63.6 pulgadas
con una desviación estándar de 2.5
• Las calificaciones de un grupo en la prueba de psicología
tienen una media de 90 y una desviación estándar de 10
• Las calificaciones de un grupo en la prueba de economía
tienen una media de 70 y una desviación estándar de 5
• ¿ Respecto al grupo en cuál salió mejor evaluado
• una calificación de 85 en una prueba de psicología o una calificación
de 63 en una prueba de economía?
Coeficiente de variación
• Esta medida de dispersión nos dice que tan grande es la magnitud de
la desviación estándar respecto a la media del conjunto de datos que
se está examinando

• CV = ( σ/ µ) 100% para la población

• CV= ( s/ xmedia ) 100% para la muestra


Coeficiente de variación
Es muy útil al comparar dos o más conjuntos de datos
medidos con unidades distintas
2000 Tipo de
mes 2000 % x cambio
Enero 44 MES
Febrero 46.5
Marzo 44.8
Enero 9.5
Abril 47.3
Febrero 9.5
Mayo 45 Marzo 9.3
Junio 46.7 Abril 9.4
Julio 44 Mayo 9.5
Agosto 45 Junio 9.8
Septiembre 44.7 Julio 9.5
Agosto 9.3
Octubre 44.6 Septiembre 9.3
Noviembre 43 Octubre 9.5
Diciembre 41.3 Noviembre 9.5
Diciembre 9.4
mes 2000 % x x2
Enero 44 1936 2000 Tipo de
cambio
Febrero 46.5 2162.25 MES
Marzo 44.8 2007.04
Abril 47.3 2237.29
Mayo 45 2025 Enero 9.5 90.25
Febrero 9.5 90.25
Junio 46.7 2180.89 Marzo 9.3 86.49
Julio 44 1936 Abril 9.4 88.36
Agosto 45 2025 Mayo 9.5 90.25
Junio 9.8 96.04
Septiembr 44.7 Julio 9.5 90.25
e 1998.09 Agosto 9.3 86.49
Octubre 44.6 1989.16 Septiembre 9.3 86.49
Octubre 9.5 90.25
Noviembre 43 1849
Noviembre 9.5 90.25
Diciembre 41.3 1705.69 Diciembre 9.4 88.36
536.9 24051.41
113.5 1073.73

1.64065305 0.13789544
Ejercicios
• Calcular
• Media, mediana
• Desviación estándar, varianza, rango, coeficiente de
variación
• Primer cuartil, tercer cuartil, Decil 7, p40, P84
• ¿Existe un valor atípico?
• Entre que valores se encuentra el 80% de los datos ( de
acuerdo a Chebyshev)
• ¿ qué porcentaje de la población se encuentra 180 entre y 580
de contenido de CALORIAS?
PRODUCTO CALORÍAS GRASA
Batido Dunkin Donuts 240 8
Capuchino Starbucks 260 3.5
Café Coolata Donuts 350 22
Café moka exprés 350 20
Starbucks
Café normal Starbucks 420 16
Café Brrownie Starbucks 510 22
Crema de chocolate 530 19
• Calcular
• Media, mediana
• Desviación estándar, varianza, rango, coeficiente de
variación
• Primer cuartil, tercer cuartil, Decil 3, p60, P64
• ¿Existe un valor atípico?
• Entre que valores se encuentra el 75% de los datos ( de
acuerdo a Chebyshev)

• ¿ qué porcentaje de la población se encuentra entre 250 y 650 en
el costo del automóvil?
• Qué valores se encuentran en los extremos ( por arriba y debajo) de 2
desviaciones estándar
• Interprete los resultados
• en términos de desviación estándar a qué distancia se encuentra el
valor de 500 respecto a su media?
ciudad hotel Auto Ciudad Hotel auto

1 2050 470 11 2050 500

2 1790 410 12 1280 320

3 1850 490 13 1650 340

4 2100 380 14 1800 460

5 1280 320 15 1980 410

6 1450 480 16 1580 400

7 1770 490 17 1320 390

8 1170 410 18 2830 670

9 2210 560 19 2690 690

10 1590 410 20 2040 400