You are on page 1of 93

Estadstica Descriptiva

Mario Alfonso Morales Rivera.


1
Victor Hugo Morales Ospina
2
1
Profesor Asociado
Universidad de Crdoba
2
Profesor Asistente
Universidad de Crdoba
Montera 2011
Morales & Morales () Estadstica Descriptiva Enero de 2011 1 / 49
Contenido
1
Introduccin
2
Representacin grca de datos
Datos cualitativos
Datos cuantitativos
3
Medidas de tendencia central y dispersin
Medidas de tendencia central
Medidas de dispersin
Morales & Morales () Estadstica Descriptiva Enero de 2011 2 / 49
Introduccin
Contenido
1
Introduccin
2
Representacin grca de datos
Datos cualitativos
Datos cuantitativos
3
Medidas de tendencia central y dispersin
Medidas de tendencia central
Medidas de dispersin
Morales & Morales () Estadstica Descriptiva Enero de 2011 3 / 49
Introduccin
Para qu sirve la Estadstica?
La estadstica
Tiene que ver con la recopilacin, presentacin, anlis y uso de datos
para tomar decisiones y resolver problemas.
La estadstica ayuda a los ingenieros y cientcos a:
Disear nuevos productos y sistemas.
Perfeccionar los existentes.
Disear, desarrollar y mejorar procesos de produccin.
Aumentar la calidad de los productos
Morales & Morales () Estadstica Descriptiva Enero de 2011 4 / 49
Introduccin
Para qu sirve la Estadstica?
La estadstica
Tiene que ver con la recopilacin, presentacin, anlis y uso de datos
para tomar decisiones y resolver problemas.
La estadstica ayuda a los ingenieros y cientcos a:
Disear nuevos productos y sistemas.
Perfeccionar los existentes.
Disear, desarrollar y mejorar procesos de produccin.
Aumentar la calidad de los productos
Morales & Morales () Estadstica Descriptiva Enero de 2011 4 / 49
Introduccin
Porqu es necesario estudiar estadstica?

La estadstica surge de la necesidad de describir y comprender la


variabilidad
La variabilidad
Es el resultado de cambios en las condiciones bajo las cuales se
hacen las observaciones
Diferencias en las propiedades de los materiales,
En la forma que trabajan los obreros,
Desgaste y desajuste de la maquinarias,
Variables no controladas del proceso,
Factores ambientales: humedad, temperatura ambiente, radiacin
solar.
Instrumentos de medicin utilizados.
Debido al esquema de muestreo
Morales & Morales () Estadstica Descriptiva Enero de 2011 5 / 49
Introduccin
Porqu es necesario estudiar estadstica?

La estadstica surge de la necesidad de describir y comprender la


variabilidad
La variabilidad
Es el resultado de cambios en las condiciones bajo las cuales se
hacen las observaciones
Diferencias en las propiedades de los materiales,
En la forma que trabajan los obreros,
Desgaste y desajuste de la maquinarias,
Variables no controladas del proceso,
Factores ambientales: humedad, temperatura ambiente, radiacin
solar.
Instrumentos de medicin utilizados.
Debido al esquema de muestreo
Morales & Morales () Estadstica Descriptiva Enero de 2011 5 / 49
Introduccin
Porqu es necesario estudiar estadstica?

La estadstica surge de la necesidad de describir y comprender la


variabilidad
La variabilidad
Es el resultado de cambios en las condiciones bajo las cuales se
hacen las observaciones
Diferencias en las propiedades de los materiales,
En la forma que trabajan los obreros,
Desgaste y desajuste de la maquinarias,
Variables no controladas del proceso,
Factores ambientales: humedad, temperatura ambiente, radiacin
solar.
Instrumentos de medicin utilizados.
Debido al esquema de muestreo
Morales & Morales () Estadstica Descriptiva Enero de 2011 5 / 49
Introduccin
Estadstica descriptiva

La estadstica descriptiva nos ensea como recolectar, agrupar y


presentar datos de una forma tal que los describa fcil y rpidamente.
Otra posible denicin:
Nos proporciona herramientas para:
Cmo registro y presento mis datos?
Presentar grcamente grandes conjuntos de datos.
Resumir los datos a un nmero (Estadsticas).
Morales & Morales () Estadstica Descriptiva Enero de 2011 6 / 49
Introduccin
Estadstica descriptiva

La estadstica descriptiva nos ensea como recolectar, agrupar y


presentar datos de una forma tal que los describa fcil y rpidamente.
Otra posible denicin:
Nos proporciona herramientas para:
Cmo registro y presento mis datos?
Presentar grcamente grandes conjuntos de datos.
Resumir los datos a un nmero (Estadsticas).
Morales & Morales () Estadstica Descriptiva Enero de 2011 6 / 49
Introduccin
Estadstica inferencial
La estadstica inferencial trata del diseo de experimentos o
encuestas mediante muestras, para obtener una cantidad
determinada de informacin a un costo mnimo, y del uso de esta
informacin para hacer inferencias con respecto a una poblacin.
Otra posible denicin:
Ciencia que crea, desarrolla y aplica tcnicas de modo que pueda
evaluarse la incertidumbre de inferencias inductivas.
La estadstica ayuda al investigador a contestar preguntas como:
Qu tcnicas uso para recolectar datos?
Qu modelos uso para analizar mis datos?
Cmo pruebo determinada hiptesis?
Cmo diseo un experimento de tal forma que los datos
obtenidos sean susceptibles de analizar con mtodos
estadsticos?
Morales & Morales () Estadstica Descriptiva Enero de 2011 7 / 49
Introduccin
Estadstica inferencial
La estadstica inferencial trata del diseo de experimentos o
encuestas mediante muestras, para obtener una cantidad
determinada de informacin a un costo mnimo, y del uso de esta
informacin para hacer inferencias con respecto a una poblacin.
Otra posible denicin:
Ciencia que crea, desarrolla y aplica tcnicas de modo que pueda
evaluarse la incertidumbre de inferencias inductivas.
La estadstica ayuda al investigador a contestar preguntas como:
Qu tcnicas uso para recolectar datos?
Qu modelos uso para analizar mis datos?
Cmo pruebo determinada hiptesis?
Cmo diseo un experimento de tal forma que los datos
obtenidos sean susceptibles de analizar con mtodos
estadsticos?
Morales & Morales () Estadstica Descriptiva Enero de 2011 7 / 49
Introduccin
Estadstica inferencial
La estadstica inferencial trata del diseo de experimentos o
encuestas mediante muestras, para obtener una cantidad
determinada de informacin a un costo mnimo, y del uso de esta
informacin para hacer inferencias con respecto a una poblacin.
Otra posible denicin:
Ciencia que crea, desarrolla y aplica tcnicas de modo que pueda
evaluarse la incertidumbre de inferencias inductivas.
La estadstica ayuda al investigador a contestar preguntas como:
Qu tcnicas uso para recolectar datos?
Qu modelos uso para analizar mis datos?
Cmo pruebo determinada hiptesis?
Cmo diseo un experimento de tal forma que los datos
obtenidos sean susceptibles de analizar con mtodos
estadsticos?
Morales & Morales () Estadstica Descriptiva Enero de 2011 7 / 49
Introduccin
Algunas deniciones bsicas (I)
Poblacin
Coleccin completa de todas las observaciones de inters para el
investigador.
Parmetro
Medida descriptiva de la poblacin.
Muestra
Parte (subconjunto) representativa de la poblacin que se selecciona
para ser estudiada ya que la poblacin es demasiado grande para
estudiarla en su totalidad.
Estadstico
Valor que describe una muestra y sirve como estimacin de un
parmetro de la poblacin correspondiente.
Morales & Morales () Estadstica Descriptiva Enero de 2011 8 / 49
Introduccin
Algunas deniciones bsicas (II)
Variable
Caracterstica de la poblacin que se estudia.
Clasicacin:
1
Cuantitativas: Pueden expresarse numricamente
Ingresos,
Estaturas,
Resistencia,
Presin, temperatura, masas, pesos.
Cantidad de suras en un material.
2
Cualitativas: Se miden de manera no numrica.
Opinin.
Preferencias.
Sexo.
Estado civil.
Morales & Morales () Estadstica Descriptiva Enero de 2011 9 / 49
Introduccin
Variables cuantitativas
Clasicacin de las variables cuantitativas:
1
Discretas: los valores se limitan a nmeros enteros, por lo general
son el resultado de conteos.
Cantidad de hijos de una familia,
Numero de defectos de una pieza.
Cantidad de suras en un material.
Nmero de accidentes en un cruce durante el n de semana.
Nmero de pacientes que superan una enfermedad.
2
Contnuas: puede tomar cualquier valor dentro de un rango
numrico.
Temperatura, presin, tiempo.
Longitudes, distancias, masas, pesos
Morales & Morales () Estadstica Descriptiva Enero de 2011 10 / 49
Representacin grca de datos
Contenido
1
Introduccin
2
Representacin grca de datos
Datos cualitativos
Datos cuantitativos
3
Medidas de tendencia central y dispersin
Medidas de tendencia central
Medidas de dispersin
Morales & Morales () Estadstica Descriptiva Enero de 2011 11 / 49
Representacin grca de datos Datos cualitativos
Barras simples
Ejemplo
En una escala de 1 a 4, siendo 4 el mejor, un grupo de consumidores
clasica la conciencia social de 50 organizaciones clasicadas como
publicas (indicadas con un 1 en los siguientes datos), privadas
(indicadas con un 2), o controladas por el gobierno (indicadas con un
3 )
Organizacin Tipo Clasicacion
1 1 1
2 2 2
3 2 3
.
.
.
.
.
.
.
.
.
48 3 3
49 1 2
50 2 1
Morales & Morales () Estadstica Descriptiva Enero de 2011 12 / 49
Representacin grca de datos Datos cualitativos
Tabla de contingencia
Clasicacin
Tipo 1 2 3 4 Sum
1 7 5 1 2 15
2 3 7 5 4 19
3 3 5 4 4 16
Sum 13 17 10 10 50
Clase 1 Clase 2 Clase 3 Clase 4
Clasificacin
F
r
e
c
u
e
n
c
i
a
0
5
1
0
1
5
2
0
13
17
10 10
Morales & Morales () Estadstica Descriptiva Enero de 2011 13 / 49
Representacin grca de datos Datos cualitativos
Barras apiladas
Clase 1 Clase 2 Clase 3 Clase 4
0
5
1
0
1
5
2
0
Publicas
Privadas
Controladas
Barras mltiples
Clase 1 Clase 2 Clase 3 Clase 4
0
2
4
6
8
Publicas
Privadas
Controladas
Morales & Morales () Estadstica Descriptiva Enero de 2011 14 / 49
Representacin grca de datos Datos cualitativos
Barras apiladas
Clase 1 Clase 2 Clase 3 Clase 4
0
5
1
0
1
5
2
0
Publicas
Privadas
Controladas
Barras mltiples
Clase 1 Clase 2 Clase 3 Clase 4
0
2
4
6
8
Publicas
Privadas
Controladas
Morales & Morales () Estadstica Descriptiva Enero de 2011 14 / 49
Representacin grca de datos Datos cualitativos
Diagrama de sectores
Se basa en una proporcionalidad
entre la frecuencia y el ngulo
central de una circunferencia, de
tal manera que a la frecuencia total
le corresponde el ngulo central de
360
El ngulo se determina por

i
=
f
i
360

f
i
donde f
i
es la frecuencia de la
isima categora.
f
i

i
Publicas 15 108.0
Privadas 19 136.8
Controladas 16 115.2
Publicas 30 %
Privadas 38 %
Controladas 32 %
Morales & Morales () Estadstica Descriptiva Enero de 2011 15 / 49
Representacin grca de datos Datos cualitativos
Diagrama de sectores
Se basa en una proporcionalidad
entre la frecuencia y el ngulo
central de una circunferencia, de
tal manera que a la frecuencia total
le corresponde el ngulo central de
360
El ngulo se determina por

i
=
f
i
360

f
i
donde f
i
es la frecuencia de la
isima categora.
f
i

i
Publicas 15 108.0
Privadas 19 136.8
Controladas 16 115.2
Publicas 30 %
Privadas 38 %
Controladas 32 %
Morales & Morales () Estadstica Descriptiva Enero de 2011 15 / 49
Representacin grca de datos Datos cualitativos
Cdigo R.
Tablas de Contingencia
tipo<-c(1,2,2,3,1,2,3,2,1,2,3,1,1,2,3,3,2,1,2,3,2,3,
1,3,2,2,3,1,2,3,1,2,3,1,3,2,1,3,2,3,1,2,3,1,
2,1,2,3,1,2)
#convierte en un factor y agrega nombres
#a los niveles
tipo<-factor(tipo,labels=
c("Publicas","Privadas","Controladas"))
clasi<-c(1,2,3,2,4,2,3,2,1,2,3,4,2,3,1,2,3,2,1,4,4,1,
2,4,1,2,3,1,4,4,2,3,2,1,4,2,3,1,4,2,1,3,2,1,
4,1,2,3,2,1)
clasi<-factor(clasi,labels=
c("Clase1","Clase2","Clase3","Clase4"))
## tabla de conteos
table(tipo,clasi)
Morales & Morales () Estadstica Descriptiva Enero de 2011 16 / 49
Representacin grca de datos Datos cualitativos
Cdigo R.
Tablas de Contingencia
## tabla con marginales
addmargins(table(tipo,clasi))
## Porcentajes del total
prop.table(table(tipo,clasi))
*
100
## Porcentajes del total con marginales
addmargins(prop.table(table(tipo,clasi))
*
100)
Morales & Morales () Estadstica Descriptiva Enero de 2011 17 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de puntos
Un ingeniero agrega un polmero de ltex a un mortero de cemento
portland, para determinar el efecto del polmero sobre la resistencia a
la tensin ( en kgf/cm
2
). La tabla muestra los datos del mortero
modicado (exp1) y del mortero sin modicar (exp2).
1 2 3 4 5 6 7 8 9 10
exp1 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57
exp2 17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15
16.0 16.5 17.0 17.5 18.0 18.5
z
G G G G G G G G G G
G
Modificado Sin Modificar
Morales & Morales () Estadstica Descriptiva Enero de 2011 18 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de puntos
Un ingeniero agrega un polmero de ltex a un mortero de cemento
portland, para determinar el efecto del polmero sobre la resistencia a
la tensin ( en kgf/cm
2
). La tabla muestra los datos del mortero
modicado (exp1) y del mortero sin modicar (exp2).
1 2 3 4 5 6 7 8 9 10
exp1 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57
exp2 17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15
16.0 16.5 17.0 17.5 18.0 18.5
z
G G G G G G G G G G
G
Modificado Sin Modificar
Morales & Morales () Estadstica Descriptiva Enero de 2011 18 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
Una nueva aleacin de aluminio litio est siendo evaluada como
posible material para la fabricacin de elementos estructurales de
aeronaves. Los datos de resistencia a la tensin, en libras por pulgada
cuadrada (psi), de 80 muestras se transcriben en la siguiente tabla.
105 97 245 163 207 134 218 199 160 196
221 154 228 131 180 178 157 151 175 201
183 153 174 154 190 76 101 142 149 200
186 174 199 115 193 167 171 163 87 176
121 120 181 160 194 184 165 145 160 150
181 168 158 208 133 135 172 171 237 170
180 167 176 158 156 229 158 148 150 118
143 141 110 133 123 146 169 158 135 149
Qu porcentaje de las muestras fallaron por debajo de los 120 psi?
Morales & Morales () Estadstica Descriptiva Enero de 2011 19 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
Una nueva aleacin de aluminio litio est siendo evaluada como
posible material para la fabricacin de elementos estructurales de
aeronaves. Los datos de resistencia a la tensin, en libras por pulgada
cuadrada (psi), de 80 muestras se transcriben en la siguiente tabla.
105 97 245 163 207 134 218 199 160 196
221 154 228 131 180 178 157 151 175 201
183 153 174 154 190 76 101 142 149 200
186 174 199 115 193 167 171 163 87 176
121 120 181 160 194 184 165 145 160 150
181 168 158 208 133 135 172 171 237 170
180 167 176 158 156 229 158 148 150 118
143 141 110 133 123 146 169 158 135 149
Qu porcentaje de las muestras fallaron por debajo de los 120 psi?
Morales & Morales () Estadstica Descriptiva Enero de 2011 19 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Diagrama de tallos y hojas
1 7 | 6
2 8 | 7
3 9 | 7
5 10 | 15
8 11 | 058
11 12 | 013
17 13 | 133455
25 14 | 12356899
37 15 | 001344678888
(10) 16 | 0003357789
33 17 | 0112445668
23 18 | 0011346
16 19 | 034699
10 20 | 0178
6 21 | 8
5 22 | 189
2 23 | 7
1 24 | 5
75 muestras (94 %) resistieron
mas de 110 psi.
El valor central est en un
punto alrededor de 150 y 170
psi.
La mediana es un valor entre
160 y 169 psi.
8 muestras fallaron por debajo
de los 120 psi.
Slo 6 muestras resistieron
mas de 210 psi.
Las resistencias estn
distribuidas casi
simtricamente alrededor del
valor central.
Morales & Morales () Estadstica Descriptiva Enero de 2011 20 / 49
Representacin grca de datos Datos cuantitativos
Distribucin de frecuencia e histograma
Resistencia (psi)
2
3
6
14
22
17
10
4
2
70 90 110 130 150 170 190 210 230 250
Morales & Morales () Estadstica Descriptiva Enero de 2011 21 / 49
Representacin grca de datos Datos cuantitativos
Distribucin de frecuencia e histograma
Inf Sup MC fri Fi Fri
70 90 80 2 0.03 2 0.03
90 110 100 3 0.04 5 0.06
110 130 120 6 0.07 11 0.14
130 150 140 14 0.17 25 0.31
150 170 160 22 0.28 47 0.59
170 190 180 17 0.21 64 0.80
190 210 200 10 0.12 74 0.93
210 230 220 4 0.05 78 0.97
230 250 240 2 0.03 80 1.00
80 1.00
Morales & Morales () Estadstica Descriptiva Enero de 2011 22 / 49
Representacin grca de datos Datos cuantitativos
Distribucin de frecuencia e histograma
Cantos intervalos de clase?
1
Depende del nmero de observaciones.
2
Resulta satisfactorio entre 5 y 20 clases.
3
Algunas frmulas empricas:
K

n, con n = 80 se tiene

80 = 8, 94 9
K 1 + 3,3 log
10
(n) (Frmula de Sturges). Para el ejemplo,
1 + 3,3 log
10
(80) = 7, 28 8
K
ln(n)
ln(2)
, para el ejemplo,
ln(n)
ln(2)
= 6, 32 7
Morales & Morales () Estadstica Descriptiva Enero de 2011 23 / 49
Representacin grca de datos Datos cuantitativos
Polgono de frecuencias
Resistencia (psi)
70 90 110 130 150 170 190 210 230 250
El polgono es una versin
emprica de la funcin de densidad
(en rojo).
Resistencia (psi)
70 90 110 130 150 170 190 210 230 250
Morales & Morales () Estadstica Descriptiva Enero de 2011 24 / 49
Representacin grca de datos Datos cuantitativos
Polgono de frecuencias
Resistencia (psi)
70 90 110 130 150 170 190 210 230 250
El polgono es una versin
emprica de la funcin de densidad
(en rojo).
Resistencia (psi)
70 90 110 130 150 170 190 210 230 250
Morales & Morales () Estadstica Descriptiva Enero de 2011 24 / 49
Representacin grca de datos Datos cuantitativos
Ojiva
Resistencia (psi)
70 90 110 130 150 170 190 210 230 250
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
1
Morales & Morales () Estadstica Descriptiva Enero de 2011 25 / 49
Medidas de tendencia central y dispersin
Contenido
1
Introduccin
2
Representacin grca de datos
Datos cualitativos
Datos cuantitativos
3
Medidas de tendencia central y dispersin
Medidas de tendencia central
Medidas de dispersin
Morales & Morales () Estadstica Descriptiva Enero de 2011 26 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Media aritmtica.
Denicin:
La media aritmtica de un conjunto de n observaciones y
1
, y
2
, y
3
y
n
es igual a la suma de las observaciones dividida por n (el nmero de
datos). Se indica con y
y =
y
1
+ y
2
+ y
3
+ + y
n
n
=
n

i=1
y
i
n
Ejemplo: Considere las siguientes 15 mediciones
8 10 4 3 8
5 6 8 7 6
7 7 5 11 7
Calcular la media
y =
8 + 5 + 7 + + 8 + 6 + 7
15
=
102
15
= 6,8
Morales & Morales () Estadstica Descriptiva Enero de 2011 27 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Algunas propiedades de la media aritmtica.

Suponga que se tienen datos y


1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la media de los datos z
i
en funcin de la media de los
datos y
i
?
2
Cunto es
n

i=1
(y
i
y)?
3
Es claro que se verica
ny =
n

i=1
y
i
Morales & Morales () Estadstica Descriptiva Enero de 2011 28 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Algunas propiedades de la media aritmtica.

Suponga que se tienen datos y


1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la media de los datos z
i
en funcin de la media de los
datos y
i
?
2
Cunto es
n

i=1
(y
i
y)?
3
Es claro que se verica
ny =
n

i=1
y
i
Morales & Morales () Estadstica Descriptiva Enero de 2011 28 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Algunas propiedades de la media aritmtica.

Suponga que se tienen datos y


1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la media de los datos z
i
en funcin de la media de los
datos y
i
?
2
Cunto es
n

i=1
(y
i
y)?
3
Es claro que se verica
ny =
n

i=1
y
i
Morales & Morales () Estadstica Descriptiva Enero de 2011 28 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Media Aritmtica
2 4 6 8 10 12
Morales & Morales () Estadstica Descriptiva Enero de 2011 29 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana
La mediana de un conjunto de valores y
1
, y
2
, y
3
, , y
n
es el valor tal
que la mitad de las observaciones son menores o iguales que l y la
otra mitad es mayor o igual que l.
Si y
(1)
, y
(2)
, , y
(n)
es una muestra acomodada en orden creciente de
magnitud. La mediana se dene como la observacin que ocupa el
lugar
n+1
2
si n es impar, o el promedio de las observaciones que
ocupan los lugares
n
2
y
n
2
+ 1 si n es impar.
M
e
=
_
y
(
n+1
2
)
si n es impar
y
(
n
2
)
+y
(
n
2
+1)
2
si n es par
Morales & Morales () Estadstica Descriptiva Enero de 2011 30 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ejemplos)
1
Obtener la mediana de 8, 3, 2, 4, 5, 6, 9.
En este caso n = 7 es un nmero impar, luego la mediana es la
observacin que ocupa el lugar
7+1
2
= 4 despues de ordenar los
datos
Posicin 1 2 3 4 5 6 7
Dato 2 3 4 5 6 8 9
M
e
= 5
2
Obtener la mediana de 9, 2, 7, 11, 14, 6. En este caso n = 6 es
un nmero par, luego la mediana es el promedio de las
observaciones que ocupan los lugares
6
2
= 3 y
6
2
+ 1 = 4 despues
de ordenar los datos
Posicin 1 2 3 4 5 6
Dato 2 6 7 9 11 14
M
e
=
7 + 9
2
= 8
Morales & Morales () Estadstica Descriptiva Enero de 2011 31 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ejemplos)
1
Obtener la mediana de 8, 3, 2, 4, 5, 6, 9.
En este caso n = 7 es un nmero impar, luego la mediana es la
observacin que ocupa el lugar
7+1
2
= 4 despues de ordenar los
datos
Posicin 1 2 3 4 5 6 7
Dato 2 3 4 5 6 8 9
M
e
= 5
2
Obtener la mediana de 9, 2, 7, 11, 14, 6. En este caso n = 6 es
un nmero par, luego la mediana es el promedio de las
observaciones que ocupan los lugares
6
2
= 3 y
6
2
+ 1 = 4 despues
de ordenar los datos
Posicin 1 2 3 4 5 6
Dato 2 6 7 9 11 14
M
e
=
7 + 9
2
= 8
Morales & Morales () Estadstica Descriptiva Enero de 2011 31 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ejemplos)
1
Obtener la mediana de 8, 3, 2, 4, 5, 6, 9.
En este caso n = 7 es un nmero impar, luego la mediana es la
observacin que ocupa el lugar
7+1
2
= 4 despues de ordenar los
datos
Posicin 1 2 3 4 5 6 7
Dato 2 3 4 5 6 8 9
M
e
= 5
2
Obtener la mediana de 9, 2, 7, 11, 14, 6.
En este caso n = 6 es
un nmero par, luego la mediana es el promedio de las
observaciones que ocupan los lugares
6
2
= 3 y
6
2
+ 1 = 4 despues
de ordenar los datos
Posicin 1 2 3 4 5 6
Dato 2 6 7 9 11 14
M
e
=
7 + 9
2
= 8
Morales & Morales () Estadstica Descriptiva Enero de 2011 31 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ejemplos)
1
Obtener la mediana de 8, 3, 2, 4, 5, 6, 9.
En este caso n = 7 es un nmero impar, luego la mediana es la
observacin que ocupa el lugar
7+1
2
= 4 despues de ordenar los
datos
Posicin 1 2 3 4 5 6 7
Dato 2 3 4 5 6 8 9
M
e
= 5
2
Obtener la mediana de 9, 2, 7, 11, 14, 6. En este caso n = 6 es
un nmero par, luego la mediana es el promedio de las
observaciones que ocupan los lugares
6
2
= 3 y
6
2
+ 1 = 4 despues
de ordenar los datos
Posicin 1 2 3 4 5 6
Dato 2 6 7 9 11 14
M
e
=
7 + 9
2
= 8
Morales & Morales () Estadstica Descriptiva Enero de 2011 31 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ejemplos)
1
Obtener la mediana de 8, 3, 2, 4, 5, 6, 9.
En este caso n = 7 es un nmero impar, luego la mediana es la
observacin que ocupa el lugar
7+1
2
= 4 despues de ordenar los
datos
Posicin 1 2 3 4 5 6 7
Dato 2 3 4 5 6 8 9
M
e
= 5
2
Obtener la mediana de 9, 2, 7, 11, 14, 6. En este caso n = 6 es
un nmero par, luego la mediana es el promedio de las
observaciones que ocupan los lugares
6
2
= 3 y
6
2
+ 1 = 4 despues
de ordenar los datos
Posicin 1 2 3 4 5 6
Dato 2 6 7 9 11 14
M
e
=
7 + 9
2
= 8
Morales & Morales () Estadstica Descriptiva Enero de 2011 31 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ventaja)
Robusta a valores extremos
La mediana tiene la ventaja que los valores extremos no tienen
inuencia sobre ella.
1
Suponga las siguientes observaciones: 1, 3, 4, 2, 7, 6 y 8. La
media es 4.43, mientras que la mediana es 4. Ambas cantidades
proporcionan una medida razonable de la tendencia central de los
datos.
2
Suponga ahora que los datos son 1, 3, 4, 2, 7, 2450 y 8. La
mediana sigue siendo 4, pero la media es 353.57 que no dice
mucho respecto a la tendencia central de los datos.
Morales & Morales () Estadstica Descriptiva Enero de 2011 32 / 49
Medidas de tendencia central y dispersin Medidas de tendencia central
Mediana (ventaja)
Robusta a valores extremos
La mediana tiene la ventaja que los valores extremos no tienen
inuencia sobre ella.
1
Suponga las siguientes observaciones: 1, 3, 4, 2, 7, 6 y 8. La
media es 4.43, mientras que la mediana es 4. Ambas cantidades
proporcionan una medida razonable de la tendencia central de los
datos.
2
Suponga ahora que los datos son 1, 3, 4, 2, 7, 2450 y 8. La
mediana sigue siendo 4, pero la media es 353.57 que no dice
mucho respecto a la tendencia central de los datos.
Morales & Morales () Estadstica Descriptiva Enero de 2011 32 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
La media no es suciente
Considere los siguientes datos:
Muestra 1 130 150 145 158 165 140
Muestra 2 90 128 205 140 165 160
Ambas muestras tienen media 148, es decir, X
1
= X
2
= 148.
Son similares los dos conjuntos de datos?
La dispersin o variabilidad de la muestra 2 es mayor.
80 100 120 140 160 180 200 220
M
u
e
s
t
r
a

1
M
u
e
s
t
r
a

2
Resistencia
G G G G G G
Morales & Morales () Estadstica Descriptiva Enero de 2011 33 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
La media no es suciente
Considere los siguientes datos:
Muestra 1 130 150 145 158 165 140
Muestra 2 90 128 205 140 165 160
Ambas muestras tienen media 148, es decir, X
1
= X
2
= 148.
Son similares los dos conjuntos de datos?
La dispersin o variabilidad de la muestra 2 es mayor.
80 100 120 140 160 180 200 220
M
u
e
s
t
r
a

1
M
u
e
s
t
r
a

2
Resistencia
G G G G G G
Morales & Morales () Estadstica Descriptiva Enero de 2011 33 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
La media no es suciente
Considere los siguientes datos:
Muestra 1 130 150 145 158 165 140
Muestra 2 90 128 205 140 165 160
Ambas muestras tienen media 148, es decir, X
1
= X
2
= 148.
Son similares los dos conjuntos de datos?
La dispersin o variabilidad de la muestra 2 es mayor.
80 100 120 140 160 180 200 220
M
u
e
s
t
r
a

1
M
u
e
s
t
r
a

2
Resistencia
G G G G G G
Morales & Morales () Estadstica Descriptiva Enero de 2011 33 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
La media no es suciente
Considere los siguientes datos:
Muestra 1 130 150 145 158 165 140
Muestra 2 90 128 205 140 165 160
Ambas muestras tienen media 148, es decir, X
1
= X
2
= 148.
Son similares los dos conjuntos de datos?
La dispersin o variabilidad de la muestra 2 es mayor.
80 100 120 140 160 180 200 220
M
u
e
s
t
r
a

1
M
u
e
s
t
r
a

2
Resistencia
G G G G G G
Morales & Morales () Estadstica Descriptiva Enero de 2011 33 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Medidas de dispersin
Rango
Diferencia entre la observacin mas grande y la mas pequea.
r = max(y
i
) mn(y
i
)
1
Rango de la primera muestra: r
1
= 165 130 = 35
2
Rango de la segunda muestra: r
2
= 205 90 = 115
Ignora la informacin que hay entre el mximo y el mnimo.
Muestra 1 1 3 5 8 9
Muestra 2 1 5 5 5 9
r
1
= r
2
= 8. Se requiere una medida que dependa de todas las
observaciones (que use toda la informacin)
Morales & Morales () Estadstica Descriptiva Enero de 2011 34 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Medidas de dispersin
Rango
Diferencia entre la observacin mas grande y la mas pequea.
r = max(y
i
) mn(y
i
)
1
Rango de la primera muestra: r
1
= 165 130 = 35
2
Rango de la segunda muestra: r
2
= 205 90 = 115
Ignora la informacin que hay entre el mximo y el mnimo.
Muestra 1 1 3 5 8 9
Muestra 2 1 5 5 5 9
r
1
= r
2
= 8. Se requiere una medida que dependa de todas las
observaciones (que use toda la informacin)
Morales & Morales () Estadstica Descriptiva Enero de 2011 34 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Varianza y desviacin estndar
Varianza
S
2
=
n

i=1
(y
i
y)
2
n 1
Desviacin estndar
La desviacin estndar muestral, S, es la raiz cuadrada positiva de la
varianza.
S =

S
2
=

_
n

i=1
(y
i
y)
2
n 1
Morales & Morales () Estadstica Descriptiva Enero de 2011 35 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Varianza y desviacin estndar (Ejemplo)
Calcular la varianza y la desviacin estndar de los siguientes datos:
4 7 3 6 5
1
(Varianza) Para estos datos tenemos que n = 5 y y = 5.
s
2
=
(4 5)
2
+ (7 5)
2
+ (3 5)
2
+ (6 5)
2
+ (5 5)
2
4
=
(1)
2
+ 2
2
+ (2)
2
+ 1
2
+ 0
2
4
=
1 + 4 + 4 + 1 + 0
4
=
10
4
= 2,5
2
(Desviacin estndar)
S =

S
2
=
_
2,5 = 1, 58
Morales & Morales () Estadstica Descriptiva Enero de 2011 36 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Varianza (Frmula alternativa)
Una frmula alternativa para calcular la varianza es
S
2
=
n

i=1
y
2
i
ny
2
n 1
=
135 5 5
2
4
=
10
4
= 2,5
i y
i
y
2
i
1 4 16
2 7 49
3 3 9
4 6 36
5 5 25
Sumas 25 135
Morales & Morales () Estadstica Descriptiva Enero de 2011 37 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Varianza (Frmula alternativa)
Una frmula alternativa para calcular la varianza es
S
2
=
n

i=1
y
2
i
ny
2
n 1
=
135 5 5
2
4
=
10
4
= 2,5
i y
i
y
2
i
1 4 16
2 7 49
3 3 9
4 6 36
5 5 25
Sumas 25 135
Morales & Morales () Estadstica Descriptiva Enero de 2011 37 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Varianza (Frmula alternativa)
Una frmula alternativa para calcular la varianza es
S
2
=
n

i=1
y
2
i
ny
2
n 1
=
135 5 5
2
4
=
10
4
= 2,5
i y
i
y
2
i
1 4 16
2 7 49
3 3 9
4 6 36
5 5 25
Sumas 25 135
Morales & Morales () Estadstica Descriptiva Enero de 2011 37 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Algunas propiedades de la varianza.
Suponga que se tienen datos y
1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la varianza de los datos z
i
en funcin de la varianza de
los datos y
i
?
2
En el caso particular, cuando c = 1 y b = 0 Cmo es la varianza
de los datos z
i
en funcin de la varianza de los datos y
i
?
3
Es claro que S
2
0
4
Bajo que condiciones S
2
= 0 ?
5
Es claro que se verica
(n 1)S
2
=
n

i=1
(y
i
y)
2
=
n

i=1
y
2
i
ny
2
Morales & Morales () Estadstica Descriptiva Enero de 2011 38 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Algunas propiedades de la varianza.
Suponga que se tienen datos y
1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la varianza de los datos z
i
en funcin de la varianza de
los datos y
i
?
2
En el caso particular, cuando c = 1 y b = 0 Cmo es la varianza
de los datos z
i
en funcin de la varianza de los datos y
i
?
3
Es claro que S
2
0
4
Bajo que condiciones S
2
= 0 ?
5
Es claro que se verica
(n 1)S
2
=
n

i=1
(y
i
y)
2
=
n

i=1
y
2
i
ny
2
Morales & Morales () Estadstica Descriptiva Enero de 2011 38 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Algunas propiedades de la varianza.
Suponga que se tienen datos y
1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la varianza de los datos z
i
en funcin de la varianza de
los datos y
i
?
2
En el caso particular, cuando c = 1 y b = 0 Cmo es la varianza
de los datos z
i
en funcin de la varianza de los datos y
i
?
3
Es claro que S
2
0
4
Bajo que condiciones S
2
= 0 ?
5
Es claro que se verica
(n 1)S
2
=
n

i=1
(y
i
y)
2
=
n

i=1
y
2
i
ny
2
Morales & Morales () Estadstica Descriptiva Enero de 2011 38 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Algunas propiedades de la varianza.
Suponga que se tienen datos y
1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la varianza de los datos z
i
en funcin de la varianza de
los datos y
i
?
2
En el caso particular, cuando c = 1 y b = 0 Cmo es la varianza
de los datos z
i
en funcin de la varianza de los datos y
i
?
3
Es claro que S
2
0
4
Bajo que condiciones S
2
= 0 ?
5
Es claro que se verica
(n 1)S
2
=
n

i=1
(y
i
y)
2
=
n

i=1
y
2
i
ny
2
Morales & Morales () Estadstica Descriptiva Enero de 2011 38 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Algunas propiedades de la varianza.
Suponga que se tienen datos y
1
, y
2
, . . . , y
n
y que a partir de stos se
obtienen los datos
z
i
= cy
i
+ b
con c una constante real distinta de cero y b cualquier nmero real.
1
Cmo es la varianza de los datos z
i
en funcin de la varianza de
los datos y
i
?
2
En el caso particular, cuando c = 1 y b = 0 Cmo es la varianza
de los datos z
i
en funcin de la varianza de los datos y
i
?
3
Es claro que S
2
0
4
Bajo que condiciones S
2
= 0 ?
5
Es claro que se verica
(n 1)S
2
=
n

i=1
(y
i
y)
2
=
n

i=1
y
2
i
ny
2
Morales & Morales () Estadstica Descriptiva Enero de 2011 38 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Desviacin estndar: usos
En nanzas
Se usa como medida de riesgo relacionada con varias oportunidades
de inversin: Entre mayor sea la desviacin estndar, mayor ser el
riesgo.
Teorema de Chevysheff
Para todo conjunto de datos, por lo menos
_
1
1
K
2
_
100 %
de las observaciones estn dentro de K desviaciones estndar de la
media, donde K > 1
Ejemplo: Si K = 3 entonces para cualquier conjunto de datos, por lo
menos (1
1
9
) 100 % = 88, 89 % de los datos estn entre X 3 S y
X + 3 S.
Morales & Morales () Estadstica Descriptiva Enero de 2011 39 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Percentiles y cuartiles
El primer cuartil o cuartil inferior, notado como Q
1
, es un valor tal
que el 25 % de los datos es menor o igual que l y el restante
75 % es mayor igual que l.
El tercer cuartil, notado como Q
3
, es un valor que tiene el 75% de
los datos por debajo y l 25 % por encima.
Cuando un conjunto de datos se divide en cien partes iguales, los
puntos de divisin reciben el nombre de percentiles.
Denicin (Percentiles)
El 100ksimo percentil 0 < k < 1, denotado por p
k
, es un valor tal
que al menos el 100k % de las observaciones son menores o iguales
que l y al menos el 100(1 k) % son mayores o iguales que l.
Ntese que Q
1
= p
0,25
, Me = p
0,5
y Q
3
= p
0,75
.
Morales & Morales () Estadstica Descriptiva Enero de 2011 40 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Percentiles y cuartiles
El primer cuartil o cuartil inferior, notado como Q
1
, es un valor tal
que el 25 % de los datos es menor o igual que l y el restante
75 % es mayor igual que l.
El tercer cuartil, notado como Q
3
, es un valor que tiene el 75% de
los datos por debajo y l 25 % por encima.
Cuando un conjunto de datos se divide en cien partes iguales, los
puntos de divisin reciben el nombre de percentiles.
Denicin (Percentiles)
El 100ksimo percentil 0 < k < 1, denotado por p
k
, es un valor tal
que al menos el 100k % de las observaciones son menores o iguales
que l y al menos el 100(1 k) % son mayores o iguales que l.
Ntese que Q
1
= p
0,25
, Me = p
0,5
y Q
3
= p
0,75
.
Morales & Morales () Estadstica Descriptiva Enero de 2011 40 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Percentiles y cuartiles
El primer cuartil o cuartil inferior, notado como Q
1
, es un valor tal
que el 25 % de los datos es menor o igual que l y el restante
75 % es mayor igual que l.
El tercer cuartil, notado como Q
3
, es un valor que tiene el 75% de
los datos por debajo y l 25 % por encima.
Cuando un conjunto de datos se divide en cien partes iguales, los
puntos de divisin reciben el nombre de percentiles.
Denicin (Percentiles)
El 100ksimo percentil 0 < k < 1, denotado por p
k
, es un valor tal
que al menos el 100k % de las observaciones son menores o iguales
que l y al menos el 100(1 k) % son mayores o iguales que l.
Ntese que Q
1
= p
0,25
, Me = p
0,5
y Q
3
= p
0,75
.
Morales & Morales () Estadstica Descriptiva Enero de 2011 40 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Percentiles y cuartiles
El primer cuartil o cuartil inferior, notado como Q
1
, es un valor tal
que el 25 % de los datos es menor o igual que l y el restante
75 % es mayor igual que l.
El tercer cuartil, notado como Q
3
, es un valor que tiene el 75% de
los datos por debajo y l 25 % por encima.
Cuando un conjunto de datos se divide en cien partes iguales, los
puntos de divisin reciben el nombre de percentiles.
Denicin (Percentiles)
El 100ksimo percentil 0 < k < 1, denotado por p
k
, es un valor tal
que al menos el 100k % de las observaciones son menores o iguales
que l y al menos el 100(1 k) % son mayores o iguales que l.
Ntese que Q
1
= p
0,25
, Me = p
0,5
y Q
3
= p
0,75
.
Morales & Morales () Estadstica Descriptiva Enero de 2011 40 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Calculo de percentiles
Para calcular el percentil 100k % se procede de la siguiente forma.
1
Ordene los datos de menor a mayor.
2
Calcule nk, donde n es el nmero de datos
1
Si nk no es entero aproxmelo al entero siguiente y esa es la
posicin del percentil 100k %.
2
Si nk es entero, el percentil 100k % se obtiene promediando las
observaciones que ocupan los lugares nk y nk + 1.
Morales & Morales () Estadstica Descriptiva Enero de 2011 41 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Ejemplo
La demanda diaria, en kilogramos, de un producto industrial durante
30 das fue:
38 35 76 58 48 59
67 63 33 69 53 51
28 25 36 32 61 57
49 78 48 42 72 52
47 66 58 44 44 56
Calcule:
a) Los cuartiles.
b) El percentil 15.
c) El percentil 80.
Morales & Morales () Estadstica Descriptiva Enero de 2011 42 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
25 28 32 33 35 36
38 42 44 44 47 48
48 49 51 52 53 56
57 58 58 59 61 63
66 67 69 72 76 78
El primer cuartil es el percentil 25, por tanto k = 0,25 y nk = 7,5
que no es entero, por tanto, lo aproximamos al entero siguiente
que es 8, luego p
0,25
= Q
1
= 42.
El segundo cuartil es el percentil 50 o la mediana de los datos, en
este caso k = 0,5 y nk = 15, el percentil 50 o mediana es el
promedio de las observaciones que ocupan los lugares 15 y 16 es
decir
51+52
2
= 51,5
El tercer cuartil es el percentil 75, por tanto k = 0,75 y nk = 22,5 ,
lo aproximamos al entero siguiente que es 23, luego
p
0,75
= Q
3
= 61 ya que esta es la observacin que ocupa el lugar
23 en los datos ordenados.
Morales & Morales () Estadstica Descriptiva Enero de 2011 43 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
25 28 32 33 35 36
38 42 44 44 47 48
48 49 51 52 53 56
57 58 58 59 61 63
66 67 69 72 76 78
El primer cuartil es el percentil 25, por tanto k = 0,25 y nk = 7,5
que no es entero, por tanto, lo aproximamos al entero siguiente
que es 8, luego p
0,25
= Q
1
= 42.
El segundo cuartil es el percentil 50 o la mediana de los datos, en
este caso k = 0,5 y nk = 15, el percentil 50 o mediana es el
promedio de las observaciones que ocupan los lugares 15 y 16 es
decir
51+52
2
= 51,5
El tercer cuartil es el percentil 75, por tanto k = 0,75 y nk = 22,5 ,
lo aproximamos al entero siguiente que es 23, luego
p
0,75
= Q
3
= 61 ya que esta es la observacin que ocupa el lugar
23 en los datos ordenados.
Morales & Morales () Estadstica Descriptiva Enero de 2011 43 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
25 28 32 33 35 36
38 42 44 44 47 48
48 49 51 52 53 56
57 58 58 59 61 63
66 67 69 72 76 78
El primer cuartil es el percentil 25, por tanto k = 0,25 y nk = 7,5
que no es entero, por tanto, lo aproximamos al entero siguiente
que es 8, luego p
0,25
= Q
1
= 42.
El segundo cuartil es el percentil 50 o la mediana de los datos, en
este caso k = 0,5 y nk = 15, el percentil 50 o mediana es el
promedio de las observaciones que ocupan los lugares 15 y 16 es
decir
51+52
2
= 51,5
El tercer cuartil es el percentil 75, por tanto k = 0,75 y nk = 22,5 ,
lo aproximamos al entero siguiente que es 23, luego
p
0,75
= Q
3
= 61 ya que esta es la observacin que ocupa el lugar
23 en los datos ordenados.
Morales & Morales () Estadstica Descriptiva Enero de 2011 43 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Continuacin
Para calcular el percentil 15 se tiene nk = 30 0,15 = 4,5 que no
es entero y por tanto, p
0,15
= 35 que es la observacin que ocupa
el lugar 5 en los datos ordenados.
Para calcular el percentil 80 se tiene nk = 30 0,8 = 24 que es
entero y por tanto, p
0,8
=
63+66
2
= 64,5 ya que 63 y 66 son las
observaciones que ocupan los lugares 24 y 25 en los datos
ordenados. cmo se interpreta este valor?
Morales & Morales () Estadstica Descriptiva Enero de 2011 44 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Boxplot
Facilita la lectura sobre localizacin, variabilidad, simetra y presencia
de datos atpicos
2
.
2
2
.
3
2
.
4
2
.
5
2
.
6
2
.
7
2
.
8
Morales & Morales () Estadstica Descriptiva Enero de 2011 45 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Construccin del BoxPlot
El box plot consiste en una caja y guiones con una linea a travs
de la caja que representa la mediana (segundo cuartil Q
2
).
El extremo inferior de la caja es el primer cuartil Q
1
El extremo superior es el tercer cuartil Q
3
.
El bigote superior se extiende desde el tercer cuartil hasta la
observacin ms grande que es menor o igual que
Q
3
+ 1,5 (Q
3
Q
1
).
El bigote inferior se extiende hasta la observacin ms pequea
que es mayor o igual que Q
1
1,5 (Q
3
Q
1
).
Las observaciones que estn por fuera de estos lmites se
clasican como datos atpicos y se ubican en el diagrama.
Morales & Morales () Estadstica Descriptiva Enero de 2011 46 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Construccin del BoxPlot
El box plot consiste en una caja y guiones con una linea a travs
de la caja que representa la mediana (segundo cuartil Q
2
).
El extremo inferior de la caja es el primer cuartil Q
1
El extremo superior es el tercer cuartil Q
3
.
El bigote superior se extiende desde el tercer cuartil hasta la
observacin ms grande que es menor o igual que
Q
3
+ 1,5 (Q
3
Q
1
).
El bigote inferior se extiende hasta la observacin ms pequea
que es mayor o igual que Q
1
1,5 (Q
3
Q
1
).
Las observaciones que estn por fuera de estos lmites se
clasican como datos atpicos y se ubican en el diagrama.
Morales & Morales () Estadstica Descriptiva Enero de 2011 46 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Construccin del BoxPlot
El box plot consiste en una caja y guiones con una linea a travs
de la caja que representa la mediana (segundo cuartil Q
2
).
El extremo inferior de la caja es el primer cuartil Q
1
El extremo superior es el tercer cuartil Q
3
.
El bigote superior se extiende desde el tercer cuartil hasta la
observacin ms grande que es menor o igual que
Q
3
+ 1,5 (Q
3
Q
1
).
El bigote inferior se extiende hasta la observacin ms pequea
que es mayor o igual que Q
1
1,5 (Q
3
Q
1
).
Las observaciones que estn por fuera de estos lmites se
clasican como datos atpicos y se ubican en el diagrama.
Morales & Morales () Estadstica Descriptiva Enero de 2011 46 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Construccin del BoxPlot
El box plot consiste en una caja y guiones con una linea a travs
de la caja que representa la mediana (segundo cuartil Q
2
).
El extremo inferior de la caja es el primer cuartil Q
1
El extremo superior es el tercer cuartil Q
3
.
El bigote superior se extiende desde el tercer cuartil hasta la
observacin ms grande que es menor o igual que
Q
3
+ 1,5 (Q
3
Q
1
).
El bigote inferior se extiende hasta la observacin ms pequea
que es mayor o igual que Q
1
1,5 (Q
3
Q
1
).
Las observaciones que estn por fuera de estos lmites se
clasican como datos atpicos y se ubican en el diagrama.
Morales & Morales () Estadstica Descriptiva Enero de 2011 46 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Construccin del BoxPlot
El box plot consiste en una caja y guiones con una linea a travs
de la caja que representa la mediana (segundo cuartil Q
2
).
El extremo inferior de la caja es el primer cuartil Q
1
El extremo superior es el tercer cuartil Q
3
.
El bigote superior se extiende desde el tercer cuartil hasta la
observacin ms grande que es menor o igual que
Q
3
+ 1,5 (Q
3
Q
1
).
El bigote inferior se extiende hasta la observacin ms pequea
que es mayor o igual que Q
1
1,5 (Q
3
Q
1
).
Las observaciones que estn por fuera de estos lmites se
clasican como datos atpicos y se ubican en el diagrama.
Morales & Morales () Estadstica Descriptiva Enero de 2011 46 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Construccin del BoxPlot
El box plot consiste en una caja y guiones con una linea a travs
de la caja que representa la mediana (segundo cuartil Q
2
).
El extremo inferior de la caja es el primer cuartil Q
1
El extremo superior es el tercer cuartil Q
3
.
El bigote superior se extiende desde el tercer cuartil hasta la
observacin ms grande que es menor o igual que
Q
3
+ 1,5 (Q
3
Q
1
).
El bigote inferior se extiende hasta la observacin ms pequea
que es mayor o igual que Q
1
1,5 (Q
3
Q
1
).
Las observaciones que estn por fuera de estos lmites se
clasican como datos atpicos y se ubican en el diagrama.
Morales & Morales () Estadstica Descriptiva Enero de 2011 46 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Boxplot
tiles para comparar dos conjuntos de datos en cuanto a su
localizacin y dispersin
Muestra 1 Muestra 2
0
5
1
0
1
5
2
0
Los datos de la muestra 2 son mas dispersos, la localizacin
(tendencia central) es la misma.
Morales & Morales () Estadstica Descriptiva Enero de 2011 47 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
Boxplot
Ntese la asimetra de la distribucin de los datos
0 40 80 120
0
2
0
4
0
6
0
8
0
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
Morales & Morales () Estadstica Descriptiva Enero de 2011 48 / 49
Medidas de tendencia central y dispersin Medidas de dispersin
TALLER
Morales & Morales () Estadstica Descriptiva Enero de 2011 49 / 49

You might also like