Professional Documents
Culture Documents
Estadstica descriptiva:
mtodos numricos
Contenido
Continuacin contenido
3.4. Anlisis exploratorio de datos
Resumen de cinco nmeros
Diagrama de caja
3.5. Medidas de asociacin entre dos variables
Covarianza
Interpretacin de la covarianza
Coeficiente de la correlacin
Interpretacin del coeficiente de correlacin
3.6. Media Ponderada y manejo de datos agrupados
Media ponderada
Datos agrupados
Media.
Conocida tambin como promedio de una variable, la media es una de
las medidas de localizacin central ms empleadas.
sta se obtiene sumando todos los valores de los datos y dividiendo el
resultado entre la cantidad de los valores.
donde,
X1 = 46 X2 = 54 X3 = 42 X4 = 46 X5 = 32
Egresado
Salario mensual
Egresado
Salario mensual
2850
2890
2950
3130
3050
2940
2880
10
3325
2755
11
2920
2710
12
2880
Mediana.
Es otra medida de la localizacin central de los datos. Es el valor
intermedio, cuando los valores de los datos se ordenan en forma
ascendente.
Moda.
La moda es el valor de los datos que se presenta con ms frecuencia.
Considerar la muestra de los cinco tamaos de grupo,
32 42 46 46 54
El nico valor que se presenta ms de una vez es 46; como este valor
tiene la mxima frecuencia, constituye la moda (frecuencia de 2).
Otro ejemplo, es considerando los valores de los 12 salarios de los
egresados,
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
El nico valor que presenta una mayor frecuencia es el dato 2880, el
cual tiene una frecuencia de 2, por lo tanto representa la moda.
Marca
Frecuencia
Coca clsica
19
Coca diettica
Dr. Pepper
Pepsi - Cola
13
Sprite
5
Total
50
En resumen..
Si el histograma de un conjunto de mediciones es simtrico, use la
media como promedio. Si el histograma no es simtrico , emplee la
mediana o la moda como medidas de posicin.
Percentiles.
El p-simo percentil es un valor tal que por lo menos p por ciento de
las observaciones son menores o iguales que este valor y por lo menos
(100-p) por ciento de las observaciones son mayores o iguales que este
valor.
Para calcular el p-simo percentil se aplica el siguiente mtodo,
Paso 1. Ordenar los datos de manera ascendente
Paso 2. Calcular un ndice i
Ejemplo Percentiles.
Cuartiles.
Frecuentemente los datos se dividen en cuatro partes, cada una con
aproximadamente la cuarta parte, o el 25% de las observaciones.
Para Q1,
Para Q3,
Q1 = 2865
Q2 = 2905
(Mediana)
Q3 = 3000
0.4
9
10
11
0.3
0.2
0.1
0
Das hbiles
0.3
Frecuencia
Frecuencia
0.5
0.2
0.1
0
Das hbiles
7
8
9
10
11
12
13
14
Rango.
Quiz la medida ms sencilla de la dispersin en un conjunto de
datos sea el rango.
Rango = Valor mximo Valor mnimo
Considerando los datos del ejemplo de los 12 salarios y calculando el
rango,
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Rango = 3325 2710 = 615 pesos
Aunque el rango es la medida de dispersin ms fcil de calcular,
casi nunca se usa como la nica medida de dispersin. La razn es
que solo se basa en dos de los elementos y, por consiguiente, est
muy influido por los valores extremos de los datos.
Rango intercuartil.
Una medida de la dispersin que elimina la influencia de los valores
extremos de los datos es el rango intercuartil (RIC). Esta medida de
dispersin es simplemente la diferencia entre el tercer cuartil Q3 y el
primero Q1. En otras palabras, el rango intercuartil corresponde al
rango del 50% intermedio de los datos.
RIC = Q3 Q1
Para los datos de los salarios mensuales a la contratacin, los
cuartiles son Q3 = 3000 y Q1 = 2865. As, el RIC
Varianza.
Es una medida de la dispersin que emplea todos los datos. Se basa
en la diferencia entre el valor de cada observacin (xi) y la media. La
diferencia entre cada xi y el promedio se llama desviacin respecto al
promedio.
Para calcular la varianza, las desviaciones con respecto al promedio
se elevan al cuadrado.
Varianza de una poblacin o varianza poblacional
Ejemplo de la varianza.
Considere el ejemplo de los cinco grupos de una escuela,
Cantidad de
alumnos en el
grupo (xi)
Tamao
promedio de
grupo ( )
Desviacin
respecto a la
media
Desviacin
respecto a la
media elevada al
cuadrado
46
44
54
44
10
100
42
44
-2
46
44
32
44
-12
144
256
- Desviacin
+ Desviacin
- Desviacin + Desviacin
Medidas
Media
Medidas
2850
2950
3050
2880
2755
2710
2890
3130
2940
3325
2920
2880
M.C. Angel David Trujillo Hernndez
Resolviendo
Cantidad de alumnos
en el grupo (xi)
Tamao promedio de
grupo ( )
Desviacin respecto a
la media
Desviacin respecto a
la media elevada al
cuadrado
2850
2940
-90
8100
2950
2940
10
100
3050
2940
110
12100
2880
2940
-60
3600
2755
2940
-185
34225
2710
2940
-230
52900
2890
2940
-50
2500
3130
2940
190
36100
2940
2940
3325
2940
385
148225
2920
2940
-20
400
2880
2940
-60
3600
301850
Desviacin estndar.
La desviacin estndar se define como la raz cuadrada positiva de la
varianza.
Desviacin estndar de una muestra
Desviacin estndar de una poblacin
Coeficiente de variacin.
En algunos casos, es de inters el saber que tan grande es la
desviacin estndar con respecto a la media. En esos casos un
medida descriptiva que nos permite conocer esa cantidad es el
coeficiente de variacin, el cual se calcula como sigue,
En Resumen..
Rango, varianza y desviacin estndar.
Discusin
Consider calificaciones de un examen considerando cuatro diferentes
registros
Conjunto
Calificaciones de la prueba
Media
Rango
70
70 70 = 0
70
72 68 = 4
70
80 60 = 20
70
80 - 60 = 20
60
65
70
75
80
60
65
Conjunto 1
60
65
70
70
75
80
75
80
Conjunto 2
75
80
60
65
70
Conjunto 4
Conjunto 3
60
65
70
75
60
80
60
65
65
70
75
80
70
75
80
Ejemplo
Se realizo una prueba de actitud a 20 personas, las cuales fueron divididas
en dos grupos. Las personas del grupo 1 fueron evaluados de 0 a 100 y las
personas del grupo 2 se evaluaron de 0 a 20.
Grupo 1: 86, 81, 79, 73, 95, 86, 94, 90, 86, 88
Grupo 2: 16, 19, 13, 20, 14, 16, 19, 18, 17, 15
a) Realice un anlisis de variabilidad de los dos grupos y determine que
grupo tiene mayor dispersin. Fundamente su respuesta.
b) Se puede aceptar que el estudiante con 73 puntos del grupo 1 tiene
mayor aptitud que el estudiante con 13 puntos del grupo 2?. Fundamente
su respuesta.
Solucin.
Grupo1
Datos ordenados
73
79
81
86
86
86
88
90
94
95
13
14
15
16
16
17
18
19
19
20
Grupo2
Min
Max
73
95
Min
Max
Rango
22
Rango
Q1
Q3
81
90
Q1
Q3
15
19
RIC
RIC
varianza
DE
45.2888889
6.72970199
media
C.V.
85.8
7.84347551
varianza
DE
media
C.V.
13
20
5.34444444
2.31180545
16.7
13.8431464
Caractersticas esenciales
Rango
-Toma solo dos datos
-Es severamente influenciado por datos muy grandes y/o pequeos
-Es clculo es muy sencillo
-No se utiliza como la nica medida de variabilidad (no es muy confiable)
Rango Intercuartil (RIC)
-Es necesario contar con el primer y tercer cuartil, por lo cual su clculo
puede ser un poco tedioso
-No es influenciado por los datos pequeos o grandes
-Considera el 50% de los datos (datos intermedios) descartando valores
muy pequeos o muy grandes
Varianza
-Es la ms confiable
-Emplea todos los datos
-Su clculo es tedioso mientras ms datos se tengan
-Transforma las unidades reales a unidades al cuadrado
Continuacin..
Desviacin Estndar
-Su clculo es sencillo una vez que se haya calculado la varianza
-Transforma las unidades a unidades de los datos originales
-Es la ms empleada para realizar comparaciones en conjunto con otros
estadsticos , debido a que tienen las mismas unidades de los datos reales
Coeficiente de Variacin
-Permite comparar la dispersin de variables cuando entre distintos grupos
de datos se tienen diferentes desviaciones estndar y promedios
Interpretacin:
Para distribuciones simtricas Ap = 0
Para distribuciones asimtricas hacia la izquierda Ap < 0
Para distribuciones asimtricas hacia la derecha Ap > 0
Nota:
Si AS<0 indica que existe presencia de la minora de datos en la parte Izquierda de
la media, aunque en algunos casos no necesariamente indicar que la distribucin
sea asimtrica negativa.
Si AS = 0 la distribucin ser simtrica.
Si AS > 0 indica que existe presencia de la minora de datos en la parte derecha de
la media, aunque en algunos casos no necesariamente indicar que la distribucin
sea asimtrica positiva.
Curtosis.
La curtosis es la propiedad de una distribucin de frecuencias por la cual se
compara la dispersin de los datos observados cercanos al valor central con la
dispersin de los datos cercanos a ambos extremos de la distribucin. La
curtosis se mide en comparacin a la curva simtrica normal o mesocrtica.
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los
valores alrededor de la zona central de la distribucin.
Una curva simtrica con curtosis mayor que de la normal es denominada curva
leptocrtica .
Una curva simtrica con curtosis menor que de la normal es denominada
curva platicrtica .
Existen varias maneras de medir la curtosis de la distribucin de los datos.
Ejercicios.
1. Tiempos de espera de clientes. A continuacin se presentan los tiempos
de espera (en minutos) de los clientes del Banco Jefferson Valley (donde
todos los clientes forman una sola fila) y del Banco Providence (donde los
clientes esperan en filas individuales, en tres ventanillas diferentes):
Jefferson Valley: 6.5 ,6.6, 6.7, 6.8, 7.1, 7.3, 7.4, 7.7, 7.7, 7.7
Providence: 4.2 ,5.4, 5.8, 6.2, 6.7, 7.7, 7.7, 8.5, 9.3, 10.0
2. Coca Cola regular/Coca Cola diettica. Los siguientes son los pesos (en
libras) de muestras del contenido de latas de Coca Cola regular y Coca Cola
diettica:
Regular: 0.8192, 0.8150, 0.8163, 0.8211, 0.8181, 0.8247
Diettica: 0.7773, 0.7758, 0.7896, 0.7868, 0.7844, 0.7861
McDonalds: 287, 128, 92, 267, 176, 240, 192, 118, 153, 254, 193, 136
Jack in the Box: 190, 229, 74, 377, 300, 481, 428, 255, 328, 270, 109, 109
Ms empleada
Localizacin
Media
Dispersin
Valores z
Al usar la media y la desviacin estndar podemos determinar la
localizacin relativa de cualquier observacin.
Con frecuencia se le da el nombre de valor estandarizado al valor z.
Este valor, zi (esta asociado al valor xi), se puede interpretar como el
nmero de desviaciones estndar que dista xi del promedio .
Donde,
Aplicacin..
Cuando se necesiten comparar valores observados que pertenecen a
diferentes distribuciones de datos, las que difieren en su media aritmtica o en
su varianza, o difieren en el tipo de unidad de medida, entonces se usa el
valor estndar Z.
Se puede verificar que la variable Z estandariza cualquier media en 0 y
cualquier varianza en 1 .
Ejemplo..
Considerando el ejemplo de los 5 grupos de una escuela, a
continuacin se puede observar los valores z de los datos. Recuerde
que la media calculada fue de
= 44 alumnos, la desviacin estndar
fue de S = 8 alumnos
Cantidad de alumnos
en el grupo (xi)
Desviacin respecto a
la media (xi- )
Valor z
46
2/8=0.25
54
10
10/8=1.25
42
-2
-2/8=-0.25
46
2/8=0.25
32
-12
-12/8=-1.50
Comprobando
Si S = 8
z1 esta a 0.25 desviaciones estndar arriba de la media = 44+0.25(8)=46= x1
z2 esta a 1.25 desviaciones estndar arriba de la media = 44+1.25(8)=54= x2
z3 esta a -0.25 desviaciones estndar arriba de la media = 44-0.25(8)=42= x3
z4 esta a 0.25 desviaciones estndar arriba de la media = 44+0.25(8)=46= x4
z5 esta a -1.50 desviaciones estndar arriba de la media = 44-1.50(8)=32= x5
M.C. Angel David Trujillo Hernndez
Ejemplo ..
En una evaluacin de Matemticas e Historia resultan las medias 13 y 17 y las
desviaciones estndar 3 y 4, respectivamente. Si un alumno obtiene 14 en
Matemticas y 16 en Historia, en cul de los dos cursos tiene mejor rendimiento
relativo?.
1 =
2 =
1 14 13 1
=
= = 0.333
3
3
2 16 17 1
=
=
= 0.25
4
4
Ejemplo ..
Se desea conocer de dos jugadores de basquetbol quien es el ms alto. El primer
jugador es Michael Jordn (NBA) el cual mide 78 pulgadas, la segunda jugadora
es Rebecca Lobo (WNBA) quien mide 76 pulgadas. La media en la NBA es de 69
pulgadas con una desviacin estndar de 32.8 pulgadas, mientras que la media y
desviacin estndar en la WNBA es 63.6 pulgadas y 2.5 pulgadas,
respectivamente.
1 =
2 =
1 78 69
=
= 3.21
32.8
2 76 63.6
=
= 4.96
2.5
Aparentemente Michael Jordn tiene una mayor altura que Rebecca Lobo, pero al
estandarizar se observa que es ms alta la jugadora.
Teorema de Chebyshev
1 60 70 10
=
=
= 2
5
5
La Regla Emprica
Una de las ventajas del teorema de Chebyshev es que se aplica a
cualquier conjunto de datos, independientemente de la forma de la
distribucin de los mismos.
En aplicaciones prcticas se ha encontrado que muchos conjuntos de
datos tiene una distribucin en forma de colina o de campana.
Casi todos los envases llenos tienen entre 15.25 y 16.75 onzas (esto
es, menos de tres desviaciones estndar del promedio).
Rojo
Amarillo
Verde
Azul
Verde
Rojo
Amarillo
Verde
Azul
Blanco
Tambin, un valor atpico puede ser uno que por error se incluy en el
conjunto de datos, y en estos casos, debe eliminarse.
Por ltimo, puede ser tan solo un elemento poco comn que se haya
anotado en forma correcta y que s pertenece al conjunto de datos. En
estos casos el elemento debe mantenerse.
z)
pueden
emplearse
para
Cantidad de alumnos
en el grupo (xi)
Desviacin respecto a
la media (xi- )
Valor z
46
2/8=0.25
54
10
10/8=1.25
42
-2
-2/8=-0.25
46
2/8=0.25
32
-12
-12/8=-1.50
3. 4. Anlisis exploratorio de
datos.
Resumen de cinco nmeros.
en un resumen de cinco nmeros se emplean cinco cantidades para
resumir los datos:
1.
2.
3.
4.
5.
Valor mnimo
Primer Cuartil (Q1)
Mediana (Q2)
Tercer Cuartil (Q3)
Valor Mximo
Diagrama de caja.
Un diagrama de caja es un resumen grfico de los datos basado en un
resumen de cinco nmeros. Tambin se usa el Rango Intercuartil, RIC
= Q3- Q1. En la siguiente figura se puede observar un diagrama de caja,
3400
Y Axis Title
3200
3000
2800
2600
X Axis Title
3. 5. Medidas de asociacin
entre dos variables.
Hasta ahora se han examinado mtodos numricos cuyo objeto es
resumir los datos de una sola variable. Con frecuencia quien toma
decisiones le interesa la relacin entre dos variables. En esta seccin se
presentar la covarianza y la correlacin como medidas descriptivas
de la relacin entre dos variables.
Semana
Cantidad de comerciales
x
50
57
41
54
54
38
63
48
59
10
46
Diagrama de dispersin .
70
60
volumen de ventas
50
40
30
20
10
0
0
3
nmero de comerciales
volumen de ventas
50
40
30
20
10
0
0
3
nmero de comerciales
Covarianza.
Para una muestra de tamao n con las observaciones correspondientes
(x1,y1), (x2,y2) etc., la covarianza de la muestra se define como sigue:
Covarianza de la muestra
50
-1
-1
57
12
41
-2
-10
20
54
54
38
-2
-13
26
63
12
24
48
-3
59
46
-1
-5
30
510
99
Interpretacin de la Covarianza.
Como apoyo para entender la covarianza considerar la sig. Figura,
65
60
volumen de ventas
II
55
50
45
III
IV
40
35
0
3
nmero de comerciales
Son valores:
xi menores que
yi mayores que
Son valores:
xi mayores que
yi mayores que
65
60
volumen de ventas
II
55
50
45
III
IV
40
35
0
3
nmero de comerciales
Son valores:
xi menores que
yi menores que
Son valores:
xi mayores que
yi menores que
M.C. Angel David Trujillo Hernndez
Covarianza positiva
Existe relacin lineal positiva entre x y y.
Covarianza aproximadamente de 0
Sin relacin lineal
Covarianza negativa
Existe relacin lineal negativa entre x y y.
M.C. Angel David Trujillo Hernndez
volumen de ventas
60
55
50
45
40
35
0
3
nmero de comerciales
Coeficiente de correlacin.
Para los datos de correlacin de una muestra, se define el coeficiente
de correlacin de momento del producto de Pearson, como sigue.
donde,
rxy = coeficiente de correlacin de la muestra
Sxy = covarianza de la muestra
Sx = desviacin estndar muestral de x
Sy = desviacin estndar muestral de y
donde,
Cantidad de
comerciales x
Volumen de ventas
($)
y
50
2
3
1
=
3
5
57
41
54
54
38
63
48
59
10
46
yi
10
10
30
15
50
10
15
La recta que se traz y que pasa por cada uno de los tres puntos indica
que hay una relacin lineal perfecta entre las variables x y y.
calculando la correlacin muestral .
10
-5
25
-20
400
100
10
30
15
50
25
20
400
100
30
90
50
800
200
Coeficiente de determinacin
Qu tan bien se ajustan los datos a la ecuacin de regresin lineal?
SSE= ( )2
SST= ( )2
Ajuste perfecto:
SSR = SST
Valores:
0a1
SSR= ( )2
2 =
Coeficiente de determinacin:
2 =
)2
Coeficiente de correlacin.
Medida descriptiva de la intensidad de la asociacin lineal entre dos variables, x e y.
Los valores siempre estn ente -1 y 1.
Si ya se ha hecho un anlisis de regresin y se ha calculado el coeficiente de
determinacin r2, el coeficiente de correlacin de la muestra se puede calcular:
= ( 1 ) 2
Regresin Polinomial
Algunos datos de ingeniera, aunque muestren un marcado patrn se representan
pobremente mediante una lnea recta. En estos casos, se ajusta mejor una curva
a los datos. Una alternativa es ajustar polinomios a los datos usando regresin
polinomial.
(
x
)
a
(
x
a
x
y
i
0
i
1
i)
2
i
i
4
2
3
2
( xi )a0 ( xi )a1 ( xi )a2 xi yi
2
Ejercicio
Ajustar a un polinomio de segundo grado los datos dados en las dos primeras
columnas de la siguiente tabla.
70
60
50
40
30
20
10
0
0
En donde:
m=2
n=6
x 15
y 152.6
x 55
i
x
x
255
979
i
i
x 2.5
y 25.433
x y 585.6
x y 2488.8
i
70
y = 1.8607x2 + 2.3593x + 2.4786
R = 0.9985
60
a0 2.47857
a1 2.35929
a2 1.86071
50
40
30
20
10
0
0
3
Ttulo del eje
Media ponderada
La media ponderada para una muestra se calcula como sigue,
donde
xi = valor del dato i
wi = peso, o factor de ponderacin, del dato i
Cantidad de libras
3.00
1200
3.40
500
2.80
2500
2.90
1000
3.25
800
Observar que el costo por libra cambio de 3.40 a 2.80 dlares, ya que
la cantidad comprada vari de 500 a 2500 libras. Esto debido al
cambio que ocurre en los costos con respeto al tiempo y a la cantidad
de compra. El inters es calcular el costo promedio por libra.
Otro ejemplo..
En la materia de estadstica se asignan pesos de importancia para cada
una de las unidades ; Unida I (20% del curso), Unidad II (25% del
curso), Unidad III (20% del curso), Unidad IV (15% de la calificacin),
Unidad V (20% de la calificacin ).
Si las calificaciones de un alumno son las siguientes: 8 en la primera
unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta
unidad y 8 en la ltima unidad.
De la informacin se obtiene la siguiente tabla.
Unidad
Ponderacin por
unidad (wi)
Calificacin
(xi)
20%
II
25%
III
20%
IV
15%
10
20%
7.25
= 7.25
1.0
Datos agrupados
En la mayora de los casos las medidas de localizacin y de variabilidad
se calculan a partir de valores de datos individuales.
Sin embargo en ocasiones los datos se encuentran en forma agrupada
o en forma de distribucin de frecuencias.
Consideremos la distribucin de frecuencias de los tiempo de auditoria.
Tiempo de auditoria (das)
Frecuencia
10-14
15-19
20-24
25-29
30-34
Total
20
en la que
Frecuencia
(fi)
fi Mi
10-14
(10+14)/2 =12
48
15-19
17
136
20-24
22
110
25-29
27
54
30-34
32
32
20
380
Punto medio de
clase
(Mi)
Frecuencia
(fi)
Desviacin
Desviacin al
cuadrado
10-14
12
-7
49
196
15-19
17
-2
32
20-24
22
45
25-29
27
64
128
30-34
32
13
169
169
20
570