You are on page 1of 144

Unidad III.

Estadstica descriptiva:
mtodos numricos

M.C. Angel David Trujillo Hernndez

Contenido

3.1. Medidas de localizacin


Media
Mediana
Moda
Percentiles
Cuartiles

3.2. Medidas de variabilidad


Rango
Rango intercuartil
Varianza
Desviacin estndar
Coeficiente de variacin

3.3. Medidas de localizacin relativa y deteccin de


valores atpicos
Valores z
Teorema de Chebyshev
La regla emprica
Deteccin de valores atpicos

M.C. Angel David Trujillo Hernndez

Continuacin contenido
3.4. Anlisis exploratorio de datos
Resumen de cinco nmeros
Diagrama de caja
3.5. Medidas de asociacin entre dos variables
Covarianza
Interpretacin de la covarianza
Coeficiente de la correlacin
Interpretacin del coeficiente de correlacin
3.6. Media Ponderada y manejo de datos agrupados
Media ponderada
Datos agrupados

M.C. Angel David Trujillo Hernndez

3.1. Medidas de localizacin


Las medidas de localizacin y de dispersin se calculan a partir de los
n valores de los datos.
Si se calculan partiendo de datos de una muestra se llaman
estadsticos de la muestra. Si se calculan a partir de los datos de una
poblacin, entonces se denominan parmetros poblacionales.

Media.
Conocida tambin como promedio de una variable, la media es una de
las medidas de localizacin central ms empleadas.
sta se obtiene sumando todos los valores de los datos y dividiendo el
resultado entre la cantidad de los valores.

M.C. Angel David Trujillo Hernndez

A continuacin se pueden observar las formulas para calcular la media


en una muestra y en una poblacin respectivamente,

donde,

La letra griega es el signo de suma, o sumatoria.

M.C. Angel David Trujillo Hernndez

Ejemplo del clculo de la media


Consideremos los siguientes datos de cinco grupo en una escuela,
46 54 42 46 32
Aplicando la notacin x1, x2, x3, x4, x5, para representar la cantidad de
alumnos en cada uno de los siguientes grupos.

X1 = 46 X2 = 54 X3 = 42 X4 = 46 X5 = 32

Para las cinco clases muestreadas, el tamao promedio del grupo es 44


alumnos.
M.C. Angel David Trujillo Hernndez

Ejemplo del clculo de la


media
Considere la muestra de 12 graduados a los cuales se les pregunto su
salario mensual, los datos reunidos se pueden observar en la tabla.

Egresado

Salario mensual

Egresado

Salario mensual

2850

2890

2950

3130

3050

2940

2880

10

3325

2755

11

2920

2710

12

2880

M.C. Angel David Trujillo Hernndez

El promedio de salario mensual de la muestra:

M.C. Angel David Trujillo Hernndez

Mediana.
Es otra medida de la localizacin central de los datos. Es el valor
intermedio, cuando los valores de los datos se ordenan en forma
ascendente.

Si hay una cantidad impar de elementos, la mediana es el valor del


elemento intermedio, cuando todos los elementos estn ordenados de
manera ascendente.
Si hay una cantidad par de elementos, la mediana es el valor promedio
de los dos elementos intermedios, cuando todo se ordenan en forma
ascendente.
Aplicando esta definicin para calcular la mediana del tamao de un
grupo para la muestra de cinco grupos en la escuela.
32 42 46 46 54
Como n = 5 es impar, la mediana es el elemento intermedio de la lista
ordenada. As el tamao de clase es 46 alumnos.
M.C. Angel David Trujillo Hernndez

Calculando la mediana del salario inicial de 12 egresados


2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

Como n = 12 es par, identificamos los dos elementos intermedios. La


mediana es la media de esos dos valores.

Mediana = (2890+2920)/2 = 2905


Aunque la media es la medida de localizacin central que ms se usa,
hay algunas casos en los que se prefiere la mediana; ya que la media se
ve influenciada por valores demasiados pequeos o demasiados
grandes.
Cuando hay valores extremadamente altos o bajos de los datos, con
frecuencia la mediana es la medida preferida de localizacin central.

M.C. Angel David Trujillo Hernndez

Para observar lo antes mencionado cambiemos el ultimo valor del


ejercicio anterior por otro dato con un valor mucho ms grande (3325
por 10 000),
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 10000

Calculando de nuevo la media


Media = 41955 / 12 = 3496
Recordemos que la media antes calculada era de 2940. Se observa el
incremento en el valor de la media provocado por incorporar un valor
(en el extremo) muy alto en clculo.
Sin embrago si calculamos de nuevo la mediana con el cambio del
ltimo valor, se puede observar que no sufre ninguna modificacin con
respecto al valor de la mediana antes calculada, ya que el nmero de
datos y la ubicacin de los valores centrales no se modifican.

M.C. Angel David Trujillo Hernndez

Moda.
La moda es el valor de los datos que se presenta con ms frecuencia.
Considerar la muestra de los cinco tamaos de grupo,

32 42 46 46 54
El nico valor que se presenta ms de una vez es 46; como este valor
tiene la mxima frecuencia, constituye la moda (frecuencia de 2).
Otro ejemplo, es considerando los valores de los 12 salarios de los
egresados,
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
El nico valor que presenta una mayor frecuencia es el dato 2880, el
cual tiene una frecuencia de 2, por lo tanto representa la moda.

M.C. Angel David Trujillo Hernndez

Se dan casos en los que la mxima frecuencia se presenta en dos o


ms valores distintos, por lo que en ellos existe ms de una moda. Si
los datos tienen exactamente dos modas, se que son datos bimodales.
Si tienen ms de dos modas, son multimodales.
La moda es una medida importante de localizacin de datos
cualitativos.

Marca

Frecuencia

Coca clsica

19

Coca diettica

Dr. Pepper

Pepsi - Cola

13

Sprite

5
Total

M.C. Angel David Trujillo Hernndez

50

Comparacin de la media mediana y


moda
Propiedades:
Media
Es la ms empleada
Su clculo es simple
Los datos no requieren ser ordenados
Es muy sensible a valores demasiados grandes o pequeos (ocasionan
una distribucin oblicua o asimtrica)
Es muy tedioso su clculo
Considera todos los datos
Mediana
Los datos necesitan ser ordenados
Es tedioso su clculo cuando el tamao del conjunto de datos es muy
grande (ordenamiento)
No se ve afectada por valores demasiados grandes o pequeos
Solo toma uno o dos valores de la poblacin
Moda
El conteo es lo nico necesario

M.C. Angel David Trujillo Hernndez

Relaciones entre la media, mediana y moda

Media, mediana, moda


(a) Simtrica unimodal

Moda Mediana moda


Media
(b) Simtrica bimodal

Moda Mediana Media


(d) Asimtrica a la derecha,
M.C. Angel David Trujillo Hernndez
unimodal

Media Mediana Moda


(c) Asimtrica a la izquierda,

En resumen..
Si el histograma de un conjunto de mediciones es simtrico, use la
media como promedio. Si el histograma no es simtrico , emplee la
mediana o la moda como medidas de posicin.

M.C. Angel David Trujillo Hernndez

Percentiles.
El p-simo percentil es un valor tal que por lo menos p por ciento de
las observaciones son menores o iguales que este valor y por lo menos
(100-p) por ciento de las observaciones son mayores o iguales que este
valor.
Para calcular el p-simo percentil se aplica el siguiente mtodo,
Paso 1. Ordenar los datos de manera ascendente
Paso 2. Calcular un ndice i

Paso 3. a) si i no es entero, se redondea. El valor entero inmediato


mayor que i indica la posicin del p-simo percentil.
b) Si i es entero, el p-simo percentil es el promedio de los valores de
los datos ubicados en los lugares i e i+1.
M.C. Angel David Trujillo Hernndez

Ejemplo Percentiles.

Considerar los datos de los salarios, calcular el percentil 85


Paso 1. Ordenar los datos de manera ascendente
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Paso 2. Calcular un ndice i

Paso 3. Como i no es entero, se redondea. El lugar del percentil 85 es el


siguiente entero mayor que 10.2, o sea, el lugar 11.
Vemos que el percentil 85 es el valor en la posicin dcima primera, o
3130.

M.C. Angel David Trujillo Hernndez

Otro ejemplo de Percentiles.

Calcular el percentil 50 para los datos anteriores


Aplicando el paso 2
Paso 2. Calcular un ndice i

Paso 3. Como i es entero, el percentil 50 es el promedio de los valores


de los datos sexto y sptimo; (2890+2920)/2 = 2905
Observe que el percentil 50 es tambin la mediana.

M.C. Angel David Trujillo Hernndez

Cuartiles.
Frecuentemente los datos se dividen en cuatro partes, cada una con
aproximadamente la cuarta parte, o el 25% de las observaciones.

A los puntos de divisin se les llama Cuartiles, y se definen como sigue,


Q1= Primer cuartil, o percentil 25
Q2= Segundo cuartil, o percentil 50 (mediana)
Q3= Tercer cuartil, o percentil 75
M.C. Angel David Trujillo Hernndez

De nuevo usaremos los datos de sueldo inicial mensual, arreglados en


el orden ascendente; ya dijimos que Q2, el segundo cuartil o la
mediana, es 2905.
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Para determinar Q1 y Q3 emplearemos la regla para calcular el 25% y el
75% percentil.

Para Q1,

Como i es entero, el primer cuatil, o 25% percentil es el promedio del


tercero y cuarto valor de los datos; as, Q1 = (2850+2880)/2 = 2865

M.C. Angel David Trujillo Hernndez

Para Q3,

Como i es entero, el tercer cuatil, o 75% percentil es el promedio del


noveno y decimo valor de los datos; as, Q3 = (2950+3050)/2 = 3000.

Se puede observar que los cuartiles han dividido los 12 valores en


cuatro partes, y cada una est formada por el 25% de los elementos.
2710 2755 2850 | 2880 2880 2890 | 2920 2940 2950 | 3050 3130 3325

Q1 = 2865

Q2 = 2905
(Mediana)

M.C. Angel David Trujillo Hernndez

Q3 = 3000

3.2. Medidas de variabilidad


Adems de las medidas de localizacin, con frecuencia es conveniente
contar con medidas de dispersin o de la variabilidad de los valores de
los datos.

0.4

9
10
11

0.3
0.2
0.1
0

Das hbiles

0.3
Frecuencia

Frecuencia

0.5

0.2
0.1
0
Das hbiles

M.C. Angel David Trujillo Hernndez

7
8
9
10
11
12
13
14

Rango.
Quiz la medida ms sencilla de la dispersin en un conjunto de
datos sea el rango.
Rango = Valor mximo Valor mnimo
Considerando los datos del ejemplo de los 12 salarios y calculando el
rango,
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Rango = 3325 2710 = 615 pesos
Aunque el rango es la medida de dispersin ms fcil de calcular,
casi nunca se usa como la nica medida de dispersin. La razn es
que solo se basa en dos de los elementos y, por consiguiente, est
muy influido por los valores extremos de los datos.

M.C. Angel David Trujillo Hernndez

Si consideramos de nuevo el cambio del ultimo valor podemos


observar como le afecta al clculo del rango,
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 10000

Rango = 10000 2710 = 7290 pesos


Este valor tan grande del rango no describir adecuadamente la
variabilidad de los datos, por que 11 de los 12 salarios inciales se
agrupan estrechamente entre 2710 y 3130.

M.C. Angel David Trujillo Hernndez

Rango intercuartil.
Una medida de la dispersin que elimina la influencia de los valores
extremos de los datos es el rango intercuartil (RIC). Esta medida de
dispersin es simplemente la diferencia entre el tercer cuartil Q3 y el
primero Q1. En otras palabras, el rango intercuartil corresponde al
rango del 50% intermedio de los datos.
RIC = Q3 Q1
Para los datos de los salarios mensuales a la contratacin, los
cuartiles son Q3 = 3000 y Q1 = 2865. As, el RIC

RIC = 3000 2865

M.C. Angel David Trujillo Hernndez

Varianza.
Es una medida de la dispersin que emplea todos los datos. Se basa
en la diferencia entre el valor de cada observacin (xi) y la media. La
diferencia entre cada xi y el promedio se llama desviacin respecto al
promedio.
Para calcular la varianza, las desviaciones con respecto al promedio
se elevan al cuadrado.
Varianza de una poblacin o varianza poblacional

Varianza de la muestra o varianza muestral

M.C. Angel David Trujillo Hernndez

Ejemplo de la varianza.
Considere el ejemplo de los cinco grupos de una escuela,
Cantidad de
alumnos en el
grupo (xi)

Tamao
promedio de
grupo ( )

Desviacin
respecto a la
media

Desviacin
respecto a la
media elevada al
cuadrado

46

44

54

44

10

100

42

44

-2

46

44

32

44

-12

144

256

M.C. Angel David Trujillo Hernndez

Considerando el resultado anterior y sustituyndolo a la formula,

Por lo que la varianza es de 64 alumnos2 (considerar a la varianza


como una medida til para comparar el grado de dispersin de dos o
ms variables).
Al comparar las variables, la que tiene mayor varianza tiene la mayor
dispersin o variabilidad.
Observen que las desviaciones positivas y las negativas siempre se
cancelan entre s.

M.C. Angel David Trujillo Hernndez

- Desviacin

+ Desviacin

- Desviacin + Desviacin

Medidas

Media

Medidas

La varianza es un nmero que toma en cuenta todas las


medidas de la poblacin. Toma en cuenta la distancia de cada
medida con respecto a la media. Esta distancia se llama
desviacin.
Las desviaciones negativas y positivas se anularan, por ello se
elevan al cuadrado cada desviacin y finalmente se toma el
promedio.
M.C. Angel David Trujillo Hernndez

Otro ejemplo de la varianza.


Considere el ejemplo de los 12 salarios,
Cantidad de alumnos en el grupo (xi)

2850
2950
3050
2880

2755
2710
2890

3130
2940
3325
2920
2880
M.C. Angel David Trujillo Hernndez

Resolviendo
Cantidad de alumnos
en el grupo (xi)

Tamao promedio de
grupo ( )

Desviacin respecto a
la media

Desviacin respecto a
la media elevada al
cuadrado

2850

2940

-90

8100

2950

2940

10

100

3050

2940

110

12100

2880

2940

-60

3600

2755

2940

-185

34225

2710

2940

-230

52900

2890

2940

-50

2500

3130

2940

190

36100

2940

2940

3325

2940

385

148225

2920

2940

-20

400

2880

2940

-60

3600

301850

M.C. Angel David Trujillo Hernndez

Considerando el resultado anterior y sustituyndolo a la formula,

Por lo que la varianza es de 27440.91 dolares2

M.C. Angel David Trujillo Hernndez

Desviacin estndar.
La desviacin estndar se define como la raz cuadrada positiva de la
varianza.
Desviacin estndar de una muestra
Desviacin estndar de una poblacin

Recordemos la varianza muestral para los cinco grupo y para los 12


sueldos de los egresados, calculando su desviacin estndar,

Nos da como resultado 8 alumnos y 165.5 dlares respectivamente.


M.C. Angel David Trujillo Hernndez

Qu se gana al pasar de la varianza a su desviacin estndar


correspondiente?
Las unidades de la varianza (al cuadrado) se convierten a las
unidades del problema plateado inicialmente, es decir, la desviacin
estndar se mide con las mismas unidades que las de los datos
originales.
Por esta razn la desviacin estndar se compara con ms facilidad
con el promedio y otros estadsticos que tienen la mismas unidades
que los datos originales.

M.C. Angel David Trujillo Hernndez

Coeficiente de variacin.
En algunos casos, es de inters el saber que tan grande es la
desviacin estndar con respecto a la media. En esos casos un
medida descriptiva que nos permite conocer esa cantidad es el
coeficiente de variacin, el cual se calcula como sigue,

Calculando el coeficiente de variacin de los ejemplos (grupos,


salarios),

Lo cual indica que la desviacin estndar de la muestra es el 18.2%


del valor de la media de la muestra.

M.C. Angel David Trujillo Hernndez

En el caso de los 12 salarios,

Es decir, la desviacin estndar de esta muestra slo es del 5.6% del


valor de la media de la muestra.
En general el coeficiente de variacin es un estadstico til para
comparar la dispersin de variables que tienen distintas
desviaciones estndar y distintos promedios.

M.C. Angel David Trujillo Hernndez

El coeficiente de variacin se utiliza para comparar la variabilidad de dos o


ms series de datos que tengan medias iguales o diferentes o que tengan
unidades de medida iguales o diferentes (por decir, una serie en kilogramos y
otra serie en metros).

M.C. Angel David Trujillo Hernndez

En Resumen..
Rango, varianza y desviacin estndar.
Discusin
Consider calificaciones de un examen considerando cuatro diferentes
registros

Conjunto

Calificaciones de la prueba

Media

Rango

70, 70, 70, 70, 70

70

70 70 = 0

68, 69, 70, 71, 72

70

72 68 = 4

60, 70, 70, 70, 80

70

80 60 = 20

60, 65, 70, 75, 80

70

80 - 60 = 20

La media no muestra la variabilidad de las calificaciones.


M.C. Angel David Trujillo Hernndez

60

65

70

75

80

60

65

Conjunto 1

60

65

70

70

75

80

75

80

Conjunto 2

75

80

60

65

70

Conjunto 4

Conjunto 3

M.C. Angel David Trujillo Hernndez

60

65

70

75

60

80

Conjunto 1. Pequea variabilidad

60

65

65

70

75

80

Conjunto 3. Alguna variabilidad

70

75

80

Conjunto 4. Gran variabilidad

M.C. Angel David Trujillo Hernndez

Ejemplo
Se realizo una prueba de actitud a 20 personas, las cuales fueron divididas
en dos grupos. Las personas del grupo 1 fueron evaluados de 0 a 100 y las
personas del grupo 2 se evaluaron de 0 a 20.
Grupo 1: 86, 81, 79, 73, 95, 86, 94, 90, 86, 88
Grupo 2: 16, 19, 13, 20, 14, 16, 19, 18, 17, 15
a) Realice un anlisis de variabilidad de los dos grupos y determine que
grupo tiene mayor dispersin. Fundamente su respuesta.
b) Se puede aceptar que el estudiante con 73 puntos del grupo 1 tiene
mayor aptitud que el estudiante con 13 puntos del grupo 2?. Fundamente
su respuesta.

M.C. Angel David Trujillo Hernndez

Solucin.
Grupo1

Datos ordenados
73
79
81
86
86
86
88
90
94
95

13
14
15
16
16
17
18
19
19
20

Grupo2

Min
Max

73
95

Min
Max

Rango

22

Rango

Q1
Q3

81
90

Q1
Q3

15
19

RIC

RIC

varianza
DE

45.2888889
6.72970199

media
C.V.

85.8
7.84347551

varianza
DE
media
C.V.

13
20

5.34444444
2.31180545
16.7
13.8431464

De los resultados obtenidos se puede observar que el grupo 2 tiene mayor


variabilidad debido a que el C.V. es mayor para este grupo. El resto de las
mediciones no son funcionales para realizar la comparacin debido a que no tienen
la misma media (los rangos de evaluacin fueron distintos).
De dicho anlisis se puede determinar que si es valido aceptar que tiene mayor
actitud el estudiante con 73 puntos del primer grupo en comparacin al alumno
con 13 puntos del segundo grupo, esto debido a la dispersin de los datos de los
grupos.
M.C. Angel David Trujillo Hernndez

Caractersticas esenciales
Rango
-Toma solo dos datos
-Es severamente influenciado por datos muy grandes y/o pequeos
-Es clculo es muy sencillo
-No se utiliza como la nica medida de variabilidad (no es muy confiable)
Rango Intercuartil (RIC)
-Es necesario contar con el primer y tercer cuartil, por lo cual su clculo
puede ser un poco tedioso
-No es influenciado por los datos pequeos o grandes
-Considera el 50% de los datos (datos intermedios) descartando valores
muy pequeos o muy grandes
Varianza
-Es la ms confiable
-Emplea todos los datos
-Su clculo es tedioso mientras ms datos se tengan
-Transforma las unidades reales a unidades al cuadrado

M.C. Angel David Trujillo Hernndez

Continuacin..

Desviacin Estndar
-Su clculo es sencillo una vez que se haya calculado la varianza
-Transforma las unidades a unidades de los datos originales
-Es la ms empleada para realizar comparaciones en conjunto con otros
estadsticos , debido a que tienen las mismas unidades de los datos reales
Coeficiente de Variacin
-Permite comparar la dispersin de variables cuando entre distintos grupos
de datos se tienen diferentes desviaciones estndar y promedios

M.C. Angel David Trujillo Hernndez

ndices de Asimetra y Curtosis


La descripcin estadstica de una muestra de datos no concluye con el clculo de
su tendencia central y su dispersin. Para dar una descripcin completa es
necesario estudiar tambin el grado de simetra de los datos respecto a su medida
central y la concentracin de los datos alrededor de dicho valor.
Distribuciones:
Simtrica (b) Espejo respecto al punto central
Asimtrica hacia la derecha (a) sesgada a la derecha (sesgo positivo)
Asimtrica hacia la izquierda (c) sesgada a la izquierda (sesgo negativo)

Distribuciones: Simtrica y Asimtrica

Con el fin de cuantificar el grado de asimetra de una distribucin se pueden


definir los coeficientes de asimetra. Uno de los principales:
Coeficiente de asimetra de Person. Coeficiente adimensional, se define como:

Interpretacin:
Para distribuciones simtricas Ap = 0
Para distribuciones asimtricas hacia la izquierda Ap < 0
Para distribuciones asimtricas hacia la derecha Ap > 0

Otra forma de expresarlo:

Nota:
Si AS<0 indica que existe presencia de la minora de datos en la parte Izquierda de
la media, aunque en algunos casos no necesariamente indicar que la distribucin
sea asimtrica negativa.
Si AS = 0 la distribucin ser simtrica.
Si AS > 0 indica que existe presencia de la minora de datos en la parte derecha de
la media, aunque en algunos casos no necesariamente indicar que la distribucin
sea asimtrica positiva.

Curtosis.
La curtosis es la propiedad de una distribucin de frecuencias por la cual se
compara la dispersin de los datos observados cercanos al valor central con la
dispersin de los datos cercanos a ambos extremos de la distribucin. La
curtosis se mide en comparacin a la curva simtrica normal o mesocrtica.
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los
valores alrededor de la zona central de la distribucin.

Una curva simtrica con curtosis mayor que de la normal es denominada curva
leptocrtica .
Una curva simtrica con curtosis menor que de la normal es denominada
curva platicrtica .
Existen varias maneras de medir la curtosis de la distribucin de los datos.

Curtosis basado en percentiles.


Esta medida de curtosis es muy poco usada por ser muy inestable. Sin
embargo, describe muy bien el concepto.
En una curva normal, el cociente del rango intercuartil (percentil 75 menos el
percentil 25) entre la diferencia del percentil 90 menos el percentil 10 es
aproximadamente igual 0.5. A medida que P75 - P25 y P90 P10 sean iguales
(valor del cociente casi uno), la distribucin ser leptocrtica, y a medida que
P75 P25 sea cada vez ms pequeo con respecto a P90 P10 (valor del
cociente casi cero) la distribucin ser platicrtica.

La curtosis utilizando percentiles se define por el cociente:

Interpretacin . Si la distribucin es normal K tiende a 0. Si K tiende a 0.5, es


leptocrtica, y si A" tiende a -0 .5 , es platicrtica.

Ejercicios.
1. Tiempos de espera de clientes. A continuacin se presentan los tiempos
de espera (en minutos) de los clientes del Banco Jefferson Valley (donde
todos los clientes forman una sola fila) y del Banco Providence (donde los
clientes esperan en filas individuales, en tres ventanillas diferentes):
Jefferson Valley: 6.5 ,6.6, 6.7, 6.8, 7.1, 7.3, 7.4, 7.7, 7.7, 7.7
Providence: 4.2 ,5.4, 5.8, 6.2, 6.7, 7.7, 7.7, 8.5, 9.3, 10.0

2. Coca Cola regular/Coca Cola diettica. Los siguientes son los pesos (en
libras) de muestras del contenido de latas de Coca Cola regular y Coca Cola
diettica:
Regular: 0.8192, 0.8150, 0.8163, 0.8211, 0.8181, 0.8247
Diettica: 0.7773, 0.7758, 0.7896, 0.7868, 0.7844, 0.7861

3. Mickey D vs. Jack. Al investigar los tiempos que se requieren en el servicio


para automvil (en segundos), se obtienen los siguientes resultados (con base
en datos del QSR Drive-Thru Time Study).

McDonalds: 287, 128, 92, 267, 176, 240, 192, 118, 153, 254, 193, 136
Jack in the Box: 190, 229, 74, 377, 300, 481, 428, 255, 328, 270, 109, 109

4. Anchura de crneos. Las anchuras mximas de muestras de crneos egipcios


de varones que datan del 4000 a.C. y del 150 d.C (de acuerdo con datos de
Ancient Races of the Thebaid, de Thomson y Randall-Maciver) se muestran a
continuacin:
4000 a.C.: 131, 119, 138, 125, 129, 126, 131, 132, 126, 128, 128, 131
150 d.C.: 136, 130, 126, 126, 139, 141, 137, 138, 133, 131, 134, 129

3.3. Medidas de localizacin relativa y


deteccin de valores atpicos
Una vez de haber comprendido las medidas de
localizacin y de dispersin de un conjunto de
datos, es conveniente conocer la aplicacin de
estas medidas para obtener la localizacin
relativa de los elementos en un conjunto de
datos.
Tipo Medida

Ms empleada

Localizacin

Media

Dispersin

Desviacin estndar y varianza

M.C. Angel David Trujillo Hernndez

Valores z
Al usar la media y la desviacin estndar podemos determinar la
localizacin relativa de cualquier observacin.
Con frecuencia se le da el nombre de valor estandarizado al valor z.
Este valor, zi (esta asociado al valor xi), se puede interpretar como el
nmero de desviaciones estndar que dista xi del promedio .

Por ejemplo, z1=1.2 indicara que x1 es 1.2 desviaciones estndar mayor


que la media de la muestra. Igualmente, z2= -0.5 indicara que x2 est a
0.5, o desviacin estndar por debajo de la media de la muestra.

Donde,

zi = el valor z del elemento xi


= la media de la muestra
S = la desviacin estndar de la muestra
M.C. Angel David Trujillo Hernndez

Si zi>0, valor de xi mayor que la media


Si zi<0, valores de xi menor que la media
Si zi=0, el valor de la observacin es igual a la media
Dos diferentes conjuntos de datos con el mismo valor de z poseen la
misma localizacin relativa, ya que estn a la misma cantidad de
desviaciones estndar con respecto a la media.

M.C. Angel David Trujillo Hernndez

Aplicacin..
Cuando se necesiten comparar valores observados que pertenecen a
diferentes distribuciones de datos, las que difieren en su media aritmtica o en
su varianza, o difieren en el tipo de unidad de medida, entonces se usa el
valor estndar Z.
Se puede verificar que la variable Z estandariza cualquier media en 0 y
cualquier varianza en 1 .

M.C. Angel David Trujillo Hernndez

Ejemplo..
Considerando el ejemplo de los 5 grupos de una escuela, a
continuacin se puede observar los valores z de los datos. Recuerde
que la media calculada fue de
= 44 alumnos, la desviacin estndar
fue de S = 8 alumnos
Cantidad de alumnos
en el grupo (xi)

Desviacin respecto a
la media (xi- )

Valor z

46

2/8=0.25

54

10

10/8=1.25

42

-2

-2/8=-0.25

46

2/8=0.25

32

-12

-12/8=-1.50

Recuerde que la suma de las desviaciones deben ser igual a cero


El valor del quinto elemento indica que est a 1.50 desviaciones debajo
del promedio (es el ms alejado).
M.C. Angel David Trujillo Hernndez

Comprobando
Si S = 8
z1 esta a 0.25 desviaciones estndar arriba de la media = 44+0.25(8)=46= x1
z2 esta a 1.25 desviaciones estndar arriba de la media = 44+1.25(8)=54= x2
z3 esta a -0.25 desviaciones estndar arriba de la media = 44-0.25(8)=42= x3
z4 esta a 0.25 desviaciones estndar arriba de la media = 44+0.25(8)=46= x4
z5 esta a -1.50 desviaciones estndar arriba de la media = 44-1.50(8)=32= x5
M.C. Angel David Trujillo Hernndez

Ejemplo ..
En una evaluacin de Matemticas e Historia resultan las medias 13 y 17 y las
desviaciones estndar 3 y 4, respectivamente. Si un alumno obtiene 14 en
Matemticas y 16 en Historia, en cul de los dos cursos tiene mejor rendimiento
relativo?.
1 =

2 =

1 14 13 1
=
= = 0.333

3
3

2 16 17 1
=
=
= 0.25

4
4

Aparentemente tienen un mejor rendimiento en Historia pero al estandarizar se


observa que su mejor desempeo lo tiene en matemticas.

M.C. Angel David Trujillo Hernndez

Ejemplo ..
Se desea conocer de dos jugadores de basquetbol quien es el ms alto. El primer
jugador es Michael Jordn (NBA) el cual mide 78 pulgadas, la segunda jugadora
es Rebecca Lobo (WNBA) quien mide 76 pulgadas. La media en la NBA es de 69
pulgadas con una desviacin estndar de 32.8 pulgadas, mientras que la media y
desviacin estndar en la WNBA es 63.6 pulgadas y 2.5 pulgadas,
respectivamente.
1 =

2 =

1 78 69
=
= 3.21

32.8

2 76 63.6
=
= 4.96

2.5

Aparentemente Michael Jordn tiene una mayor altura que Rebecca Lobo, pero al
estandarizar se observa que es ms alta la jugadora.

M.C. Angel David Trujillo Hernndez

Teorema de Chebyshev

Este teorema permite inferir la proporcin de valores que deben quedar


dentro de una cantidad especifica de desviaciones estndar respecto a
la media.
Cuando menos (1-1/z2) de los datos deben estar a menos de z
desviaciones estndar de separacin respecto a la media, siendo z
cualquier valor mayor que 1.

M.C. Angel David Trujillo Hernndez

A continuacin veamos algunas de las implicaciones de este teorema,


con z = 2, 3 y 4 desviaciones estndar.
Cuando menos, el 0.75 o 75% de los datos deben estar a menos de z =
2 desviaciones estndar de la media.

Cuando menos, el 0.89 o 89% de los datos deben estar a menos de z =


3 desviaciones estndar de la media.
Cuando menos, el 0.94 o 94% de los datos deben estar a menos de z =
4 desviaciones estndar de la media

M.C. Angel David Trujillo Hernndez

Ejemplo del Teorema de


Chebyshev
Suponga que las calificaciones del examen parcial de 100 alumnos en
un curso de estadstica tuvieron un promedio de 70 y una desviacin
estndar de 5. Cuntos alumnos tuvieron calificaciones entre 60 y
80?Cuntos entre 58 y 82?

M.C. Angel David Trujillo Hernndez

Calculando los valores Z


Calculando el valor z para 60
1 =

1 60 70 10
=
=
= 2

5
5

Por lo que obtenemos 2 desviaciones abajo con respecto a la media.


Calculando de la misma manera el valor z para 80, nos da un valor de
z de 2 desviaciones arriba con respecto a la media.

Como z debe ser mayor que uno, tomaremos el valor de z2.

M.C. Angel David Trujillo Hernndez

Continuacin del ejemplo del


Teorema de Chebyshev
Sabiendo que el valor de z es de 2 y considerando la primer implicacin
establecida anteriormente (aplicando el teorema),
Cuando menos, el 0.75 o 75% de los datos deben estar a menos de z =
2 desviaciones estndar de la media.
El 75% de las observaciones deben tener valores menores de dos
desviaciones estndar del promedio. As cuando menos el 75 de los 100
alumnos deben haber obtenido calificaciones entre 60 y 80.

M.C. Angel David Trujillo Hernndez

Para las calificaciones entre 58 y 82,


Z3 = 58-70/5 = -2.4 (2.4 desviaciones abajo de la media), y
Z4 = 82-70/5 = 2.4 (2.4 desviaciones arriba de la media)

Aplicando el teorema de Chebyshev para el valor z>0,

Cuando menos el 82.6% de los alumnos deben tener calificaciones


entre 58 y 82.

M.C. Angel David Trujillo Hernndez

La Regla Emprica
Una de las ventajas del teorema de Chebyshev es que se aplica a
cualquier conjunto de datos, independientemente de la forma de la
distribucin de los mismos.
En aplicaciones prcticas se ha encontrado que muchos conjuntos de
datos tiene una distribucin en forma de colina o de campana.

Cuando este es el caso se puede aplicar la regla emprica para


determinar el porcentaje de elementos que deben estar dentro de
determinada cantidad de desviaciones estndar respecto al promedio.
M.C. Angel David Trujillo Hernndez

Para datos con distribucin en forma de campana:


Aproximadamente el 68% de los elementos estn a menos de una
desviacin estndar de la media
Aproximadamente el 95% de los elementos estn a menos de dos
desviacin estndar de la media
Casi todos los elementos estn a menos de tres desviaciones estndar
de la media.

M.C. Angel David Trujillo Hernndez

Ejemplo de la Regla Emprica


En una lnea de produccin se llenan, automticamente, envases de
plstico con detergente lquido. Con frecuencia, los pesos de llenado
tienen una distribucin en forma de campana. Si el peso promedio de
llenado es de 16 onzas y la desviacin estndar 0.25 onzas, se puede
aplicar la regla emprica para hacer las siguientes conclusiones:
Aproximadamente 68% de los envases llenos tienen entre 15.75 y
16.25 onzas (esto es, menos de una desviacin estndar del promedio).
Aproximadamente 95% de los envases llenos tienen entre 15.50 y
16.50 onzas (esto es, menos de dos desviaciones estndar del
promedio).

Casi todos los envases llenos tienen entre 15.25 y 16.75 onzas (esto
es, menos de tres desviaciones estndar del promedio).

M.C. Angel David Trujillo Hernndez

Deteccin de valores atpicos


A veces un conjunto de datos tiene uno o ms elementos con valores
demasiados grandes o demasiados pequeos. A los valores extremos
como stos se les llama valores atpicos.

Un valor atpico puede ser un elemento para el cual se haya anotado


su valor en forma errnea, por lo que se debe corregir antes de
proseguir.

Rojo
Amarillo
Verde
Azul
Verde

M.C. Angel David Trujillo Hernndez

Rojo
Amarillo
Verde
Azul
Blanco

Tambin, un valor atpico puede ser uno que por error se incluy en el
conjunto de datos, y en estos casos, debe eliminarse.

Por ltimo, puede ser tan solo un elemento poco comn que se haya
anotado en forma correcta y que s pertenece al conjunto de datos. En
estos casos el elemento debe mantenerse.

M.C. Angel David Trujillo Hernndez

Deteccin de valores atpicos


Los valores estandarizados (valores
identificar los valores atpicos.

z)

pueden

emplearse

para

Tomando en cuenta que en la regla emprica permite decir que cuando


tiene una distribucin acampanada, casi todos los datos estarn a
menos de tres desviaciones estndar del promedio.

Por consiguiente, al usar los valores z para identificar valores atpicos


se recomienda considerar que cualquier elemento con un valor z
inferior a -3 o superior a +3 sea tratado como un valor atpico.
M.C. Angel David Trujillo Hernndez

Ejemplo de valores atpicos


Considerando el ejemplo de la cantidad de grupos empleado para
calcular los valores estandarizados (z)

Cantidad de alumnos
en el grupo (xi)

Desviacin respecto a
la media (xi- )

Valor z

46

2/8=0.25

54

10

10/8=1.25

42

-2

-2/8=-0.25

46

2/8=0.25

32

-12

-12/8=-1.50

Se puede observar que el valor z del quinto elemento, es el que se


encuentra ms lejos con respecto a la media. Sin embargo, este valor
estandarizado se encuentra dentro del criterio utilizado para identificar
valores atpicos (es decir, z < -3 z > 3)

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

3. 4. Anlisis exploratorio de
datos.
Resumen de cinco nmeros.
en un resumen de cinco nmeros se emplean cinco cantidades para
resumir los datos:
1.
2.
3.
4.
5.

Valor mnimo
Primer Cuartil (Q1)
Mediana (Q2)
Tercer Cuartil (Q3)
Valor Mximo

La forma ms fcil de elaborar un resumen de 5 nmeros es poner los


datos en orden ascendente. As, es fcil identificar el valor mnimo, los
tres Cuartiles y el valor mximo.

M.C. Angel David Trujillo Hernndez

Consider la muestra de los salarios de los 12 egresados,


2710 2755 2850|2880 2880 2890|2920 2940 2950|3050 3130 3325
Q1 = 2865
Q2 = 2905
Q3 = 3000
1.
2.
3.
4.
5.

Valor mnimo = 2710


Primer Cuartil (Q1) = 2865
Mediana (Q2) = 2905
Tercer Cuartil (Q3) = 3000
Valor Mximo = 3325

As, el resumen de cinco nmeros de los datos de salarios es 2710,


2865, 2905, 3000 y 3325.

M.C. Angel David Trujillo Hernndez

Diagrama de caja.
Un diagrama de caja es un resumen grfico de los datos basado en un
resumen de cinco nmeros. Tambin se usa el Rango Intercuartil, RIC
= Q3- Q1. En la siguiente figura se puede observar un diagrama de caja,

M.C. Angel David Trujillo Hernndez

Los pasos para trazar un diagrama de caja son los siguientes:


1. Se traza un rectngulo con los extremos en el primer y tercer
cuartiles. Este rectngulo contiene el 50% intermedio de los datos.
2. En la caja se traza una recta vertical en el lugar de la mediana. As,
la lnea de la mediana divide de los datos en dos partes iguales.
3. Se ubican los lmites mediante el rango intercuartil, RIC = Q3- Q1.
Los limites en el diagrama de caja estn a 1.5 (RIC) debajo de Q1 y a
1.5 (RIC) arriba de Q3. Se considera que los datos fuera de estos
limites son valores atpicos.
4. Las lneas punteadas de la figura se llaman bigotes de la caja, que
se trazan desde los extremos de sta hasta los valores mnimo y
mximo dentro dentro de los limites.
5. Por ltimo, se marcan con un asterisco (*) las localizaciones de los
valores atpicos.

M.C. Angel David Trujillo Hernndez

Para el ejemplo de los 12 salarios y considerando que ya se han


calculado los cinco nmeros (mnimo, Q1, mediana, Q3, mximo),
realizamos los pasos necesarios para trazar el diagrama de caja:
2710 2755 2850|2880 2880 2890|2920 2940 2950|3050 3130 3325
Q1 = 2865
Q2 = 2905
Q3 = 3000
El resumen de cinco nmeros: 2710, 2865, 2905, 3000 y 3325.
1. Se traza un rectngulo con los extremos en el primer y tercer
cuartiles. Este rectngulo contiene el 50% intermedio de los datos.
2. En la caja se traza una recta vertical en el lugar de la mediana. As,
la lnea de la mediana divide de los datos en dos partes iguales.

M.C. Angel David Trujillo Hernndez

3. Se ubican los lmites mediante el rango intercuartil, RIC = Q3- Q1.


Los limites en el diagrama de caja estn a 1.5 (RIC) debajo de Q1 y a
1.5 (RIC) arriba de Q3. Se considera que los datos fuera de estos
limites son valores atpicos.
RIC = Q3- Q1 = 3000 2865 = 135
Limite inferior = 2865-1.5(135) = 2662.5
Limite superior = 3000+1.5(135)= 3202.5

M.C. Angel David Trujillo Hernndez

4. Las lneas punteadas de la figura se llaman bigotes de la caja, que se


trazan desde los extremos de sta hasta los valores mnimo y
mximo dentro dentro de los limites.
5. Por ltimo, se marcan con un asterisco (*) las localizaciones de los
valores atpicos.

M.C. Angel David Trujillo Hernndez

En la figura anterior se trazaron las lneas que indican el lugar de los


lmites con el fin de mostrar como se calculan stos y dnde se ubican.
Aunque siempre se calculan, por lo general no se trazan en los
diagramas de caja. La siguiente figura muestra el aspecto habitual de
un diagrama de caja.

M.C. Angel David Trujillo Hernndez

En las siguientes figuras se pueden observar algunos diagramas de


caja, realizados en diferentes softwares estadsticos

Diagrama de caja realizado en Statgraphic 5.1

M.C. Angel David Trujillo Hernndez

3400

Y Axis Title

3200

3000

2800

2600

X Axis Title

Diagrama de caja realizado en OriginPro 6.1

M.C. Angel David Trujillo Hernndez

3. 5. Medidas de asociacin
entre dos variables.
Hasta ahora se han examinado mtodos numricos cuyo objeto es
resumir los datos de una sola variable. Con frecuencia quien toma
decisiones le interesa la relacin entre dos variables. En esta seccin se
presentar la covarianza y la correlacin como medidas descriptivas
de la relacin entre dos variables.

M.C. Angel David Trujillo Hernndez

Retomando el ejemplo de la cantidad de comerciales

Semana

Cantidad de comerciales
x

Volumen de ventas ($)


y

50

57

41

54

54

38

63

48

59

10

46

M.C. Angel David Trujillo Hernndez

Diagrama de dispersin .
70
60

volumen de ventas

50
40
30
20
10
0
0

3
nmero de comerciales

M.C. Angel David Trujillo Hernndez

El diagrama de dispersin sugiere que se podra emplear una recta


como una aproximacin de esa relacin.
70
60

volumen de ventas

50
40
30
20
10
0
0

3
nmero de comerciales

M.C. Angel David Trujillo Hernndez

A continuacin se presenta la covarianza como medida descriptiva de


la asociacin lineal entre dos variables.

Covarianza.
Para una muestra de tamao n con las observaciones correspondientes
(x1,y1), (x2,y2) etc., la covarianza de la muestra se define como sigue:
Covarianza de la muestra

Covarianza de una poblacin

M.C. Angel David Trujillo Hernndez

Para medir la intensidad de la relacin lineal entre la cantidad de


comerciales y el volumen de ventas, aplicamos la ecuacin,

En la siguiente tabla se muestra la manera de determinar la covarianza,


2

50

-1

-1

57

12

41

-2

-10

20

54

54

38

-2

-13

26

63

12

24

48

-3

59

46

-1

-5

30

510

99

M.C. Angel David Trujillo Hernndez

Considerando los resultados de la tabla y sustituyendo en la ecuacin,


se obtiene el valor de la covarianza,

M.C. Angel David Trujillo Hernndez

Interpretacin de la Covarianza.
Como apoyo para entender la covarianza considerar la sig. Figura,
65

60

volumen de ventas

II

55

50

45

III

IV

40

35
0

3
nmero de comerciales

Es el mismo del problema del numero de comerciales, a diferencia que


tiene dos lneas en los valores de la media para los datos en x y en y.

M.C. Angel David Trujillo Hernndez

Son valores:
xi menores que
yi mayores que

Son valores:
xi mayores que
yi mayores que

65

60

volumen de ventas

II

55

50

45

III

IV

40

35
0

3
nmero de comerciales

Son valores:
xi menores que
yi menores que

Son valores:
xi mayores que
yi menores que
M.C. Angel David Trujillo Hernndez

El valor positivo de la covarianza indica que hubo mayor influencia de


puntos que pueden estar en el cuadrante I y III. Por que el que valor
positivo indica una asociacin lineal positiva entre x y y; esto es, al
aumentar el valor de x el de y aumenta.
Sin embrago si el valor es negativo, indica que hubo mayor influencia
de los datos ubicados en los cuadrantes II y IV. Lo que indica una
asociacin lineal negativa; es decir, al aumentar el valor de x, y
disminuye.
Si los puntos se distribuyen uniformemente mente en los cuatro
cuadrantes, el valor de la covarianza ser cercano a cero, indicando
que no hay asociacin lineal entre x y y.

M.C. Angel David Trujillo Hernndez

A continuacin se observan los valores que se pueden esperar con tres


tipos distintos de dispersin.

Covarianza positiva
Existe relacin lineal positiva entre x y y.

Covarianza aproximadamente de 0
Sin relacin lineal

Covarianza negativa
Existe relacin lineal negativa entre x y y.
M.C. Angel David Trujillo Hernndez

Retomando el ejercicio de los comerciales, considerando si diagrama de


dispersin era de esperarse que su valor de covarianza de la muestra
sera positivo
65

volumen de ventas

60

55

50

45

40

35
0

3
nmero de comerciales

M.C. Angel David Trujillo Hernndez

De acuerdo con lo anterior parecera que un valor positivo grande de la


covarianza indica una fuerte relacin lineal positiva, y que con un valor
negativo grande indica una fuerte relacin lineal negativa. Sin embargo
esto puede ser engaoso, ya que la covarianza depende de las unidades
de medida y en ocasiones estas pueden indicar una muy fuerte relacin
lineal cuando en realidad no lo es.
Para evitar esto, se emplea el coeficiente de correlacin, que tambin
mide la relacin entre dos variables,

M.C. Angel David Trujillo Hernndez

Coeficiente de correlacin.
Para los datos de correlacin de una muestra, se define el coeficiente
de correlacin de momento del producto de Pearson, como sigue.

donde,
rxy = coeficiente de correlacin de la muestra
Sxy = covarianza de la muestra
Sx = desviacin estndar muestral de x
Sy = desviacin estndar muestral de y

M.C. Angel David Trujillo Hernndez

Para los datos de correlacin de una poblacin, se define el coeficiente


de correlacin de momento del producto de Pearson, como sigue.

donde,

xy = coeficiente de correlacin de la poblacin


xy = covarianza de la poblacin
x = desviacin estndar poblacional de x
y = desviacin estndar poblacional de y

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

Calculando el coeficiente de correlacin de la muestra de la tienda de


equipos de sonido. Considerando la covarianza ya calculada (Sxy = 11)
Semana

Cantidad de
comerciales x

Volumen de ventas
($)
y

50

2
3

1
=
3
5

57
41

54

54

38

63

48

59

10

46

M.C. Angel David Trujillo Hernndez

Interpretacin del coeficiente de correlacin.


Primero se ver un ejemplo sencillo para ilustrar el concepto de una
relacin lineal positiva perfecta. Considerar los siguientes datos
muestrales.
xi

yi

10

10

30

15

50

De los datos anteriores se forma el siguiente diagrama de dispersin


60
50
40
30
20
10
0
5

10

M.C. Angel David Trujillo Hernndez

15

La recta que se traz y que pasa por cada uno de los tres puntos indica
que hay una relacin lineal perfecta entre las variables x y y.
calculando la correlacin muestral .

As, el valor de la muestra es 1.


M.C. Angel David Trujillo Hernndez

Clculos que se utilizaron para determinar el coeficiente de correlacin


muestral
2

10

-5

25

-20

400

100

10

30

15

50

25

20

400

100

30

90

50

800

200

M.C. Angel David Trujillo Hernndez

Un coeficiente de correlacin lineal +1 corresponde a una relacin


lineal positiva perfecta entre x y y. un coeficiente de la muestra de -1
corresponde a una relacin lineal negativa perfecta entre x y y.
A medida que los puntos se desvan ms y ms de una relacin lineal
positiva perfecta, el valor del coeficiente de correlacin se hace ms y
ms pequeo.
Un valor del coeficiente de correlacin igual a cero indica que no hay
relacin lineal entre x y y, y los valores del coeficiente de correlacin
cercanos a cero sealan una relacin lineal dbil.

M.C. Angel David Trujillo Hernndez

Para el conjunto de datos del almacn de equipos de sonido habamos


obtenido,

En consecuencia, se llega a la conclusin de que hay una relacin


lineal positiva. Ms especficamente, un aumento en la cantidad de
comerciales se asocia con un aumento en las ventas.

M.C. Angel David Trujillo Hernndez

Regresin Lineal Simple (RLS)

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

Recta de regresin de mnimos


cuadrados

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

Coeficiente de determinacin
Qu tan bien se ajustan los datos a la ecuacin de regresin lineal?

El coeficiente de determinacin es una medida de la bondad de ajuste para una


ecuacin de regresin.

SSE= ( )2
SST= ( )2
Ajuste perfecto:
SSR = SST
Valores:
0a1

SST = SSR + SSE


SSR = SST - SSE

SSR= ( )2

2 =

M.C. Angel David Trujillo Hernndez

Suma de cuadrados debida al error:


SSE= ( )2

Suma de cuadrados del total:
SST= ( )2
Suma de cuadrados debida a la regresin:
SSR= (

Coeficiente de determinacin:
2 =

)2

Relacin entre SST, SSR y SSE


SST = SSR + SSE

Por lo que si se conocen dos se puede calcular la tercera,


SSR= SST - SSE

M.C. Angel David Trujillo Hernndez

Coeficiente de correlacin.
Medida descriptiva de la intensidad de la asociacin lineal entre dos variables, x e y.
Los valores siempre estn ente -1 y 1.
Si ya se ha hecho un anlisis de regresin y se ha calculado el coeficiente de
determinacin r2, el coeficiente de correlacin de la muestra se puede calcular:
= ( 1 ) 2

El coeficiente de correlacin se restringe a una relacin lineal de dos variables


El coeficiente de determinacin en relaciones no lineales y en relaciones que
tengan dos o ms variables independientes (aplicabilidad ms amplia).

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

Regresin Polinomial
Algunos datos de ingeniera, aunque muestren un marcado patrn se representan
pobremente mediante una lnea recta. En estos casos, se ajusta mejor una curva
a los datos. Una alternativa es ajustar polinomios a los datos usando regresin
polinomial.

El procedimiento de mnimos cuadrados se puede extender fcilmente y ajustar


datos a un polinomio de m-simo grado:

M.C. Angel David Trujillo Hernndez

En este caso, la suma de los cuadrados de los residuos es:

Siguiendo el mismo procedimiento, se toma la derivada de la ecuacin anterior con


respecto a cada uno de los coeficientes del polinomio, para obtener:

M.C. Angel David Trujillo Hernndez

Estas ecuaciones se pueden igualar a cero y reordenar de tal forma que se


obtenga el siguiente conjunto de ecuaciones normales:

M.C. Angel David Trujillo Hernndez

(n)a0 ( xi )a1 ( xi )a23


yi
2
(
x
)
a

(
x
)
a

(
x
a

x
y

i
0
i
1
i)
2
i
i
4
2
3
2
( xi )a0 ( xi )a1 ( xi )a2 xi yi
2

M.C. Angel David Trujillo Hernndez

Ejercicio
Ajustar a un polinomio de segundo grado los datos dados en las dos primeras
columnas de la siguiente tabla.
70

60

50

40

30

20

10

0
0

M.C. Angel David Trujillo Hernndez

En donde:
m=2
n=6

x 15
y 152.6
x 55
i

x
x

255

979

i
i

x 2.5

y 25.433

x y 585.6
x y 2488.8
i

70
y = 1.8607x2 + 2.3593x + 2.4786
R = 0.9985

60

Entonces, las ecuaciones lineales simultneas son:

6a0 15a1 55a3 152.6


15a0 55a1 225a3 585.6
55a0 225a1 979a3 2488.8
Resolviendo el sistema por eliminacin de Gauss tenemos:

a0 2.47857
a1 2.35929
a2 1.86071

Ttulo del eje

50
40
30
20
10

Y por lo tanto tenemos la ecuacin de la forma:

y 2.47857 2.35929 x 1.86071x 2

0
0

M.C. Angel David Trujillo Hernndez

3
Ttulo del eje

Ejemplo. Regresin Polinomial.


Ajstese un polinomio de segundo orden con los datos de la columna.

M.C. Angel David Trujillo Hernndez

M.C. Angel David Trujillo Hernndez

3. 6. Media ponderada y manejo


de datos agrupados.
En el captulo 3.1 se describi al promedio como una de las medidas
ms importantes de la estadstica descriptiva.

En esta frmula se da igual peso, o importancia a cada valor xi. Aunque


esta media es la mas empleada, en algunos casos la media es calculada
dando diferentes pesos, reflejando as su importancia a cada
observacin. A la media calculada de est manera se le llama media
ponderada.

M.C. Angel David Trujillo Hernndez

Media ponderada
La media ponderada para una muestra se calcula como sigue,

donde
xi = valor del dato i
wi = peso, o factor de ponderacin, del dato i

La media ponderada para una poblacin se calcula como sigue,

M.C. Angel David Trujillo Hernndez

Considerar la siguiente muestra de 5 compras de una materia prima en


los ltimos 3 meses, calcular la media ponderada.
Compra

Costo por libra

Cantidad de libras

3.00

1200

3.40

500

2.80

2500

2.90

1000

3.25

800

Observar que el costo por libra cambio de 3.40 a 2.80 dlares, ya que
la cantidad comprada vari de 500 a 2500 libras. Esto debido al
cambio que ocurre en los costos con respeto al tiempo y a la cantidad
de compra. El inters es calcular el costo promedio por libra.

M.C. Angel David Trujillo Hernndez

Por lo que la media ponderada tiene un valor de,

1200(3.00) + 500(3.40) + 2500(2.80) + 1000(2.90) + 800(3.25)


=
1200 + 500 + 2500 + 1000 + 800
17800
=
= 2.967
6000
Observar el resultado empleado la media aritmtica.

M.C. Angel David Trujillo Hernndez

Otro ejemplo..
En la materia de estadstica se asignan pesos de importancia para cada
una de las unidades ; Unida I (20% del curso), Unidad II (25% del
curso), Unidad III (20% del curso), Unidad IV (15% de la calificacin),
Unidad V (20% de la calificacin ).
Si las calificaciones de un alumno son las siguientes: 8 en la primera
unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta
unidad y 8 en la ltima unidad.
De la informacin se obtiene la siguiente tabla.
Unidad

Ponderacin por
unidad (wi)

Calificacin
(xi)

20%

II

25%

III

20%

IV

15%

10

20%

M.C. Angel David Trujillo Hernndez

Determinar la media ponderada de los datos anteriores.

8(0.2) + 5(0.25) + 8(0.2) + 10(0.15) + 8(0.1)


=
0.2 + 0.25 + 0.2 + 0.15 + 0.1
=

7.25
= 7.25
1.0

A diferencia de haber empleado la media aritmtica.

M.C. Angel David Trujillo Hernndez

Datos agrupados
En la mayora de los casos las medidas de localizacin y de variabilidad
se calculan a partir de valores de datos individuales.
Sin embargo en ocasiones los datos se encuentran en forma agrupada
o en forma de distribucin de frecuencias.
Consideremos la distribucin de frecuencias de los tiempo de auditoria.
Tiempo de auditoria (das)

Frecuencia

10-14

15-19

20-24

25-29

30-34

Total

20

Cul es la media del tiempo de auditoria en la muestra mencionada?


M.C. Angel David Trujillo Hernndez

Para calcular la media slo mediante datos agrupados, se trata al


punto medio de cada clase como representativo de los elementos de la
clase.
Media de la muestra para datos agrupados

en la que

Mi = punto medio de la clase i


fi = Frecuencia de la clase i
n = fi = tamao de la muestra
Media de la poblacin para datos agrupados

M.C. Angel David Trujillo Hernndez

En la tabla se puede observar el clculo de la media de la muestra para


datos agrupados.
Tiempo de
auditoria
(das)

Punto medio de clase


(Mi)

Frecuencia
(fi)

fi Mi

10-14

(10+14)/2 =12

48

15-19

17

136

20-24

22

110

25-29

27

54

30-34

32

32

20

380

M.C. Angel David Trujillo Hernndez

Para calcular la varianza de datos agrupados se emplea una versin un


poco alterada de la que se vio en temas anteriores.
Para los datos agrupados no se conocen los valores xi. En este caso, se
considera que el punto medio de la clase, Mi, es un valor representativo
de xi en la clase correspondiente. Entonces como se hizo con la media
para datos agrupados ponderamos cada valor con la frecuencia de la
clase fi y sumamos todas las clases.

Varianza de la muestra para datos agrupados

Varianza de la poblacin para datos agrupados

M.C. Angel David Trujillo Hernndez

En la tabla se puede observar el clculo de la varianza de la muestra de


los tiempos de auditoria.
Tiempo de
auditoria (das)

Punto medio de
clase
(Mi)

Frecuencia
(fi)

Desviacin

Desviacin al
cuadrado

10-14

12

-7

49

196

15-19

17

-2

32

20-24

22

45

25-29

27

64

128

30-34

32

13

169

169

20

M.C. Angel David Trujillo Hernndez

570

Para calcular la desviacin estndar para datos agrupados es


simplemente la raz cuadrada de la varianza para datos agrupados.
En el caso de los datos de tiempo de auditoria, la desviacin estndar
muestral es S = 30 = 5.48

Desviacin estndar muestral para datos agrupados

Desviacin estndar poblacional para datos agrupados

M.C. Angel David Trujillo Hernndez

You might also like