You are on page 1of 106

© Pontificia Universidad Católica del Perú - CENTRUM, 2013

Resumen numérico de los datos


Medidas de Correlación

Todos los derechos reservados


Sumario

1. Medidas de Tendencia Central


2. Medidas de Dispersión

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


3. Simetría y Medida de Curtosis
4. Coeficiente de Correlación
5. Recta de Regresión

Todos los derechos reservados


Sesgo
Datos

(Variación)
Dispersión
(Posición)
Tendencia Central
Características de los

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Estadística Sumaria
• Después de construir tablas y gráficos, a partir de
una colección de datos, se requieren medidas más
exactas.
• La estadística sumaria o de resumen, proporciona

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


medidas para describir un conjunto de datos.
• Existen tres tipos de medidas de resumen:
– De tendencia central.
– De dispersión.

Todos los derechos reservados


– De la forma de la distribución.
Medidas de tendencia
central
• Se refieren al punto medio de una distribución
• Se conocen como medidas de posición
Ejemplo:

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


A partir del gráfico siguiente, se observa que la posición
central de la curva B está a la derecha de la posición central
de las curvas A y C.
Observese que la posición central de la curva A es la misma
que la curva C.

Todos los derechos reservados


© Jorge Córdova
Medidas de dispersión
• Se refieren a la extensión o amplitud de los datos de
una distribución
• Representan el grado de variabilidad de los datos.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Ejemplo:
Observe que la curva A en el siguiente gráfico tiene
una mayor dispersión que la curva B, a pesar que la
posición central es la misma.

Todos los derechos reservados


© Jorge Córdova
Medidas de la forma de la
curva
• Las curvas que representan a un conjunto de datos,
pueden ser analizadas de acuerdo a su:
a)Simetría b)Curtósis

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Las curvas simétricas, tienen una forma tal que con una
línea vertical que pase por el punto más alto de la curva,
dividirá el área de esta en dos partes iguales.

Todos los derechos reservados


Medidas de la forma de la
curva
• Las curvas sesgadas son aquellas cuyos valores están
concentrados en el extremo inferior o superior de la
escala de medición del eje horizontal. La “cola” indica el
tipo de sesgo.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Medidas de la forma de la curva
• Cuando medimos la curtósis nos referimos al grado
de agudeza.
• Pueden ser:
a) Leptocúrtica (concentración al centro)
b) mesocúrtica (distribuidos simétricamente)

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


c) platicúrtica (aplanada).

Todos los derechos reservados


Medidas de tendencia central
• Aquellas que nos indican cual podría ser el punto
medio o típico de un conjunto de datos
analizados.
• Llamados “Promedios”.
• Promedios principales:

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Media aritmética simple
Media ponderada
Media geométrica
Media Armónica

Todos los derechos reservados


Mediana
Moda
Media aritmética simple

• Todo conjunto de N n

variables posee una  Xi  xi


i 1 i 1
 ;x 
media. N n

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Suma de las desv. de
cualquier valor y la
media es cero. N
• Es afectada por valores  f i Xi

Todos los derechos reservados


extremos.
 i 1
N
Media aritmética simple

Ejemplo:
La siguiente tabla muestra el número de reclamos y
quejas presentadas por clientes de una tienda a lo largo
de una semana. Calcule e interprete la media.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Día/Semana Lun Mar Mier Jue Vier Sab
Reclamos/día 8 10 5 12 10 15

Todos los derechos reservados


Media aritmética simple
Media aritmética = 8  10  5  12  10  15 60

6 6
x = 10 reclamos
Interpretación:

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Si elige al azar un día de la semana, se espera que los
clientes de esta tienda realicen 10 reclamos por día.
Simbología:
Tamaño Media aritmética

Todos los derechos reservados


Muestra n x (equis barra)
Población N  (mu)
Media aritmética simple –
datos agrupados
Ejemplo:
La distribución de frecuencias siguiente, representa los puntajes
obtenidos en una evaluación del desempeño, aplicado al personal
técnico de una empresa. El puntaje máximo en la prueba es 50.
Calcule e interprete en media.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Desempeño Número de
(puntos) técnicos
12 - 16 4
17 - 21 8
22 - 26 15

Todos los derechos reservados


27 - 31 23
32 - 36 10
TOTAL 60
Media aritmética simple – datos agrupados
1. Calcular las marcas de clase (xi); el valor intermedio de cada clase.
2. Sumatoria del producto de cada marca y su respectiva frecuencia (fi) .
3. Dividir entre la sumatoria de las frecuencias de clase.
Marca Frecuencia
Clase
de Clase (xi) Absoluta (fi) 14(4)  19(8)  24(15)  29(23)  34(10)
x
12 -16 14 4 4  8  15  23  10

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


17-21 19 8 1575
22- 26 24 15 x
27-31 29 23
60
32- 36 34 10 x  26.25 puntos
Total 60

Todos los derechos reservados


Interpretación:
Si se elige al azar a un técnico, se espera que tenga un puntaje de 26,25 en su
evaluación de desempeño.
Media aritmética
Ventajas:
• Concepto familiar para muchas personas
• Es única para cada conjunto de datos
• Es posible comparar medias de diferentes muestras

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Desventajas:
• Se ve afectada por los datos extremos.
• Si la muestra es grande y los datos no están agrupados,
su cálculo es tedioso.

Todos los derechos reservados


• Si los datos están agrupados en clases con extremos
abiertos, no es posible calcular la media.
Media ponderada
k

w X

i i
i 1
 k
• Media aritmética en la

w
p cual se considera a
i cada uno de los

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


i 1 valores de las
k variables de acuerdo
w x
i 1
i i
con su importancia
relativa en el grupo.
x  k

Todos los derechos reservados


p

w i 1
i
Media ponderada
Ejemplo:
Una empresa comercializadora de teléfonos celulares dispone de
3 vendedores, cada uno de los cuales cobra diferente comisión
por teléfono vendido, y realiza diferente número de ventas.
Calcule e interprete el valor medio de la comisión

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Nº de teléfonos Comisión
Vendedor vendidos por venta $

Pedro 30 30
Juan wi
25 X40
i

Todos los derechos reservados


Pablo 20 50
Media ponderada

30(30)  25(40)  20(50) 2900


xp    $38.67
30  25  20 75

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Interpretación:
Si se elige al azar un vendedor se espera que cobre
una comisión de $38.67 por teléfono vendido.

Todos los derechos reservados


Media ponderada
• La Compañía OZ, pagó un
dividendo en efectivo por cada
acción común entre los años Año Dividendo

1998 y 2007, estos fueron: 1998 $1.25


• Usted posee un número

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


1999 $1.31
considerable de acciones de
esta compañía. Un amigo le 2000 $1.93
pregunta cuál ha sido su 2001 $2.43
ganancia promedio anual en el
periodo 1998 y 2004, pues tal 2002-2007 $2.50

Todos los derechos reservados


vez se anime por la compra de
acciones de OZ.
Media ponderada
• Una compañía embotelladora de Trujillo ofrece tres tipos de
servicios de entrega: inmediato, el mismo día y dentro de cinco
días.
• La utilidad por entrega varía de acuerdo al tipo. La utilidad de una
entrega inmediata es menor que las de los otros dos tipos, debido a
que el repartidor tiene que ir directamente a la tienda que efectuó el
pedido y regresar a la embotelladora. Para determinar que efecto

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


tiene, si lo hay, cada tipo de entrega en el cuadro de utilidades, la
empresa ha confeccionado la siguiente tabla con base a las
entregas del primer trimestre del año.
• ¿Cuál es el promedio de utilidades por entrega?
• Suponiendo que la Cía. Pudiera eliminar los pedidos “inmediatos” a

Todos los derechos reservados


través de promociones especiales y un adecuado planeamiento,
¿Cuál sería la utilidad por entrega si las 100 tiendas que solicitaban
este servicio cambiaran al de “el mismo día”?
Media ponderada

TIPO ENTREGAS UTILIDAD/ENTREGA


/TRIMESTRE

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


INMEDIATA 100 $ 70.00

MISMO DÍA 60 $ 100.00

DENTRO DE 5 DÍAS 40 $ 160.00

Todos los derechos reservados


Media geométrica

• De n números positivos
es la raíz n-ésima del
 G  N X 1 X 2 X 3 .. X n
producto de los n
números.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


 N 1 Valoralfinal 
• Para promediar
porcentajes, índices y  G   Valoralinicio   1
cifras relativas.
 
• Determinar el incremento
porcentual promedio en

Todos los derechos reservados


ventas, producción, etc.
Media geométrica
Ejemplo:
La siguiente tabla muestra la tasa de aumento en las
ventas durante los últimos meses. Calcule e interprete la
tasa media mensual.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Meses Enero Febrero Marzo Abril Mayo
Aumento de
2.6% 5.4% 3.8% 0.5% 1.4%
Ventas
La tasa 2.6% también se puede expresar como 0.026 y,
ya que como se refiere a un aumento a partir de 100%, el

Todos los derechos reservados


factor de variación será 1.026. Para los otros datos se
opera igual.
Media geométrica
x g  n x1, x2, x3,...... x
x g  5 (1.026) (1.054) (1.038) (1.005)(1.014)
x g  5 1.143903377

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


x g  1,0272540 (Factor de crecimiento medio)

Tasa Media de Variación  ( x g  1) 100

Todos los derechos reservados


Interpretación = (1,0272540 - 1) x 100 = 2.72%
Si se selecciona al azar un mes entre enero y mayo, se espera que las
ventas se hayan incrementado 2.72% con respecto al mes anterior.
Media geométrica

• El rendimiento anual de cuatro tipos de acciones de


la empresa MICROCHIP INC., informadas por la New
York Stock Exchange (NYSE) son:

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


4.91, 5.75, 8.12 y 21.60 %.
• Se desea establecer una posibilidad de inversión,
para lo cual uno de los factores de decisión es el
rendimiento promedio de estas acciones.

Todos los derechos reservados


Media geométrica

• EDELSUR informó que en 1995 la cantidad promedio


de KW/H consumida por clientes residenciales fue de
12,213 y que en 2005 fue de 13,147.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Para ser considerado como un factor de
planeamiento, se necesita determinar cuál fue el
incremento porcentual promedio anual en el
consumo de electricidad.

Todos los derechos reservados


Mediana
• Punto medio de los
valores después de
Med  X  N2  0.5
ordenarlos.
• Es un promedio de DatosNoAgrupados

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


posición.
• No es afectada por
N 
valores extremos.
 2  faA
Med  Li  i
 f 
 i 

Todos los derechos reservados


DatosAgrupados
Mediana
Ejemplo:
Los siguientes datos se refieren al número de clientes
atendidos durante los últimos 11 días en una tienda de
artefactos. Calcule e interprete la mediana.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16
Primero se ordenan lo datos:
5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17
mediana

Todos los derechos reservados


5 datos menores 5 datos mayores
Interpretación:
Durante 5 días se atendieron a menos de 11 clientes, y durante 5 días se
atendieron a más de 11 clientes.
Mediana

Reglas
1º Si la serie es impar, la mediana ocupa el lugar central
de la serie previamente ordenada.
Ejemplo: 5, 10, 10, 12, 15, 17, 20, 21, 24

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


2º Si la serie es par, la mediana se obtiene de la
semisuma de los dos valores centrales de la serie
previamente ordenada.
Ejemplo:
8, 10, 14, 18, 23, 24, 32, 34

Todos los derechos reservados


18  23
mediana   20.5
2
Mediana – datos agrupados
Ejemplo: La tabla siguiente muestra la experiencia profesional (años)
del personal técnico que labora en una empresa. Calcule e interprete
la mediana.
N 
Experiencia Número de  2  faA 
Profesional (años) Trabajadores écnicos Md  Li   i
 fi 
0–3 4  
 69 

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


4–7 12  2  16 
8 – 11 24 Md  7,5   4
 24 
12 – 15 16  
16 – 19 10  34.5  16 
Md  7,5   4
20 . 23 3  24 

Todos los derechos reservados


69 Mediana = 10.58 años
La mitad de los profesionales técnicos que laboran en esta empresa tienen una experiencia laboral igual o menor a 10
años 6 meses.
La otra mitad de los profesionales tienen una experiencia laboral igual o mayor a 10 años y 6 meses.
Mediana
Ventajas:
• Los valores extremos no afectan a la mediana como
en el caso de la media aritmética.
• Es fácil de calcular, interpretar y entender.
• Se puede determinar para datos cualitativos.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Desventajas:
• Como valor central, se debe ordenar primero la serie
de datos.
• Para una serie amplia de datos no agrupados, el

Todos los derechos reservados


proceso de ordenamiento de los datos demanda
tiempo y usualmente provoca equivocaciones.
Moda
• Valor que más se repite
en un conjunto de datos.  d1 
• No es afectada por Mo  Li   i
valores extremos.
 d 1  d 2

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Para datos discretos es DatosAgrupados
fácil de calcular.
• No puede ser calculada
exactamente en una dist.

Todos los derechos reservados


de frecuencias.
Moda

Ejemplo:

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

Todos los derechos reservados


7, 12, 15, 18, 25, 30, 31, 38 34
Moda – datos agrupados
Ejemplo: La tabla siguiente muestra los errores de facturación durante
un mes, en una empresa comercializadora. Calcule e interprete la moda.

 d 
Errores de
Mo  L   i
1
Días
d d 
facturación i

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


1 2
0–3 6
4–7 12  6 
Mo  3.5   4
8 – 11 8 64
12 – 15 3
16 – 19 1 Moda = 5.9 errores

Todos los derechos reservados


30

Durante un mes, el número más frecuente de errores de


facturación en esta empresa comercializadora es 6.
Moda
Ventajas:
• Se puede utilizar tanto para datos cualitativos como
cuantitativos.
• No se ve afectada por los valores externos

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Se puede calcular, a pesar de que existan una o más
clases abiertas.
Desventajas:
• No tiene un uso tan frecuente como la media.
• Muchas veces no existe moda (distribución amodal).

Todos los derechos reservados


• En otros casos la distribución tiene varias modas, lo
que dificulta su interpretación.
Selección del promedio
apropiado

OBSERVACIÓN DATOS
22, 24, 25, 26, 27, 28,

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


EDAD
28, 29, 30, 31, 33, 34
INGRESO EN 8, 8.2, 9,10,11,12,
MILES DE $ 12.3,12.5,13,13.5, 86,97

Todos los derechos reservados


TALLA 39, 40, 41, 41, 41, 41,
ZAPATOS 42, 42, 43, 43, 44, 45
Selección del promedio más
adecuado
• La mediana siempre es la posición central.
• La moda se puede emplear cuando se requiere
una idea rápida de la tendencia central.
• La más usada es la media aritmética.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• La más representativa para datos de una
distribución asimétrica es la mediana.
• Media valor de equilibrio de Magnitud .
Mediana valor de equilibrio de Cantidad.

Todos los derechos reservados


Moda valor con mayor frecuencia.
Cuartiles, deciles y percentiles
(Fractiles o cuantiles)

• Medidas de posición.
• Dividen en : F j  X  jn F  0.5
– Cuatro (Qj) DatosNoAgrupados

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


– Diez (Dj)
– Cien (Pj)  jn  faA
• Formulación    F i
F j Lij  f 
semejante a la  ij 

Todos los derechos reservados


mediana.
DatosAgrupados
Cuartiles, deciles y percentiles
(Fractiles o cuantiles)

Ejemplo:
La tabla muestra la experiencia (en años) de los trabajadores de
una gran compañía textil.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Experiencia Trabajadores
(años)
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40

Todos los derechos reservados


20 - 23 34
24 - 27 12
Total 334
Cuartiles, deciles y percentiles
(Fractiles o cuantiles)

¿Sobre qué edad se ubica el 25% de los trabajadores de


mayor experiencia?
25 %
75 %

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Menor P75 Mayor
Experiencia Experiencia

j = 75

Todos los derechos reservados


jn 75(334)
Lugar del P75   0.5   0.5  251o (de los números ordenados )
F 100
Para saber en qué clase se halla este dato, se calculó la frecuencia acumulativa.
Cuartiles, deciles y percentiles
(Fractiles o cuantiles)

Experiencia Nº Trabajadores Frec. Acumulada


(años) fi Fi
0-3 18 18
4-7 42 60 F=248
8 - 11 68 128

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


12 - 15 120 248 En esta clase
16 - 19 40 288 se ordenan del
20 - 23 34 322 249º - 288º
24 - 27 12 334
334
 75(334)  248
 100  P  15.75 años

Todos los derechos reservados


P  15.5  4
75  40  75
 
Para que un trabajador esté comprendido en el 25% de mayor experiencia laboral debe
tener al menos 15 años, 9 meses.
Medidas de dispersión
• Evaluemos:
– 10,10,10,10,20,30,30,30,30.
– 20,22,21,20,20,19,18,20,20.
– 1,4,6,8,20,32,34,36,39.
– 10,12,14,16,20,24,26,28,30.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Describen cuan agrupados o separados están los datos
respecto a un valor común (media).
• Permiten juzgar la confiabilidad de la medida de tendencia
central.
• Es posible comparar dispersión de diversas muestras.

Todos los derechos reservados


• Rango, desviación media, varianza, desviación estándar,
coeficiente de variación.
Rango o recorrido

R  V . max  V . min. • Diferencia entre el


DatosNoAgrupados valor mayor y el
valor menor de un
R Ls ( A)  Li ( B)

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


comjunto de datos.
DatosAgrupados • No está afectado por
los valores
comprendidos entre

Todos los derechos reservados


los extremos.
Rango o recorrido
Ejemplo:
Los siguientes datos representan el peso de 10 niños al nacer,
(en kgs).
Calcule e interprete el rango.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


2.860 3.150 3.450 2.950 3.780
4.170 3.920 3.280 4.050 3.120

Rango = (4.170 – 2.860)


Rango = 1.310 Kgs

Todos los derechos reservados


La diferencia entre el bebe de mayor peso y el bebe menor
peso es 1.310 Kgs.
Rango o recorrido
Ejemplo:
La distribución de frecuencias siguiente representa el tiempo
que demora un cliente en un banco. Calcule e interprete el rango

Tiempo Nº de Clientes

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


(minutos) (por día) Rango = (36.5-11.5)
12 - 16 4
17 - 21 8
R = 25 minutos
22 - 26 15
27 - 31 23

Todos los derechos reservados


32 - 36 10
Total 60
La diferencia de tiempo entre el cliente que más demora y el que menos demoró es 25 minutos.
Rango o recorrido

Ventajas
• fácil de calcular
• fácil de entender e interpretar

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Desventajas
• sólo considera los valores extremos
• no toma en cuenta ni el número de datos ni el
valor de estos
• no es posible calcular en tablas con

Todos los derechos reservados


extremos abiertos.
Rango intercuartil

Permite ubicar el
50% de los datos
que se encuentran
en el centro de la

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


distribución, es
decir, el 25% de los
datos son menores
al primer cuartil y

Todos los derechos reservados


también 25% de los
datos son mayores
al tercer cuartil.
Rango intercuartil
Ejemplo:
La tabla muestra la experiencia (en años) de los
trabajadores de una gran compañía textil.
Experiencia
Trabajadores

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


(años)
0-3 18 A)¿En qué valores se
4-7 42 encuentra el 50%
8 - 11 68 intermedio de estos datos?
12 - 15 120 B)¿Cuál es el rango
16 - 19 40

Todos los derechos reservados


intercuartil?
20 - 23 34
24 - 27 12
Total 334
Rango intercuartil
50 %
25 % 25 %

Q1 Q3
Rango

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Intercuartil

25(334)
Lugar Q1  P25   0.5  84o se ubica en la 3ra clase
100

 25(334)  60 

Todos los derechos reservados


 100  Q  8.88 años
Q  7.5  4
1  68  1
 
Rango intercuartil

75(334)
Lugar Q3  P75   0.5  251o se ubica en la 5ta clase
100

 75(334)  248 

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


 100 
Q  15.5  4
3  40  Q  15.75 años
3
 
A) El 50% de los trabajadores con experiencia intermedia se
encuentran entre 8.88 y 15.75 años.

Todos los derechos reservados


B)El rango intercuartil es 6 años 10 meses
aproximadamente
Desviación media
N
• Media de los valores  Xi  
absolutos de las DM  i  1
diferencias entre las N

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


variables y la media.
DatosNoAgrupados
• Da una mejor
N
 f i Xi  
descripción de la
dispersión que el rango.
DM  i  1

Todos los derechos reservados


N
DatosAgrupados
Varianza
• Media aritmética de las N
  X  
2
desviaciones cuadráticas
  i 1
2
respecto a la media.
• Expresada en unidades
N

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


al cuadrado. Poblacion
• n-1, factor de corrección. n
 xi  x 
2

S 2  i 1

Todos los derechos reservados


n1
Muestra
Varianza
Ejemplo:
La siguiente información se refiere a una muestra del número
de artículos vendidos durante una semana:
8, 10, 5, 12, 10, 15
¿Cuál en el nivel de variabilidad de las ventas?

Xi  x Xi  x 

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


2
x
60
8
10
8 - 10 = 2
10 - 10 = 0
4
0
x
5 5 - 10 = 5
6
25
12 12 - 10 = 2 4

Todos los derechos reservados


10 10 - 10 = 0 0
15 15 - 10 = 5 25 x  10
 X  60  Xi  x   0  Xi  x 
2
 58
2

2
S 

58
2

n 1

S  6  1  11.6
 Xi  x   58

 (X i  x )
2

Artículos vendidos2

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Desviación estándar

N
  X i  
2
• Es la raíz cuadrada
 i 1
positiva de la varianza.
N

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Poblacion • Unidades originales.

n
• Permite medir el % de
 xi  x 
2 elementos dentro de
intervalos de una curva
i 1
S

Todos los derechos reservados


simétrica.
n1
• Puntaje estándar (Z).
Muestra
Varianza de la Población -
Datos Agrupados

f ( x   ) 2
 2

N

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


fx 2
 2
  2

Todos los derechos reservados


x  marca de clase
Varianza de la Muestra -
Datos Agrupados

f ( x  x) 2
s 
2

n 1

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


fx 2 2
nx
s 
2

n 1 n 1

Todos los derechos reservados


x  marca de clase
Desviación estándar
Ejemplo:
Empleando los mismos datos del ejemplo anterior,
complementemos la información sobre la variabilidad
de los artículos vendidos.
Ya sabemos por el ejemplo anterior que S2 = 11.6
artículos vendidos al cuadrado.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Entonces
S
2
s
S  11,6

Todos los derechos reservados


S  3,4 articulos
Interpretación y usos de la
Desviación Estándar

• Regla empírica: para una distribución de frecuencias


simétrica de campana:

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


– Cerca de 68% de las observaciones estará dentro
de ±1σ de la media (μ);
– Cerca de 95% de las observaciones estará dentro
de ±2σ de la media (μ);

Todos los derechos reservados


– Casi todas (alrededor de 99.7%) las observaciones
estarán dentro de ±3σ de la media (μ).
-3σ
-2σ
-1σ
μ
Distribución Normal

+1σ
+2σ
+3σ

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Distribución Normal
34.13% 34.13%

13.60%
13.60%

2.135% 2.135%

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


0.135% 0.135%

-3σ -2 σ -1σ μ +1σ +2σ +3σ

Todos los derechos reservados


68.26%
95.46%
99.73%
Z 

-3
-3σ

-2
x

-2σ

-1
-1σ

0
μ
+1
+1σ

+2
+2σ

+3
+3σ
Puntaje o Resultado Estándar (Z)

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Desviación Estándar de la
Población - Datos Agrupados

f ( x   ) 2
   2

N

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


fx 2
   2
  2

Todos los derechos reservados


x  marca de clase
Desviación Estándar de la
Muestra - Datos Agrupados

f ( x  x) 2
s s 2

n 1

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


fx 2 2
nx
s s 2
 
n 1 n 1

Todos los derechos reservados


x  marca de clase
Interpretación y usos de la
Desviación Estándar
• Luis del Águila, dueño de una fabrica de repuestos,
dice que su promedio semanal de producción es de
11,398 piezas con una varianza de 49,729.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Si los datos usados fueron el resultado de 32
semanas de observación, durante ¿cuántas
semanas la producción fue mayor a 11,844 piezas?
y ¿cuántas menor a 11,175 piezas?

Todos los derechos reservados


Interpretación y usos de la
Desviación Estándar
• Carlos Ruiz ha finalizado una discusión respecto a un
control de estadística con algunos de sus desafortunados
compañeros.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Carlos piensa que fue perjudicado por el profesor al
emplear una distribución normal en la asignación del
calificativo en un aprueba tan dificil como la que tomó.
• Uno de sus amigos, Pepe, dijo que piensa que los
calificativos estuvieron bastante sesgados, por esta

Todos los derechos reservados


razón ambos hicieron una encuesta a sus compañeros de
clase para chequear la distribución, obteniendo los
siguientes datos.
Interpretación y usos de la Desviación
Estándar Alumno Nota
1 53
2 63
3 77
4 68
5 75

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Carlos 68
6 59
7 81
8 84
9 79
Pepe 75

Todos los derechos reservados


10 82
11 76
12 52
13 76
Interpretación y usos de la
Desviación Estándar
• Calculemos la media, mediana y desviación estándar para
las notas de la clase.
• El profesor decidió que el intervalo de 1DS hacia arriba y
debajo de la media es el rango del calificativo C. De 1 a 2
DS hacia arriba será B, más de 2 DS una A. Una D le

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


corresponderá a quienes caigan entre 1 y 2 DS por debajo
de la media y F a mas de 2 DS por debajo. Para este
control en que puntaje deben comenzar los calificativos
A,B,C,D y F.
• Cuantos alumnos caen en cada grupo de calificativos?

Todos los derechos reservados


Está sesgada la distribución? De que forma?
• Está de acuerdo con Carlos? Cómo calificaría a los
alumnos?
Coeficiente de variación

• Indica la magnitud 
CV  *100
relativa de la

desviación estándar

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


con respecto a la Poblacion
media aritmética.
S
• Comparación de CV  *100
distribuciones.
x
Muestra

Todos los derechos reservados


Coeficiente de variación
Ejemplo:
A continuación se presentan las ventas (en unidades
monetarias) logradas durante una semana por dos tiendas
de artículos electrodomésticas. La tienda I vende en soles
y la tienda II en dólares ¿Cuál de ellos tiene un desempeño

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


más estable, en cuanto a nivel de ventas?.

Tienda I (soles) Tienda II (dólares)


40,70,60,48,52,65,58 70,35,150,140,82,110,140,120

Todos los derechos reservados


Calculamos la media y desviación estándar por cada una
de las tiendas
Coeficiente de variación
n
Tienda I  Xi 393
x  i 1
  56.14
n 7
x Xi  x Xi  x  2

40 -16.14 260.50

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


70 13.86 192.10
60 3.86 14.90
48 -8.14 66.26
52 -4.14 17.14
65 8.86 78.50

Todos los derechos reservados


58 1.86 3.46
 X  393  Xi  x   0  Xi  x 
2
 632,86
Coeficiente de variación
Si  Xi  x   632.86
2

n
 (Xi  x )
2
632.86
S i 1
  10.27
n 1 7 1

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


S
CV  100
x

Todos los derechos reservados


10.27
CV  100  18.29
56.14
Coeficiente de variación n

Tienda II  Xi 847
x  i 1   105.87
n 8

x Xi  x Xi  x  2

70 -35.87 1286.6569
35 -70.87 5022.5569

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


150 44.13 1947.4569
140 34.13 1164.8569
82 -23.87 569.7769
110 4.13 17.0569
140 34.13 1164.8569

Todos los derechos reservados


120 14.13 199.6569
 X  847  
 Xi  x  0,04  Xi  x 
2
 11372,88
Coeficiente de variación

Si 
n
 Xi  x   11372.88
2

i 1
n

2
 ( X i x ) 11372,88

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


S i 1
  40.30
n 1 8 1

S 40,30
CV  100 CV  100  30,06

Todos los derechos reservados


x 105,87
La tienda II presenta una mayor variabilidad en el volumen de
ventas, 30.06 > 18.29
Coeficiente de variación

CV Grado de Variablidad
0 < CV < 10 Datos muy homogéneos

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Datos regularmente
10 ≤ CV < 15
homogéneos
Datos regularmente
15 ≤ CV < 20
variables
20 ≤ CV < 25 Datos variables

Todos los derechos reservados


CV ≥ 25 Datos muy variables
Coeficiente de variación

• Una granja de truchas las alimenta en estanques especiales y las


vende cuando llegan a cierto peso. Se tomó una muestra aleatoria
de 10 truchas y las aisló en un estanque y se les alimentó con un
alimento concentrado denominado “Trucha Fuerte”
• Al final del experimento los pesos de las truchas fueron (en

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


gramos):
124, 125, 125, 123, 120, 124, 127, 125, 126 y 121
• ¿Cuál es la amplitud total de la muestra?
• ¿Cuál es la media aritmética, varianza y desviación estándar de la
muestra?

Todos los derechos reservados


• Si además, se empleó otra mezcla especial, “Piscifood”, en otro
estanque. Se calculó la media dando un valor de 126.9 gramos y la
desviación estándar tuvo un valor de 1.2 gramos. ¿Qué alimento
da como resultado un peso más uniforme?
Medidas de Simetría y
Curtosis
• Evalúa como están concentradas las observaciones.
• Además de la tendencia para agruparse alrededor de
ciertos valores y grados de dispersión.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Representatividad de los valores de tendencia y su
confiabilidad.
• Coeficientes:
– de Asimetría de Pearson

Todos los derechos reservados


– de Curtiosis
Coeficiente de Simetría de
Pearson

• Establece si una distribución es simétrica o no.


• No tiene unidades
• Valores entre -3 y 3, normalmente no mayor de -1 y

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


1.

3(𝜇 − 𝑀𝑒𝑑)
𝑆𝑘𝑝 =
𝜎

Todos los derechos reservados


3(𝑥 − 𝑚𝑒𝑑)
𝑆𝑘𝑝 = 𝑆𝑘𝑝 = 0
𝑠
Sesgo de una distribución

Negativamente Positivamente
Simétrica Sesgada
Sesgada

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Media < Mediana < Moda Media = Mediana = Moda Moda < Mediana < Media

Todos los derechos reservados


Coeficiente de Curtosis

• Grado de concentración con relación a la media


aritmética.
• Se emplea para distribuciones unimodales
simétricas. 1 𝑄3 − 𝑄1

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Sin unidades. 𝑘𝑢 =
2 𝐷9 − 𝐷1
• Valores (0, ½)

Todos los derechos reservados


Coeficiente de Simetria y
Curtosis de Fisher

Simetría Curtosis
• Tercer momento • Cuarto Momento
• Simétrica = 0 • Mesocurtica = 0

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Asimetrica Positiva > 0 • Leptocurtica > 0
• Asimetrica Negativa < 0 • Platicurtica < 0

𝑛 3 𝑛
𝑥𝑖 − 𝑥 𝑥 𝑖 −𝑥 4

Todos los derechos reservados


𝑖=1
𝑠𝑘 =
𝑖=1
𝑘= -3
𝑛 − 1 𝑠2 𝑛−1 𝑠4
Medidas de Simetría y Curtosis

• Suponga que los datos que se presentan a


continuación corresponden a los precios
observados del artículo XX (en soles) en 32
establecimientos elegidos al azar del Distrito de

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Ate.
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 6.6 7.8 6.8 7.2 8.4 9.6
8.5 5.7 6.4 10.1 8.2 9.0 7.8 8.2 5.3 6.2 9.1 8.6 7.0 7.7 8.3 7.5

Todos los derechos reservados


3(𝑥 − 𝑚𝑒𝑑) 1 𝑄3 − 𝑄1
𝑆𝑘𝑝 = 𝑘𝑢 =
𝑠 2 𝐷9 − 𝐷1
Medidas de Simetría y Curtosis
251.9
𝑥= = 7.871875 soles 𝑚𝑒 = 7.8007 𝑠𝑜𝑙𝑒𝑠
32
𝑠 = 1.292843 𝑠𝑜𝑙𝑒𝑠
𝑄3 = 𝑃75 = 8.8 𝐷9 = 𝑃90 = 9.664

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


𝑄1 = 𝑃25 = 7.0 𝐷1 = 𝑃10 = 6.136
3(7.871875 − 7.8007)
𝑆𝑘𝑝 = = 0.165159
1.292843
1 8.8 − 7.0
𝑘𝑢 = = 0.255102

Todos los derechos reservados


2 9.664 − 6.136
• Los precios del producto XX tienen una distribución con sesgo positivo, existen precios extremos o establecimientos con
precios elevados.
• Regular concentración con respecto al precio promedio.
Análisis de Regresión Simple

• Ecuaciones Simples expresan una relación entre


dos variables.
Y  3  15
. X
Y  3  2X  4 X 2

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Y  3  7X  5 X 4

– Se representan con Diagramas de Dispersión.


• Ecuaciones múltiples expresan una relación

Todos los derechos reservados


entre más de dos variables.
Y  3  15
. X  8Z
Análisis de Regresión Simple

• Finalidad es establecer una relación cuantitativa


(ecuación de regresión) entre dos variables, y
estimar el valor de Y (dependiente) con base en un
valor de X (independiente).

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Ecuación de estimación o de pronóstico (Y’) .
• Regresión lineal simple
– Una recta.
Y '  a  bX

Todos los derechos reservados


Y'   0  1 X  
Análisis de regresión simple
• Métodos : gráfico y matemático (mínimos cuadrados).
• Gráfico
– Diagrama de dispersión.
– Trazar una recta que trate de unir los puntos.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


– Ventaja: simple y directo.
– Desventaja: procedimiento subjetivo.
16
14

X 3 1 2 5 4 12

Todos los derechos reservados


10
8

Y 9 5 7 14 10 6
4
2
0
0 1 2 3 4 5 6
Análisis de regresión simple
• Mínimos cuadrados
– Técnica para encontrar la ecuación de regresión
minimizando la suma de los cuadrados de las
distancias verticales entre los valores observados

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


y los estimados (recta) de Y.
– Hallar los coeficientes de regresión a y b.
– Ecuaciones Normales.
a  Y  bX
 Y  na  b X ;  XY  nXY

Todos los derechos reservados


 XY  a  X  b X 2 b
 X 2
 n X 2
Análisis de regresión simple
n Y X Y2 X2 XY
1 9 3 81 9 27
2 5 1 25 1 5
3 7 2 49 4 14
4 14 5 196 25 70

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


5 10 4 100 16 40
∑Y= 45 ∑X= 15 ∑Y2= 451 ∑X2= 55 ∑XY= 156

 Y  na  b X ; 45  5a  15b
 XY  a  X  b X 2 156  15a  55b

Todos los derechos reservados


b = 2.1 a = 2.7 Y = 2.7 * 2.1X
0
2
4
6
8
10
12
14

0
1
Valor
Efectivo

2
Y

*
*
Recta de regresión

3
Valor
Estimado

4
Y’=2.7+2.1X
Y’

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Análisis de regresión simple
• Error estándar de estimación
– Mide la disparidad (dispersión) promedio entre
los valores observados y los valores estimados
de Y.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


 Y  Y ' 2

S y .x  n2
 Y 2
 a (  Y )  b (  XY )
S y .x  n2

Todos los derechos reservados


– Indicador del grado de precisión de la ecuación.
– No es la más adecuada para medir relación.
Análisis de regresión simple
n Y X Y’ (Y-Y’) (Y-Y)2
1 9 3 9.0 0.0 0.0
2 5 1 4.8 0.2 0.04
3 7 2 6.9 0.1 0.01

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


4 14 5 13.2 0.8 0.64
5 10 4 11.1 -1.1 1.21
∑(Y-Y’)2= 1.90

 Y  Y ' 2

Todos los derechos reservados


S
n2
y.x

S y.x  0.80 Cms.


Variaciones
14
12
10
Y
Variación no Y’

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


8 *
Explicada
6 Variación
4 Total *
Variación
2 Explicada

Todos los derechos reservados


0
0 1 2 3 4 5
Y
Análisis de correlación
simple
• Conjunto de técnicas estadísticas usadas
para medir el grado de asociación
(correlación) entre dos variables (X e Y).

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Existen tres coeficientes:
– Coeficiente de correlación (r).
– Coeficiente de determinación (r2).
– Coeficiente de no determinación (1- r2).

Todos los derechos reservados


Coeficiente de
determinación (r2)
• Proporción de la variación total en la variable
dependiente (Y) que se explica por o se debe a la
variación de la variable independiente.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Puede adoptar valores entre 0 y 1.

r 
2 Var. Explicada

 (Y 'Y ) 2
Var. Total  (Y  Y ) 2

Todos los derechos reservados


a  Y  b XY  nY 2
r2 
 Y 2
 nY 2
Coeficiente de
determinación (r2)
Y Y’ 𝑌 (Y- 𝑌)2 (Y’- )2 (Y-Y’)2
9 9.0 9 0 0.0 0.0
5 4.8 9 16 0.2 0.04
7 6.9 9 4 0.1 0.01

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


14 13.2 9 25 0.8 0.64
10 11.1 9 1 -1.1 1.21
∑= 46 ∑= 44.10 ∑= 1.90
Variación Total = Variación Explicada + Variación No Explicada
46 = 44.10 + 1.90

Todos los derechos reservados


96% de la variación de la altura
Var .Explicada  (Y 'Y )2

r 
2
  0.96 (Y) esta explicada por la variación
Var .Total  (Y  Y ) de la edad de las plantas (X).
2
Coeficiente de
determinación (r2)

Si r2 = 1 : Correlación perfecta, es decir, toda


variación de Y puede explicarse por X

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Si r2 = 0 : No existe correlación entre X e Y. La
variación explicada es 0.
La variable X no explica nada de los cambios
en Y
0  r2  1

Todos los derechos reservados


Cuanto más cerca a uno, las variables tendrán mayor
correlación.
Coeficiente de correlación (r)

• Karl Pearson, 1900.

• Mide el grado de asociación o relación lineal entre las


variables X e Y.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


• Sus valores van de -1 a +1.(correlación negativa y
positiva perfecta).

• Es el mismo signo de b.

Todos los derechos reservados


r
 XY  nXY
(  X  nX )(  Y  nY )
2 2 2 2
Coeficiente de correlación (r)
Es la raíz cuadrada del coeficiente de determinación.

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


 Sus valores oscilan entre -1 y 1
 Cuando r es positivo, indica que X e Y están
directamente relacionados.
 Cuando r es negativo, indica que X e Y están
inversamente relacionado.

Todos los derechos reservados


 El coeficiente r tiene el mismo signo que el
coeficiente b en la ecuación de regresión
Coeficiente de correlación (r)

(a) Lineal directa (b) Lineal inversa (c) Curvilinea directa


Y Y
Relaciones posibles • Y
••
• •
•• • • •

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


entre X y Y en • •
diagramas de • •• • • • • • ••
dispersión • X X
•• X

•••••
Y
••
Y Y
• •• •
• •• •• • ••• •
•• • •• • •• • ••
•• •• • • • ••••
• •••

Todos los derechos reservados


X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Análisis de regresión simple
• Una empresa dedicada a la producción de cierto artículo perecible ZZ
desea evaluar la relación existente entre la distancia recorrida para
transportar su producto a los diferentes puntos de comercialización y
las mermas producidas por dicho transporte. Con este fi, se lleva a
cabo un estudio en el que se observan, entre otras variables:
Y= porcentaje de carga útil final (luego del transporte)

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


X= Distancia recorrida (decenas de kilómetros)
• Y se encuentra en una muestra aleatoria de 12 viajes o recorridos los
siguientes resultados:

Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95

Todos los derechos reservados


Distancia Recorrida (x) 33 12 18 3 4 8 66 5 37 29 15 10

• Con la finalidad de establecer medidas preventivas, ¿Cuál será el


porcentaje de carga útil para un futuro transporte de 250 km.?
Análisis de regresión simple
Distancia
Carga Útil (y)
Recorrida (x)
91 33
95 12
93 18
98 3

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


97 4
97 8
88 66
94 5
89 37

Todos los derechos reservados


90 29
92 15
95 10
Análisis de regresión simple
Resumen

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,883150068
Coeficiente de determinación R^2 0,779954043
R^2 ajustado 0,757949447
Error típico 1,626669183

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Observaciones 12

ANÁLISIS DE VARIANZA
Grados de libertad
Regresión 1
X 25
Residuos 10
Total 11 Yx,y 92,46

Todos los derechos reservados


Coeficientes
Intercepción 96,40789474
Distancia Recorrida (x) -0,157894737
Análisis de regresión simple
Distancia Recorrida (x) Curva de regresión ajustada
100

98

96

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


94
Carga Útil (y)

92
Carga Útil (y)
Pronóstico Carga Útil (y)
90

88

Todos los derechos reservados


86

84
0 10 20 30 40 50 60 70
Distancia Recorrida (x)
“La manera de pensar que creó los
problemas que tenemos hoy, no va a
ser suficiente para resolverlos”

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


A. Einstein

Todos los derechos reservados


“… Estudiar sin aprender es una
perdida de tiempo, pero aprender
sin estudiar es muy peligroso...”

© Pontificia Universidad Católica del Perú - CENTRUM, 2013


Todos los derechos reservados
Confucio

You might also like