You are on page 1of 91

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Estadística General
Mc. Víctor M. Alvarez
alvarezv@usac.edu.gt
alvarezvicma@hotmail.com

Escuela de Zootecnia

1
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Fuentes de Datos

F u e n te s d e D a to s

P r im a r ia s S e c u n d a r ia s

E x p e r im e n t o s C e n s o s , e n c u e s ta s C o n s u lt a s c e n s a le s R e v is ió n r e g is t r o s

2
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tipos de Datos

D a to s

C a t e g ó r ic o s C u a n t it a t iv o s

N o m in a le s O r d in a l I n t e r v a lo R azón

3
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Definiciones
• Una variable categórica indica a qué grupo o a
qué categoría pertenece una observación. Todo lo
que podemos hacer es calcular la proporción de
datos que entra en cada categoría.

• Una variable cuantitativa toma valores


numéricos sobre los cuales podemos realizar
operaciones aritméticas. Las variables
cuantitativas pueden ser discretas o contínuas.
4
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplos
Datos cuantitativos Datos categóricos

Edad - ingresoPersona Casado/no casado


55 75000 1 si
42 68000 2 no
3 no
. . . .
. . . .
Profesor Rango
Aumento de peso 1 Visitante
+10
2 Full Time
+5
3 Asistente
. . .
. .
. 5
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Variables discretas y continuas


Una variable es discreta si toma solo un número contable
de valores. Una variable es contínua si la misma toma un
número incontable de valores.

Variable discreta Variable continua

0 1 2 3 ... 01/161/4 1/2 1


Por lo tanto, el número de Por lo tanto, el número de
valores es contable valores es incontable
6
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Estadística Descriptiva
• Abarca la agrupación, resúmen y presentación de
los datos para permitir su interpretación y poder
tomar decisiones basadas en dicha interpretación.

• La estadística descriptiva utiliza


– Técnicas gráficas
– Medidas de descripción numéricas

7
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Variables Categóricas

Pie chart Gráfico de barras

• Estas son algunas de las representaciones más


utilizadas para variables categóricas.

8
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Variables cuantitativas
• Las variables cuantitativas contínuas toman un
número considerable de valores.

• Su representación gráfica resulta más clara si se


agrupan los valores próximos de la variable.

• El gráfico más común de la distribución de una


variable cuantitativa contínua es un histograma.

9
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Histograma: distribución del salario en cierta


Capital Latina (1995)
200

160

200

160

120
120

80

40

0
0 1 2 3 4

80

40

0
0 1 2 3 4

10
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Aspecto general de una distribución


• Para describir el aspecto general de una
distribución:
• Debemos:

– Proporcionar su centro y su dispersión.

– Evaluar si la distribución tiene una forma simple que


pueda describirse de forma sencilla.

11
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Posición Central:


• Usualmente, nuestra atención se centra en dos
aspectos de las medidas de posición central:

– Medición del punto central (promedio)

– Medición de la dispersión en torno al promedio

12
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Posición Central: la media


• Es la medida mas popular.

Suma de las observaciones


Media =
Número de observaciones

• Es decir, tenemos una muestra de n observaciones:


x1, x2,…,xn. Su media muestral es:
( x1 + x 2 + ... + x n )
x=
n
• De forma compacta: n
1
x=
n
∑x
i =1
i 13
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Posición Central: la media


• Ejemplo:
La media de la muestra de seis observaciones:

7, 3, 9, -2, 4, 6

esta dada por:

6
∑ i=1 xi 71 + x
x 32 + x
93 +−x24 + x
45 + x
66
x= = = 4.5
6 6
14
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Posición Central: la media

• Ejemplo:
do muchas observaciones toman el mismo valor, estas se pu
mir en una tabla de frecuencias. Supongamos que el númer
en una muestra de 16 empleados fuera el siguiente:

NUMERO DE HIJOS 0 1 2 3
NUMERO DE EMPLEADOS 3 4 7 2

16 empleados

∑16
i=1xix1+ x2...+ x16 3(0) + 4(1) + 7(2) + 2(3)
x= = = = 1.5
16 16 16
15
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La mediana
• La mediana (M) es el “valor central” de un
histograma.

• Para hallar la mediana de una distribución


debemos:
1. Ordenar las observaciones en orden ascendente.
2. Si el número de observaciones n es impar, M es la observación
central de la lista ordenada. M se halla contando (n+1)/2
observaciones desde el comienzo de la lista.
3. Si el número de observaciones n es par, M es la media de las dos
observaciones centrales de la lista ordenada.

16
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La mediana
• Ejemplo:
Los salarios de siete empleadosSupongamos
fueron que se agrega al grupo el
los siguientes (en 1000s) : Salario de un empleado más (Q31,000)
28, 60, 26, 32, 30, 26, 29. ¿Cuál es la mediana?
¿Cuál es la mediana?
Nro. de observaciones es Nro.
imparde observaciones es par
Primero, ordenar los Primero, ordenar los
salarios. salarios.
Luego, localizar el valor en Luego, localizar el valor en
el medio. Hayeldos valores en el medio!
medio.

26,26,28,29,30,32,6026,26,28,29,
26,26,28,29,29.530,31, 32,60
, 30,31,32,60
17
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La moda
La moda es el valor que ocurre con mayor frecuencia
en un grupo de observaciones.
Cuando la muestra
La moda es grande, los datos
se agrupan en intervalos
y obtenemos el
Intervalo modal

En un conjunto de observaciones puede haber más de una moda.


18
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La moda
Ejemplo

El gerente de una tienda de ropa posee la siguiente


información sobre el talle de los pantalones que se
vendieron ayer:
31, 34, 36, 33, 28, 34, 30, 34, 32, 40.
La moda es 34
En muchos casos, la
moda nos da
información mas valiosa
que la mediana: 33.2.

19
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Media y Mediana
• La media es sensible a observaciones extremas y a outliers.

• La mediana solo es sensible a cambios en su entorno que la


cruzan. Por ello, se dice que la mediana es un estimador
robusto de la tendencia central.

• La media y la mediana de una distribución simétrica se


encuentran muy cerca. Si la distribución es exactamente
simétrica, la media y la mediana coinciden.

• Si la distribución es asimétrica, la media queda desplazada


hacia la cola más larga del histograma de la distribución.
20
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Distribuciones simétricas y
asimétricas
• Una distribución es simétrica si el lado derecho e
izquierdo del histograma con respecto a la mediana
son aproximadamente iguales.
• Un distribución es asimétrica hacia la derecha si el
lado derecho del histograma se extiende sobre un
mayor número de valores (intervalos) que el lado
izquierdo.
• Una distribución es asimétrica hacia la izquierda si el
lado izquierdo del histograma se extiende sobre un
mayor número de valores (intervalos) que el lado
derecho.
21
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Asimetría hacia la izquierda

Asimetría hacia la derecha

22
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Aspecto general de una distribución


• La figura muestra la distribución de ventas de libros por
individuo en la feria del libro. Esta distribución es
asimétrica hacia la derecha. Es decir hay muchas ventas de
3 o 4 libros y pocas ventas de 10 libros.

25
20
15
10
5
0
1 2 3 4 5 6 7 8 9 10 11 12

23
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Distribuciones representadas con números


• ¿Qué edad tenían los presidentes de US al inicio de su mandato? La edad
media es de aproximadamente 55 años.
• Una breve descripción de la distribución:
– Su forma es aproximadamente simétrica.
– El centro de la distribución es aproximadamente 55 años.
– Dispersión: Rango de variación, de 42 a 69 años.
– La forma, el centro y la dispersión proporcionan una buena descripción del
aspecto general de cualquier distribución de una variable cuantitativa.

16
14
12
10
8
6
4
2
0
40 45 50 55 60 65
24
Edad
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Media, Mediana y Moda


• Si una distribución es simétrica, la media, mediana
y moda coinciden

• Si una distribución no es simétrica, las tres


medidas difieren.

Asimetría hacia la derecha Asimetría hacia la izquierd


(asimetría positiva) (asimetría negativa)

Media Media Moda


Moda 25
Mediana Mediana
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de dispersión
• Caracterizar una distribución solamente a través de una medida
central no es apropiado.

• Las distribuciones del ingreso de dos provincias con el mismo


ingreso medio por hogar son muy distintas si una de ellas tiene
extremos de pobreza y de riqueza, mientras que la otra tiene poca
variación de ingresos entre familias.

• Estamos interesados en la dispersión o variabilidad de los


ingresos, además de estarlo en sus centros.

26
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de dispersión
Ejemplo de dos conjuntos de datos con igual media

Datos con baja dispersión


Datos con alta dispersión
27
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de dispersión
• Rango

Una manera de medir la dispersión es calcular el


recorrido de la distribución empírica, es decir, la
diferencia entre las observaciones máxima y mínima.

Su mayor ventaja es que se puede calcular


facilmente, sin embargo, no brinda información
sobre la dispersión existente entre ambos valores
extremos.
28
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de dispersión
• El rango depende sólo de las observaciones
máxima y mínima, que podrían ser observaciones
atípicas.
• Podríamos mejorar nuestra descripción de la
dispersión fijándonos, por ejemplo, también en la
dispersión del 50% de los valores centrales de
nuestros datos.
• Un conjunto de estadísticos de utilidad son los
cuartiles de una distribución.
29
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Cuartiles
Para calcular los cuartiles de una distribución debemos:

1. Ordenar las observaciones en orden creciente y localizar la


mediana.
2. El primer cuartil Q1 es la mediana de las observaciones
situadas a la izquierda de la mediana de la distribución.
3. El tercer cuartil Q3 es la mediana de las observaciones
situadas a la derecha de la mediana de la distribución.

30
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Cuartiles
• Los cuartiles son medidas de tendencia no central de una
distribución.

• Dividen los datos ordenados en 4 cuartos iguales:

25% 25% 25% 25%

Q1 Q2 Q3

• El segundo cuartil de una distribución es su mediana.

31
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Percentiles
• Los percentiles son otro conjunto de medidas de tendencia
no central de una distribución.

• Dividen los datos ordenados en 100 partes iguales.

• El percentil 25 es el primer cuartil ...

• Ejemplo
– Supongamos que el 78% de los resultados del GMAT es menor o
igual a 600 puntos. Entonces, 600 es el percentil 78 de la
distribución.
78% de todos los resultados 22%
200 600 800 32
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Percentiles
– Percentiles frecuentemente utilizados
• Primer decil = percentil 10
• Primer cuartil, Q1, = percentil 25
• Segundo cuartil,Q2, = percentil 50
• Tercer cuartil, Q3, = percentil 75
• Noveno decil = percentil 90

Ejemplo
Encontrar los cuartiles del siguiente conjunto de datos:

7, 8, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8


33
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Percentiles
– Solución
• Primero, ordenar las observaciones
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
15 observaciones
Primer cuartil

Como máximo, (.25)(15) = 3.75


Como máximo, (.75)(15)=11.25
bservaciones deberían aparecer
observaciones
por deberían aparecer por
debajo del primer cuartil. encima del primer cuartil.

l numero de observaciones es par,


resultados se encuentran entre dos observaciones.
ese caso, hay que elegir el punto medio entre ambas observacione
34
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Diagrama de caja
• Los cinco números resúmen de una distribución
son representados gráficamente por un diagrama
de caja.

• L - Observación máxima
• Q3 - Tercer cuartil
• Q2 - Mediana
• Q1 - Primer cuartil
• S - Observación mínima

35
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Diagrama de caja
• Los lados inferior y superior de la caja van del
primer al tercer cuartil. Por tanto, la altura de la
caja es la amplitud del 50% de los datos centrales.
• El segmento del interior de la caja indica la
mediana. Los extremos de los segmentos
perpendiculares a los lados superior e inferior
indican, respectivamente, los valores máximo y
mínimo de la distribución.

S Q1 Q2 Q3 L
36
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Diagrama de caja

37
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Una medida de dispersión: La varianza


• La varianza s2 de un conjunto de observaciones es el
promedio de los cuadrados de la desviaciones de las
observaciones respecto a su media. Formalmente:

( x1 − x ) + ( x 2 − x ) + ... + ( x n − x )
2 2 2
s =
2

n −1
• De forma compacta:
1
s = 2

n−1
∑ (x i − x) 2

38
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La varianza 9 –10 = -1
11 –10 = +1
Considere dos poblaciones: 8 –10 = -2
Población A: 8, 9, 10, 11, 12 12 – 10 = +2
Población B: 4, 7, 10, 13, 16 Suma = 0
Comencemos calculando la suma de las desviaciones
En ambos casos, la suma
La media de ambas poblaciones es 10...
de las desviaciones es

A Cero (lo cual es siempre


Cierto). Por lo tanto, usam
8 9 10 11 12 la suma de los cuadrados.

…pero en B los datos están mucho mas dispersos que en A


4 -10 = - 6
16 -10 = +6
B 7- 10 = -3
13 -10 = +3
4 7 10 13 16 Suma = 0
39
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La varianza
Calculemos la suma de las desviaciones al cuadrado para ambas
poblaciones:
(8 − 10 ) 2
+ (9 − 10 ) 2
+ (10 − 10 ) 2
+ (11 − 10) 2
+ (12 − 10 ) 2
σ A2 = = 2.5
4
( 4 − 10) 2
+ ( 7 − 10 ) 2
+ (10 − 10 ) 2
+ (13 − 10) 2
+ (16 − 10) 2
σ B2 = = 22.5
4
or qué la varianza esta definida
mo un promedio de desviaciones
cuadrado y no como su simple suma?
La suma de las
desviaciones al cuadrado
aumentan
cuando la dispersión 40
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

La varianza
Calculemos la suma de las desviaciones cuadradas para ambas
poblaciones
B es mas dispersa alrededor
de su media que A. Sin embargo,
la suma no muestra eso.
Es por ello que se usa el promedio

A B
1 2 3 1 3 5
σA2 =2=
SumaA = (1-2)2 +…+(1-2)2 +(3-2)2 +… +(3-2) 10A/(N-1) = 10/4 = 2
Sum
5 veces 5 veces

SumaB = (1-3)2 + (5-3)2 = 8


! σB2 = SumB/(N-1) = 8/1 = 8
41
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Una medida de dispersión:


La desviación estándar
• La desviación típica es la raíz cuadrada positiva de la varianza
s2:
1
s=
n −1
∑ ( x i − x ) 2

• Ejemplo:
Tasas de retorno de dos fondos de inversiones durante 10 años
¿Cual de los dos es más riesgoso?
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6 Desviación estandar: 16.74
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desviación estandar: 9.97
El fondo A es mas riesgoso dado que su desviación estándar es mayor.
42
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Grados de libertad
• ¿Por qué calculamos la varianza dividiendo por n - 1, en
lugar de dividir por n?
• Como la suma de las desviaciones es 0, la última
desviación es una combinación lineal de las n - 1
desviaciones restantes.
• Por lo tanto, no estamos calculando el promedio de n
números independientes (los desvíos). Solo n -1 de las
desviaciones al cuadrado pueden variar libremente y por
ello, promediamos la suma de los desvíos al cuadrado
dividiendo por n -1.
• Al numero n -1 se lo denomina grados de libertad de la
varianza o de la desviación típica.
43
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Propiedades del desviación


estándar (s)
• s mide la dispersión respecto a la media. Debe
emplearse solo cuando se escoge la media como
medida central de la distribución.
• s = 0 solo ocurre cuando no hay dispersión: todas las
observaciones toman el mismo valor. De lo contrario s
> 0.
• Cuanto más dispersión hay entre las observaciones,
mayor es s.
• s, al igual que la media, se encuentra fuertemente
influenciado por las observaciones extremas.
44
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Descripción de una distribución


asimétrica
• Una distribución asimétrica con unas pocas observaciones
en la cola larga de la distribución tendrá un desvío estandar
grande. En tal caso, s no proporciona información útil
sobre la dispersión de la distribución.
• Como en una distribución muy asimétrica la dispersión de
cada una de las colas es muy distinta, es imposible
describir bien la dispersión con un solo número.
• Los cinco números resumen proporcionan mejor
información sobre la dispersión de la distribución.
• Es preferible utilizar los cinco números resumen en lugar
de la media y el desvío estandar para describir una
distribución asimétrica
45
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Coeficiente de variación
• El coeficiente de variación es una medida de dispersión
relativa.
• Muestra la dispersión de una distribución en relación a su
media.
• Se utiliza para comparar distintas distribuciones.
• Su fórmula es:
s
CV 
x
• Por ejemplo, una desviación estandar de 10, puede ser
grande si la media es 100, pero no lo es si la media es 500.

46
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Coeficiente de asimetría
• El coeficiente de asimetría es una medida de asimetría de
una distribución.
• Su fórmula es:
3
n n
 xi  x 
CA  
(n  1)(n  2) i1  s 

• Si es positivo, la curva presenta asimetría hacia la derecha.


• Si es negativo, la curva presenta asimetría hacia la
izquierda.
• Si es cero, la distribución es simétrica.

47
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Concentración: Kurtosis
• La kurtosis es una medida de la concentración de la
distribución en torno a su media.
• Su fórmula es:
4
n(n  1) n
 xi  x  3(n  1)2
K  
(n  1)(n  2)(n  3) i1  s   
(n  2)(n  3)
• Si K es positiva, la distribución tiene una concentración
superior a la de una curva normal. Si es negativa, ocurre lo
contrario.

48
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de asociación: Covarianza

∑(x i − µ x )( yi − µ y )
Covarianza poblacional = COV(X, Y) =
N
µx (µ y) es la media poblacional de la variable X (Y)

N es el tamaño de la población. n es el tamaño de la muestra.

∑(x i − x)(yi − y)
Covarianza muestral = cov(X, Y) =
n -1

49
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de asociación:
Correlación
Coeficiente de correlacion poblacional Coeficiente de correlacion muestral
COV ( X , Y ) cov( X , Y )
ρ= r=
σ xσ y sx s y

• Este coeficiente responde a la pregunta:


¿Cuán fuerte es la asociación (lineal) entre X e Y?

50
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Coeficiente de Correlación
Correlación
+1 lineal positiva fuerte
El valor se encuentra cerca de 1 COV(X,Y)>0

ρ o r = No
0
hay correlación lineal
Coeficiente cercano a cero COV(X,Y)=0

Correlación lineal negativa fuerte


-1 COV(X,Y)<0
El valor se encuentra cerca de -1

51
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de asociación
• Ejemplo
– Busque la covarianza y el coeficiente de correlación
para medir como los gastos de marketing y los niveles
de ventas se relacionan.
MarketingVentas sió n…
Ventas p e r
1 30 60 de dis
f i c o
3 40 gra
50
e n este
5 40 40 en te,
t u i t ivam s tar
In e
4 50 30
a r ecen das
20 l e s p laciona
2 35 v
b
aria nte re
10 La s me Gastos de marketing
5 50 t i v a
0 posi
3 35 0 1 2 3 4 5 6
2 25 52
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
A continuación calculamos cov() y r:

Mes x y xy x2 y2 X,Y) =
cov(
1 1 30 30 1
900 ∑ n (x − x)(y − y)
i=1 i
2 3 40 120
1600 9
i
=
3 5 40 200
1600 25 n− 1
4 4 50 2500 1  n
200 16 ∑ ni=1 xi ∑ ni=1 yi 
5 2 35 70
1225 4 ∑ i=1 xiyi − =
6 5 50 2500 n− 1
250 25 n 
7 3 35 105
1225 1  9 25× 305
8 2 25 50
625  1025
4 −  = 10.268
Suma 25 3051025 93 12175 7  8 

sx =
1  (
 ∑ i =1 xi −
n
)
∑ i =1 x 
2

=
1 252 
93 −  = 1.554
2 n 2

n − 1  n  7 8 
s x = 1.554 = 1.458 r=
cov(
X,Y)
=
10.268
= .797
sxsy 1.458× 8.839 53
De igual forma, sy = 8.839
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de asociación
Interpretación
– La covarianza (10.2679) indica que los gastos de
marketing y los niveles de ventas están positivamente
relacionados
– El coeficiente de correlación (.797) indica que hay una
relación lineal positiva fuerte entre los gastos de
marketing y los niveles de ventas.

54
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Asociación: Variables


Categóricas
• Sean X e Y dos variables categóricas. X con r categorias e Y
con c categorias. Podemos utilizar una tabulación cruzada entre
las variables para identificar la relación que existe entre ambas.
• En este caso la tabulación cruzada entre X e Y tendrá r filas y c
columnas.
• Las respuestas para (X, Y) pueden ser pensadas como
provenientes de alguna población tal que se pueden definir
probabilidades para cada celda de la tabla.
• Cuando las celdas de una tabla contienen las frecuencias de
respuestas, la tabla se denomina de contingencia.

55
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• Una de las principales preguntas que uno quiere responder
cuando analiza la asociación entre dos variables es si existe
alguna relación entre ellas o lo que muestra la tabla es simple
error muestral.

• Para responder a esta pregunta, se utiliza un test de hipótesis


conocido como el test Chi-cuadrado de Pearson. La hipótesis
nula del test es que las dos variables analizadas son
independientes. La hipótesis alternativa es que las variables no
son independientes, es decir que existe una relación entre las dos
variables.

56
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• Ilustremos el test utilizando un ejemplo. La siguiente tabla
de contingencia muestra la tabulación cruzada de la
variable ingreso anual (dividido en tres categorías, menos
de 20 mil; entre 20 y 40 mil y más de 40 mil) y la última
marca de coche comprada (dividida en tres marcas, Ford,
Toyota y Renault ).

57
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas


de Asociación

Marca del último auto comprado


Ford Toyota Renault Total
Ingreso anual

Menos de 20,000 50 200 125 375


20,000 - 40,000 200 100 350 650
más de 40,000 100 25 50 175

Total 350 325 525 1200

58
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• Las entradas de la tabla representan el número de
personas en la muestra con cada combinación de
ingreso y marca de auto. Por ejemplo, 50 personas
que ganan menos de 20,000 $ compraron un auto
marca Ford.
• El test Chi-cuadrado de Pearson se basa en
encontrar cual hubiera sido el valor de cada
entrada si las variables fueran independientes. Es
decir el valor esperado de cada celda de la tabla si
las variables ingreso y marca son independientes.
59
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• Si ingreso y marca son independientes, la probabilidad del
evento conjunto "A1: ganar menos de 20,000$" y "B1:
comprar marca Ford" es el producto de esas dos
probabilidades:

• Pr(A1 y B1) = Pr(A1)*Pr(B1)

• Pr(A1) = A1/A = 375/1200,


• Pr(B1) = B1/B = 350/1200
• Donde A y B son las frecuencias totales de los eventos.
60
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• Por lo tanto:

• Pr(A1 y B1) = Pr(A1)*Pr(B1) = 375*350/(1200*1200) =


0.091

• El número esperado en la entrada A1B1 es entonces:

• N* Pr(A1 y B1) = 1200*0.091 = 109.38

61
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• En general la fórmula del valor esperado es:

• Eij = (NAi*NBj)/N.

– Eij = número esperado


– NAi= número de elementos en la categoría Ai
– NBi= número de elementos en la categoría Bi

• Para A1B1 el número esperado es:


– E11 = (375*350)/1200 = 109.38
62
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• Este proceso se puede repetir para cada una de las entradas
de la tabla. Una vez hecho esto el estadístico Chi-cuadrado
se calcula con la siguiente fórmula:

χ2 = ∑ ∑
r c (Oij − E ij )2
i =1 j =1 E ij
– r = número de categorías de la variable en las filas
– c = número de categorías de la variable en las columnas
– Oij = número observado en entrada ij
– Eij = número esperado en la entrada ij
• Este estadístico Chi-cuadrado tiene (r-1)*(c-1) grados de
63
libertad.
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas de


Asociación
• En nuestro ejemplo hay (3-1)*(3-1) = 4 grados de
libertad. Realizando todas las cuentas con la tabla
del ejemplo, el estadístico da 252.2.
• Comparando este número con el valor crítico de la
distribución Chi-cuadrado con 4 grados de libertad
a un nivel de significatividad del 5% el valor
crítico correspondiente es 9.49.
• Como 252.2 > 9.49 se rechaza la hipótesis nula. Es
decir, las variables no son independientes.
64
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• Considere un estudio sobre consumo que esta
interesado en investigar las preferencias de las
familias por diferentes tamaños de lavarropas.

• A priori, uno pensaría que sería más probable que


familias más numerosas compraran lavarropas más
grandes y que familias con menos miembros
compraran lavarropas de menor carga.

65
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• Supongamos que para investigar esta relación el
fabricante de lavarropas toma una muestra
aleatoria de tamaño n=300 de todas aquellas
familias que luego de comprar el lavarropas
enviaron la garantía al fabricante. En esa garantía
además de los datos personales se preguntaba
tamaño de la familia.
• La siguiente tabla provee la clasificación de los
300 datos:
66
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
Tamaño de la Familia
1a2 3a4 5 o más Total
Tamaño de Lavarropas
Comprado

Carga de 1kg. 25 37 8 70
Carga de 3kg 10 62 53 125
Carga de 5kg 5 41 59 105

Total 40 140 120 300

67
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• Nuestra tarea es determinar si el tamaño de la
familia afecta la decisión de compra de lavarropas.

• La hipótesis nula es que las variables son


independientes (esto es, no hay relación entre
tamaño familiar y tamaño del lavarropas
comprado); la hipótesis alternativa es que las
variables no son independientes.

68
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• Trabajemos con un nivel de confianza del 90% y
calculemos el estadístico de Pearson.

• Para esto asignemos las siguientes letras a los


eventos de la tabla:
– A1 Compra de lavarropas de 1 kg de carga
– A2 Compra de lavarropas de 3 kg de carga
– A3 Compra de lavarropas de 5 kg de carga

69
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
– B1 Familia de 1 a 2 miembros
– B2 Familia de 3 a 4 miembros
– B3 Familia de más de 5 miembros

• Sabemos que el número esperado de


observaciones que caerían en la celda (Ai, Bj) si
las variables fueran independientes esta dado por:

• Eij = (NAi*NBj)/N, por lo tanto:


70
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• E11 = ( N
70A1 * N40
B1 ) / N300 = 9.33
• E12 = ( N
70A1 * N140
B2 ) / N
300 = 32.67
70A1 * N120
• E13 = ( N B3 ) / N
300 = 28
125 300 16.67
• E21 = ( NA2 * N40B1 ) / N =
125 140 300 58.33
• E22 = ( NA2 * NB2 ) / N =
125 120 300 50
• E23 = ( NA2 * NB3 ) / N =
105 40 300 14
• E31 = ( NA3 * NB1 ) / N300
= 49
105 140
• E32 = ( N A3 * N
105 B2 ) / N
120 300 = 42 71
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• La fórmula de cálculo del estadístico viene dada
por

χ
3 3 (Oij − Eij ) 2
( 25 − 9 . 33)
2
(37 − 32 .67)
2

∑∑
2
= = + +
i =1 j =1 E ij
9.33 32.67

(8− 28) − − −
2 2 2 2

+
(10 16 .67) +
(62 58 .33) +
(53 50) +
28 16.67 58.33 50

(5−14) − −
2 2 2

+
( 41 49) +
(59 42) = 58.231
14 49 42 72
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Ejemplo
• El valor crítico desde una tabla Chi-cuadrado con 4
grados de libertad y un nivel de significatividad del
90% es 7.78

• Como el valor del estadístico de Pearson 58.231 es


mayor al valor crítico de la tabla se rechaza la
hipótesis nula.

• Por lo tanto, podemos afirmar que el tamaño de la


familia afecta la compra de lavarropas de distintas
73
cargas.
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas


de Asociación
• El estadístico de Pearson nos dice si dos variables
son independientes una de otra pero no nos dice
nada acerca de la naturaleza de la relación.

• Esto es, no sabemos cuan fuerte es la asociación


entre las variables analizadas.

• Para medir el grado de relación entre las variables


se utiliza el denominado Coeficiente de
Contingencia (C).
74
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas


de Asociación
• El coeficiente de contingencia se calcula
fácilmente desde el estadístico de Pearson:

χ
2

C =
χ
2
n+

• donde n es el tamaño muestral.


75
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas


de Asociación
• Del ejemplo anterior sabemos que el número de
miembros que tenga la familia afecta la decisión
de la compra de lavarropas pero esa es solamente
una parte de la historia. En particular, cuál es el
grado de relación entre las dos variables?

58.231
C = = 0.403
300 + 58.231
76
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas


de Asociación
• Indica este valor de 0.403 una relación fuerte entre
las variables?

• Para poder responder esta pregunta necesitamos


saber los límites de variación de C.

• Cuando no hay relación entre las variables el


coeficiente C = 0. El valor máximo de C está dado
por Cmax = [min(r-1,c-1)/(1+ min(r-1,c-1))]1/2
77
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Tablas de Contingencia y Medidas


de Asociación
• En nuestro caso:

min(r − 1, c − 1) 2
C max
=
1 + min(r − 1, c − 1)
=
3
= 0.816

• El valor calculado se encuentra más o menos en la


mitad entre el valor mínimo y máximo de C por lo
que uno puede afirmar que existe una relación
moderada entre el tamaño de la familia y el
tamaño de carga del lavarropa comprado.
78
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Asociación para


Tablas de 2x2
• Cuando analizamos variables dicotómicas
(adoptan solo los valores 0, 1) el estadístico
de Pearson puede ser poco preciso. En esos
casos se suelen utilizar otras medidas de
asociación.

79
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Asociación para


Tablas de 2x2
• El Coeficiente Phi (φ)
• Es una medida del grado de asociación entre dos variables
dicotómicas basada en el estadístico Chi-cuadrado de
Pearson.
• Este coeficiente toma valores en el intervalo cero-uno.
Valores próximos a cero indican poca asociación entre las
variables y valores cercanos a uno indican una fuerte
asociación.
• El coeficiente φ puede ser calculado como el coeficiente de
correlación entre dos variables dicotómicas.

80
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Medidas de Asociación para


Tablas de 2x2
• Alternativamente, puede ser calculado utilizando el
estadístico Chi-cuadrado de Pearson con la
siguiente fórmula:

∀ φ = (χ2/N)1/2

• donde N es el número de datos.

81
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Terminología:
– Mercado Potencial: Es una estimación de la demanda
máxima de un producto en un punto del tiempo
determinado y para un área específica cuando los
gastos de marketing de una industria se aproximan a
infinito.
– Demanda de Mercado: Es el número de unidades de un
producto que pueden ser vendidas (por la industria) en
un área, con un determinado programa de marketing.
– Demanda de una Empresa: Es el número de unidades
de un producto que pueden ser vendidas (por una
82
empresa de la industria) en un área, con un determinado
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Mercado Potencial. Una forma simple de medir el
mercado potencial es considerar el máximo de
ventas que una industria puede lograr con un gasto
de marketing determinado:

MP = N × P × Q
• Donde: MP es el mercado potencial, N es el
número de posibles compradores, P es el precio de
venta promedio y Q es la cantidad vendida
promedio por comprador. 83
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Ejemplo: Suponga que queremos encontrar el
potencial de mercado de las ventas de CDs. Para
ello lo primero que necesitamos saber es cuantas
personas tienen aparatos para pasar CDs en el área
(supongamos 1,000,000); supongamos que el
precio promedio de venta de CDs es de 12$ y la
cantidad promedio de compras es de 4 CDs al año.
En este contexto el potencial de mercado es:
MP = 1,000,000 × 12 × 4 = 48,000,000
84
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Note que:
– El potencial de mercado depende crucialmente de la
situación económica. No es lo mismo el mercado
potencial de los CDs en épocas de recesión que en
épocas de prosperidad económica. Hay un movimiento
de las curvas de potencial y demanda de mercado.

– Cambios en los gastos de marketing solo provocan un


movimiento sobre la curva de demanda.

85
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
Prosperidad Potencial de Mercado

Demanda de Mercado
Potencial de Mercado
Recesión b
a
Demanda de Mercado

x1 x2 Gasto de Marketing
86
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Otro de los métodos para medir el mercado potencial
es el método de variación en cadena que implica
multiplicar un número base por varios porcentajes de
ajuste.
• Ejemplo: Una empresa cervecera quiere estimar el
potencial de mercado de una cerveza negra:
• MP = Población × Ingreso per capita × % del ingreso
gastado en alimentos × % del gasto en alimentos que se
hace en bebidas × % del gasto en bebidas que se hace en
bebidas alcoholicas × % del gasto en beb. alcoh. que se
hace en cerveza × % del gasto en cerveza que se hace en 87
cerveza negra.
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• La demanda de mercado surge como suma de las
demandas de cada una de las empresas que
participan en el mercado.
• La demanda de cada empresa depende del nivel de
esfuerzo de marketing de la empresa en un período
determinado.
• Uno puede estimar funciones de respuesta de las
ventas a los niveles de gastos de marketing usando
las técnicas de estimación de funciones vistas en
econometría. 88
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Asociado con las ventas esperadas, basadas en el
plan de marketing seleccionado se encuentra el
concepto de cuota de mercado de la empresa.
• Cuota de mercado es la proporción de ventas de
un producto en las ventas totales del producto:
V ( A)
QM =
VT
• Donde QM es la cuota de mercado, V(A) son las
ventas del producto A y VT las ventas totales.
89
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• La cuota de mercado de una empresa puede
expresarse en términos de su penetración en el
mercado (market penetration) y de su cobertura
del mercado (market coverage).
V ( A) CTC
QM = ×
CTC VT
Donde: CTC son
las compras Penetración en Cobertura del
totales de los
clientes servidos. el Mercado Mercado
90
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

Técnicas de Medición de la
Demanda
• Ejemplo: Supongamos que las ventas de la
empresa X del producto A son (en miles) 40$ y
que las ventas totales del producto A son 100$. La
empresa vende el producto a 2 supermercados
(20$ a cada uno). El mercado esta compuesto por
4 supermercados que se dividen la compra del
producto en partes iguales (compra 25$ cada uno).

V 40
( A) V 40
( A) CTC
50
QM = = × = 0.40
VT
100 CTC
50 VT
100
91