You are on page 1of 8

Probabilidades y Estadística

1

Estadística Descriptiva – Dos Variables Agrupación de Datos – Tablas de Contingencia
Cuando se desea analizar dos variables a la vez, las tablas de contingencia son un método de agrupación de datos que puede resultar de mucha utilidad. Los criterios para construir las tablas de frecuencia pueden ser de ayuda también para la confección de tablas de contingencia. Ejemplo: Se analizó la distribución de la nota final en un curso de Investigación de Operaciones en una Universidad de la región. A los 72 alumnos, se les registró la nota final, y además el sexo. La información anterior se resume en la siguiente tabla de contingencia:
Género Intervalo de Clase [3,4 , 4[ [4 , 4,5[ [4,5 , 5[ [5 , 5,5[ [5,5 , 6[ [6 , 6,5[ [6,5 , 7[ Total Hombres 1 10 17 15 5 3 1 52 Mujeres 0 4 8 3 1 4 0 20 Total 1 14 25 18 6 7 1 72

Nota Final

0,0139 0,1389 0,2361 0,2083 0,0694 0,0417 0,0139 0,7222

0,0000 0,0556 0,1111 0,0417 0,0139 0,0556 0,0000 0,2778

0,0139 0,1944 0,3472 0,2500 0,0833 0,0972 0,0139 1

Como se puede ver, en la tabla se presentan dos variables, una continua (Nota Final), y una cualitativa (Sexo) y se analizan de manera conjunta. Es decir, cada celda contiene la frecuencia absoluta correspondiente al intervalo de clase de nota final y a la clase correspondiente al sexo, en este caso hombre o mujer. Además, si se desea, se puede agregar a la derecha de cada frecuencia absoluta, la frecuencia relativa respectiva. Ejemplo: Una línea aérea realizó un estudio respecto de la edad de sus pasajeros, y el número de vuelos al año que realizan. Para ello se tomó una muestra de 50 personas. La información se resume en la siguiente tabla:
Número de vuelos mayor que 3-5 5 1 0,02 2 8 0,16 10 6 0,12 15 2 0,04 1 17 0,34 28

Edad [0 , 25[ [25 , 40[ [40 , 65[ [65 , 100[ Total

1-2 1 2 1 1 5

0,02 0,04 0,02 0,02 0,1

0,04 0,2 0,3 0,02 0,56

Total 4 20 22 4 50

0,08 0,4 0,44 0,08 1

En relación a la tabla anterior, se puede concluir acerca de la relación entre ambas variables. Por ejemplo, se observa que las personas de entre 40 y 65 años son las que “más viajan” ya que tienen la mayor frecuencia correspondiente a 5 vuelos o más. A partir de los ejemplos anteriores resulta fácil establecer de manera más formal las llamadas tablas de contingencia.

Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

2

Tablas de Contingencia Cuando las observaciones de una muestra pueden clasificarse en dos o más categorías, éstas pueden ser presentadas en las denominadas Tablas de Contingencia. Las tablas de contingencia más utilizadas son las que permiten clasificar las observaciones de acuerdo a dos criterios de clasificación (usualmente variables categóricas, pero no necesariamente) con r y c categorías en cada criterio respectivamente. Y X 1 2 i r Total 1 n11 n21 ni1 nr1 n.1 2 n12 n22 ni2 nr2 n.2 j n1j n2j nij nrj n.j … … … … c n1c n2c nic nrc n.c Total n1. n2. ni. n1. n..

Donde nij es la frecuencia absoluta del par (xi,yi), es decir, el número de objetos que presentan el valor xi en X e yj en Y. La frecuencia relativa correspondiente se calcula como:

fi , j =
donde

nij n..

∑∑ nij = n..
i =1 j =1

r

c

∑∑ f
i =1 j =1

r

c

ij

=1

Distribución Marginal A partir de la distribución conjunta de X e Y es posible estudiar cada una de las variables por separado, dando con ello origen a las distribuciones marginales de X e Y. La distribución marginal de X corresponde a los distintos valores de X junto a sus respectivas frecuencias, siendo ni. y fi. la frecuencia absoluta y relativa marginal de xi en X, independientemente del valor que adopte Y.

ni. = ∑ nij = ni1 +ni 2 + L nic
j =1

c

fi. =

ni. n..

De manera análoga, la distribución marginal de Y corresponde a los distintos valores de Y junto a sus respectivas frecuencias, siendo n.j y f.j la frecuencia absoluta y relativa marginal de yi en Y, independientemente del valor que adopte X.

n. j = ∑ nij = n1 j +n2 j + L nrj
i =1

r

f. j =

n. j n..

Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

3

Distribución condicional La distribución condicional permite observar cómo se distribuye una variable sobre la base de una determinada condición en la otra. La distribución de X condicionada al valor yi de Y (X\Y=yi) muestra el comportamiento de la variable X en aquellos sujetos que presentan el valor en Y el valor yi.. X x1 x2 xi xr Total nij fij n1j f1j n2j f2j nij nrj n.j fij frj

Ejemplo: Una línea aérea realizó un estudio respecto de la edad de sus pasajeros, y el número de vuelos al año que realizan. Para ello se tomó una muestra de 50 personas. La información se resume en la siguiente tabla:
N° de Vuelos al Año 3-5 Más de 5 1 2 8 10 6 15 2 1 17 28

Edad [0 , 25[ [25 , 40[ [40 , 65[ [65 , 100[ Total Distribución Marginal de la Edad fi. Edad ni. 0,08 4 [0 , 25[ 0,40 20 [25 , 40[ 0,44 22 [40 , 65[ 0,08 4 [65 , 100[ 1,00 50 Total

1-2 1 2 1 1 5

Total 4 20 22 4 50

Distribución Marginal del N° de Vuelos N° de Vuelos al 1-2 3-5 Más de 5 Total Año 5 17 28 50 n.j 0,10 0,34 0,56 1,00 f.j

Distribución Condicional, dado que el Número de Vuelos es entre 3 y 5 fi. X\Y=3-5 ni. 1 0,06 [0 , 25[ 8 0,47 [25 , 40[ 6 0,35 [40 , 65[ 2 0,12 [65 , 100[ 17

Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

4

Relación entre Dos Variables
En algunos casos, se desea analizar la existencia de una potencial relación entre dos variables. Para ello, se puede recurrir a las llamadas medidas de asociación. Además, en caso de que exista una relación de causa – efecto, interesa construir un modelo que permita describir el comportamiento de la variable respuesta (dependiente) en función de la o las variables predictoras (independientes). En este caso, se pueden utilizar métodos de regresión, siendo un caso particular la regresión lineal simple (Estos métodos se verán más adelante). En términos prácticos, previo a la estimación del grado de asociación y a la construcción de un modelo de regresión, es primordial realizar un análisis exploratorio de datos, construyendo entre otros un gráfico de dispersión, que permita visualizar la presencia de observaciones que resulten “diferentes” del resto, es decir, se debe realizar un análisis que permita detectar la presencia de observaciones erróneas, atípicas o faltantes, además de la existencia de un cierto grado de asociación entre las variables. La inclusión en el estudio de datos atípicos, que pueden ser mediciones reales (observaciones válidas de situaciones anómalas) o producto de errores en el registro o lectura de los datos, puede conducir a conclusiones erróneas, en términos del grado de asociación que puede existir entre las variables y a la obtención de modelos que no representen adecuadamente el fenómeno estudiado, producto de la distorsión que estas observaciones pueden provocar en la verdadera relación de los datos. Las figuras siguientes ilustran esta situación.
Relación Peso Talla en Niños
14 12 10
Peso 12 10 8 6 4 2 0

Relación Peso Talla en Niños

8 6 4 2 0 25 40 55 Talla 70 85 100

Peso

25

40

55 Talla

70

85

100

Fig. 1: Datos sin presencia de datos atípicos
Relación Peso Talla en Niños
12 10 8 Peso 6 4 2 0 25 40 55 Talla 70 85 100

Fig. 2: Dato no anómalo pero que influye en la relación entre las variables
Relación Peso Talla en Niños
14 12 10 Peso 8 6 4 2 0 25 40 55 Talla 70 85 100

Fig. 3: Dato atípico que afecta la relación entre las variables

Fig.4: Dato atípico que no afecta la relación entre las variables

Respecto de los datos atípicos, se pueden dar las siguientes situaciones que llevan a clasificar estas observaciones en influyentes (si son capaces de modificar la relación entre las variables) y en no influyentes (si no la cambian): 1. El dato se encuentra fuera del rango de la mayoría de los valores restantes, afectando de manera importante la forma de la relación entre las variables y los resultados del proceso de ajuste de un modelo de regresión. 2. Un punto, no es anómalo respecto de la variable respuesta ni de la variable predictora, sin embargo es atípico respecto de la relación entre las variables. 3. Un punto, es anómalo respecto de la variable respuesta y de la variable predictora, pero no afecta la relación entre las variables. 4. Un punto, es anómalo respecto de la variable respuesta y de la variable predictora, y además afecta la relación entre las variables.
Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

5

Covarianza La Covarianza entre las variables X e Y, es una medida que representa la variabilidad conjunta de ambas variables respecto de su centroide.

Cov( X , Y ) =

∑ (x
i =1

n

i

− x ) ⋅ ( yi − y ) n −1

La covarianza se interpreta de la siguiente forma: • Si Cov(x,y) > 0, entonces ambas variables crecen o disminuyen a la vez (nube de puntos creciente). • Si Cov(x,y) < 0, entonces cuando una variable crece, la otra tiende a decrecer (nube de puntos decreciente). • Si Cov(x,y) = 0, se tiene ausencia de relación lineal entre las variables, en este caso, las observaciones se reparten con igual intensidad en torno de su centroide. • Si Cov(x,y) = 0, pero las observaciones se reparten homogéneamente entre el primer y tercer cuadrante y entre el segundo y cuarto cuadrante; a pesar de tener covarianza cero, esta no indica ausencia de relación entre las variables.

Coeficiente de Correlación Lineal La forma de medir el grado de asociación lineal entre dos variables, pero como un indicador libre de unidad de medida, es a través del coeficiente de correlación. Si las dos variables sobre las cuales se desea medir la intensidad de asociación son cuantitativas continuas, el indicador más adecuado es el coeficiente de correlación de Pearson, el cual se define y calcula de la siguiente manera:

r=

Cov( X , Y ) = Sx S y

n  n  n  n∑ xi yi −  ∑ xi  ∑ yi  i =1  i =1  i =1 

 n   n   n   n  n  ∑ xi2  −  ∑ xi  ⋅ n  ∑ yi2  −  ∑ yi   i =1   i =1   i =1   i =1 

2

2

Algunas características relevantes del coeficiente de Correlación son: • Cuantifica la “fuerza” de la relación lineal entre dos variables cuantitativas. • Corresponde un valor independiente de las unidades de medida utilizadas para medir las variables. • El valor del coeficiente de correlación se altera de forma importante ante la presencia de un valor extremo • La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más información que un simple valor cuantitativo de un coeficiente de correlación. • -1 ≤r ≤ 1 • r = 1 → existe una relación lineal directa y perfecta entre las variables X e Y. • r = -1 → existe una relación lineal inversa y perfecta entre las variables X e Y. • r = 0 → no existe una relación lineal entre las variables, pudiendo existir otra forma de asociación entre ellas.
Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

6

• •

La correlación no cambia si todos los valores de una de sus variables se convierten a una escala diferente. La elección de x o y no afecta el cálculo de r.

Ejemplo: Los datos que se presentan a continuación representan el peso y la talla de 20 niños varones.
Talla Peso Obs

xi

yi

xi2

yi2

xi yi

xi − x
5,65 9,65 -7,35 1,65 -6,35 -8,35 3,65 -1,35 -12,35 16,65 -2,35 -0,35 -5,35 -0,35 -9,35 14,65 -7,35 4,65 -4,35 8,65

yi − y
1,55 2,55 -1,45 0,55 -0,45 -2,45 0,55 -0,45 -3,45 3,55 -0,45 -0,45 -1,45 0,55 -2,45 3,55 -2,45 1,55 -1,45 2,55

( xi − x )( yi − y ) ( xi − x ) 2 ( yi − y ) 2
8,76 24,61 10,66 0,91 2,86 20,46 2,01 0,61 42,61 59,11 1,06 0,16 7,76 -0,19 22,91 52,01 18,01 7,21 6,31 22,06 309,85 31,92 93,12 54,02 2,72 40,32 69,72 13,32 1,82 152,52 277,22 5,52 0,12 28,62 0,12 87,42 214,62 54,02 21,62 18,92 74,82 1242,55 2,40 6,50 2,10 0,30 0,20 6,00 0,30 0,20 11,90 12,60 0,20 0,20 2,10 0,30 6,00 12,60 6,00 2,40 2,10 6,50 80,95

1 72 9 5184 81 648 2 76 10 5776 100 760 3 59 6 3481 36 354 4 68 8 4624 64 544 5 60 7 3600 49 420 6 58 5 3364 25 290 7 70 8 4900 64 560 8 65 7 4225 49 455 9 54 4 2916 16 216 10 83 11 6889 121 913 11 64 7 4096 49 448 12 66 7 4356 49 462 13 61 6 3721 36 366 14 64 528 66 8 4356 15 25 285 57 5 3249 16 81 11 6561 121 891 17 59 5 3481 25 295 18 81 639 71 9 5041 18 62 6 3844 36 372 20 750 75 10 5625 100 Suma 1327 149 89289 1191 10196

Cov( X , Y ) =
n i

∑ (x − x ) ⋅ ( y − y)
i =1 i i

n

n −1
2

=

309.85 = 16.3079 20 − 1
Sy =

Sx =

∑( x − x )
i =1

n −1

1242.55 = = 8.0869 19

∑( y − y )
i =1 i

n

2

n −1

=

80.95 = 2.0641 19

r=

Cov( X , Y ) 16.3079 = = 0.9770 Sx S y 8.0869 ( )( 2.0641)
20(10196) − (1327)(149) 20 ( 89289 ) − (1327 ) ⋅ 20 (1191) − (149 )
2 2

r=

n  n  n  n∑ xi yi −  ∑ xi  ∑ yi  i =1  i =1  i =1 

        n  ∑ xi2  −  ∑ xi  ⋅ n  ∑ yi2  −  ∑ yi   i =1   i =1   i =1   i =1 
n n n n

2

2

=

=

6197 = 0.977 6343.009

Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

7
Variación de Peso según Talla

14 12 10 Peso 8 6 4 2 0 40 50 60 Talla 70 80 90

Ejemplo: Los siguientes datos corresponden a la temperatura promedio semanal observada, y el consumo semanal de gas en una casa. Calcule la covarianza y el coeficiente de correlación de ambas variables.
Temp Consumo Exterior Gas (pies (ºC) cúbicos)

xi
-0,7 0,8 1 1,4 1,5 1,6 2,3 2,5 2,5 3,1 3,9 4 4 4,2 4,3 4,6 4,7 4,9 50,6

yi
4,8 4,6 4,7 4 4,2 4,2 4,1 4 3,5 3,2 3,9 3,5 3,7 3,5 3,5 3,7 3,5 3,4

xi2
0,49 0,64 1 1,96 2,25 2,56 5,29 6,25 6,25 9,61 15,21 16 16 17,64 18,49 21,16 22,09 24,01

yi2
23,04 21,16 22,09 16 17,64 17,64 16,81 16 12,25 10,24 15,21 12,25 13,69 12,25 12,25 13,69 12,25 11,56

xi yi
-3,36 3,68 4,7 5,6 6,3 6,72 9,43 10 8,75 9,92 15,21 14 14,8 14,7 15,05 17,02 16,45 16,66

xi − x
-3,5111 -2,0111 -1,8111 -1,4111 -1,3111 -1,2111 -0,5111 -0,3111 -0,3111 0,2889 1,0889 1,1889 1,1889 1,3889 1,4889 1,7889 1,8889 2,0889

yi − y
0,9111 0,7111 0,8111 0,1111 0,3111 0,3111 0,2111 0,1111 -0,3889 -0,6889 0,0111 -0,3889 -0,1889 -0,3889 -0,3889 -0,1889 -0,3889 -0,4889

( xi − x )( yi − y )
-3,1990 -1,4301 -1,4690 -0,1568 -0,4079 -0,3768 -0,1079 -0,0346 0,1210 -0,1990 0,0121 -0,4623 -0,2246 -0,5401 -0,5790 -0,3379 -0,7346 -1,0212

( xi − x ) 2
12,3279 4,0446 3,2801 1,9912 1,7190 1,4668 0,2612 0,0968 0,0968 0,0835 1,1857 1,4135 1,4135 1,9290 2,2168 3,2001 3,5679 4,3635

( yi − y ) 2
0,8301 0,5057 0,6579 0,0123 0,0968 0,0968 0,0446 0,0123 0,1512 0,4746 0,0001 0,1512 0,0357 0,1512 0,1512 0,0357 0,1512 0,2390

70

186,9 276,02 185,63

-11,1478

44,6578

3,7978

Suma

Edmundo Peña Rozas, Juan Garcés Seguel

Probabilidades y Estadística

8

Cov( X , Y ) =

∑ (x
i =1

n

i

− x )( yi − y )

n −1
2

=

- 11,1478 = −0,6558 18 − 1

Sx =
r=

∑ (x
i =1

n

i

− x)

n −1

=

44,6578 = 1,6208 18 − 1

Sy =

∑ (y
i =1

n

i

− y)

2

n −1

=

3,7978 = 0,4726 18 − 1

Cov( X , Y ) − 0,6558 = = -0,8560 SxS y (1,6208)(0,47265)
n  n  n  n ∑ xi yi −  ∑ xi  ∑ yi  i =1  i =1  i =1  n 2 2 2

n  n   n  n∑ x i −  ∑ xi  ⋅ n∑ yi −  ∑ yi  i =1 i =1  i =1   i =1  − 200,66 = 803,84 68,36

r=

=

18(186,9) − (50,6 ) ⋅ 18(276,02) − (70 )
2

18(185,63) − (50,6 )(70 )

2

Consumo Gas versus Temperatura promedio Exterior
6

Consumo Gas (pies cúbicos al mes)

5 4 3 2 1 0 -1 0 1 2 3 4 5 6 Temperatura Exterior (ºC)

Edmundo Peña Rozas, Juan Garcés Seguel