You are on page 1of 10

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2

________________________________________________________________________________
UNIDAD TEMATICA 1: ORGANIZACIN Y PRESENTACIN DE DATOS EN TABLAS
BIDIMENSIONALES
INTRODUCCION
A menudo, es necesario estudiar en la poblacin dos o ms variables simultneamente, como
por ejemplo, cuando se observa en determinada regin el rea de los predios agrcolas y la
produccin de legumbres (o de papa, algodn, trigo, caf, etc.); la cantidad producida, el tipo de
abono y el tipo de riego, la poblacin de cada departamento del Per segn el sexo y la edad en un
ao determinado, los ingresos familiares mensuales y los gastos de consumo de un grupo de
familias, el nmero de muertes por tipos de accidentes de trabajo, el peso y la edad de un grupo de
nios, la estatura de padres e hijos, las horas de estudio y las notas obtenidas en un examen.
En casos como estos, es posible analizar si existe alguna relacin funcional entre las
variables e incluso cuantificar el grado o intensidad de esta relacin.
Analizar la distribucin de una variable con relacin a otra u otras es una tarea comn en
muchas reas de actividad, orientada, la mayora de las veces, a la bsqueda de un patrn que
indique la relacin (o la falta de ella) entre las variables estudiadas.
Los datos bidimensionales son los valores obtenidos al medir dos variables distintas en
cada unidad de anlisis, ya sea en la poblacin o en la muestra.
Se les utiliza cuando se trata de averiguar si dos variables estn asociadas o relacionadas.
Para analizar la relacin o asociacin existente entre dos variables, debe efectuarse un
anlisis de correlacin y de regresin.
PRESENTACION DE DATOS BIVARIADOS O BIDIMENSIONALES:

Tablas de distribucin de frecuencias bidimensionales o Tablas estadsticas bivariadas o


tablas de doble entrada, tablas de contingencia.
Grficos de tablas estadsticas bivariadas.

TABLAS ESTADISTICAS BIVARIADAS


Las tablas de contingencia (tablas de doble entrada) son una herramienta fundamental para
el anlisis de asociacin. Estn compuestas por filas (horizontales), para la informacin de una
variable y columnas (verticales) para la informacin de otra variable. Estas filas y columnas
delimitan celdas donde se colocan las frecuencias de aparicin de los datos bidimensionales que
surgen de cada combinacin de las variables analizadas.
Consideremos las variables X e Y definidas en una poblacin o en una muestra. La
informacin obtenida de las unidades de anlisis, respecto a la variable bidimensional (X,Y), se
compone de n datos en forma de pares. La distribucin de los n datos bidimensionales se presenta
en una tabla de doble entrada o tabla estadstica bivariada, como la que se muestra a continuacin.
X i/ Yj
i=1
x1
i=2
x2
.

y1

j=1

f11
f21

y2

j=2

f12
f22

.
.

yj

j=j

f1j
f2j

..

yr

j=r

f1r
f2r

Total (f i .)
f1.
f2.

_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
.
.
i=i xi
fi1
fi2
.
fij
fir
fi.
.
.
.
.
i=k xk
fk1
fk2
.
fkj
fkr
f k.
Total (f . j)
f.1
f.2
.
f.j
f.r
n
En la tabla, fij representa las frecuencias absolutas conjuntas (o frecuencias absolutas
bidimensionales), i= 1, 2,.,k (filas) y j= 1,2,,r (columnas).
r

f i . Son las frecuencias absolutas marginales de X , f i . =

fi j

, i = 1,2,..,k,

fij

, j = 1,2,..,r,

j=1
k

f . j Son las frecuencias absolutas marginales de Y, f i. j =

i=1

n=

f i.

=n

f.j

=n

i=1
r

j=1

f i j

, nmero total de pares observados.

i=1 j=1

En su expresin ms elemental, las tablas tienen slo 2 filas y 2 columnas (tablas de 2x2);
como la que se muestra a continuacin:

Esta tabla nos informa acerca de una situacin de salud, en la que se conoce que hay 300
individuos. Las frecuencias marginales nos dicen, por una parte, que 100 estn enfermos de
diabetesy 200 sanos y, por otra parte, que 60 de los 300 estuvieron expuestos a cierto factor de
riesgo y 240 no. Las frecuencias bidimensionales nos dicen que 20 de los 300 individuos estuvieron
expuestos a cierto factor de riesgo y sufrieron la enfermedad de diabetes; 160 de los 300 no
estuvieron expuestos a cierto factor de riesgo y no sufrieron la enfermedad de diabetes.
En el anlisis de datos bidimensionales, las variables X e Y pueden ser:
a) Ambas cualitativas. As por ejemplo, clase social y simpata poltica, ocupacin y profesin.
b) Una cualitativa y la otra cuantitativa, como por ejemplo, ingreso y profesin, ocupacin y
nmero de hijos, nivel educativo y nmero de hijos.
c) Ambas cuantitativas, como por ejemplo, nmero de personas y nmero de habitaciones por
vivienda, ingresos y nmero de hijos, ingresos y tiempo de servicios.
Cualquiera que sea el tipo de variable, sus valores o modalidades se ubican en los
encabezados de filas y columnas, y en el cuerpo de la tabla y en los mrgenes se ubican las
frecuencias absolutas conjuntas y absolutas marginales, respectivamente.
fij es la frecuencia absoluta conjunta o bidimensional. Indica el nmero de veces que se presenta, al
mismo tiempo, la clase o categora ci de X y la clase o categora cj de Y.
fi. es la frecuencia absoluta marginal de X. Indica el nmero de veces que se presenta la clase ci de
X.
f.j es la frecuencia absoluta marginal de Y. Indica el nmero de veces que se presenta la clase cj de
Y.
_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
Antes de realizar cualquier estudio de la variable bidimensional (X, Y), organizaremos los
datos en tablas y grficos adecuados.
CASO 1: AMBAS VARIABLES SON CUALITATIVAS O CATEGRICAS
Ejemplo 1: Se tom una muestra de 200 habitantes de una comunidad de la provincia de Lima, ao
2010, con el objetivo de conocer su opinin sobre el control de la natalidad (X) de acuerdo a su
nivel socioeconmico (Y) y se obtuvo los siguientes resultados:
Xi
AP
AP
AP
DE
DE
DE
NO
NO
NO
TOTAL

Yi
BA
ME
AL
BA
ME
AL
BA
ME
AL

fi
40
30
20
35
15
10
30
15
5
200

X : opinin
X: variable cualitativa o categrica, con 3
niveles
Aprueba : AP Desaprueba: DE
No opina: NO
Y: nivel socioeconmico
Y: variable cualitativa o categrica, con 3
niveles
Bajo: BA Medio: ME Alto: AL

DISTRIBUCIN CONJUNTA
A continuacin, los datos bidimensionales sern puestos en una tabla de doble entrada la cual nos
mostrar la clasificacin de los habitantes de una comunidad de Lima de acuerdo a las dos variables
de estudio.
Tabla 1: Tabla de frecuencias absolutas conjuntas y absolutas marginales
DISTRIBUCION CONJUNTA DE HABITANTES DE UNA COMUNIDAD DE LIMA SEGN
SU OPINION SOBRE EL CONTROL DE LA NATALIDAD Y NIVEL SOCIOECONOMICO
Xi / Yj
i = 1 AP
i= 2 DE
i= 3 NO
f. a. m.Y: f . j

j= 1 BA
40
35
30
105

j= 2
30
15
15
60

ME

j = 3 AL
20
10
5
35

f. a. m. X: f i .
90
60
50
n = 200

Notaciones:
fij : frecuencia absoluta conjunta, i = 1, 2, 3 indica las filas de X (OPINION)
j = 1,2,3 indica las columnas de Y(NIVEL SOCIOECONOMICO)
f i . : frecuencia absoluta marginal de X i , i = 1, 2, 3
3

i = 1 = AP

f1. =

f1 j

= 40+30+20 = 90

f 2j

= 35+15+10 = 60

j=1
3

i = 2 = DE

f2. =

j=1

_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
3

i = 3 = NO

f3. =

f3j

= 30+15+5 = 50

j=1

f . j : frecuencia absoluta marginal de Y j , j = 1, 2 ,3


3

j = 1 = BA

f.1=

f i1

= 40+35+30 = 105

f i2

= 30+15+15 = 60

f i3

= 20+10+15 = 35

i=1
3

j = 2 = ME

f.2=

i=1
3

j = 3 = AL

f.3=

i=1

DISTRIBUCIONES MARGINALES
A partir de la tabla bidimensional, podemos obtener las distribuciones marginales. En los
mrgenes derecho e inferior de la tabla, se encuentran los totales de filas y columnas. Los totales de
la derecha son las frecuencias de la variable X, y los totales de la parte inferior son las frecuencias
de la variable Y. Si se desea, se puede obtener cada distribucin por separado, obtenindose as las
distribuciones marginales.
Tablas 2 y 3: Tablas de distribuciones marginales de la opinin y del nivel
socioeconmico, respectivamente
Tabla 2
Distribucin marginal de
los habitantes de una comunidad de Lima segn opinin
sobre control de la natalidad
Xi
fi.
AP
DE
NO
TOTAL

Tabla 3
Distribucin marginal de los
habitantes de una comunidad
de Lima segn nivel socioeconmico
Yj
f.j

90
60
50
200

BA
ME
AL
TOTAL

105
60
35
200

A partir de la frecuencia absoluta conjunta se puede obtener la frecuencia relativa conjunta hij que
indica la proporcin de veces que se presenta, al mismo tiempo, la clase xi de X y la clase yj de Y:
hij = fij / n
k

Se cumple que : h i j = 1
i=1 j=1

h i . : es la frecuencia relativa marginal de la categora xi de X; h i . = f i . / n ,

hi.

=1

i=1
r

h . j : es la frecuencia relativa marginal de la categora yj de Y; h . j = f . j / n,

h. j

=1

j=1

_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
Tabla 4: Distribucin de frecuencias relativas conjuntas ( hij) y marginales ( hi . , h. j ) en
porcentaje.
Xi
/
Yj
AP
DE
NO
f. r. m.Y: h . j %

BA
20.0
17.5
15.0
52.5

ME
15.0
7.5
7.5
30.0

AL
10.0
5.0
2.5
17.5

f. r. m.X: h i . %
45
30
25
100

Todas las frecuencias de esta tabla han sido obtenidas dividiendo las frecuencias conjuntas y
marginales de la tabla 1 entre el nmero total de datos (n = 200)
h ij : frecuencia relativa conjunta h 11 = f11 / n = 40 / 200 = 0.20
h 12 = f12 / n = 30 / 200 = 0.15, ., h33 = f33 / n = 0.025
Frecuencias relativas marginales de X: h i .
h 1 . = 20 + 15+ 10 = 45 = 90/200
h 2 . = 17.5+7.5+5 = 30 = 60/200
h 3 . = 15+7.5+2.5 = 25 = 50/200

Frecuencias relativas marginales de Y: h . j


h . 1 = 20+17.5+15 = 52.5 = 105/200
h . 2 = 15+ 7.5+7.5 = 30 = 60/200
h . 3 = 10+ 5 + 2.5 = 17.5 = 35/200

Tablas 5 y 6: Distribuciones marginales de la opinin y del nivel socioeconmico,


respectivamente (frecuencias relativas marginales expresadas en porcentajes)
Xi

Tabla 5
h i .%

AP
DE
NO
TOTAL

45
30
25
100

Yj

Tabla 6
h . j%

BA
ME
AL
TOTAL

52.5
30
17.5
100.0

Las tablas 1 y 4 tambin reciben el nombre de TABLAS DE CONTINGENCIA


DISTRIBUCIONES CONDICIONALES
Considerando las frecuencias relativas conjuntas o absolutas conjuntas se puede obtener diferentes
tipos de tablas, cuando se tome en cuenta las proporciones respecto al total de datos, respecto al
total de filas y respecto al total de columnas. En cada caso, las interpretaciones de las frecuencias
son diferentes. Cuando se toma en cuenta las proporciones respecto al total de filas y respecto al
total de columnas, se obtiene las distribuciones condicionales.
Considerando la tabla N 4 (distribucin de frecuencias relativas conjuntas) se obtiene la siguiente
tabla N 7
Tabla 7: Distribuciones de frecuencias relativas condicionales de X i / Y= y j : h i j (en %)
Xi : Control de
natalidad

Xi / Y 1 = BA

Xi / Y 2 = ME

Xi / Y 3 = AL

h i j=1
h i j=2
h i j=3
AP
38.1
50
57.1
DE
33.3
25
28.6
NO
28.6
25
14.3
_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
TOTAL
100.0
100
100.0
En la columna 2 de esta tabla se muestra la distribucin condicional de la variable X (opinin
sobre control de natalidad) cuando la variable Y (nivel socioeconmico) toma la modalidad Y 1 =
BA.(bajo)
Para i = 1, AP / Y1 = BA = h 1 j = 1 = h 11 / h . 1 = 20 / 52.5 = 0.3809
Para i = 2, DE / Y1 = BA = h 2 j = 1 = h 21 / h . 1 = 17.5 / 52.5 = 0.3333
Para i = 3, NO / Y1 = BA = h 3 j = 1 = h 31 / h . 1 = 15 / 52.5 = 0.2857
Como puede observarse, esta tabla nos muestra tres distribuciones diferentes para X. Nos informa
acerca de la distribucin de la opinin de aquellos habitantes que tienen solamente nivel
socioeconmico bajo o medio o alto (se considera el total de cada columna como una submuestra)
Esta tabla se denomina Tabla de Perfiles Columna.
Interpretacin de las frecuencias de la 2 columna de la tabla 7: Del total de habitantes de la
comunidad de Lima que tienen nivel socioeconmico bajo, el 38.1% aprueba el control de la
natalidad, el 33.3% lo desaprueba y el 28.6% no opina sobre ese tema.
A continuacin, se presenta la tabla 8 de las distribuciones condicionales para Y cuando X toma
diferentes modalidades, en trminos porcentuales.
Tabla 8: Distribuciones de frecuencias relativas
condicionales de Y j / X = x i : h j i (en %)
Y j : Nivel socioeconmico
Yj / X 1 = AP

BA
45.0

ME
33

AL
22.0

TOTAL
100

58.3

25

16.7

100

60.0

30

10.0

100

h j i=1
Yj / X 2 = DE
h j i=2
Yj / X 3 = NO
h j i=3
En la segunda fila de esta tabla se presenta la distribucin condicional de la variable Y cuando la
variable X toma la modalidad X1 = AP.
Para

j = 1, BA / X 1 = AP = h 1 i = 1 = h 11 / h 1 . = 20/45 = 0.45
j = 2 ME / X 1 = AP = h 2 i = 1 = h 12 / h 1 . = 15/45 =0.33
j = 3 AL / X 1 = AP = h 3 i = 1 = h 13 / h 1 . = 10/45 =0.22

Como puede observarse, la tabla 8 nos muestra tres distribuciones diferentes para Y. Nos informa
acerca de la distribucin del nivel socioeconmico de aquellos habitantes cuya opinin es
aprueba o desaprueba o no opina (se considera el total de cada fila como una submuestra)
Esta tabla se denomina Tabla de Perfiles Fila o Lnea.
Interpretacin de las frecuencias de la 2 fila de la tabla 8: Del total de habitantes de una comunidad
de Lima que aprueban el control de la natalidad, el 45% provienen del nivel socioeconmico bajo,
el 33% del nivel socioeconmico medio y el 22% del nivel socioeconmico alto.
_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
REPRESENTACIN GRFICA
Cuando ambas variables son cualitativas o categricas, los grficos adecuados son los siguientes:
Frecuencias conjuntas absolutas o relativas:
Grfico de barras de partes componentes o segmentadas
Grfico de barras agrupadas: dobles o triples.
Frecuencias Condicionales expresadas en %:
Grfico de perfiles columna
Grfico de perfiles fila o lnea
Frecuencias marginales absolutas o relativas:
Grfico de barras simples para cada clase o modalidad o categora de la variable X y para
cada clase, modalidad o categora de la variable Y
CASO 2: UNA VARIABLE ES CUALITATIVA Y LA OTRA ES CUANTITATIVA
Ejemplo 2: La tabla 9 muestra la distribucin de las variables edad y sexo de los empleados de
la empresa VIDA SOLAR .
Tabla N 9
X: Edad
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
50 - 54
55 - 59
60 - 64
65 - 69

Total
f.a.m. Yj

Y: Gnero

Total

Masculino
3
6
13
9
10
7
3
4
2

Femenino
1
2
3
5
6
5
13
6
2

f. a. m. Xi
3
7
15
12
15
13
8
17
8
2

57

43

100

DISTRIBUCIONES MARGINALES
A continuacin, mostramos las distribuciones marginales de las edades y del sexo de los empleados
de la empresa Vida Solar.
Tabla N 10
Edades

Total
20 - 24
3
Tabla N 11
25 - 29
7
30 - 34
15
Sexo
frecuencia
35 - 39
12
Masculino
57
40 - 44
15
femenino
43
45 - 49
13
_____________________________________________________________________________
Total
100
50 - 54
8
PROFESORA
DEL CURSO:
Ana Mara Crdenas Rojas
55 - 59
17
60 - 64
8
65 - 69
2

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________

Con estos datos, obtener en forma similar lo hallado en las tablas 4, 7 y 8


Tabla 4: Frecuencias relativas conjuntas h ij y relativas marginales h i . y h . j
Tabla 7: Frecuencias condicionales h i j
Tabla 8: Frecuencias condicionales h j i
Ejemplo 3: La tabla 10 muestra la distribucin de 538 personas de acuerdo a su ocupacin X y
nmero de hijos Y
Tabla N 12
X / Y
0
1
2
3
4
f. a. m. Xi
Obreros
10
20
35
50
73
188
Empleados
13
30
50
60
17
170
Profesionales
32
50
70
20
8
180
f. a. m. Yj
55
100
155
130
98
538
Con los datos obtener en forma similar lo hallado en las tablas 4, 7, 8.
Tabla 4: Frecuencias relativas conjuntas h ij y relativas marginales h i . y h . j
Tabla 7: Frecuencias condicionales h i j
Tabla 8: Frecuencias condicionales h j i
Graficar:
Distribucin del nmero de hijos segn ocupacin (grfico de barras de partes componentes).
Distribucin de la ocupacin de las personas segn nmero de hijos (grfico de lnea de partes
componentes)
CASO 3: AMBAS VARIABLES CUANTITATIVAS (DISCRETAS O CONTINUAS)
Caso 3.1: (X,Y) ambas cuantitativas discretas
Ejemplo 4: Sea X nmero de hijos ( 0, 1, 2) e Y nmero de dormitorios por vivienda (1, 2, 3)
Xi
/ Yj
0
1
2
f.a.m.Y : f . j

1
10
20
15
45

Tabla N 13
2
15
8
5
28

Notaciones:
fij : frecuencias absoluta conjunta
f i . : frecuencia absoluta marginal de X
f . j : frecuencia absoluta marginal de Y
Fij : frec. absoluta acumulada conjunta
h j i: frec. Condicional de Y/X en %

3
20
17
10
47

f.a.m.X: f i .
45
45
30
120

h i j : frecuencia relativa conjunta


h i . : frecuencia relativa marginal de X
h . j : frecuencia relativa marginal de Y
Hij : frec. relativa acumulada conjunta
h i j: frec. condicional de X/Y en %

_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
Representacin Grfica:
Frecuencias absolutas conjuntas:

Grfico de bastones en R3
Grfico de dispersin o nube de puntos

Frecuencias marginales absolutas y relativas: Grfico de bastones en R2


Caso 3.2 : (X,Y) ambas variables cuantitativas continuas
Ejemplo 5: A 148 parejas se les pregunt la edad del esposo (Y) y la edad de la esposa (X)
Tabla N 14
Distribucin conjunta de 148 parejas de acuerdo a las edades de la esposa y del esposo
Xi
/ Yj
[15 25)
[25 35)
[35 45)
fi.
hi.
[15 25)
20
13.5
30
20.0
2
1 52
34.5
20
13.5
50
34.0 52
35
[25 35)
12
8.0
50
34.0
6
4 68
46.0
32
22.0 112
76.0 120
81
[35 45)
4
3.0
20
13.5
4
3 28
19.5
36
24.0 136
92.0 148
100
f.j
h.j
36
24.5 100
67.5 12
8 148
100.0
Frecuencias conjuntas:
fij
hij
Fij

Frecuencias marginales
absolutas y relativas

Hij

fi. hi.

f.j

h.j

Frecuencias marginales de Xi y de Yj: Absolutas (f i .), relativas (h i .), acumuladas absolutas (Fi .)
y acumuladas relativas (H i .).
Tabla N 15
Tabla N 16
Xi
fi.
h i . F i . Hi .
Yj
f.j
h.j
F.j
H.j
%
%
%
%
[15 25)
[25 35)
[35 45)
Total

52
68
28
148

34.5 52
46.0 120
19.5 148
100.0

34.5
80.5
100.0

[15 25)
[25 35)
[35 45)
Total

Ejercicio:

Completar la tabla de las frecuencias marginales de Yj e interpretarlas.


Usar la tabla del lado derecho como gua.

Frecuencias condicionales de X / Yj : h i j (en %)


Tabla N 17
h i j=1 h i j=2 h i j=3
Xi
[15 25)
[25 35)
[35 45)

56
33
11

30
50
20

17
50
33

Yj
h j i=1
h j i=2
h j i=3

[15 25)

Tabla N 18
[25 35) [35 45) Total
100
100
100

_____________________________________________________________________________
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

UNMSM FCM EAPE CURSO: ESTADISTICA II- SEMESTRE ACADEMICO 2014-2


________________________________________________________________________________
Total
100
100
100
Ejercicio :

1) De manera similar hallar las frecuencias condicionales de Y/ Xi : h j i (en %)


e interpretarlas. Usar tabla del lado derecho como gua.
2) Averiguar los posibles grficos a realizar para los diferentes tipos de frecuencias
cuando ambas variables son cuantitativas continuas.

_____________________________________________________________________________ 10
PROFESORA DEL CURSO: Ana Mara Crdenas Rojas

You might also like