You are on page 1of 9

1

DISTRIBUCIONES BIDIMENSIONALES

Teniendo en cuenta que anteriormente se estudi a una sola variable, ahora se estudiar a dos
variables, las cuales se supone guardan alguna relacin. Por ejemplo, a nios de un ao de edad se
los puede pesar y entallar, es decir, tener las variables peso y estatura; existir relacin entre estas
variables? Parece que as es, tambin se puede averiguar, el crecimiento de una planta debido al
uso de fertilizante, en el primer ejemplo, no es tan fcil determinar cual de las variables influye en la
otra, en cambio, en el segundo si se ve claramente que el fertilizante influye en el crecimiento de la
planta, as pues se puede formar el par ordenado (fertilizante, crecimiento de la planta). Si se dan
diferentes cantidades de fertilizante a varias plantas, se obtienen diferentes crecimientos de ellas,
las que constituirn las observaciones que servirn para el estudio de la relacin que existe, entre el
crecimiento de la planta y la cantidad de fertilizante utilizado.

1 1 2 2
( , ), ( , ),. . ., ( , )
n n
x y x y x y


En este caso tenemos una variable estadstica bidimensional o distribucin bidimensional de
frecuencias, la cual representaremos por (X , Y). Cuando se cuenta con una gran cantidad de datos,
un modo de presentar la distribucin bidimensional es a travs de una tabla de doble entrada de la
forma:

DEFINICIONES PREVIAS

Desviacin Media Absoluta (DM): (o Desviacin Absoluta Promedio)
Es la distancia promedio de los datos a su media.
i i
1
DM=
k
i
f x x
n
=


Desviacin media respecto de la mediana: Es la media aritmtica de los valores absolutos de las
desviaciones de los valores de la variable con respecto de la mediana.

i i
Me
x Me f
D
n



Varianza:
Poblacional (o
2
): Es el promedio del cuadrado de la distancia de los datos a su media
( )
k
2
i i
2 i 1
f X
=
N

o
=


Muestral (S
2
): La suma de las distancias al cuadrado se divide entre en nmero de datos menos
uno
( )
k
2
i i
2 i 1
f x x
S =
n-1
=


Nota: S
2
para muestras "chicas". Para muestras grandes S
2
o o
2
prcticamente no difieren.

Desviacin Estndar:
Mide la variacin de los datos en trminos absolutos. Es la raz cuadrada positiva de la varianza.

Poblacional: o o =
2
Muestral: S = S
2


La desviacin estndar se interpreta construyendo intervalos alrededor del promedio:



2

VARIABLES
Es un smbolo que representa o caracteriza un conjunto de datos estadsticos como por ejemplo X,
Y, Z... etc. y estas se pueden clasificar en:

VARIABLE INDEPENDIENTE
Es aquella variable que puede adoptar cualquier valor de la recta numrica sin ninguna restriccin.

VARIABLE DEPENDIENTE
Es aquella variable que est sujeto (condicionado) a los valores que adopta la variable
independiente.
Por ejemplo:
Y 3 2X ,
2
Y 2X 3X 1

de donde la variable dependiente ser Y y la variable independiente es X

TABLAS DE DOBLE ENTRADA
Para la representacin bidimensional de las variables X e Yse produce de la siguiente manera:
- Se ordenan las variables X e Y respectivamente
- Se tabulan los valores X horizontalmente, y los valores Y verticalmente.
- Se buscan las frecuencias para cada par ordenado
i j
(x , y )
- Se suma horizontalmente para obtener las frecuencias de Y (
i
y
f ) y verticalmente para
obtener las frecuencias de X (
i
x
f )
Ejemplo. Dada la siguiente distribucin de frecuencias conjunta, Construir una tabla de correlacin
(doble entrada) y obtener las distribuciones marginales de X e Y.












Solucin: organizando adecuadamente tenemos:

















Y / X 1 2 3 4
j
f y
j
Fy
j
hy
j
Hy
2 1 2 1 1 5 5 0.5 0.5
4 0 0 1 2 3 8 0.3 0.8
6 1 0 0 1 2 10 0.2 1
i
f x 2 2 2 4 10=N
1
i
Fx

2 4 6 10

i
hx

0.2 0.2 0.2 0.4 1

i
Hx

0.2 0.4 0.6 1

i
X
i
Y
ij
n
1 2 1
1 6 1
2 2 2
3 2 1
3 4 1
4 2 1
4 4 2
4 6 1
3

Donde:
i
x : Valores de la variable X,


j
y : Valores de la variable Y,


i
fx : Frecuencia de la observacin
i
x
j
fy : Frecuencia de la observacin
j
y
i j
f : Frecuencia conjunta de los valores
i j
(x , y )
i
Fx : Frecuencia acumulada de la variable X
j
Fy . Frecuencia acumulada de la variable Y
i
hx : Frecuencia relativa para la variable X
j
h y : Frecuencia relativa para la variable Y
Analizando los relativos para cada una de las variables podemos sacar, entre otras las siguientes
conclusiones:

El 64% tiene una experiencia igual o inferior a 6 aos
El 68% tiene una experiencia entre 5 y 7 aos incluyendo sus extremos
El 60% gana 54.000 dlares diarios o menos
El 62% gana entre 53.000 y 55.000 pesos incluyendo sus extremos

Las tablas de doble entrada tambin pueden usarse para variables cualitativas o combinarse
variables cualitativas con cuantitativas.

DISTRIBUCIONES MARGINALES
Dada una variable estadstica bidimensional, las distribuciones marginales permiten estudiar de un
modo aislado cada una de las componentes a partir de una tabla de doble entrada, las
distribuciones de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y
por columnas.
Distribuciones marginales de X e Y.

X
+ i
n
Y
+ j
n
1
x
2
x
.
.
.
l
x
1
n
+
+ 2
n
.
.
.
+ l
n

1
y
2
y
.
.
.
k
y
1 +
n
2 +
n
.
.
.
+k
n

DISTRIBUCIONES CONDICIONALES
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables
cuando la otra permanece constante. Vienen dadas por:

Distribuciones condicionadas de X e Y.

X/Y=
j
y
/ i j
n

Y/X=
i
x
/ j i
n

1
x
2
x
.
.
.

l
x
1 j
n
2 j
n
.
.
.

lj
n

1
y
2
y
.
.
.

k
y
1 i
n
2 i
n
.
.
.

ik
n
4

Ejemplo. Dada la anterior distribucin de frecuencias conjunta, Construir una tabla de correlacin
(doble entrada) y obtener:
- Distribucin de Y condicionado a X=3
Solucin.
La tabla de correlacin pedida y sus distribuciones marginales estn dadas en la siguiente tabla:

La distribucin de Y/X = 3
Y/X =3 2 4 6
/ 3 j i
n
=

1 1 0

DIAGRAMA DE DISPERSIN
Son datos estadsticos en forma de pares ordenados
i i
( x , y ) llevadas al plano cartesiano que
presentan una configuracin que se aproxima a ciertas curvas o lneas conocidas como son la recta,
parbola, curva exponencial, etc.

Grficamente se tiene:









CORRELACIN
En el anlisis conjunto para dos o ms variables es bsica la bsqueda del tipo y grado de la
relacin que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre s
y la relacin que puedan mostrar se debe nicamente al azar, o a travs de terceras variables.

Para fortalecer el indicio de correlacin inicial, se grafica cada uno de los pares ordenados de las
variables
i i
( x , y ) en un plano cartesiano, para observar la nube de puntos o diagrama de
dispersin, donde se advierte la tendencia o no, de la informacin representada.








De tal manera que se presentan los siguientes casos:

1) Si r 1 o r 1 entonces la relacin entre las variables es perfecta
2) Si r 0 entonces la relacin entre las variables es inversa es decir cuando X aumenta Y
disminuye y viceversa.
3) Si r 0 entonces la relacin entre las variables es directa, es decir si aumenta X tambin lo
hace Y, y viceversa.
4) Si r 0 o diferente a los valores antes mencionados, entonces no existe relacin entre las
variables.

Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador ms
acostumbrado es el Coeficiente de Correlacin definido como:
xy
x y
S
r
S S

TALLA
PESO
log Edad Crono ica
Edad Dentada
en Aos
Edad
Peso
CORRELACION POSITIVA
CORRELACION NEGATIVA NO HAY CORRELACION
CORRELACION CURVILINEA
5

Donde:
"r " Coeficiente de correlacin entre X e Y
x
"S " Desviacin tpica de X
y
"S " Desviacin tpica de Y
xy
"S " Covarianza entre X e Y
m k m k
i j i j i i j j
i 1 j 1 i 1 j 1
2
2
m m k k
2 2
i i i i j j j j
i 1 i 1 j 1 j 1
n (x y f ) x f y f
r
(x f ) x f (y f ) y f

En la prctica cuando no tenemos la informacin agrupada en un tabla de doble entrada, asumimos
que cada observacin bivariada tiene frecuencia unitaria, entonces "r " se convierte en:

2 2
2 2
n xy x y
r
n x x n y y


El coeficiente de correlacin, es un indicador del grado de la relacin entre las dos variables, el cual
oscila en el intervalo cerrado 1 , 1 , es decir: 1 r 1.
Cuando "r " toma un valor extremo, ya sea r 1 o r 1 existe una correlacin perfecta
positiva o negativa segn el signo.

ANLISIS DE REGRESIN
Se denomina Anlisis de regresin, al estudio de variables bidimensionales con el objeto de estable-
cer el tipo de relacin funcional entre ellas. Si la funcin que se establece es lineal se dice que se
tiene el anlisis de regresin lineal.

REGRESION Y CORRELACION LINEAL

REGRESION LINEAL
Teniendo ya conocimiento de la intensidad de la correlacin entre las variables, manifestada a
travs del diagrama de dispersin, y el coeficiente de correlacin, podemos ensayar el ajuste de un
modelo estadstico que se adapte mejor a las n observaciones; lo que lleva por nombre regresin,
entonces regresin es la mayor lnea o curva que representa en forma exacta a los puntos de
dispersin, sirve para pronosticar, estimar fenmenos.

La ecuacin de una recta es: y = bx + a.
Como las observaciones son "n" pares ordenados (x
i
,y
i
), las incgnitas en la ecuacin son las
constantes a y b, que se denominan coeficientes de regresin.

Uno de los procedimientos muy comunes en el ajuste regresivo es el mtodo de los mnimos
cuadrados, que produce estimaciones con menor error cuadrtico promedio.

COEFICIENTES DE REGRESIN
El coeficiente angular representado por "b" es la pendiente de la recta, mientras que "a" se denomi-
na coeficiente de posicin y es la ordenada en el origen, y a ambas se las llama coeficientes de
regresin.

RECTA DE MNIMOS
las siguientes son las relaciones para b y a, respectivamente:
i i i i
2 2
i i
n x y x y
a
n x ( x )

2
i i i i i
2 2
i i
x y . x y x
b
( x ) n x

6

Ejemplo: En un proceso de produccin para una inversin X en miles de dlares se ha obtenido
una ganancia Y en ciento de dlares, cuyos datos son:

X 1 2 3 4 5
Y 2 4 4 6 6

Hallar la ecuacin de regresin adecuada a los datos y estime el valor de Y para X=10.
Solucin:
" i "
Inversin x
Ganancia y x y
2
x
1 1 2 2 1
2 2 4 8 4
3 3 4 12 9
4 4 6 24 16
5 5 6 30 25
TOTAL 15 22 76 55

Reemplazando en:
i i i i
2 2
i i
n x y x y
a
n x ( x )

2
i i i i i
2 2
i i
x y . x y x
b
( x ) n x

Tenemos:
i i i i
2 2 2
i i
n X Y X Y
5(76) (15)(22)
a 1
n X ( X ) 5(55) (15)

2
i i i i i
2 2 2
i i
X Y . X Y X
(76)(15) (22)(55)
b 1.4
( X ) n X (15) 5(55)

Luego la ecuacin que ms se aproxima ser Y aX b Y X 1.4, pero si la inversin
es de X 10 mil dlares, entonces la ganancia ser de Y 11.4 mil dlares.

Ejemplo: Hallar el coeficiente de correlacin de la siguiente informacin:

Aspiracin salarial anual, de acuerdo a la Experiencia Laboral en la UNAMAD.
Experiencia en aos 0 1 2 3 4 5 6 7 8 9 10
Salario anual en miles de
soles
56 58 60 62 64 66 68 70 72 74 76
Solucin: Se sabe que:
2 2
2 2
n xy x y
r
n x x n y y

Entonces:
" i "
Experiencia
aos
i
x
Salario anual en
miles
i
y
i i
x y
2
i
x
2
i
y
1 0 56 0 0 3136
2 1 58 58 1 3364
3 2 60 120 4 3600
4 3 62 186 9 3844
5 4 64 256 16 4096
6 5 66 330 25 4356
7 6 68 408 36 4624
8 7 70 490 49 4900
9 8 72 576 64 5184
10 9 74 666 81 5476
11 10 76 760 100 5776
TOTAL 55 726 3850 385 48356
Luego reemplazando en la formula, se tiene:
7

2 2 2 2
2 2
n xy x y
11(3850) 55(726)
r
11(385) (55) 11(48356) (726)
n x x n y y


2420 2420
r 1
2420
1210(4840)
lo que vendra a ser una correlacin perfecta positiva.

NOTA.- No todas las relaciones son tan ideales, en comn de los casos 1 r 1,
empricamente se afirma que:
- Si r 1, se trata de una correlacin perfecta
- Si 0.9 r 1 o 1 r 0.9, es una correlacin excelente
- Si 0.8 r 0.9 o 0.9 r 0.8, es una correlacin buena
- Si 0.6 r 0.8 o 0.8 r 0.6, es una correlacin regular
- Si 0.3 r 0.6 o 0.6 r 0.3, es una correlacin mala
- Si 0.3 r 0.3, no hay correlacin

PARBOLA DE MNIMOS CUADRADOS

Tiene la siguiente forma:
2
Y AX BX C
Y para hallar los valores de las constantes A, B, C se resuelve el siguiente sistema:
2
3 2
2 4 3 2
Y A X B X nC
XY A X B X C X
X Y A X B X C X

Resolviendo simultneamente las ecuaciones se obtienen los valores de los parmetros A, B, C las
cuales se reemplazan en la ecuacin
2
Y AX BX C que es la ecuacin buscada.

CURVA EXPONENCIAL DE MNIMOS CUADRADOS
La curva exponencial tiene la siguiente forma:
X
Y AB
Linealizando, para ello se saca logaritmo miembro a miembro, esto es:
X
log(Y) log(AB)
log(Y) log(A) Xlog( B)

Ahora consideramos
Z a b
log(Y) log(A) Xlog( B) de tal manera que se tiene Z bX a
que es una ecuacin lineal y que ya podemos resolverla, de tal forma que como:
a log(A) A anti log(a)
b log(B) B anti log(b)

CURVA POTENCIAL DE MNIMOS CUADRADOS
La curva potencial tiene la siguiente forma:
B
Y AX
Linealizando, para ello se saca logaritmo miembro a miembro, esto es:
B
log(Y) log(AX)
log(Y) log(A) B log( X)

8

Ahora consideramos
Z a T
log(Y) log(A) Blog( X) de tal manera que se tiene Z bT a
que es una ecuacin lineal y que ya podemos resolverla, de tal forma que como:

a log(A) A anti log(a)
y
B


Ejemplo: Los siguientes resultados corresponden a los
i
y como la verdadera medida de
laboratorio del contenido de agua en muestras de suelo de campo seleccionadas aleatoriamente de
un lugar dado y los correspondientes
i
x el contenido de agua estimada mediante un mtodo rpido
y poco costoso que mide la precisin de gas originada cuando se mezcla con una sustancia qumica
que reacciona con el agua. El tamao de la muestra es de 67, el promedio

Y 13.8,
2
i
x 13260 ,
2
i
y 13261 X 13.8
i i
x y 13 145

- Obtenga la lnea de regresin estimada Y aX b
- Halle el coeficiente de correlacin
- Para X 15.6 cuanto valdr Y
Solucin: Tenemos por datos que: Y 13.8 y X 13.8, entonces:
i
i
i
y
Y y n Y
n
y (67)(13.8) 254.6
En forma similar: r
i
i
i
x
X x nX
n
x (67)(13.8) 254.6
luego se tiene:
i i i i
2 2 2
i i
n x y x y
67(13145) (254.6)(254.6)
a 0.991
n x ( x ) 67(13260) (254.6)

2
i i i i i
2 2 2
i i
x y . x y x
(13145)(254.6) (254.6)(13260)
b 0.036
( x ) n x (254.6) 67(13260)

Por consiguiente la ecuacin que mejor se aproxima ser Y 0.991X 0.036
Ahora hallemos el coeficiente de correlacin, esto es:
2 2 2 2
2 2
n xy x y
67(13145) (254.6)(254.6)
r 0.99
67(13260) (254.6) 67(13261) (254.6)
n x x n y y

Y por ultimo si X 15.6 entonces en Y 0.991X 0.036, tenemos que Y 15.4956

Ejemplo: Una muestra de 20 observaciones correspondientes al modelo de regresin lineal
Y aX b proporciono los siguientes resultados:
i
y 21.9

2
i
x 215.4

i
x 18.62
i i
x y 106.4

2
i
y 86.9

a) Estimar a y b y decir que significa cada uno de ellos
b) Hallar r e interpretar

Solucin: En forma similar, reemplacemos los datos en las ecuaciones:
i i i i
2 2 2
i i
n x y x y
20(106.4) (18.62)(21.9)
a 0.434
n x ( x ) 20(215.4) (18.62)
, representa la pendiente de la recta, la cual
nos indica que dicha ecuacin lineal tiene una inclinacin positiva, es decir que las variables son
directamente proporcionales.
9

2
i i i i i
2 2 2
i i
x y . x y x
(106.4)(18.62) (21.9)(215.4)
b 0.691
( x ) n x (18.62) 20(215.4)
, representa el punto de interseccin
con el eje de la variable Y .
Ahora hallemos:
2 2 2 2
2 2
n xy x y
20(106.4) (18.62)(21.9)
r 0.77
20(215.4) (18.62) 20(86.9) (21.9)
n x x n y y

Lo cual significa que existe una correlacin regular.

Ejemplo: El efecto de la temperatura en la absorcin de anhdrido carbnico en agua est dada en
la siguiente tabla:
TEMPERATURA
i
x

10 15 20 30 35 40 50
CANT. DE ABSORCION
i
y
5 8 7.5 12 13 22 46
a) Buscar la ecuacin de la forma
X
Y AB para los datos
b) Estimar y cuando x=25
Solucin: Como
X
Y AB , entonces:
X
log(Y) log(AB)
log(Y) log(A) Xlog( B)

Consideremos
Z m n
log(Y) log(A) Xlog( B) de tal manera que se tiene Z mX n , en
efecto:
i
x
i
y
i i
z log y
2
i
x
i i
x * z
10 5 0.698970004 100 6.98970004
15 8 0.903089987 225 13.5463498
20 7.5 0.875061263 400 17.5012253
30 12 1.079181246 900 32.3754374
35 13 1.113943352 1225 38.9880173
40 22 1.342422681 1600 53.6969072
50 46 1.662757832 2500 83.1378916
SUMA 200 7.675426366 6950 246.235529

i i i i
2 2 2
i i
n x z x z
7(246.235529) (200)(7.675426366)
n 0.02179924
n x ( x ) 7(6950) (200)

2
i i i i i
2 2 2
i i
x z . x z x
(246.235529)(200) (7.675426366)(6950)
m 0.47365405
( x ) n x (200) 7(6950)

Pero:

m log(A) A anti log(m)
n lob(B) B anti log(n)


Por consiguiente
X X
Y AB Y (2.976)(1.0514)
Finalmente estimemos el valor de Y cuando X 25, esto es:
25
Y (2.976)(1.0514) Y 10.9141
A anti log(m) anti log(0.47365405) 2.976
B anti log(n) anti log(0.02179924) 1.0514

You might also like