You are on page 1of 9

1

DISTRIBUCIONES BIDIMENSIONALES

Teniendo en cuenta que anteriormente se estudió a una sola variable, ahora se estudiará a dos
variables, las cuales se supone guardan alguna relación. Por ejemplo, a niños de un año de edad se
los puede pesar y entallar, es decir, tener las variables peso y estatura; existirá relación entre estas
variables? Parece que así es, también se puede averiguar, el crecimiento de una planta debido al
uso de fertilizante, en el primer ejemplo, no es tan fácil determinar cual de las variables influye en la
otra, en cambio, en el segundo si se ve claramente que el fertilizante influye en el crecimiento de la
planta, así pues se puede formar el par ordenado (fertilizante, crecimiento de la planta). Si se dan
diferentes cantidades de fertilizante a varias plantas, se obtienen diferentes crecimientos de ellas,
las que constituirán las observaciones que servirán para el estudio de la relación que existe, entre el
crecimiento de la planta y la cantidad de fertilizante utilizado.

1 1 2 2
( , ), ( , ),. . ., ( , )
n n
x y x y x y


En este caso tenemos una variable estadística bidimensional o distribución bidimensional de
frecuencias, la cual representaremos por (X , Y). Cuando se cuenta con una gran cantidad de datos,
un modo de presentar la distribución bidimensional es a través de una tabla de doble entrada de la
forma:

DEFINICIONES PREVIAS

Desviación Media Absoluta (DM): (o Desviación Absoluta Promedio)
Es la distancia promedio de los datos a su media.
i i
1
DM=
k
i
f x x
n
=
÷
¿

Desviación media respecto de la mediana: Es la media aritmética de los valores absolutos de las
desviaciones de los valores de la variable con respecto de la mediana.

i i
Me
x Me f
D
n
÷
=
¿


Varianza:
Poblacional (o
2
): Es el promedio del cuadrado de la distancia de los datos a su media
( )
k
2
i i
2 i 1
f X
=
N
µ
o
=
÷
¿

Muestral (S
2
): La suma de las distancias al cuadrado se divide entre en número de datos menos
uno
( )
k
2
i i
2 i 1
f x x
S =
n-1
=
÷
¿

Nota: S
2
para muestras "chicas". Para muestras grandes S
2
o o
2
prácticamente no difieren.

Desviación Estándar:
Mide la variación de los datos en términos absolutos. Es la raíz cuadrada positiva de la varianza.

Poblacional: o o =
2
Muestral: S = S
2


La desviación estándar se interpreta construyendo intervalos alrededor del promedio:



2

VARIABLES
Es un símbolo que representa o caracteriza un conjunto de datos estadísticos como por ejemplo X,
Y, Z... etc. y estas se pueden clasificar en:

VARIABLE INDEPENDIENTE
Es aquella variable que puede adoptar cualquier valor de la recta numérica sin ninguna restricción.

VARIABLE DEPENDIENTE
Es aquella variable que está sujeto (condicionado) a los valores que adopta la variable
independiente.
Por ejemplo:
Y 3 2X ,
2
Y 2X 3X 1

de donde la variable dependiente será Y y la variable independiente es X

TABLAS DE DOBLE ENTRADA
Para la representación bidimensional de las variables X e Yse produce de la siguiente manera:
- Se ordenan las variables X e Y respectivamente
- Se tabulan los valores X horizontalmente, y los valores Y verticalmente.
- Se buscan las frecuencias para cada par ordenado
i j
(x , y )
- Se suma horizontalmente para obtener las frecuencias de Y (
i
y
f ) y verticalmente para
obtener las frecuencias de X (
i
x
f )
Ejemplo. Dada la siguiente distribución de frecuencias conjunta, Construir una tabla de correlación
(doble entrada) y obtener las distribuciones marginales de X e Y.












Solución: organizando adecuadamente tenemos:

















Y / X 1 2 3 4
j
f y
j
Fy
j
hy
j
Hy
2 1 2 1 1 5 5 0.5 0.5
4 0 0 1 2 3 8 0.3 0.8
6 1 0 0 1 2 10 0.2 1
i
f x 2 2 2 4 10=N
1
i
Fx

2 4 6 10

i
hx

0.2 0.2 0.2 0.4 1

i
Hx

0.2 0.4 0.6 1

i
X
i
Y
ij
n
1 2 1
1 6 1
2 2 2
3 2 1
3 4 1
4 2 1
4 4 2
4 6 1
3

Donde:
i
x : Valores de la variable X,

j
y : Valores de la variable Y,

i
fx : Frecuencia de la observación
i
x
j
fy : Frecuencia de la observación
j
y
i j
f : Frecuencia conjunta de los valores
i j
(x , y )
i
Fx : Frecuencia acumulada de la variable X
j
Fy . Frecuencia acumulada de la variable Y
i
hx : Frecuencia relativa para la variable X
j
h y : Frecuencia relativa para la variable Y
Analizando los relativos para cada una de las variables podemos sacar, entre otras las siguientes
conclusiones:

 El 64% tiene una experiencia igual o inferior a 6 años
 El 68% tiene una experiencia entre 5 y 7 años incluyendo sus extremos
 El 60% gana 54.000 dólares diarios o menos
 El 62% gana entre 53.000 y 55.000 pesos incluyendo sus extremos

Las tablas de doble entrada también pueden usarse para variables cualitativas o combinarse
variables cualitativas con cuantitativas.

DISTRIBUCIONES MARGINALES
Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de un
modo aislado cada una de las componentes a partir de una tabla de doble entrada, las
distribuciones de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y
por columnas.
Distribuciones marginales de X e Y.

X
+ i
n
Y
+ j
n
1
x
2
x
.
.
.
l
x
1
n
+
+ 2
n
.
.
.
+ l
n

1
y
2
y
.
.
.
k
y
1 +
n
2 +
n
.
.
.
+k
n

DISTRIBUCIONES CONDICIONALES
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables
cuando la otra permanece constante. Vienen dadas por:

Distribuciones condicionadas de X e Y.

X/Y=
j
y
/ i j
n

Y/X=
i
x
/ j i
n

1
x
2
x
.
.
.

l
x
1 j
n
2 j
n
.
.
.

lj
n

1
y
2
y
.
.
.

k
y
1 i
n
2 i
n
.
.
.

ik
n
4

Ejemplo. Dada la anterior distribución de frecuencias conjunta, Construir una tabla de correlación
(doble entrada) y obtener:
- Distribución de Y condicionado a X=3
Solución.
La tabla de correlación pedida y sus distribuciones marginales están dadas en la siguiente tabla:

La distribución de Y/X = 3
Y/X =3 2 4 6
/ 3 j i
n
=

1 1 0

DIAGRAMA DE DISPERSIÓN
Son datos estadísticos en forma de pares ordenados
i i
( x , y ) llevadas al plano cartesiano que
presentan una configuración que se aproxima a ciertas curvas o líneas conocidas como son la recta,
parábola, curva exponencial, etc.

Gráficamente se tiene:









CORRELACIÓN
En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la
relación que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre sí
y la relación que puedan mostrar se debe únicamente al azar, o a través de terceras variables.

Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de las
variables
i i
( x , y ) en un plano cartesiano, para observar la “nube de puntos” o diagrama de
dispersión, donde se advierte la tendencia o no, de la información representada.








De tal manera que se presentan los siguientes casos:

1) Si r 1 o r 1 entonces la relación entre las variables es perfecta
2) Si r 0 entonces la relación entre las variables es inversa es decir cuando X aumenta Y
disminuye y viceversa.
3) Si r 0 entonces la relación entre las variables es directa, es decir si aumenta X también lo
hace Y, y viceversa.
4) Si r 0 o diferente a los valores antes mencionados, entonces no existe relación entre las
variables.

Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más
acostumbrado es el “Coeficiente de Correlación” definido como:
xy
x y
S
r
S S

TALLA
PESO
log Edad Crono ica
Edad Dentada
en Años
Edad
Peso
CORRELACION POSITIVA
CORRELACION NEGATIVA NO HAY CORRELACION
CORRELACION CURVILINEA
5

Donde:
"r " Coeficiente de correlación entre X e Y
x
"S " Desviación típica de X
y
"S " Desviación típica de Y
xy
"S " Covarianza entre X e Y
m k m k
i j i j i i j j
i 1 j 1 i 1 j 1
2
2
m m k k
2 2
i i i i j j j j
i 1 i 1 j 1 j 1
n (x y f ) x f y f
r
(x f ) x f (y f ) y f

En la práctica cuando no tenemos la información agrupada en un tabla de doble entrada, asumimos
que cada observación bivariada tiene frecuencia unitaria, entonces "r " se convierte en:

2 2
2 2
n xy x y
r
n x x n y y


El coeficiente de correlación, es un indicador del grado de la relación entre las dos variables, el cual
oscila en el intervalo cerrado 1 , 1 , es decir: 1 r 1.
Cuando "r " toma un valor extremo, ya sea r 1 o r 1 existe una correlación perfecta
positiva o negativa según el signo.

ANÁLISIS DE REGRESIÓN
Se denomina Análisis de regresión, al estudio de variables bidimensionales con el objeto de estable-
cer el tipo de relación funcional entre ellas. Si la función que se establece es lineal se dice que se
tiene el análisis de regresión lineal.

REGRESION Y CORRELACION LINEAL

REGRESION LINEAL
Teniendo ya conocimiento de la intensidad de la correlación entre las variables, manifestada a
través del diagrama de dispersión, y el coeficiente de correlación, podemos ensayar el ajuste de un
modelo estadístico que se adapte mejor a las “n” observaciones; lo que lleva por nombre regresión,
entonces regresión es la mayor línea o curva que representa en forma exacta a los puntos de
dispersión, sirve para pronosticar, estimar fenómenos.

La ecuación de una recta es: y = bx + a.
Como las observaciones son "n" pares ordenados (x
i
,y
i
), las incógnitas en la ecuación son las
constantes a y b, que se denominan coeficientes de regresión.

Uno de los procedimientos muy comunes en el ajuste regresivo es el método de los mínimos
cuadrados, que produce estimaciones con menor error cuadrático promedio.

COEFICIENTES DE REGRESIÓN
El coeficiente angular representado por "b" es la pendiente de la recta, mientras que "a" se denomi-
na coeficiente de posición y es la ordenada en el origen, y a ambas se las llama coeficientes de
regresión.

RECTA DE MÍNIMOS
las siguientes son las relaciones para b y a, respectivamente:
i i i i
2 2
i i
n x y x y
a
n x ( x )

2
i i i i i
2 2
i i
x y . x y x
b
( x ) n x

6

Ejemplo: En un proceso de producción para una inversión X en miles de dólares se ha obtenido
una ganancia Y en ciento de dólares, cuyos datos son:

X 1 2 3 4 5
Y 2 4 4 6 6

Hallar la ecuación de regresión adecuada a los datos y estime el valor de Y para X=10.
Solución:
" i "
Inversión x
Ganancia y x y
2
x
1 1 2 2 1
2 2 4 8 4
3 3 4 12 9
4 4 6 24 16
5 5 6 30 25
TOTAL 15 22 76 55

Reemplazando en:
i i i i
2 2
i i
n x y x y
a
n x ( x )

2
i i i i i
2 2
i i
x y . x y x
b
( x ) n x

Tenemos:
i i i i
2 2 2
i i
n X Y X Y
5(76) (15)(22)
a 1
n X ( X ) 5(55) (15)

2
i i i i i
2 2 2
i i
X Y . X Y X
(76)(15) (22)(55)
b 1.4
( X ) n X (15) 5(55)

Luego la ecuación que más se aproxima será Y aX b Y X 1.4, pero si la inversión
es de X 10 mil dólares, entonces la ganancia será de Y 11.4 mil dólares.

Ejemplo: Hallar el coeficiente de correlación de la siguiente información:

Aspiración salarial anual, de acuerdo a la Experiencia Laboral en la “UNAMAD”.
Experiencia en años 0 1 2 3 4 5 6 7 8 9 10
Salario anual en miles de
soles
56 58 60 62 64 66 68 70 72 74 76
Solución: Se sabe que:
2 2
2 2
n xy x y
r
n x x n y y

Entonces:
" i "
Experiencia
años
i
x
Salario anual en
miles
i
y
i i
x y
2
i
x
2
i
y
1 0 56 0 0 3136
2 1 58 58 1 3364
3 2 60 120 4 3600
4 3 62 186 9 3844
5 4 64 256 16 4096
6 5 66 330 25 4356
7 6 68 408 36 4624
8 7 70 490 49 4900
9 8 72 576 64 5184
10 9 74 666 81 5476
11 10 76 760 100 5776
TOTAL 55 726 3850 385 48356
Luego reemplazando en la formula, se tiene:
7

2 2 2 2
2 2
n xy x y
11(3850) 55(726)
r
11(385) (55) 11(48356) (726)
n x x n y y


2420 2420
r 1
2420
1210(4840)
lo que vendría a ser una correlación perfecta positiva.

NOTA.- No todas las relaciones son tan ideales, en común de los casos 1 r 1,
empíricamente se afirma que:
- Si r 1, se trata de una correlación perfecta
- Si 0.9 r 1 o 1 r 0.9, es una correlación excelente
- Si 0.8 r 0.9 o 0.9 r 0.8, es una correlación buena
- Si 0.6 r 0.8 o 0.8 r 0.6, es una correlación regular
- Si 0.3 r 0.6 o 0.6 r 0.3, es una correlación mala
- Si 0.3 r 0.3, no hay correlación

PARÁBOLA DE MÍNIMOS CUADRADOS

Tiene la siguiente forma:
2
Y AX BX C
Y para hallar los valores de las constantes A, B, C se resuelve el siguiente sistema:
2
3 2
2 4 3 2
Y A X B X nC
XY A X B X C X
X Y A X B X C X

Resolviendo simultáneamente las ecuaciones se obtienen los valores de los parámetros A, B, C las
cuales se reemplazan en la ecuación
2
Y AX BX C que es la ecuación buscada.

CURVA EXPONENCIAL DE MÍNIMOS CUADRADOS
La curva exponencial tiene la siguiente forma:
X
Y AB
Linealizando, para ello se saca logaritmo miembro a miembro, esto es:
X
log(Y) log(AB)
log(Y) log(A) Xlog( B)

Ahora consideramos
Z a b
log(Y) log(A) Xlog( B) de tal manera que se tiene Z bX a
que es una ecuación lineal y que ya podemos resolverla, de tal forma que como:
a log(A) A anti log(a)
b log(B) B anti log(b)

CURVA POTENCIAL DE MÍNIMOS CUADRADOS
La curva potencial tiene la siguiente forma:
B
Y AX
Linealizando, para ello se saca logaritmo miembro a miembro, esto es:
B
log(Y) log(AX)
log(Y) log(A) B log( X)

8

Ahora consideramos
Z a T
log(Y) log(A) Blog( X) de tal manera que se tiene Z bT a
que es una ecuación lineal y que ya podemos resolverla, de tal forma que como:

a log(A) A anti log(a)
y
B


Ejemplo: Los siguientes resultados corresponden a los
i
y como la verdadera medida de
laboratorio del contenido de agua en muestras de suelo de campo seleccionadas aleatoriamente de
un lugar dado y los correspondientes
i
x el contenido de agua estimada mediante un método rápido
y poco costoso que mide la precisión de gas originada cuando se mezcla con una sustancia química
que reacciona con el agua. El tamaño de la muestra es de 67, el promedio

Y 13.8,
2
i
x 13260 ,
2
i
y 13261 X 13.8
i i
x y 13 145

- Obtenga la línea de regresión estimada Y aX b
- Halle el coeficiente de correlación
- Para X 15.6 cuanto valdrá Y
Solución: Tenemos por datos que: Y 13.8 y X 13.8, entonces:
i
i
i
y
Y y n Y
n
y (67)(13.8) 254.6
En forma similar: r
i
i
i
x
X x nX
n
x (67)(13.8) 254.6
luego se tiene:
i i i i
2 2 2
i i
n x y x y
67(13145) (254.6)(254.6)
a 0.991
n x ( x ) 67(13260) (254.6)

2
i i i i i
2 2 2
i i
x y . x y x
(13145)(254.6) (254.6)(13260)
b 0.036
( x ) n x (254.6) 67(13260)

Por consiguiente la ecuación que mejor se aproxima será Y 0.991X 0.036
Ahora hallemos el coeficiente de correlación, esto es:
2 2 2 2
2 2
n xy x y
67(13145) (254.6)(254.6)
r 0.99
67(13260) (254.6) 67(13261) (254.6)
n x x n y y

Y por ultimo si X 15.6 entonces en Y 0.991X 0.036, tenemos que Y 15.4956

Ejemplo: Una muestra de 20 observaciones correspondientes al modelo de regresión lineal
Y aX b proporciono los siguientes resultados:
i
y 21.9

2
i
x 215.4

i
x 18.62
i i
x y 106.4

2
i
y 86.9

a) Estimar “ a ” y “ b ” y decir que significa cada uno de ellos
b) Hallar “r” e interpretar

Solución: En forma similar, reemplacemos los datos en las ecuaciones:
i i i i
2 2 2
i i
n x y x y
20(106.4) (18.62)(21.9)
a 0.434
n x ( x ) 20(215.4) (18.62)
, representa la pendiente de la recta, la cual
nos indica que dicha ecuación lineal tiene una inclinación positiva, es decir que las variables son
directamente proporcionales.
9

2
i i i i i
2 2 2
i i
x y . x y x
(106.4)(18.62) (21.9)(215.4)
b 0.691
( x ) n x (18.62) 20(215.4)
, representa el punto de intersección
con el eje de la variable Y .
Ahora hallemos:
2 2 2 2
2 2
n xy x y
20(106.4) (18.62)(21.9)
r 0.77
20(215.4) (18.62) 20(86.9) (21.9)
n x x n y y

Lo cual significa que existe una correlación regular.

Ejemplo: El efecto de la temperatura en la absorción de anhídrido carbónico en agua está dada en
la siguiente tabla:
TEMPERATURA
i
x

10 15 20 30 35 40 50
CANT. DE ABSORCION
i
y
5 8 7.5 12 13 22 46
a) Buscar la ecuación de la forma
X
Y AB para los datos
b) Estimar “y” cuando x=25
Solución: Como
X
Y AB , entonces:
X
log(Y) log(AB)
log(Y) log(A) Xlog( B)

Consideremos
Z m n
log(Y) log(A) Xlog( B) de tal manera que se tiene Z mX n , en
efecto:
i
x
i
y
i i
z log y
2
i
x
i i
x * z
10 5 0.698970004 100 6.98970004
15 8 0.903089987 225 13.5463498
20 7.5 0.875061263 400 17.5012253
30 12 1.079181246 900 32.3754374
35 13 1.113943352 1225 38.9880173
40 22 1.342422681 1600 53.6969072
50 46 1.662757832 2500 83.1378916
SUMA 200 7.675426366 6950 246.235529

i i i i
2 2 2
i i
n x z x z
7(246.235529) (200)(7.675426366)
n 0.02179924
n x ( x ) 7(6950) (200)

2
i i i i i
2 2 2
i i
x z . x z x
(246.235529)(200) (7.675426366)(6950)
m 0.47365405
( x ) n x (200) 7(6950)

Pero:

m log(A) A anti log(m)
n lob(B) B anti log(n)


Por consiguiente
X X
Y AB Y (2.976)(1.0514)
Finalmente estimemos el valor de Y cuando X 25, esto es:
25
Y (2.976)(1.0514) Y 10.9141
A anti log(m) anti log(0.47365405) 2.976
B anti log(n) anti log(0.02179924) 1.0514