UNA – PUNO

DISEÑOS ESTADÍSTICOS

VARIABLE ESTADÍSTICA BIDIMENSIONAL
En la práctica a menudo estamos interesados en analizar el comportamiento conjunto de dos o más
variables, es decir situaciones en las que el investigador realiza la observación simultánea de dos
características del individuo, obteniéndose de esta manera pares de resultados; por ejemplo,
podemos observar en una persona su peso y su talla.
Los distintos valores que pueden adoptar estas características en estudio forman un conjunto de
pares, que denotamos por (X;Y) y la llamamos variable estadística bidimensional.
Observación 1.- La variable estadística bidimensional (X;Y) puede representar las situaciones
siguientes:
 Dos características cualitativas; por ejemplo la educación y región de procedencia de una persona.
 Dos características cuantitativas; por ejemplo, el peso y la altura de una persona.
 Una cualitativa y otra cuantitativa; por ejemplo, la profesión y la edad de una persona.
Si las componentes de una variable bidimensional (X;Y) son características cuantitativas, pueden a su
vez clasificarse en:
a) X discreta e Y discreta; por ejemplo, número de admisiones y número de médicos en un hospital
durante un mes.
b) X continua e Y continua; por ejemplo, el peso y la altura de una persona.
c) X discreta e Y continua; por ejemplo, número de accidentes automovilísticos que se producen
dentro de los límites de la ciudad y el grado de alcohol en el cuerpo.
d) X continua e Y discreta; por ejemplo, la estatura del padre de familia y número de hijos.
REPRESENTACIÓN DE LA INFORMACIÓN MEDIANTE TABLAS BIDIMENSIONALES
Definición: Sea (X;Y) una variable estadística bidimensional tal que los distintos valores que toman X
e Y son: 𝑋
: 𝑥1 , 𝑥2 , 𝑥3 , ⋯ , 𝑥𝑘 𝑌
: 𝑦1 , 𝑦2 , 𝑦3 , ⋯ , 𝑦𝑒
Una distribución bidimensional de frecuencias es un arreglo de los valores
observados (𝑥1 ; 𝑦1 ), (𝑥2 ; 𝑦2 ), ⋯ , (𝑥𝑘 ; 𝑦𝑒 ) de la variable bidimensional (X;Y) con sus respectivas
frecuencias en una tabla de doble entrada de la forma
Valores de Y 𝒚𝒋

Total 𝒚𝟏 𝒚𝟐


⋯ 𝒚𝒆

Valores de X 𝑓
1𝑗 𝒙𝟏


⋯ 𝑓
11 𝑓
12 𝑓
1𝑒 𝒇𝟏
. 𝑓
2𝑗 𝒙𝟐


⋯ 𝑓
21 𝑓
22 𝑓
2𝑒 𝒇𝟐
.
⋮ 𝒙𝒊

⋮ 𝒙𝒌

⋮ 𝑓𝑖
1
⋮ 𝑓𝑘
1

⋮ 𝑓𝑖
2
⋮ 𝑓𝑘
2


⋮ 𝑓𝑖𝑗



⋮ 𝑓𝑘𝑗


⋮ 𝑓𝑖𝑒

⋮ 𝑓𝑘𝑒

⋮ 𝒇𝒊
.
⋮ 𝒇𝒌
. 𝒌

Total 𝒇

.𝟏 𝒇

.𝟐

⋯ 𝒇

.𝒋

⋯ 𝒇

.𝒆 𝒆 𝒏

= ∑ ∑ 𝒇𝒊𝒋 𝒊
=𝟏 𝒋=𝟏

Ing. Ronald Mamani Mayta

Página | 1

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Donde: 𝑓𝑖𝑗
: 𝑒 𝑓𝑖

. = ∑ 𝑓𝑖𝑗= 𝑗
=1 𝑘 𝑓

.𝑗 = ∑ 𝑓𝑖𝑗= 𝑖
=1 𝑘
𝑒 𝑛

= ∑ ∑ 𝑓𝑖𝑗

Número de veces que aparece repetido el valor (𝑥1 ; 𝑦1 ), y se llama frecuencia
absoluta del par (𝑥𝑖 ; 𝑦𝑗 ) ∀ 𝑖 = 1, 2, 3, ⋯ , 𝑘 𝑗 = 1, 2, 3, ⋯ , 𝑒
Total de pares con primera componente 𝑥𝑖 (𝑖 = 1, 2, 3, ⋯ , 𝑘), y se llama
frecuencia marginal del valor 𝒙𝒊.
Total de pares con segunda componente 𝑦𝑖 (𝑖 = 1, 2, 3, ⋯ , 𝑒), y se llama
frecuencia marginal del valor 𝑦.𝑗
Número total de pares observados. 𝑖

=1 𝑗=1

DISTRIBUCIONES MARGINALES
Distribución Marginal de X 𝑓𝑖
. 𝑋

Distribución Marginal de Y 𝑓
.𝑗 𝑌 𝑥

1
⋮ 𝑥𝑖 𝑓

1.
⋮ 𝑓𝑖
. 𝑦

1
⋮ 𝑦𝑗 𝑓

.1
⋮ 𝑓
.𝑗

⋮ 𝑥𝑘

⋮ 𝑓𝑘
.

⋮ 𝑦𝑒

⋮ 𝑓
.𝑒 𝒌

Total 𝒏

= ∑ 𝒇𝒊. 𝒊
=𝟏 𝒌

Total 𝒏

= ∑ 𝒇𝒊. 𝒊
=𝟏

Ejemplo 1: Supongamos que queremos analizar el comportamiento conjunto de las variables grado
de instrucción (X) y región de procedencia (Y) de los empleados del Ministerio de Agricultura, los datos
se muestran en la siguiente tabla:
Tabla 1: Distribución conjunta de las frecuencias de las variables grado de instrucción (X) y región de
procedencia (Y)
X
Primaria
Secundaria
Superior
Total
Y
Completa
Completa
Costa
40
30
20
90
Sierra
35
15
10
60
Selva
30
15
5
50
Total
105
60
35
200=n
Fuente: Datos dietéticos.
Cada elemento del cuerpo de la tabla representa la frecuencia observada de las realizaciones
simultáneas de X e Y. Así observamos que 40 empleados con primaria completa son de la Costa, 30
empleados con secundaria completa son de la Costa, etc.
Los totales de las filas nos dan la distribución marginal de la variable X (grado de instrucción) y los
totales de las columnas nos dan la distribución marginal de la variable Y (región de procedencia).

Ing. Ronald Mamani Mayta

Página | 2

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Observación 2: En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos
construir tablas con las frecuencias relativas (proporciones). Como se hizo en el caso unidimensional.
Sin embargo existen tres posibilidades de expresar la proporción de elementos en cada celda.
1) Con relación al total general, y se llama frecuencia relativa, así la frecuencia relativa
correspondiente al par (𝑥𝑖 ; 𝑦𝑗 ), es dada por: 𝑓𝑖𝑗

ℎ𝑖𝑗 =
∀ 𝑖 = 1, 2, ⋯ , 𝑘; 𝑗 = 1,2, ⋯ , 𝑒 𝑛

Las frecuencias relativas marginales de las variables X e Y son dados respectivamente por:
ℎ𝑖. =
ℎ.𝑗 = 𝑓𝑖

. 𝑛 𝑓

.𝑗 𝑛 𝑖

= 1, 2, ⋯ , 𝑘; (Frecuencia relativa marginal del valor 𝑥𝑖 ) 𝑗
= 1, 2, ⋯ , 𝑒; (Frecuencia relativa marginal del valor 𝑦𝑗 )

2) Con relación al total de cada fila
( 𝑓𝑖𝑗

) , 𝑖 = 1, 2, ⋯ , 𝑘; 𝑗 = 1, 2, ⋯ , 𝑒 𝑓𝑖
.

3) Con relación a cada columna.
( 𝑓𝑖𝑗

) , 𝑖 = 1, 2, ⋯ , 𝑘; 𝑗 = 1, 2, ⋯ , 𝑒 𝑓
.𝑗

Ejemplo 2: La distribución conjunta de las proporciones (frecuencias relativas) de los datos de la tabla
1, con relación al total de observaciones (𝑛 = 200), está dado en la siguiente tabla.
Tabla 2: Distribución conjunta de las proporciones (en porcentajes) con relación al total general de las
variables grado de instrucción (X) y región de procedencia (Y)
X
Primaria
Secundaria
Superior
Total
Y
Completa
Completa
Costa
20%
15%
10%
45%
Sierra
17.5%
7.5%
5%
30%
Selva
15%
7.5%
2,5%
25%
Total
52.5%
29%
17.5%
100%
40

Aquí podemos afirmar que ℎ11 × 100 = 200 × 100 = 20% de los empleados del Ministerio de
Agricultura son de la costa y tienen grado de instrucción primaria completa, mientras que ℎ21 ×
35

100 = 200 × 100 = 217,5% de los empleados son de la sierra y tienen grado de instrucción primaria
completa.
Los porcentajes totales de las filas y columnas nos dan las distribuciones marginales de cada una de
las variables X e Y. Así el 45% (porcentaje marginal) de los empleados del Ministerio de Agricultura son
de la Costa, 30% de la Sierra y 25% de la Selva.
Ejemplo 3: La distribución de las proporciones de los datos de la tabla 1, con relación al total de cada
columna esta dado en la siguiente tabla.

Ing. Ronald Mamani Mayta

Página | 3

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Tabla 3: Distribución conjunta de las proporciones (en porcentaje) con relación a los totales de cada
columna de las variables X e Y de la tabla 1.
X

Primaria
Completa
38.1%
33.3%
28.6%
100%

Y
Costa
Sierra
Selva
Total

Secundaria
Completa
50%
25%
25%
100%

Así podemos decir que ℎ11 × 100 = 𝑓

11 𝑓
.1

Superior

Total

57.1%
28.6%
14.3%
100%

45%
30%
25%
100%

40

× 100 = 105 × 100 = 38.1% de los empleados del 𝑓

35

21
Ministerio de Agricultura con primaria completa son de la costa, ℎ21 × 100 = 𝑓.1
= 105 × 100 =

33.3% de la sierra y ℎ31 × 100 = 𝑓

31 𝑓
.1

=

30
×
105

100 = 28.6% de la selva.

PROPIEDADES DE LAS FRECUENCIAS
Sea n el número total de pares observados de la variable bidimensional (X;Y), se destacan las siguientes
propiedades.
1. La suma de las frecuencias absolutas es igual al número de pares observados. 𝑘 𝑒

∑ ∑ 𝑓𝑖𝑗 = 𝑛 𝑖
=1 𝑗=1

2. La suma de las frecuencias relativas es igual a la unidad. 𝑘 𝑒

∑ ∑ ℎ𝑖𝑗 = 1 𝑖
=1 𝑗=1 𝑘

3.

∑ 𝑓𝑖. = 𝑓1. + 𝑓2. + ⋯ + 𝑓𝑘. = 𝑛 𝑖
=1 𝑒

4.

∑ 𝑓.𝑗 = 𝑓.1 + 𝑓.2 + ⋯ + 𝑓.𝑒 = 𝑛 𝑗
=1 𝑘

5.

∑ ℎ𝑖. = 1 𝑦 ∑ ℎ.𝑖 = 1 𝑖
=1 𝑘
𝑒

6.
7. 𝑒 𝑗

=1 𝑘

∑ ∑ 𝑓𝑖𝑗 𝑥𝑖 = ∑ 𝑓𝑖. 𝑥𝑖 𝑖
=1 𝑗=1 𝑘
𝑒 𝑖

=1 𝑒

∑ ∑ 𝑓𝑖𝑗 𝑦𝑗 = ∑ 𝑓.𝑗 𝑦𝑗 𝑖
=1 𝑗=1 𝑗

=1

Ing. Ronald Mamani Mayta

Página | 4

UNA – PUNO

DISEÑOS ESTADÍSTICOS

MEDIAS Y VARIANZAS MARGINALES
Definición 2: Sean (𝑥1 ; 𝑦1 ), (𝑥1 ; 𝑦2 ), ⋯ , (𝑥1 ; 𝑦𝑒 ), (𝑥2 ; 𝑦1 ), ⋯ , (𝑥𝑘 ; 𝑦𝑒 ) valores distintos de la variable
bidimensional (X;Y) con frecuencias absolutas 𝑓11 , 𝑓12 , ⋯ , 𝑓𝑘𝑒 , respectivamente. Las medias y
varianzas marginales de X e Y son dadas por:
k

X 

f
i 1

e

x

i. i

Y

n

 f x  X 
k

S X2 

i.

i 1

i

n 1

 f y
e

SY2 

k

2

.j

j 1

Y

n 1

i 1

2
i. i

j 1

.j

yj

n

 n ( X )2

n 1
e

2

j

f x

f

f
j 1

.j

y 2j  n (Y ) 2
n 1

Por tanto las desviaciones típicas marginales de X e Y son:

SX 

i 1

 f y
e

 f x  X 
k

2

i.

i

j 1

SY 

n 1

.j

Y

2

j

n 1

Definición 3: Sean (𝑥1 ; 𝑦1 ), (𝑥2 ; 𝑦2 ), ⋯ , (𝑥𝑘 ; 𝑦𝑒 ) valores distintos de la variable (X;Y) con frecuencias
absolutas 𝑓11 , 𝑓12 , ⋯ , 𝑓𝑘𝑒 , respectivamente. La covarianza entre las variables X e Y es dada por:

 f x
k

S XY  CovX ; Y  

e

i 1 j 1

ij

i

 X  y j  Y 
n

Donde: 𝑘 𝑒 𝑛

= ∑ ∑ 𝑓𝑖𝑗 𝑖
=1 𝑗=1

Otra fórmula abreviada de la covarianza es:

S XY

Ing. Ronald Mamani Mayta

1 k e
 CovX ; Y    f ij xi y j  X Y
n i 1 j 1

Página | 5

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Ejemplo 3: En una encueta realizada en una población se obtuvo la siguiente información con relación
al número de habitantes (X) y dormitorios (Y) en una muestra de 50 viviendas.
Habitantes Dormitorios
Habitantes Dormitorios
Habitantes Dormitorios
(X)
(Y)
(X)
(Y)
(X)
(Y)
6
2
5
2
4
1
3
2
3
1
4
1
5
2
3
1
4
1
5
2
5
2
3
1
8
3
3
2
4
1
5
2
5
2
4
1
6
2
2
1
4
1
5
2
3
1
4
2
4
1
4
2
6
1
2
1
3
1
3
2
8
4
6
3
4
1
4
3
4
1
4
2
2
1
2
1
5
2
2
1
6
3
5
2
3
1
4
1
4
2
3
2
4
2
8
4
3
1
2
1
Se pide:
a) Construir una tabla bidimensional y las frecuencias marginales.
b) Determinar las frecuencias acumuladas.
c) Encuentre las medias y varianzas marginales.
d) Halle la covarianza.
Solución:
a) La tabla bidimensional con sus frecuencias absolutas y marginales es
Y
Total
1
2
3
4
X
fi.
2
6
0
0
0
6
3
7
4
0
0
11
4
10
5
1
0
16
5
0
9
0
0
9
6
1
2
2
0
5
8
0
0
1
2
3
TOTAL
24
20
4
2
n=50
f.j

Ing. Ronald Mamani Mayta

Página | 6

UNA – PUNO

DISEÑOS ESTADÍSTICOS

b) La tabla de frecuencias acumuladas es
Y
1
X
2
6
3
13
4
23
5
23
6
24
8
24

2

3

4

6
17
32
41
44
44

6
17
33
42
47
48

6
17
33
42
47
50

c) Para hacer los cálculos ordenados de las medias y varianzas marginales, es conveniente construir
la siguiente tabla
Y
TOTAL
1
2
3
4
fi.Xi
fi.xi2
X
fi.
2
6
0
0
0
6
12
24
3
7
4
0
0
11
33
99
4
10
5
1
0
16
64
256
5
0
9
0
0
9
45
225
6
1
2
2
0
5
30
180
8
0
0
1
2
3
24
192
TOTAL
24
20
4
2
n=50
208
976
f.j
f.jyj
24
40
12
8
84
2
f.jyj
24
80
36
32
172
e

k

X 

f

x

i. i

i 1

n
k

S 
2
X

f x
i 1

2
i. i

S 

208
 4.16
50

 n ( X )2

n 1
e

2
Y

f
j 1

.j

y 2j  n (Y ) 2
n 1

Y

f
j 1

.j

yj

n

84
 1.68
50

976  50(4.16) 2

 2.26
50  1
172  50(1.68) 2

 0.63
50  1

d) Al emplear la fórmula abreviada de la covarianza se tiene

S XY

1 k e
393
 CovX ; Y    f ij xi y j  X Y 
 (4.16)(1.68)  0.8712
n i 1 j 1
50

Ing. Ronald Mamani Mayta

Página | 7

UNA – PUNO

DISEÑOS ESTADÍSTICOS

RELACIÓN ENTRE VARIABLES
En muchas aplicaciones estadísticas se deben resolver problemas que contienen un conjunto de
variables y que se sabe que existe alguna asociación entre ellas. En este conjunto de variables muy a
menudo se tiene una sola variable dependiente (o respuesta), y que depende de una o más variables
independientes o predictoras (o de regresión) X1, X2, …, Xk
Ejemplo: El salario es dependiente de: años de experiencia, grado de instrucción, sexo, etc.
La variable dependiente se mide con un error que no se controla en el experimento, por tanto, Y es
una variable aleatoria. Las variables independientes X1, X2, …, Xk se miden con un error despreciable,
que en la mayoría de los casos se controla en el experimento, y por lo tanto, no tienen la propiedad
de ser variables aleatorias.
La primera forma es determinar una relación funcional de la variable dependiente, con respecto a una
o más variables independientes con el fin de predecir valores de Y. este método es el análisis de
regresión.
La segunda forma de estudio de la asociación entre variables, es, medir la magnitud relación entre
ellas, mediante un coeficiente o índice. A esta técnica se denomina Análisis de Correlación.
Los métodos de regresión y correlación entre variables se clasifican por el número de variables
independientes, en simple y múltiple.

NOCIONES DE CORRELACIÓN Y REGRESIÓN LINEAL
AJUSTE DE CURVAS
Para determinar una ecuación que relacione variables, un primer paso es recolectar datos que
muestren los valores correspondientes de las variables en consideración. Por ejemplo, suponga que X
e Y denotan la estatura y el peso de hombres adultos, respectivamente, entonces una muestra de n
individuos revelara las estaturas 𝑋1 , 𝑋2 , 𝑋3 , ⋯ , 𝑋𝑛 ; así como los pesos correspondientes 𝑌
1 , 𝑌2 , 𝑌3 , ⋯ , 𝑌𝑛
El siguiente paso es graficar los puntos (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), ⋯ , (𝑋𝑛 , 𝑌𝑛 ) en un sistema rectangular de
coordenadas. El conjunto de puntos resultante suele denominarse Diagrama de dispersión.

Ing. Ronald Mamani Mayta

Página | 8

UNA – PUNO

DISEÑOS ESTADÍSTICOS

A partir del diagrama de dispersión podemos visualizar que los datos se aproximan a una curva suave,
que se denomina curva de aproximación. En la fig. 1 los datos parecen aproximarse a una línea recta
por lo que se dice que hay una relación lineal entre las variables, en la fig. 2 aunque existe una relación
entre las variables esta no es lineal por lo que se le conoce como relación no lineal.
El problema general para encontrar ecuaciones de curvas de aproximación que se ajustan a conjuntos
de datos se denomina ajuste de curvas.

LA LÍNEA RECTA
El tipo más simple de curva de aproximación es la línea recta, cuya ecuación puede expresarse como: 𝑌
= 𝑎0 + 𝑎1 𝑋
Dados dos puntos cualesquiera (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ) en la recta es posible determinar las constantes 𝑎
0 𝑦 𝑎1 . La ecuación resultante de la recta se expresaría así: 𝑌
2 − 𝑌1 𝑌
− 𝑌1 = (
) (𝑋 − 𝑋1 )
ó 𝑌
− 𝑌1 = 𝑚(𝑋 − 𝑋1 ) 𝑋
2 − 𝑋1
Donde: 𝑌
2 − 𝑌1 𝑚
=(
) 𝑋
2 − 𝑋1
Se llama pendiente de la recta y representa el cambio en Y, dividido entre el cambio correspondiente
en X.
En la ecuación anterior la constante 𝑎1 es la pendiente m.
La constante 𝑎0 que es el valor de Y cuando X=0, se denomina la intersección en Y.

EL MÉTODO DE LOS MÍNIMOS CUADRADOS
Sean (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ) valores de la variable bidimensional (X;Y), para un determinado valor de X por
ejemplo 𝑋1 habrá una diferencia entre el valor 𝑌1 , y el valor correspondiente deducido a partir de la
curva 𝑌̂ . Como se muestra en la figura estas diferencias se simbolizan con 𝐷𝑖 y se conocen como
desviación, error o residual, que puede ser positivo, negativo o cero.
Una medida de la bondad de ajuste de los datos en la curva C de la siguiente figura está dado por 𝐷
12 + 𝐷22 + ⋯ + 𝐷𝑛2 . Si esta es pequeña el ajuste es bueno; si es grande el ajuste es malo.

De todas las curvas que se aproximan a un conjunto de datos definidos por puntos, la curva que tiene
la propiedad de que 𝐷12 + 𝐷22 + ⋯ + 𝐷𝑛2 es un mínimo se llama curva de ajuste óptimo o curva de
mínimos cuadrados.

Ing. Ronald Mamani Mayta

Página | 9

UNA – PUNO

DISEÑOS ESTADÍSTICOS

LA RECTA DE MÍNIMOS CUADRADOS
La recta de mínimos cuadrados que se aproxima al conjunto puntos (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), ⋯ , (𝑋𝑛 , 𝑌𝑛 )
tiene por ecuación: 𝑌
= 𝑎0 + 𝑎1 𝑋
Donde las constantes 𝑎0 𝑦 𝑎1 se determinan resolviendo simultáneamente las ecuaciones:
Σ𝑌 = 𝑎0 𝑁 + 𝑎1 Σ𝑋
ΣX𝑌 = 𝑎0 Σ𝑋 + 𝑎1 Σ𝑋 2
Denominadas ecuaciones normales para la recta de mínimos cuadrados, de donde las constantes 𝑎
0 𝑦 𝑎1 pueden calcularse a partir de las fórmulas:
(∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌) 𝑎
0 = 𝑁
∑ 𝑋 2 − (∑ 𝑋)2 𝑎
1 = 𝑁

(∑ 𝑋𝑌) − (∑ 𝑋)(∑ 𝑌) 𝑁
∑ 𝑋 2 − (∑ 𝑋)2

El trabajo requerido para encontrar una recta de mínimos cuadrados puede simplificarse si se
transforma 𝑥 = 𝑋 − 𝑋̅ y 𝑦 = 𝑌 − 𝑌̅ , entonces la ecuación de la recta de mínimos cuadrados se
expresa como:
∑ 𝑥𝑦 𝑦
= ( 2) 𝑥
∑𝑥
Si la variable X se toma como la variable dependiente en lugar de la independiente la ecuación de la
resta se expresa como: 𝑋
= 𝑏0 + 𝑏1 𝑌
Entonces los resultados son válidos si X e Y se intercambian y si si 𝑎0 𝑦 𝑎1 se sustituyen por 𝑏0 𝑦 𝑏1

ANÁLISIS DE REGRESIÓN
El Análisis de Regresión es un método que se emplea para encontrar una función que se ajusta a una
nube de puntos o diagrama de dispersión, con la finalidad de poder obtener una predicción
“aproximada” de una de las variables a partir de la otra. Así la regresión de la variable Y sobre X es
dada por: 𝑌
̂ = 𝑓(𝑋) = 𝑎0 + 𝑎1 𝑋
Naturalmente debemos elegir una función óptima de entre todas las funciones que se ajustan a la
nube de puntos, esto es, la que mejor encaje sobre los puntos del diagrama de dispersión, para lo cual
utilizamos el método de los mínimos cuadrados.
Ejemplo 1: Dados los siguientes datos:
X
2
3
Y
1
3

5
7

7
11

9
15

10
17

 Construya una línea recta que se aproxime a los datos (en el diagrama de dispersión).
 Encuentre una ecuación para esta recta.

Ing. Ronald Mamani Mayta

Página | 10

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Solución: Graficamos los pares ordenados correspondientes a los datos.

Diagrama de Dispersión
Y 18
16
14
12

10
8
6

4
2
0
0

2

4

6

8

10

12

X

 Para determinar la ecuación de la recta dada por 𝑌 = 𝑎0 + 𝑎1 𝑋 solo necesitamos dos puntos.
Elegimos los puntos (2,1) y (3,3) tenemos:
Si sustituimos (2,1) en la ecuación queda 1 = 𝑎0 + 2𝑎1
De manera similar para el punto (3,3) tenemos 3 = 𝑎0 + 3𝑎1
Resolviendo las ecuaciones simultáneamente 𝑎0 = −3 𝑦 𝑎1 = 2 la ecuación requerida es: 𝑌
̂ = −3 + 2𝑋
Ejemplo 2: Con los datos del problema anterior, calcule:
a) Y cuando X=4
b) Y cuando X=15
c) Y cuando X=0
d) X cuando Y=7.5
e) El incremento en Y correspondiente al crecimiento de una unidad en X
Solución:
a) Si 𝑋 = 4, 𝑌̂ = −3 + 2(4) = 5 como se busca un valor de Y correspondiente a un valor de X
incluido entre dos valores dados de X, este proceso se llama interpolación lineal.
b) Si 𝑋 = 15, 𝑌̂ = −3 + 2(15) = 27 como se busca un valor de Y correspondiente a un valor de X
fuera de o exterior a los valores dados de X, este proceso se llama extrapolación lineal
c) Si 𝑋 = 0, 𝑌̂ = −3 + 2(0) = −3 el valor de Y cuando X=0 se llama intersección en Y, es el valor
de Y en el punto en que la recta (extendida si es necesario) se cruza con el eje Y.
d) Si 𝑌 = 7.5, 7.5 = −3 + 2𝑋, 𝑋 = 7.25
e) Si 𝑌 = 0, 0 = −3 + 2𝑋, 𝑋 = 1.5 el valor de X cuando Y=0 se llama intersección en X, es el valor
de X en el punto donde la recta (extendida si es preciso) se cruza con el eje X.

Ing. Ronald Mamani Mayta

Página | 11

UNA – PUNO

f)

DISEÑOS ESTADÍSTICOS

Si X se incrementa una unidad de 2 a 3, Y se incrementa de 1 a 3, un cambio de dos unidades, Si
X se incrementa de 2 a 10 ó (10-2)=8 unidades, entonces Y se incrementa de 1 a 17 ó (17-1)=16
unidades, es decir un aumento de 8 unidades en X corresponde a un aumento de 16 unidades en
Y, podemos decir también Y se incrementa 2 unidades por un incremento de una unidad en X.

Ejemplo 3: Dado los siguientes datos:
X
1
3
4
6
8
9
11
14
Y
1
2
4
4
5
7
8
9
a) Construya una recta que se aproxime a los datos.
b) Encuentre una ecuación para esta recta.
c) Compare los valores de Y obtenidos a partir de la recta de aproximación con aquellos dados en la
anterior tabla.
d) Estime el valor de Y cuando X=10
Ejemplo 4 Ajuste una recta de mínimos cuadrados a los datos del ejemplo anterior usando:
a) X como variable independiente.
b) Y como variable independiente.
Solución: Realizamos el siguiente arreglo y cálculos adicionales con los datos:
X
1
3
4
6
8
9
11
14
Σ𝑋 = 56

Y
1
2
4
4
5
7
8
9
Σ𝑌 = 40

X2
1
9
16
36
64
81
121
196
2
Σ𝑋 = 524

XY
1
6
16
24
40
63
88
126
ΣXY = 364

Y2
1
4
16
16
25
49
64
81
2
Σ𝑌 = 256

a) Los valores de 𝑎0 𝑦 𝑎1 para la recta de mínimos cuadrados de Y sobre X son:
(∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌) (40)(524) − (56)(364)
6 𝑎
0 =
=
=
= 0.545
2
2
2
(8)(524) − (56) 𝑁
∑ 𝑋 − (∑ 𝑋)
11 𝑎
1 = 𝑁

(∑ 𝑋𝑌) − (∑ 𝑋)(∑ 𝑌) (8)(364) − (56)(40)
7
=
=
= 0.636
2
2
2
(8)(524) − (56) 𝑁
∑ 𝑋 − (∑ 𝑋)
11

Entonces la recta queda: 𝑌̂ = 0.545 + 0.636𝑋
b) Los valores de 𝑏0 𝑦 𝑏1 para la recta de mínimos cuadrados de X sobre Y son:
(∑ 𝑋)(∑ 𝑌 2 ) − (∑ 𝑌)(∑ 𝑋𝑌) (56)(256) − (40)(364) 𝑏
0 =
=
= −0.50
(8)(256) − (40)2 𝑁
∑ 𝑌 2 − (∑ 𝑌)2 𝑏
1 =

Ing. Ronald Mamani Mayta 𝑁

(∑ 𝑋𝑌) − (∑ 𝑌)(∑ 𝑋) (8)(364) − (40)(56)
=
= 1.50
(8)(256) − (40)2 𝑁
∑ 𝑌 2 − (∑ 𝑌)2

Página | 12

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Entonces la recta queda: 𝑋̂ = −0.50 + 1.50𝑌
Ejemplo 5: Los siguientes datos corresponden a las estaturas redondeadas en pulgadas (pulg.) y los
pesos redondeados en libras (lb.) de una muestra de 12 estudiantes varones obtenidas al azar de los
alumnos del primer semestre de la Escuela Profesional de Educación.
Estatura X (pulg.)
70
63
72
60
66
70
74
65
62
67
65
68
Peso Y (lb.)
155 150 180 135 156 168 178 160 132 145 139 152
a)
b)
c)
d)
e)

Obtenga un diagrama de dispersión de los datos.
Construya una recta que se aproxime a los datos.
Encuentre la ecuación de la recta construida en la parte b.
Estime el peso de un estudiante cuya estatura es de 63 pulg.
Calcule la estatura de un estudiante cuyo peso es de 168 lb.

CORRELACIÓN LINEAL:
La correlación es un método empleado para determinar el grado de relación entre las variables que
se estudian, para así determinar en qué medida una relación funcional describe o explica de forma
adecuada la relación entre estas variables.
Atendiendo al relacionamiento entre las variables X e Y, podemos tener.
1. Correlación directa o positiva: Cuando las variables X e Y presentan variaciones en un mismo
sentido, esto es, para mayores valores de X corresponden mayores valores de Y.
2. Correlación inversa o negativa: Cuando las variaciones de X e Y, son en sentido contrario, esto es,
para mayores valores de X corresponden menores valores de Y.
Ejemplo: En el diagrama de dispersión de la figura 1, se observa que las dos variables presentan
una cierta asociación lineal directa o (Positiva).
En la figura 2 el diagrama de dispersión nos presenta una dependencia lineal inversa (o negativa),
y finalmente en la figura 3 se aprecia una situación en donde las dos variables, no presentan,
prácticamente correlación.

Ing. Ronald Mamani Mayta

Página | 13

UNA – PUNO

DISEÑOS ESTADÍSTICOS

CALCULO DEL COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación es un número abstracto que indica el grado de asociación entre las
variables, y se define del siguiente modo: 𝑟
= 𝑁

∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
√[𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 ][𝑁 ∑ 𝑌 2 − (∑ 𝑌)2 ]

Otra fórmula es: 𝑟
=

∑ 𝑥𝑦
√(∑ 𝑥 2 )(∑ 𝑦 2 )

El coeficiente de correlación lineal es un número comprendido entre -1 y 1, esto es:
−1 ≤ 𝑟 ≤ 1
Valores positivos indican que las dos variables aumentan o disminuyen al mismo tiempo, mientras que
valores negativos significan que cuando una variable aumenta la otra disminuye o viceversa.
Si r es exactamente igual a -1 ó +1, quiere decir que hay una perfecta asociación entre las dos variables,
en el sentido de que por cada unidad que aumenta o disminuye una variable, la otra cambia siempre
igual número de unidades. En dichas ocasiones los puntos en el grafico caerían todos sobre una línea
recta.
Si r=0, significa que no hay ninguna asociación entre las dos variables o de existir, no es una relación
lineal
En resumen para la interpretación del coeficiente de correlación tenemos el siguiente cuadro:

Ejemplo 6: Con los datos del ejemplo 3 hallar e interpretar el coeficiente de correlación lineal.
Solución: Reemplazando los valores hallados en la formula tenemos: 𝑟
= 𝑁

∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
√[𝑁 ∑ 𝑋 2 − (∑ 𝑋)2 ][𝑁 ∑ 𝑌 2 − (∑ 𝑌)2 ]

=

(8)(364) − (56)(40)
√[(8)(524) − (56)2 ][(8)(256) − (40)2 ]

= 0.977

El valor de 𝑟 = 0.977 indica que existe una muy fuerte correlación lineal positiva entre las variables.
La otra forma de calcular el coeficiente de correlación lineal es utilizando la fórmula: 𝑟
=

Ing. Ronald Mamani Mayta

∑ 𝑥𝑦
√(∑ 𝑥 2 )(∑ 𝑦 2 )

Página | 14

UNA – PUNO

DISEÑOS ESTADÍSTICOS

Donde: 𝑥
= 𝑋 − 𝑋̅ 𝑎𝑑𝑒𝑚á𝑠 𝑦 = 𝑌 − 𝑌̅
El procedimiento para el cálculo requiere realizar el siguiente arreglo:
̅)
(𝑿 − 𝑿
-6
-4
-3
-1
1
2
4
7 𝑿 𝑿

1
1
3
2
4
4
6
4
8
5
9
7
11
8
14
9
Σ𝑋 = 56
Σ𝑌 = 40
56
40 𝑋
̅ =
= 7 𝑌̅ =
=5
8
8 𝑟
=

̅)
(𝒀 − 𝒀
-4
-3
-1
-1
0
2
3
4

∑ 𝑥𝑦
√(∑ 𝑥 2 )(∑ 𝑦 2 )

= 𝒙𝟐

36
16
9
1
1
4
16
49 𝒙𝒚

24
12
3
1
0
4
12
28 𝒙𝟐

16
9
1
1
0
4
9
16

Σ𝑥 2 = 132

Σxy = 84

Σ𝑦 2 = 56

84
√(132)(56)

= 0.977

Ejemplo 7: Los siguientes datos corresponden a las estaturas X e Y respectivas en pulgadas (pulg.) de
una muestra de 12 padres y sus hijos mayores.
Estatura X del padre (pulg.) 65 63 67 64 68 62 70 66 68 67 69 71
Estatura Y del hijo (pulg.)
68 66 68 65 69 66 68 65 71 67 68 70
a)
b)
c)
d)

Construya un diagrama de dispersión.
Calcule la recta de regresión de mínimos cuadrados de Y sobre X.
Determine la recta de regresión de mínimos cuadrados de X sobre Y.
Calcule e interprete el coeficiente de correlación lineal.

Ing. Ronald Mamani Mayta

Página | 15