2010 Matematicas 62 13

tema
62 MATEMÁTICAS
Series estadísticas bidimensionales.

Regresión y correlación lineal.
Coeficiente de correlación.
Significado y aplicaciones.
24-13854-13
Temario 1993
tema 62
matemáticas
1. Series estadísticas bidimensionales

1.1. Variables estadísticas bidimensionales: tablas estadísticas
1.2. Representaciones gráficas
1.3. Distribuciones marginales y condicionadas

1.3.1. Distribuciones marginales
1.3.2. Distribuciones condicionadas
1.3.3. Independencia y dependencia funcional
1.3.4. Características marginales
1.3.5. Características condicionadas
1.3.6. Momentos
1.4. Covarianza
2. Regresión y correlación lineal

2.1. El problema del ajuste
2.2. Regresión lineal
3. Coeficiente de correlación
3.1. Correlación lineal
3.2. Coeficiente de correlación lineal: propiedades
4. Significado y aplicciones
4.1. Uso y abuso de la regresión
4.2. Predicción
4.3. Errores de medida en variables numéricas
4.4. Otras aplicaciones
3
tema 62
matemáticas
INTRODUCCIÓN
Una estadística de una característica de la población pretende ofrecer información cuanti-

tativa de la misma, para poder ser analizada. Normalmente no se lleva a cabo el estudio de
una sola variable, sino que al analizar la población se suelen estudiar numerosas variables
relacionadas entre sí. Un ejemplo sería la edad, las calificaciones de diferentes materias,
los días de falta de asistencia y las horas de estudio de un alumno de cuarto de ESO. Hay
que tener en cuenta que, en ocasiones, la información no la proporcionan los datos, sino las
relaciones entre los datos que muchas veces son los objetivos reales de los estudios.
A lo largo del presente tema se estudia la forma de utilizar de forma conjunta las diferentes
variables y la forma de analizar las relaciones que se dan entre ellas. La regresión trata de dar
los medios necesarios para calcular aproximadamente el valor de una variable conocida otra.
La correlación lineal nos indicará el grado de dependencia que hay entre las variables.
5
tema 62
matemáticas
1 Series estadísticas bidimensionales
1.1. Variables estadísticas bidimensionales:

tablas estadísticas
En múltiples problemas estadísticos, la observación de un fenómeno da lugar a

la obtención de medidas de dos caracteres. Así, se pueden observar el peso y la
talla de un conjunto de personas o la velocidad y el recorrido de frenado de un
automóvil.
Consideremos una población de N individuos descritos simultáneamente por
dos variables X e Y. Tendremos entonces una variable estadística bidimensional
(X, Y).
En el caso de variables bidimensionales, podemos distinguir tres tipos principales
de tablas.
Primer tipo
Se origina cuando el número de datos bidimensionales N es pequeño.
En este caso, los datos se disponen en dos columnas sobre las que se emparejan
los correspondientes valores unidimensionales de una misma realización de la
variable bidimensional, como puede verse en la siguiente tabla:
Variable X Variable Y
x1 y1
x2 y2
. .
. .
. .
xn yn
Segundo tipo
Se utiliza cuando el número de datos N es grande pero, sin embargo, existe un
número pequeño (k) de parejas de valores distintos. Es decir, cuando entre los
N datos existan k realizaciones (x1, y1), (x2, y2), .... (xk, yk) distintas que se repiten
n1, n2, ... , nk veces, respectivamente, siendo n1 + n2 + ... + nk = N. En este caso la
tabulación se realiza en tres columnas, enfrentando los valores xi, yi y ni en cada
fila, es decir, valores unidimensionales de cada realización con su frecuencia
absoluta correspondiente, según se expresa en la siguiente tabla:
6
tema 62
matemáticas
Variable X Variable Y Frecuencia

x1 y1 n1
x2 y2 n2
. . .
. . .
. . .
xk yk nk
N
Hay que hacer notar que las tablas del primer tipo pueden considerarse como de
segundo tipo, en donde las frecuencias valen 1 para la totalidad de los pares de los
valores observados.
Tercer tipo
Se utiliza este tipo de tabulación cuando el número de observaciones es elevado
y el número de distintas parejas de valores observadas también.
En este caso se utiliza una tabla de doble entrada, que recibe el nombre de tabla
de correlación, y que tiene la forma que puede verse:
Intervalos Totales
(a0, a1) (a1, a2) .... (ai–1, ai) .... (ak–1, ak)
de clase X horizontales
Intervalos Marcas de
x1 x2 .... xi .... xk
de clase Y de clase
(b0, b1) y1 n11 n21 .... ni1 .... nk1 n·1
(b1, b2) y2 n12 n22 .... ni2 .... nk2 n·2
.... .... .... .... .... .... .... .... ....
(bj–1, bj) yj n1j n2j .... nij .... nkj n·j
.... .... .... .... .... .... .... .... ....
(bp–1, bp) yp n1p n2p .... nip .... nkp n·p
Totales verticales n1· n2· .... ni· .... nk· n..= N
Como se ve, la tabla es de doble entrada, figurando en las columnas las moda-
lidades o valores de X y en las filas los de Y.
En la intersección de la columna del valor xi y la fila correspondiente al valor yj
se encuentra la frecuencia absoluta del par (xi, yj), que designamos por nij.
En la última fila aparecen los totales de las frecuencias de las columnas; n1.
es la suma de frecuencias de todos los pares cuyo primer elemento es x1. En
general:
p
ni . = ∑n
j =1
ij
7
tema 62
matemáticas
En la última columna aparecen los totales de las frecuencias de las filas; n.1
es la suma de frecuencias de todos los pares cuyo segundo elemento es yi. En
general:
k
n.j = ∑n
i =1
ij
Por último:
k p k p
n.. = ∑ ∑ n =∑ n =∑ n.
i =1 j =1
ij
i =1
i.
j =1
j =N
Frecuencia relativa del par (xi, yj) es el cociente entre su frecuencia absoluta
y el número total de pares. Se designa por fij
nij
f ij =
N
fi. es frecuencia (relativa) de los pares cuyo primer elemento es xi independien-
temente de cual sea el segundo valor, se define por:
p
∑f
n j.
f i. = = ij
N j =1
Del mismo modo f.j es la frecuencia relativa de los pares cuya segunda compo-
nente es yj siendo la primera cualquier valor de X, se define por:
k
∑n
n.j
f .j = = ij
N i =1
Es evidente que:
k p k p
∑ f =∑ f . = ∑ ∑ f
i =1
i.
j =1
j
i =1 j =1
ij =1
Si las variables no están agrupadas en clases, se pueden suprimir la primera fila

y la primera columna de la tabla.
Una representación gráfica se puede obtener asignando a cada par (xi, yj) un
punto del plano.
8
tema 62
matemáticas
Las principales representaciones gráficas que se adoptan para variables bidimen-

sionales (cuantitativas) son las siguientes:
Si X e Y son variables discretas
Sobre los ejes de abcisas y ordenadas se presentan los valores de X e Y, respecti-
vamente, y sobre cada punto (xi, yj) se dibuja un círculo con ese centro y super-
ficie proporcional a su frecuencia nij. Por tanto, cuanto mayor sea la frecuencia
asociada a un par, mayor será el círculo centrado en él.
Otra representación equivalente a esta y que recibe el nombre de nube de pun-
tos o diagrama de dispersión, consiste en representar cada pareja de valores
mediante un punto en un sistema de ejes coordenados. Cuando una pareja de
valores está repetida, junto a la representación del punto correspondiente se
indica el valor de su frecuencia.
Veamos un ejemplo. Sea la distribución de frecuencias:
entonces, su representación gráfica será la siguiente:
Si X es variable continua e Y es variable discreta

Si X es por ejemplo una variable continua e Y discreta, o viceversa, entonces
la representación se suele llevar a cabo a través del conjunto de histogramas
que podemos trazar para las distribuciones condicionadas de la variable de tipo
continuo a los distintos valores de la variable discreta, presentándose de forma
conjunta.
9
tema 62
matemáticas
Si las variables X e Y son ambas continuas

La representación más utilizada es la que se conoce con el nombre de estereo-
grama, que es en realidad una generalización del histograma para tres dimen-
siones. El proceso es el siguiente: sobre un plano se trazan los ejes sobre los
que tomaremos los valores de las variables X e Y, respectivamente, y perpen-
dicularmente a ellos, sobre cada rectángulo, cruce de dos clases o intervalos de
las dos variables, se levanta un paralepípedo, cuyo volumen es proporcional a
la frecuencia absoluta conjunta asociada a dicho rectángulo.
Puede demostrarse que el volumen total del estereograma es 1.
Veamos un ejemplo: las edades de los esposos y esposas de 20 matrimonios
fueron las indicadas en la siguiente tabla:
Edad
esposa 18-26 26-34 34-42
Edad 22 30 38
esposo
20-26 23 2 3 5
26-32 29 3 4 6
32-38 35 5 6 8
Observemos que en este caso todos los rectángulos de cruce tienen la misma
área 6 × 8 = 48, luego bastará tomar como referencia de altura sus frecuencias,
con lo cual el estereograma que obtenemos es el siguiente:
10
tema 62
matemáticas
Sea la variable bidimensional (X, Y). Si consideramos la variable X con sus valo-
res x1, x2, ..., xi, ..., xk y sus frecuencias absolutas, independientes del valor de Y,
n1., n2., ..., ni., ..., nk. obtenemos lo que se llama distribución marginal de la va-
riable X.
n
La frecuencia (relativa) marginal de xi es f i . = i .
N
Del mismo modo, llamaremos distribución marginal de la variable Y, a sus
valores y1, ..., yj, ..., yp con sus frecuencias absolutas n.i, ..., n.j, ..., n.p.
n.j
La frecuencia marginal de yj es f .j = .
N
Es evidente que:
k p
∑ i =1
f i. = 1 y que ∑ f.
j =1
j =1
En la tabla, la distribución marginal de X está formada por la primera y la última

fila. La distribución marginal de Y la forman la primera y la última columna.
Consideremos los n.j individuos que presentan el valor yj. De todos éstos, nij toman
el valor xi.
Se define como frecuencia del valor xi condicionado por el valor yj a f ij,
siendo:
nij
f ij =
n.j
Llamaremos distribución condicionada de la variable X por el valor yj a la repre-

sentada en la tabla siguiente:
Valores de X Frec. absolutas Frec. relativas

x1 n1j f1j
xi nij fij
xk nkj fkj
Total n.j 1
Como se ve, en la tercera columna figuran las frecuencias de los distintos valores
de X condicionadas por yj.
Según lo dicho hasta ahora y teniendo en cuenta que hay p valores posibles para
Y, existen p distribuciones condicionadas para la variable X.
11
tema 62
matemáticas
Del mismo modo, la frecuencia condicionada de yj por xi es:

nij
f ji =
ni .
fji representa la proporción de pares (xi,yj) sobre los que tienen como primer ele-
mento xi.
Las tablas de distribuciones condicionadas de yj por xi son:
Valores de Y Frec. absolutas Frec. relativas

y1 ni1 f1i
yi nij fji
yp nkj fpi
Total nip 1
1.3.3. Independencia y dependencia funcional
Puede suceder que las variables X e Y tengan un cierto grado de dependencia. De

momento, nos limitaremos a definir los dos casos extremos: la ausencia de depen-
dencia, llamada independencia, y la dependencia total o dependencia funcional.
XX Definición de independencia funcional
Diremos que la variable X es independiente de Y cuando las frecuencias relativas

de las distribuciones condicionadas de X por yj son idénticas entre sí. Según esto
las p distribuciones condicionadas de X son iguales. fij no depende de j, es decir:
ni1 ni 2 nij nip
= = ... = = ... =
n.1 n.2 n.j n.p
Aplicando la conocida propiedad de las proporciones:
nij ni1 + ni 2 +...+ nij +...+ nip n
= = i . de donde f ij = f i .
n.j n.1 + n.2 +...+ n.j +...+ n.p n..
Las frecuencias condicionadas son iguales a las frecuencias marginales y las dis-
tribuciones condicionadas iguales a la distribución marginal.
Por otra parte:
nij ni . nij n.j nij
= ⋅ = ⋅ o bien f ij = f i . ⋅ f ji = f .j ⋅ f i j
n.. N ni . N n.j
y cuando X es independiente de Y, fij = fi.; sustituyendo fij = f.j fi. = fi. fij ⇒ fij = f.j que
nos indican que las frecuencias de Y condicionadas por xi no dependen de i. Por
tanto, cuando X es independiente de Y también Y es independiente de X, y se dice
que la independencia es recíproca.
12
tema 62
matemáticas
A continuación damos un ejemplo de dos variables independientes:
X
x1 x2 x3 TOTAL
Y
y1 3 6 12 21
y2 5 10 20 35
y3 2 4 8 14
y4 4 8 16 28
TOTAL 14 28 56 98
Veamos que las frecuencias condicionadas son iguales a las frecuencias margina-
les y las distribuciones condicionadas iguales a la distribución marginal.
Las distribuciones marginales de X e Y son:
X F. Abs. ni F. Rel. Fi Y F. Abs. nj F. Rel. Fj
14 1 21 3
x1 14 = y1 21 =
98 7 98 14
28 2 5
x2 28 = y2 35
98 7 14
56 4 2
x3 56 = y3 14
98 7 14
4
TOTAL 98 1 y4 28
14
TOTAL 98 1
13
tema 62
matemáticas
Las distribuciones condicionadas son:
X F. Abs. ni F. Rel. Fij Y F. Abs. nj F. Rel. Fji
14 1 3
x1 14 = y1 21
98 7 14
2 5
x2 28 y2 35
7 14
4 2
x3 56 y3 14
7 14
4
TOTAL 98 1 y4 28
14
TOTAL 98 1
XX Definición de dependencia funcional
Se dice que la variable X depende funcionalmente de Y si a cada valor yj corres-

ponde un único valor de X. Para todo j la frecuencia absoluta es nula salvo para un
valor de i, siendo nij = n.j.
En cada fila todas las frecuencias son nulas excepto una, aunque puede haber
varias frecuencias no nulas en la misma columna.
Esta dependencia funcional se expresa por x = f(y). En general, la representación
gráfica de x = f(y) será una curva llamada de dependencia. A cada ordenada (y) le
corresponderá, en este caso, un único valor de x.
A continuación damos un ejemplo donde X depende funcionalmente de Y.
X
x1 x2 x3 TOTAL
Y
y1 4 0 0 4
y2 0 6 0 6
y3 7 0 0 7
y4 0 0 9 9
y5 0 2 0 2
TOTAL 11 8 9 28
Cuando la variable Y también depende funcionalmente de X, se dice que la fun-

cionalidad es recíproca. En este caso la tabla es cuadrada y en cada fila y en cada
columna hay un único valor distinto de cero.
14
tema 62
matemáticas
Consideremos la distribución marginal de X. Sus características más importantes

son:
Media
k k k p
∑ ∑ ∑∑ f
1
x= = ni . xi = f i . xi = ij xi
N i =1 i =1 i =1 j =1
Varianza
k k
V ( X ) = σ 2x = ∑ ni . ( xi − x ) = ∑f ( xi − x ) 2
1 2
i.
N i =1 i =1
Desviación típica: σx
Para la variable marginal Y.
Media
p p k p
∑ n. ∑ f. ∑∑ f
1
y= j yj = j yj = ij yj
N j =1 j =1 i =1 j =1
Varianza
p p
V (Y ) = σ = ∑ n. ( y − y ) = ∑ f . ( y − y )
1 2 2 2
y j i j i
N j =1 j =1
Desviación típica: σ
y
Consideremos la distribución condicionada de X al valor yj, dada por la tabla de

más abajo.
Al definir las características de esta distribución, media y varianza, las asignare-
mos el subíndice j, donde j puede tomar valores desde 1 hasta p.
X Frec. Absoluta Frec. Relativa

x1 n1j f1j
xi nij fij
xk nkj fkj
TOTAL n.j 1
Definimos la media xj y la varianza Vj (x) de esta distribución por:

k k
∑ ∑f
1
Media: x j = nij xi = j
i xi
n.j i =1 i =1
k k
Varianza: V j ( X ) = ∑ n ( x − x ) =∑ f ( x − y )
1 2 j 2
ij i j i i j
n.j i =1 i =1
15
tema 62
matemáticas
Del mismo modo se definen para la distribución de la variable Y condicionada a xi:

p
Media: yi = ∑f
j =1
j
i
yj
p p
Varianza: Vi (Y ) =
∑ n (y ) =∑ f ( y )
1 2 2
ij j − yi j
i
j − yi
ni . j =1 j =1
1.3.6. Momentos
Definiremos momento de orden r respecto a X, y de orden s respecto a Y, con re-

lación al punto (c1, c2) al valor:
k p
∑∑ f ( xi − c1 )r ( y j − c2 )
s
mrs′ = ij
i =1 j =1
Son importantes los momentos respecto al origen y los momentos centrales. Los mo-
mentos respecto al origen se obtienen haciendo c1 = c2 = 0 y los designaremos por:
k p
mrs = ∑∑ fi =1 j =1
ij xir y sj
Los más importantes son:

k p k
m10 = ∑∑
i =1 j =1
f ij xi = ∑f
i =1
i. xi = x
(medias marginales)
k p p
m01 = ∑∑ f
i =1 j =1
ij yj = ∑f
j =1
.j yj = y
Los momentos centrales se obtienen haciendo c1 = x, c2 = y . El momento cen-

tral de orden r y s lo designaremos por µrs y es:
k p
∑∑ f ( xi − x ) r ( y j − y )
s
µrs = ij
i =1 j =1
Son importantes:
µ00 = 1 µ10 = 0 µ01 = 0

k p k
∑∑ f ( xi − x ) ∑f ( xi − x )2 = σ 2x
2
µ20 = ij = i.
(varianza de la variable
i =1 j =1 i =1
marginal X)
k p p
∑ ∑ f (y ) = ∑ f. ( y )
2 2
µ02 = ij j −y j j − y = σ 2y (varianza de la variable
i =1 j =1 j =1 marginal Y)
k p
µ11 = ∑∑ f
i =1 j =1
ij ( xi − x ) ( yj ) a continuación)
− y (covarianza o momento mixto de la cual nos ocuparemos
16
tema 62
matemáticas
1.4. Covarianza
Hemos visto anteriormente como asociadas a una variable estadística bidimensio-

nal hay una serie de distribuciones unidimensionales (marginales y condiciona-
das). Evidentemente, la descripción numérica de una variable bidimensional pasa
por una descripción numérica de dichas variables unidimensionales, aspecto este
que ya sabemos manejar en base a temas anteriores. Para cada distribución puede
estudiarse, por ejemplo, posición, dispersión, simetría y curtosis como ya vimos.
Ahora bien, existe sin embargo una medida general para la distribución bidimen-
sional, que es de gran utilidad y está ligada a la independencia de las variables.
Dicha medida se conoce con el nombre de covarianza y suele representarse σxy.
Viene dada por la siguiente fórmula:
k p
∑∑n
i =1 j =1
ij ( xi − x ) ( yj − y )
σ xy =
N
donde (xi, yj) una observación conjunta y x e y las medias aritméticas de las dis-
tribuciones marginales de X e Y, respectivamente.
Puede comprobarse, además, sin dificultad, que la covarianza se puede poner en
la forma:
k p
∑∑ni =1 j =1
ij xi y j
σ xy −xy
N
Veamos que en caso de independencia entre las variables la covarianza en nula.
Demostración:
La condición de independencia era:
nij ni . n. j
= ⋅ ∀i, j
N N N
Calculemos, según esta condición, el valor de la covarianza:
k p k p
∑∑x x ∑∑x x
nij ni. n. j
σ xy = i j −x⋅y = i j ⋅ −x⋅y =
i =1 j =1
N i =1 j =1
N N
p p
∑ ∑y
n n. j
= xi i . j −x ⋅ y = x ⋅ y − x ⋅ y = 0
j =1
N j =1
N
Por otro lado si en una distribución bidimensional (X, Y) llevamos a cabo los
siguientes cambios de origen y escala para cada variable unidimensional X e Y,
respectivamente,
xi − x 0 y j − x0′
ui = , vj =
c c′
17
tema 62
matemáticas
entonces si llamamos suv a la covarianza de las nuevas variables transformadas,

se verifica que σxy = cc’ σuv como puede demostrarse, sin más que recordar que
para este tipo de cambios se verificaba:
x = cu + x0 y que y = c ′ v + x0′
y aplicar la propia definición de covarianza
18
tema 62
matemáticas
2 Regresión y correlación lineal
En algunas ocasiones, del estudio teórico de un fenómeno se puede deducir la fór-

mula matemática que liga las magnitudes consideradas. Por ejemplo, la fórmula
de los gases perfectos es un resultado de la teoría cinética de los gases.
Pero otras veces, para llegar a dicha fórmula sólo se dispone de un conjunto de
pares de valores (xi, yi) obtenidos experimentalmente. Entonces se plantea el pro-
blema de hallar una función y = f(x; λ1, ..., λk) perteneciente a una determinada
familia, en cuya expresión figuran k-parámetros o constantes indeterminadas, de
forma que se adapte lo mejor posible al conjunto de datos experimentales y per-
mita predecir con éxito el resultado de futuras experiencias.
Este problema presenta analogías con el de la interpolación; es más, si el número
de pares (xi, yi) de valores experimentales es k, elegimos la familia de los polino-
mios y convenimos en que la mejor aproximación sea:
f (xi; λ1, ..., λk) = yi (i = 1, ..., k) (1)
ambos problemas coinciden. Pero, en general, no sucede esto, pues f no es un
polinomio y el número de parámetros es menor que el de los pares de valores
experimentales, así el sistema (1) carece de solución. En tal caso la determinación
de los parámetros se lleva a cabo imponiendo la condición de que la diferencia
entre los valores observados y los que da la función f(x; λ1, ..., λk) sean los menores
posibles.
En el problema del ajuste se distinguen, pues, dos partes:
1. Elección de la familia de funciones f(x; λ1,..., λk), es decir, elección del tipo de
función de ajuste.
2. Determinación de los parámetros λ1, ..., λk.
Las funciones que más se utilizan para llevar a cabo el ajuste son polinomios, fun-
ciones exponenciales y potenciales, así como las funciones logarítmicas.
XX Método de los mínimos cuadrados
Sean (xi, yi) los pares de valores observados, e y = f(x; λ1, ..., λk) la fórmula con que
representamos la relación que existe entre x e y. Para determinar los parámetros
λ1, ..., λk que aparecen en dicha fórmula disponemos del sistema que resulta al
imponer la condición:
yi = f(xi; λ1, ..., λk) (i = 1, ..., n) (2)
Si n = k, existe el número justo de condiciones que se requieren para fijar los
parámetros. Pero, en general, n > k y el sistema (2) es imposible; el problema
que entonces se plantea es cómo asignar a los parámetros λ1,, ..., λk los valores
adecuados.
19
tema 62
matemáticas
Para resolverlo se definen las desviaciones de las observaciones:

ei = yi −f(xi; λ1, ..., λk) (3)
o diferencias entre los valores observados y los valores teóricos que suministra la
fórmula, y según cómo se comporten ciertas sumas formadas con estas desviacio-
nes, así resultan diversos métodos para obtener valores de los k parámetros.
Este método se establece sobre la hipótesis de que la suma:
n
∑e
i =1
2
i
de los cuadrados de las desviaciones sea mínima. Tiene la ventaja de que los
valores que asigna a los parámetros corresponden a la fórmula «más probable»
en el sentido de que los valores de y que se deduzcan de ella son los valores más
probables de las observaciones, supuesto que éstas cumplen la ley de Gauss de
los errores.
El desarrollo del método requiere conocimientos sobre la determinación de míni-
mos de funciones de varias variables.
Se trata, pues, de hacer que la función:
n
E= ∑e i =1
2
i
sea mínima. Como esta suma depende de los k parámetros λ1, ..., λk, las condicio-
nes necesarias para que E sea mínima son:
∂E ∂E ∂E
= 0, = 0, ..., =0
∂λ1 ∂λ 2 ∂λ k (4)
Estas ecuaciones reciben el nombre de ecuaciones normales.
Teniendo en cuenta que:
∂E ∂E ∂ei ∂ei
n n
∂λ r
= ∑ i =1
⋅
∂ei ∂λ r
= ∑ 2e
i =1
i
∂λ r
(r = 1, 2, 3, ..., k )
el sistema (4) toma la forma:

∂ei
n

∑e
i =1
i
∂λ r
=0 (r = 1, 2, ..., k )
(5)
El método de los mínimos cuadrados nos proporciona las condiciones que nos
permiten, eligiendo una familia de funciones, determinar cuál de ellas ajusta me-
jor nuestra nube de puntos.
Dada una nube de puntos y considerando la familia de todas las funciones linea-
les, vamos a aplicar el método de los mínimos cuadrados para determinar cuál de
todas ellas ajusta mejor nuestro diagrama de dispersión. Esta recta se denomina
recta de regresión y su estudio lo desarrollamos en el siguiente apartado.
20
tema 62
matemáticas
Sea una nube de puntos que se condensa alrededor de una recta. Llamaremos recta
de regresión de Y sobre X a la que nos da los valores aproximados de Y conocidos
los de X.
Su ecuación será de la forma y = ax + b, y nuestro problema es calcular los coefi-
cientes a y b.
Para ello utilizaremos el método de los mínimos cuadrados, descrito anteriormen-
te, según el cual la recta que más se ajusta a la nube es aquella para la cual la me-
dia, ponderada por las frecuencias totales fij, de los cuadrados de las desviaciones
paralelas al eje 0Y entre los puntos P y la recta, sea mínima.
Para cada punto P(xi,yj) su desviación respecto a la recta y = ax + b es la cantidad

que denotaremos dij y que se calcula: dij = yj – y = yj − (axi + b).
Según el método de los mínimos cuadrados para que:
k p k p
∑∑ f ∑ ∑ f (y )
2
D= ij d =2
ij ij j − axi − b
i =1 j =1 i =1 j =1
Sea mínima deben cumplirse las condiciones siguientes:

∂D ∂D
=0 y =0
∂a ∂b
Desarrollando obtenemos:
∂D
k p
∑ ∑ f (y − axi − b ) =
2
= −2
∂b
ij j
i =1 j =1
 k p k p k p

∑∑ ∑∑ ∑∑ f ij  = −2 ( y − ax − b )
2
= −2  f ij yj − a f ij xj − b
 i =1 j =1 i =1 j =1 i =1 j =1 
21
tema 62
matemáticas
Como:
−2 ( y − ax − b ) = 0 ⇒ b = y − ax
2
Despejando tenemos que y = ax + b, relación que nos indica que el punto ( x , y )

está sobre la recta.
Al punto G = ( x , y ) se le llama centro de gravedad de la nube Pij y sus coordena-
das son las medidas de las variables marginales X e Y.
Sustituyendo b en D queda:
k p k p
∑ ∑ f (y ∑∑ f [ yi − y − a( xi − x )]
2
D= ij j − axi − y + ax ) = 2
ij
i =1 j =1 i =1 j =1
∂D
k p
∂a
= −2
i =1
∑ ∑ f ( x − x )  y
j =1
ij i j − y − a( xi − x ) = 0 ⇒
k p
⇒ ∑∑ f
i =1 j =1
ij [ yi − y − a ( xi − x )] = 0 ⇒
k p k p
⇒ ∑∑ f
i =1 j =1
ij ( yi − y ) − a ∑ ∑ f (x − x) = 0 ⇒
i =1 j =1
ij i
Despejando:
k p
∑∑ f
i =1 j =1
ij ( yi − y )
⇒a= k p
∑ ∑ f (x − x)
i =1 j =1
ij i
Si multiplicamos numerador y denominador por ( xi − x )

k p
∑ ∑ f ij ( xi − x )( yj − y )
i =1 j =1
a= k p
∑ ∑ f ij ( xi − x ) 2
i =1 j =1
Teniendo en cuenta que:

k k p
∑ f i . ( xi − x ) = ∑∑ f ( xi − x )
2 2
σ 2x = ij
i =1 i =1 j =1
k p
∑ ∑ f ( x − x )( y
i =1 j =1
ij i j − y)
σxy
a= =
σ 2
x σ 2x
σ
Como la recta y = ax + b tiene por pendiente a = xy2 , y pasa por el punto ( x , y ),
se obtiene: σx
σxy
y − y = 2 (x − x )
σx
22
tema 62
matemáticas
Cambiando x por y, y tomando las desviaciones paralelas al eje 0X, se obtiene la

recta de regresión de X sobre Y, cuya ecuación es:
σxy
y − y = 2 (x − x )
σy
23
tema 62
matemáticas
3 Coeficiente de correlación
Se llama correlación al grado de dependencia que hay entre las variables. Me-
diante la correlación se determina en qué medida una recta o curva de regresión
describe la relación que existe entre las variables.
Cuando todos los valores de las variables satisfacen exactamente una ecuación
se dice que entre ellas hay una correlación perfecta. Todos los puntos de la nube
están, en este caso, sobre la curva de regresión.
En general, la correlación, no será perfecta, como estudiaremos a lo largo del
tema, pudiéndose presentar distintos grados de correlación.
Si se trata de estudiar la correlación entre dos variables, se habla de correlación
simple; si son más de dos, se llama múltiple.
En este tema, nos limitaremos a estudiar la correlación entre dos variables cuando
la línea de regresión es una recta, llamándola correlación lineal.
Sea (X, Y) una variable bidimensional. Consideremos el diagrama de dispersión

formado por los puntos (xi, yj) i = 1, ..., k; j = 1, ..., p, y supongamos que la nube
se condensa alrededor de una recta.
Cuando Y tiende a aumentar cuando aumenta X, se dice que la correlación es po-
sitiva o directa. Si Y tiende a disminuir cuando aumenta X, la correlación se llama
inversa o negativa.
Si los puntos se condensan alrededor de una curva, la correlación es no lineal, y si

no hay ninguna relación entre las variables se dice que no están correlacionadas.
24
tema 62
matemáticas
Para medir cualitativamente la correlación entre las variables basta con observar
atentamente la distribución de los puntos alrededor de la recta o curva de regre-
sión. Cuanto mayor sea el ajuste a la curva, mayor será la correlación.
La necesidad de medir cuantitativamente el grado de correlación entre las varia-
bles nos lleva a definir el coeficiente de correlación.
Definimos por coeficiente de correlación lineal entre las variables X e Y a la razón:

k p
∑ ∑ f (x − x ) ( y
i =1 j =1
ij i j − y )
r=
k p k p
∑ ∑ f (x − x ) ∑ ∑ f ( y )
2 2
ij i ij j − y
i =1 j =1 i =1 j =1
Según la definición r es simétrico respecto a X e Y, por tanto: r = rxy = ryx.

Para obtener una expresión más sencilla recordemos lo dicho sobre momentos.
k p
µ11 = ∑∑ f
i =1 j =1
ij ( xi − x ) ( yj − y ) = σxy
k p
µ20 = ∑∑ f
i =1 j =1
ij ( xi − x )2 = σ 2x
k p
∑ ∑ f (y )
2
µ02 = ij j −y = σ 2y
i =1 j =1
Sustituyendo en r se obtiene:
σ xy
r=
σx ⋅ σy
Comparemos esta expresión con la encontrada al calcular los coeficientes de la

recta de regresión, para encontrar una relación entre ellos que nos permitirá luego
deducir propiedades del coeficiente de correlación lineal.
Tenemos:
σxy 
r=
σx σy  r ⋅ σx σy = σxy  σy
 a = r⋅
σxy a ⋅ σ x = σxy 
2
σx
a= 2 
σ x 
25
tema 62
matemáticas
Propiedades
1. El coeficiente de correlación lineal es un número comprendido entre −1 y 1, es
decir, −1 ≤ r ≤ 1.
Demostración:
Determinemos el valor mínimo m de la suma de los cuadrados de las desvia-
ciones respecto a la recta de regresión de Y sobre X.
Sustituyendo en la expresión:
k p k p
∑∑ ∑ ∑ f (y )
2
D= f ij dij2 = ij j − axi − b
i =1 j =1 i =1 j =1
los valores calculados, por el método de los mínimos cuadrados, de a y b:

σy σy
a = r⋅ ; b = y − ax = y −r ⋅ ⋅x
σx σx
obtenemos:
2
k p
 σy  σy  
m= ∑∑i =1 j =1
f ij  y j − r ⋅
 σx
xi −  y − r ⋅
 σx
⋅ x 

2
 
k p
σy
m= ∑∑i =1 j =1
f ij  y j − y − r
 σx
( xi − x )  =

k p k p k p
σ2y σy
∑ ∑ f (y ) ∑∑ f ( xi − x ) ∑∑ f ( yi − y ) ( xi − x )
2 2
= ij j −y +r 2
ij − 2r ij
i =1 j =1
σ2x i =1 j =1
σx i =1 j =1
Pero:
k p
∑ ∑ f (y )
2
ij j −y = σ 2y
i =1 j =1
k p
∑ ∑ f (x − x )
2
ij i = σ 2x
i =1 j =1
k p
∑ ∑ f ( x − x )( y )
2
ij i j −y = r σx σy
i =1 j =1
Sustituyendo:
σ 2y σy
m = σ 2y + r 2 σ 2x − 2r r σx σy = σ 2y + r 2 σ 2y − 2r 2 σ 2y = σ 2y − r 2 σ 2y = (1 − r 2 ) σ 2y
σ 2
x σx
En la expresión m = (1 − r2) σ2y, m es la suma de los cuadrados de las desviacio-

nes, por tanto positiva. σ2y por definición es positiva, luego:
1 − r2 ≥ 0 ⇒ 1 ≥ r2 ⇒ −1 ≤ r ≤ 1
26
tema 62
matemáticas
2. Si |r| = 1 entonces la correlación es total o funcional, pues todos los puntos

están sobre la recta de regresión.
Si |r| = 1, r2 = 1, sustituyendo en m queda: m = (1 − 1)σ2y = 0. La suma de los
cuadrados de las desviaciones es nula, luego todos los puntos están sobre la
recta de regresión. Las ecuaciones de las rectas de regresión de Y sobre X y de
X sobre Y son, respectivamente:
σy
r1 ≡ y − y = r ⋅
σx
(x − x )
1 σy
r2 ≡ y − y = ⋅
r σx
(x − x )
a) Si r = 1, las dos rectas coinciden y toman la expresión:
σy
y− y =
σx
(x − x )

Se dice en este caso que entre las dos variables existe
una dependencia funcional.
b) Si r = −1, las rectas también coinciden y su ecuación
es:
σy
y− y =−
σx
(x − x )

Análogamente, en este caso, entre las dos variables
también existe una dependencia funcional.
3. Si r = 0, la correlación es nula. En este caso la suma de
los cuadrados de las desviaciones es máxima y toma el
valor m = σy. Se obtiene lo que se llama dispersión completa.
Las rectas de regresión quedan:
y − y = 0; y = y
x − x = 0; x − x
Las dos rectas se cortan en el centro de gravedad ( x , y ) y son perpendiculares.

En el caso en que r = 0, no existe ninguna relación entre las dos variables. Es
decir, ambas variables son incorreladas. Es un caso de independencia aleatoria.
27
tema 62
matemáticas
4. Si −1 < r < 1, se dice que entre las dos variables existe dependencia aleatoria:
a) Cuando r está próximo a 1 o a −1 la dependencia se aproxima a la funcional.
El ángulo que forman las rectas de regresión se aproxima a cero.
b) Si r se aproxima a 0, la dependencia aleatoria es muy pequeña y el ángulo
que forman las rectas de regresión es próximo a 90o.
5. Si r > 0, se dice que la correlación es directa o positiva. Las pendientes de las
rectas de regresión son:
σy 1 σy
m=r de r1 y m′ = de r2
σx r σx
Ambas son del mismo signo y positivas por ser r > 0. Además m’ > m, pues
|r| < 1.
Las dos rectas se cortan en el centro de gravedad ( x , y ) y la recta de regresión
de X sobre Y se aproxima más a la vertical que la de Y sobre X.
Si 0 < r < 1, las dos variables están tanto más correladas a medida que r se
aproxima a 1. Por tanto, es un caso de dependencia aleatoria.
6. Si r < 0, la correlación se llama inversa o negativa. Las pendientes m y m’ son
negativas por ser r < 0, y m > m’ pues |r| < 1.
Las dos rectas son decrecientes y su posición relativa viene dada por la figura.
28
tema 62
matemáticas
Si −1 < r < 0, las dos variables están tanto más correladas a medida que r se
aproxima a −1. Por tanto, es un caso de dependencia aleatoria.
Tan importante es el valor del coeficiente r como el valor del coeficiente:
σ xy2
r =
2
σ x2σ y2
al que se denomina coeficiente de determinación ya que determina si el

ajuste lineal el suficiente o se deben buscar ajustes o modelos alternativos.
Teniendo en cuenta esto, si r2 = 1, la correlación es perfecta, y en el caso de
que r2 = 0 (entonces r = 0 ) implica que la correlación es nula, es decir, en
este caso X no nos sirve para describir el comportamiento de la variable Y.
29
tema 62
matemáticas
4 Significado y aplicciones
La aplicación de los métodos expuestos de regresión y correlación exige un análi-

sis teórico previo de las posibles relaciones entre las variables. Puede ocurrir que
se seleccionen dos variables cualesquiera al azar y que dé la casualidad de que,
estadísticamente, la correlación es perfecta cuando no existe relación posible entre
ellas. Por ejemplo, el hecho que, casualmente, la correlación lineal entre la tasa de
natalidad en Nueva Zelanda y la producción de cereales en España a lo largo de
un determinado período fuera perfecta no nos debería llevar a suponer que existe
algún tipo de relación lineal entre estas variables.
Se deben seleccionar entre las que la fundamentación teórica avale algún tipo de
relación, evitando, en lo posible, relaciones a través de otra variable principal. Por
ejemplo, el consumo de bebidas puede variar en la misma dirección que el consu-
mo de gasolina, pero no porque una variable dependa directamente de la otra, sino
porque ambas van en el mismo sentido que las variaciones de la renta, que será la
principal variable explicativa.
4.2. Predicción
El objetivo último de la regresión es la predicción o pronóstico sobre el comporta-

miento de una variable para un valor determinado de la otra. Así, dada la recta de
regresión de Y sobre X, para un valor X = x0 de la variable, obtenemos y0.
Es claro que la fiabilidad de esta predicción será tanto mayor, en principio, cuanto
mejor sea la correlación entre las variables. Por tanto, una medida aproximada de
la bondad de la predicción podría venir dada por r.
Veamos un ejemplo práctico de aplicación del coeficiente de correlación en el

campo de la medición.
La medida de parámetros fisiológicos está sujeta a error y a la propia variabilidad
biológica. La presión arterial es un claro ejemplo: aunque la técnica es bastante
simple, pueden aparecer errores debidos a defectos del aparato utilizado, a la apli-
cación del manguito, al estado del paciente y a la objetividad y preparación del
observador. Es de desear que el proceso sea fiable: la repetición de las medidas de
la misma magnitud producen resultados iguales o al menos similares. Hablamos
entonces de fiabilidad de las mediciones, estabilidad o concordancia. Diremos
que una medición es fiable si la variabilidad en mediciones sucesivas se mantiene
dentro de cierto margen razonable.
30
tema 62
matemáticas
En ocasiones pueden existir diferentes métodos de medida, siendo uno de ellos

el que mejor determina la magnitud de la variable en estudio. A éste se le conoce
como patrón de referencia y en principio sería el método a emplear preferente-
mente, salvo que presente serios inconvenientes, como pueden ser el coste, com-
plicado de utilizar, etc. Es el caso de la medición de la tensión arterial mediante la
introducción de un catéter flexible en una arteria periférica.
Si se dispone de un método alternativo al método de referencia, más práctico de
utilizar, interesa determinar la concordancia entre ambos sistemas.
El coeficiente de correlación se emplea como índice de concordancia entre los dos
métodos.
Para acabar, indicar que todos los conceptos tratados a lo largo del tema se aplican
en muchos y diferentes campos.
En Sanidad por ejemplo en la comparación de medidas corporales (peso y talla, ni-
vel de grasa y colesterol…). En Educación buscando la relación, por ejemplo, entre
el nivel socioeconómico del alumnado y su rendimiento escolar. En Psicología ya
que en una investigación psicológica existen, además de los sujetos, otras unidades
de análisis y es importante determinar la influencia de estos en el comportamiento
del individuo. En distintas áreas de Economía como la econometría…
31
tema 62
matemáticas
BIBLIOGRAFÍA
ARNÁIZ, G.: Introducción a la Estadística Teórica. Ed. Lex Nova. Valladolid, 1986.
CALOT, G.: Curso de Estadística Descriptiva. Ed. Paraninfo. Madrid, 1988.
HOEL, P. G.: Introducción a la Estadística Matemática. Ed. Ariel. Barcelona, 1980.
MOLINERO, L.M.: Errores de medida en variables numéricas: Correlación y Concordancia.
QUESADA, V.: Cálculo de Probabilidades. I.C.E. Madrid, 1985.
RÍOS, S.: Métodos Estadísticos. Ed. del Castillo. Madrid, 1985.
32
tema 62
matemáticas
RESUMEN
Series estadísticas bidimensionales.

Regresión y correlación lineal.
Coeficiente de correlación.
Significado y aplicaciones.
1.
1 Series estadísticas bidimensionales
1.1. Variables estadísticas bidimensionales: tablas estadísticas

Cuando tenemos una población de N individuos descritos simultáneamente por
dos variables X e Y tenemos una variable estadística bidimensional (X, Y).
En el caso de variables bidimensionales podemos distinguir tres tipos de tablas:
Primer tipo: cuando el número de datos bidimensionales N es pequeño.
Segundo tipo: cuando el número de datos N es grande pero existe un número pequeño
de parejas de valores distintos.
Tercer tipo: cuando el número de observaciones es elevado y el número de distintas
parejas de valores observadas también.

Las principales representaciones gráficas que se adoptan para variables bidimensionales
(cuantitativas) se eligen dependiendo de:
a) Si X e Y son variables discretas.
b) Si X es una variable continua e Y discreta, o viceversa.
c) Si las variables X e Y son ambas continuas.
En este apartado se estudian los siguientes conceptos
1.3.3. Independencia y dependencia
1.3.6. Momentos
33
tema 62
matemáticas
1.4. Covarianza
La covarianza es una medida general de la independencia de las variables de una distribu-
ción bidimensional dada por la siguiente fórmula:
k p
∑∑n
i =1 j =1
ij ( xi − x ) ( yj − y )
σ xy =
N
2.
2 Regresión y correlación lineal

El problema es hallar una función que se adapte lo mejor posible al conjunto de datos y
permita predecir con éxito el resultado de futuras experiencias.
XX Método de los mínimos cuadrados
Este método nos proporciona las condiciones para, elegida una familia de funciones, de-
terminar cuál de ellas ajusta mejor nuestra nube de puntos.

La recta:
σxy
y−y = (x − x )
σ y2
es la que mejor ajusta nuestro diagrama de puntos.
3.
3 Coeficiente de correlación
Se llama correlación al grado de dependencia que hay entre las variables.

Si los puntos se condensan alrededor de una recta, la correlación es lineal, si es alrededor
de una curva, la correlación es no lineal, y si no hay ninguna relación entre las variables se
dice que no están correlacionadas.

Definimos por coeficiente de correlación lineal entre X e Y a la razón:
k p
∑ ∑ f (x − x ) ( y
i =1 j =1
ij i j − y)
r=
k p k p
∑∑ f ij ( xi − x ) ∑ ∑ f (y − y)
2 2
ij j
i =1 j =1 i =1 j =1
34
tema 62
matemáticas
4.
4 Significado y aplicaciones
En este apartado se desarrollan las siguiente aplicaciones.
4.2. Predicción
35

2010 Matematicas 62 13

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2010 Matematicas 62 13

Uploaded by

Copyright:

Available Formats

tema

Series estadísticas bidimensionales.

1. Series estadísticas bidimensionales

1.2. Representaciones gráficas

1.3. Distribuciones marginales y condicionadas

2. Regresión y correlación lineal

2.2. Regresión lineal

3.2. Coeficiente de correlación lineal: propiedades

4.3. Errores de medida en variables numéricas

4.4. Otras aplicaciones

4.5. Distribuciones marginales y condicionadas

Una estadística de una característica de la población pretende ofrecer información cuanti-

1 Series estadísticas bidimensionales

1.1. Variables estadísticas bidimensionales:

En múltiples problemas estadísticos, la observación de un fenómeno da lugar a

Variable X Variable Y Frecuencia

Si las variables no están agrupadas en clases, se pueden suprimir la primera fila

1.2. Representaciones gráficas

Las principales representaciones gráficas que se adoptan para variables bidimen-

entonces, su representación gráfica será la siguiente:

 Si X es variable continua e Y es variable discreta

 Si las variables X e Y son ambas continuas

1.3. Distribuciones marginales y condicionadas

1.3.1. Distribuciones marginales

En la tabla, la distribución marginal de X está formada por la primera y la última

1.3.2. Distribuciones condicionadas

Llamaremos distribución condicionada de la variable X por el valor yj a la repre-

Valores de X Frec. absolutas Frec. relativas

Del mismo modo, la frecuencia condicionada de yj por xi es:

Valores de Y Frec. absolutas Frec. relativas

1.3.3. Independencia y dependencia funcional

Puede suceder que las variables X e Y tengan un cierto grado de dependencia. De

XX Definición de independencia funcional

Diremos que la variable X es independiente de Y cuando las frecuencias relativas

A continuación damos un ejemplo de dos variables independientes:

X F. Abs. ni F. Rel. Fi Y F. Abs. nj F. Rel. Fj

Las distribuciones condicionadas son:

X F. Abs. ni F. Rel. Fij Y F. Abs. nj F. Rel. Fji

XX Definición de dependencia funcional

Se dice que la variable X depende funcionalmente de Y si a cada valor yj corres-

Cuando la variable Y también depende funcionalmente de X, se dice que la fun-

1.3.4. Características marginales

Consideremos la distribución marginal de X. Sus características más importantes

1.3.5. Características condicionadas

Consideremos la distribución condicionada de X al valor yj, dada por la tabla de

X Frec. Absoluta Frec. Relativa

Definimos la media xj y la varianza Vj (x) de esta distribución por:

Del mismo modo se definen para la distribución de la variable Y condicionada a xi:

Definiremos momento de orden r respecto a X, y de orden s respecto a Y, con re-

Los más importantes son:

Los momentos centrales se obtienen haciendo c1 = x, c2 = y . El momento cen-

µ00 = 1 µ10 = 0 µ01 = 0

Hemos visto anteriormente como asociadas a una variable estadística bidimensio-

entonces si llamamos suv a la covarianza de las nuevas variables transformadas,

2 Regresión y correlación lineal

2.1. El problema del ajuste

En algunas ocasiones, del estudio teórico de un fenómeno se puede deducir la fór-

XX Método de los mínimos cuadrados

Para resolverlo se definen las desviaciones de las observaciones:

el sistema (4) toma la forma:

2.2. Regresión lineal

Para cada punto P(xi,yj) su desviación respecto a la recta y = ax + b es la cantidad

Sea mínima deben cumplirse las condiciones siguientes:

Si X es variable continua e Y es variable discreta

Si las variables X e Y son ambas continuas