Professional Documents
Culture Documents
12 Regresin
Las tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una
relacin. Para ilustrarlo retomemos los ejemplos mencionados al principio del captulo. Si
sobre un grupo de personas observamos los valores que toman las variables
no es necesario hacer grandes esfuerzos para intuir que la relacin que hay entre ambas es:
Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de
personas es
A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo
que denominamos regresin.
Figura: Mediante las tcnicas de regresin de una variable Y sobre una variable X,
buscamos una funcin que sea una buena aproximacin de una nube de puntos
(xi,yi), mediante una curva del tipo
que la diferencia entre los valores yi e
, tal como
El trmino que hemos denominado error debe ser tan pequeo como sea posible (figura 3.7).
El objetivo ser buscar la funcin (tambin denominada modelo de regresin)
lo minimice. Vase la figura 3.8.
que
Estamos interesamos en hacer regresin para determinar, de modo aproximado, los valores de
Y conocidos los de X, debemos definir cierta variable
de modo que:
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los
autnticos valores de Y y los tericos suministrados por la regresin,
y calculando
de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una
Anlogamente si nos interesa encontrar una curva de regresin para X como funcin de Y,
definiramos
Las cantidades
y
sirven entonces para medir de qu modo las diferencias entre los
verdaderos valores de una variable y los de su aproximacin mediante una curva de regresin
son pequeos en relacin con los de la variabilidad de la variable que intentamos aproximar.
Por esta razn estas cantidades miden el grado de bondad del ajuste.
3.14 Problemas
Ejercicio 3..1. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda
utilizar la concentracin de estrona en saliva(X) para predecir la concentracin del esteroide
en plasma libre (Y). Se extrajeron los siguientes datos de 14 varones sanos:
X 1,4 7,5 8,5
11 13 14 14,5
55
16
17
18
20 23
48,5 51 64,5 63 68
1.
Estdiese la posible relacin lineal entre ambas variables.
2.
Obtener la ecuacin que se menciona en el enunciado del problema.
3.
Determinar la variacin de la concentracin de estrona en plasma por unidad de
estrona en saliva.
Ejercicio 3..2. Los investigadores estn estudiando la correlacin entre obesidad y la
respuesta individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La
respuesta al dolor se mide utilizando el umbral de reflejo de flexin nociceptiva (Y), que es
una medida de sensacin de punzada. Se obtienen los siguientes datos:
X 89 90 75 30 51 75 62 45 90 20
Y 2
4 4,5 5,5 7
9 13 15 14
1.
Qu porcentaje de la varianza del peso es explicada mediante un modelo de regesein
lineal por la variacin del umbral de reflejo?
2.
Estdiese la posible relacin lineal entre ambas variables, obteniendo su grado de
ajuste.
3.
Qu porcentaje de sobrepeso podemos esperar para un umbral de reflejo de 10?
Ejercicio 3..3. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la
capacidad corporal para absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada
uno se le da una dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad
de cada componente retenida en el sistema corporal y, a partir de sta, se determina el
porcentaje absorbido por el cuerpo. Se obtuvieron los siguientes datos:
Porcentaje de hierro
17 22 35 43 80 85 91 92 96 100
Porcentaje de plomo
8 17 18 25 58 59 41 30 43 58
1.
Comprobar la idoneidad del modelo lineal de regresin.
2.
Obtener la recta de regresin, si el modelo lineal es adecuado.
3.
Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal
absorbe el 15% del plomo ingerido.
Ejercicio 3..4. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a
un lago, se toman medidas de la concentracin de nitrato en el agua. Para monitorizar la
variable se ha utilizado un antiguo mtodo manual. Se idea un nuevo mtodo automtico. Si se
pone de manifiesto una alta correlacin positiva entre las medidas tomadas empleando los dos
mtodos, entonces se har uso habitual del mtodo automtico. Los datos obtenidos son los
siguientes:
Manual
Automtico
1.
Hallar el coeficiente de determinacin para ambas variables.
2.
Comprobar la idoneidad del modelo lineal de regresin. Si el modelo es apropiado,
hallar la recta de regresin de Y sobre X y utilizarla para predecir la lectura que se
obtendra empleando la tcnica automtica con una muestra de agua cuya lectura
manual es de 100.
3.
Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal
de regresin para X en funcin de Y, e Y en funcin de X, es decir, e .
4.
Calcule los errores para cada una de dichas predicciones, es decir, las variables
e
5.
Que relacin hay entre las medias de X y
? Y entre las de Y e
6.
Calcule las medias de
, Y,
Y entre
7.
e
8.
y
9.
Que relacin ecuentra entre
10.
Justifique a partir de todo lo anterior porqu se denomina r2 como grado de bondad
del ajuste lineal.
10 15 20 25 35
1.
Hllese la expresin de la ecuacin lineal que mejor exprese la variacin de la
creatinina, en funcin de los dias transcurridos tras la dilisis, as como el grado de
bondad de ajuste y la varianza residual.
2.
En qu porcentaje la variacin de la creatinina es explicada por el tiempo transcurrido
desde la dilisis?
3.
Si un individuo presenta 4'1 mg/dl de creatinina, cunto tiempo es de esperar que
haya transcurrido desde la suspensin de la dilisis?
Ejercicio 3..6. En un ensayo clnico realizado tras el posible efecto hipotensor de un frmaco,
se evala la tensin arterial diastlica (TAD) en condiciones basales (X), y tras 4 semanas de
tratamiento (Y), en un total de 14 pacientes hipertensos. Se obtienen los siguiente valores de
TAD:
X 95 100 102 104 100 95 95 98 102 96 100 96 110 99
Y 85 94
84
88
85 80 80 92 90 76 90 87 102 89
1.
Existe relacin lineal entre la TAD basal y la que se observa tras el tratamiento?
2.
Cul es el valor de TAD esperado tras el tratamiento, en un paciente que present una
TAD basal de 95 mm de Hg?
Ejercicio 3..7. Se han realizado 9 tomas de presin intracraneal en animales de laboratorio,
por un mtodo estndar directo y por una nueva tcnica experimental indirecta, obtenindose
los resultados siguientes en mm de Hg:
Mtodo estndar
9 12 28 72 30 38 76 26 52
Mtodo experimental
6 10 27 67 25 35 75 27 53
1.
Hallar la ecuacin lineal que exprese la relacin existente entre las presiones
intracraneales, determinadas por los dos mtodos.
2.
Qu tanto por ciento de la variabilidad de Y es explicada por la regresin? Hllese el
grado de dependencia entre las dos variables y la varianza residual del mismo.
Subsecciones
3.12.4.1 Observacin
3.12.4.2 Regresin de Y sobre X
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues
nos vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos
conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos
cantidades a y b tales que se pueda escribir
de forma que
e Y, o bien
3.12.4.1 Observacin
Obsrvese que la relacin 3.12 explica cosas como que si X vara en 1 unidad,
cantidad b. Por tanto:
Si b>0, las dos variables aumentan o disminuyen a la vez;
Si b<0, cuando una variable aumenta, la otra disminuye.
vara la
Por tanto, en el caso de las variables peso y altura lo lgico ser encontrar que b>0.
El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir de un
conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a
desarrollar son de forma esquemtica, las que siguen:
1.
Dadas dos variables X, Y, sobre las que definimos
2.
Una aproximacin
de Y, se define a partir de dos cantidades a y b. Vamos
a calcular aquellas que minimizan la funcin
Una vez que tenemos definido el error de aproximacin mediante la relacin (3.13) las
cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero
(procedimiento de los mnimos cuadrados):
La relacin (3.15), no es ms que otra manera de escribir la relacin (3.14), que se denomina
ecuaciones normales. La primera de (3.14) se escribe como
donde
pues de este modo se minimiza, en el sentido de los mnimos cuadrados, los errores entre las
cantidades xi y las
(figura 3.10.)
3.12.4.4 Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e
Y. Los resultados se muestran resumidos en los siguientes estadsticos:
Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este
modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin:
En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable. Para
dar una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a
continuacin.
3.12.4.6 Proposicin
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las
variables X e Y y sus aproximaciones y , pues slo se mantienen en un factor de r2, es
decir,
Demostracin
Basta probar nuestra afirmacin para la variable Y, ya que para X es totalmente anlogo:
3.12.4.7 Observacin
Como consecuencia de este resultado, podemos decir que la proporcin de varianza explicada
por la regresin lineal es del
Nos gustara tener que r=1, pues en ese caso ambas variables tendran la misma varianza, pero
esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que
y por tanto
El tercer sumando se anula segn las ecuaciones normales expresadas en la relacin (3.15):
Por ello
3.12.4.8 Proposicin
Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinacin son iguales a
r2, y por tanto representan adems la proporcin de varianza explicada por la regresin lineal:
Por ello:
Si
el ajuste es bueno (Y se puede calcular de modo bastante aproximado a
partir de X y viceversa).
Si
las variables X e Y no estn relacionadas (linealmente al menos), por tanto
no tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables
no posean ninguna relacin en el caso r=0, ya que si bien el ajuste lineal puede no ser
procentente, tal vez otro tipo de ajuste s lo sea.
3.12.4.9 Ejemplo
De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene
la siguiente informacin:
Calcule:
1.
La recta de regresin de Y sobre X. Explique el significado de los parmetros.
2.
El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de
la variacin de Y que no est explicada por el modelo lineal de regresin.
3.
Si el modelo es adecuado, cul es la prediccin
para x=4.
Solucin:
1.
En primer lugar calculamos las medias y las covarianza entre ambas variables:
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir,
a medida que X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de
la ordenada en el origen, a, tenemos:
2.
El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin:
de la variabilidad de Y en
de variabilidad no explicada.
3.
La prediccin que realiza el modelo lineal de regresin para x=4 es:
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado
anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.
3.12.4.10 Ejemplo
En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y edad,
obtenindose los siguientes resultados:
Resultado de las mediciones
edad 12
8 10 11
7 10 14
peso 58 42 51 54 40 39 49 56
Existe una relacin lineal importante entre ambas variables? Calcular la recta de regresin de
la edad en funcin del peso y la del peso en funcin de la edad. Calcular la bondad del ajuste
En qu medida, por trmino medio, vara el peso cada ao? En cunto aumenta la edad por
cada kilo de peso?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale:
ya que
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ngulo entre el vector formado
por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su
valor medio, , es:
es decir, entre esos vectores hay un buen grado de paralelismo (slo unos 19 grados de
desviacin).
La recta de regresin del peso en funcin de la edad es
Por ltimo la cantidad en que vara el peso de un paciente cada ao es, segn la recta de
regresin del peso en funcin de la edad, la pendiente de esta recta, es decir, b1=2,8367
Kg/ao. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas
se rige por la cantidad b2=0,3136 aos/Kg de diferencia.