You are on page 1of 22

CORRELACION Y REGRESION

Ejercicios resueltos
Cuestiones
1. Calcular la media, desviacin estndar, varianza, intervalo, etc. utilizando los clculos intermedios y
funciones de Excel.
2. Dibujar un diagrama de dispersin.
3. Dibujar un diagrama de probabilidad normal para cada variable.
4. Calcular el coeficiente de correlacin.
5. Qu parte de la variacin observada en la concentracin cataltica de Fosfatasa alcalina (columna X )
se explica por la aproximadamente relacin linear con la ALT (columna Y )?
6. Determinar la ecuacin de regresin por mnimos cuadrados.
7. Hallar los residuales. Dibujar un diagrama de residuales, diagrama QQ de residuales y diagrama de
residuales frente a valores ajustados: es apropiado el modelo lineal?
8. Suponiendo un valor de 0,85 x = , cul es el valor esperado de y ?
Datos
Determinaciones de enzimas marcadores de hepatopata: fosfatasa alcalina y ALT.
Columna X: resultados de determinar fosfatasa alcalina;
Columna Y: resultados de determinar ALT
49 n= supuestos pacientes
X Y
1 0,10 20
2 0,20 30
3 0,10 25
4 0,20 30
5 0,10 35
6 0,01 35
7 0,01 40
8 0,10 30
9 0,90 60
10 0,80 55
11 1,00 60
12 0,80 30
13 0,01 20
14 0,01 25
15 0,30 20
16 0,20 25
17 0,10 45
18 0,01 25
19 0,10 40
20 0,60 45
21 1,19 50
22 2,40 75
23 0,01 40
2
24 0,58 35
25 1,30 60
26 1,20 65
27 2,40 80
28 1,50 65
29 1,40 65
30 2,00 65
31 2,50 70
32 2,50 75
33 1,25 60
34 1,50 65
35 1,90 70
36 2,40 70
37 2,41 60
38 2,38 85
39 1,50 50
40 2,00 60
41 2,50 70
42 1,20 60
43 2,00 65
44 2,40 90
45 2,60 80
46 2,00 70
47 1,50 60
48 2,38 65
49 2,39 80
El aspecto de los primeros 12 datos en Excel es:
El clculo de las cantidades necesarias para la realizar un estudio estadstico descriptivo se hace utilizando
las siguientes funciones
1
frmula funcin Excel
Suma (1)
1
n
i
i
x
=

Suma de cuadrados (2)


2
1
n
i
i
x
=


1
Para acceder a estas funciones, debe teclearse directamente la instruccin o acceder al men funciones, como se
explica en el Apndice A.
3
frmula funcin Excel
Suma de productos (3)
1
n
i i
i
x y
=

El resultado es el siguiente:
frmula funcin Excel
Media (4)
1
1
n
i
i
x x
n
=
=

(5) ( )
2
2
1
1
1
n
i
i
s x x
n
=
=


Varianza
(6)
2
1 2 2
1
1
1
n
i
n
i
i
i
x
s x
n n
=
=
(
| |
(
|
\ . (
=
(

(
(

Desviacin tpica
(7)
2
s s =
Los resultados, utilizando el clculo con las frmulas o directamente con las funciones es el mismo:
Una forma alternativa es utilizar la opcin del men :
4
Al pulsar [ sobre esta opcin se abre la siguiente ventana:
y seleccionar [ la opcin con para dar paso a la siguiente pantalla:
En el que hay que introducir en la ventana
las celdas que contienen las observaciones, indicando que estn agrupadas por columnas:

Ntese que al marcar ; en la opcin se ha introducido la fila 1 en la definicin del
conjunto de observaciones. El resto de opciones se dejan por defecto.
Al esta pantalla, en una hoja de clculo nueva aparece el resultado del anlisis descriptivo:
5
2. Dibujar un grfico de dispersin
Pulsar [ en la barra de herramientas de Excel la opcin que abre el men
Pulsar [ en la opcin para iniciar una serie de cuatro pasos del asistente para grficos en la
primera pantalla:
6
Seleccionar [ la opcin y pulsar [ en para acceder a la pantalla:
Es posible introducir cambios y rtulos utilizando las ventanas de la pestaa y mejorar
estticamente el aspecto de los diagramas. Sin embargo, para simplificar esta exposicin se obviaran estos
detalles.
Pulsar [ en para acceder a la tercera pgina del asistente, donde se puede introducir la
informacin complementaria e introducir rtulos en el diagrama:
7
Pulsar [ en para acceder a la cuarta pgina:
que seala la ubicacin del diagrama de dispersin y se procede a finalizarlo [ pulsando en
:
Situar el cursor y pulsar [ sobre un punto cualquiera del diagrama
8
Abrir el men contextual pulsando el botn derecho del ratn ] :
Seleccionar ] la opcin para abrir el men siguiente:
Seleccionar ] la opcin .
La pestaa abre la siguiente pantalla
9
Marcar ] ; en las opciones
Y [ pulsar en para obtener el diagrama con una lnea recta orientativa del modelo que
puede seguir la relacin entre X e Y :
3. Dibujar un diagrama de probabilidad normal
Una forma prctica es utilizar la opcin del men como se hizo
anteriormente para obtener la estadstica descriptiva:
10
Al pulsar [ sobre esta opcin se abre la siguiente ventana:
y pulsando [,la opcin se selecciona con para dar paso a la siguiente pantalla:
En este men se entra el intervalo de celdas correspondientes a la variable Y , y a la variable X ,
mencionando si la primera celda contiene informacin del nombre de la variable:
11
Debe indicarse el destino de la informacin que Excel va a procesar, indicando la celda que ser el extremo
superior izquierdo de la salida (como se indica en este ejemplo) o si por el contrario se desea en una hoja o
libro aparte:
Para obtener un grfico de probabilidad normal, debe [ marcarse la correspondiente opcin:
y aceptar [ pulsando para obtener el siguiente resultado:
junto con la informacin de la regresin:
12
y el correspondiente anlisis de la varianza y de los coeficientes de regresin que tendr inters desde el
punto de vista inferencial:
4. Dibujar un diagrama de probabilidad normal
Primeramente debe establecerse las clases en que clasificar los datos. En este ejemplo se han escogido 26
clases entre 0 y 2,6 con intervalos crecientes de 0,1 unidades:
0,1
0,2
0,3
0,4
0,5
0,6
0,7
etc.
Para hallar la frecuencia acumulada en cada clase se [ situar el cursor en la celda que queda delante
de la definicin del primer grupo:
Y se proceder a insertar la funcin que proporciona la frecuencia acumulada. Para ello, se debe pulsar [
en y seleccionar y en el men:
13
Para que se abra el men correspondiente a la funcin:
entrando en Datos el intervalo de casos y en Grupos el cdigo de la primera celda de la lista de clases.
Pulsar [ y en esta celda queda registrado el valor de la distribucin acumulada emprica. En la celda de
la derecha se expresar este valor en forma de fraccin dividiendo por 1 n + :
de forma que el aspecto de esta primera lnea es:
En la celda de la derecha se obtendr el correspondiente inverso de la distribucin normal insertando la
funcin apropiada: pulsando en y seleccionando y en el men
14
Entrar pulsando para obtener el men:
En el que se entra la celda donde est la probabilidad acumulada tecleando el cdigo de entrada y aceptar
pulsando para que devuelva el valor de z . Copiando los contenidos de estas tres celdas (en
el ejemplo F2:H2) a todo el intervalo de clases, se obtiene la siguiente tabla:
15
Finalmente, se trata de dibujar un diagrama de dispersin entre la marca de clase (en abscisas) y el valor de
la desviacin de la distribucin normal estndar inversa ( z ) en ordenadas:
5. Calcular el coeficiente de correlacin de Pearson y de Spearman
Para el clculo del coeficiente de correlacin de Pearson se requieren los siguientes clculos intermedios:
frmula funcin Excel
Suma del cuadrado de las
desviaciones
2
1 2 2
1
n
i
n
i
xx i
i
x
S x
n
=
=
| |
|
\ .
=

Suma del producto de


desviaciones
1 1 2
1
n n
i i
n
i i
yx i i
i
y x
SS y x
n
= =
=
| || |
| |
\ .\ .
=

16
Covarianza
( ) cov ,
yx
S
X Y
n
=
Coeficiente de correlacin de
Pearson
yx
yy xx
S
r
S S
=
El resultado de aplicar las funciones Excel es:
El coeficiente de correlacin de 0,91 es sugestivo de que la relacin entre X e Y es lineal.
Una forma alternativa es utilizar el men
Y seleccionar para obtener como resultado una matriz de correlacin:
6. Qu parte de la variacin observada en una variable se explica por la relacin
linear con la otra?
Para investigar la parte de la variabilidad en la concentracin cataltica de Fosfatasa alcalina ( X ) atribuible
a la variabilidad de ALT ( Y ), debe calcularse el coeficiente de determinacin
2
R :
frmula funcin Excel
Coeficiente de determinacin
2
2 2 yx
yy xx
S
R r
S S
| |
| = =
|
\ .
El resultado es:
Es decir, el 82,3 % de la variabilidad de X es atribuible a la variabilidad de Y .
7. Determinar la ecuacin de regresin por mnimos cuadrados
El modelo de regresin
i i i
y x = + + donde
( )
2
0,
i
N implica los siguientes clculos:
frmula funcin Excel
Pendiente

yx
xx
S
S
=
Interceptacin

y x =
17
El resultado es:
El uso de la funcin tambin permite estimar los valores de la pendiente y de la
interceptacin, sin embargo su utilizacin (algo ms compleja) es ms apropiada para clculos
inferenciales,.
8. Hallar los residuales. Dibujar un diagrama de residuales, diagrama QQ de
residuales y diagrama de residuales frente a valores ajustados: es apropiado el
modelo lineal?
Si en el men:
se ha [ seleccionado la opcin
Puede a su vez [ seleccionarse las siguientes opciones para hacer un anlisis de residuales:
Al pulsar [ aparecen los siguientes datos:
Anlisis de los residuales Resultados de datos de probabilidad
Observacin Pronstico Y Residuos Residuos estndares Percentil Y
1 32,20679888 -12,2067989 -1,47656835 1,020408163 20
18
2 34,09774421 -4,09774421 -0,49567454 3,06122449 20
3 32,20679888 -7,20679888 -0,87175444 5,102040816 20
4 34,09774421 -4,09774421 -0,49567454 7,142857143 25
5 32,20679888 2,793201117 0,337873378 9,183673469 25
6 30,50494809 4,495051912 0,543733985 11,2244898 25
7 30,50494809 9,495051912 1,148547896 13,26530612 25
8 32,20679888 -2,20679888 -0,26694053 15,30612245 30
9 47,3343615 12,6656385 1,53207087 17,34693878 30
10 45,44341617 9,556583828 1,155990967 19,3877551 30
11 49,22530683 10,77469317 1,303336863 21,42857143 30
12 45,44341617 -15,4434162 -1,86807859 23,46938776 35
13 30,50494809 -10,5049481 -1,27070775 25,51020408 35
14 30,50494809 -5,50494809 -0,66589384 27,55102041 35
15 35,98868954 -15,9886895 -1,93403637 29,59183673 40
16 34,09774421 -9,09774421 -1,10048845 31,63265306 40
17 32,20679888 12,79320112 1,547501199 33,67346939 40
18 30,50494809 -5,50494809 -0,66589384 35,71428571 45
19 32,20679888 7,793201117 0,942687289 37,75510204 45
20 41,66152552 3,338474482 0,403831161 39,79591837 50
21 52,81810295 -2,81810295 -0,34088557 41,83673469 50
22 75,69854141 -0,69854141 -0,08449751 43,87755102 55
23 30,50494809 9,495051912 1,148547896 45,91836735 60
24 41,28333645 -6,28333645 -0,76004986 47,95918367 60
25 54,89814281 5,101857192 0,61713484 50 60
26 53,00719748 11,99280252 1,450682758 52,04081633 60
27 75,69854141 4,301458595 0,520316399 54,08163265 60
28 58,68003346 6,319966538 0,764480735 56,12244898 60
29 56,78908813 8,210911865 0,993214743 58,16326531 60
30 68,1347601 -3,1347601 -0,3791893 60,20408163 60
31 77,58948673 -7,58948673 -0,91804543 62,24489796 65
32 77,58948673 -2,58948673 -0,31323152 64,28571429 65
33 53,95267014 6,047329856 0,731501844 66,32653061 65
34 58,68003346 6,319966538 0,764480735 68,36734694 65
35 66,24381477 3,75618523 0,454358616 70,40816327 65
36 75,69854141 -5,69854141 -0,68931142 72,44897959 65
37 75,88763594 -15,8876359 -1,92181264 74,48979592 65
38 75,32035234 9,67964766 1,170877111 76,53061224 70
39 58,68003346 -8,68003346 -1,049961 78,57142857 70
40 68,1347601 -8,1347601 -0,98400321 80,6122449 70
41 77,58948673 -7,58948673 -0,91804543 82,65306122 70
42 53,00719748 6,99280252 0,845868848 84,69387755 70
43 68,1347601 -3,1347601 -0,3791893 86,73469388 75
44 75,69854141 14,30145859 1,72994422 88,7755102 75
45 79,48043206 0,519567941 0,062848384 90,81632653 80
46 68,1347601 1,865239903 0,225624608 92,85714286 80
47 58,68003346 1,319966538 0,159666825 94,89795918 80
48 75,32035234 -10,3203523 -1,24837853 96,93877551 85
49 75,50944687 4,490553128 0,5431898 98,97959184 90
19
Y los grficos correspondientes a los residuales y a la recta ajustada
9. Suponiendo un valor de 0, 85 x = , cul es el valor esperado de y ?
18, 909 30, 316
18, 909 0, 85 30, 316
43, 39
y x
y
y
= +
= +
=
20
Apndice A. Acceso a las funciones Excel.
1. Colocar el cursor en la celda donde se va a colocar el resultado de la funcin. Por ejemplo, B52:
2. En la barra de utilidades aparecer la identificacin de la celda
3. Pulsar [ sobre el signo o en y aparece el men correspondiente a la ltima funcin
solicitada:
4. Pulsando [ el botn se despliega una lista de las funciones utilizadas ms recientemente:

5. Pulsar [ sobre el nombre oportuno, por ejemplo . Si no es ninguna de estas,
marcar [ la opcin y se abrir el men Pegar funcin
21
con diferentes posibilidades clasificadas por categoras. Marcar, por ejemplo para
obtener
1
n
i i
i
x y
=

y aceptar la seleccin con para que se abra el men de la funcin en la hoja de clculo:
6. A esta ventana se puede acceder de forma ms directa pulsando [ directamente en
la tecla que hace aparecer
el siguiente men:
7. Pulsar [ en
22
8. En la ventana hay que introducir el intervalo de
datos correspondiente al primer factor de
1
n
i i
i
x y
=

: B2:B50. Alternativamente, [ pulsando se accede


a la hoja de clculo en modo marcar intervalo de celdas para identificar con el cursor el conjunto de
registros que se desea multiplicar. La ventana
que queda abierta indica el intervalo marcado. Finalizar [ pulsando sobre el icono de esta ventana
para regresar al men de la funcin.
Repetir este procedimiento para la ventana Matriz2, que tendr este aspecto:
Obsrvese como en la parte inferior de la ventana del men de funcin aparece el resultado de aplicar la
funcin:
.
Aceptar [ pulsando en Y en la celda de destino queda registrado este mismo resultado: