P. 1
Analisis de Regresion Verano 2006

Analisis de Regresion Verano 2006

5.0

|Views: 84|Likes:
Published by api-3708303

More info:

Published by: api-3708303 on Oct 15, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPT, PDF, TXT or read online from Scribd
See more
See less

03/18/2014

pdf

text

original

UNIVERSIDAD DE SAN MARTIN DE PORRES

Análisis de Regresión y Correlación
BIOESTADISTICA 2006

1. Introducción
En ciencias de la salud y en otras áreas con mucha frecuencia conviene saber algo de la fuerza o intensidad de la relación entre variables como: edad y presión arterial, remuneración mensual y rendimiento en el trabajo, talla y peso, ingreso familiar y gastos médicos, edad y frecuencia cardiaca, edad y talla, etc; observar que estos ejemplos involucran variables numéricas medidas en escala de intervalo o de razón.

Cuando tanto X como Y son variables aleatorias, se tiene lo que se conoce como modelo de correlación. Típicamente, bajo el modelo de correlación se selecciona una muestra probabilística de unidades de asociación (que pueden ser personas, lugares, animales, puntos en el tiempo o cualquier otro elemento) luego, de cada una de las unidades se toma una medida de X y una medida de Y.

Una correlación puede ser positiva (cuando, por ejemplo tanto X como Y aumentan), o negativa (cuando por ejemplo, al aumentar una variable la otra disminuye). Por otra parte, si la variación de X y la variación de Y no se corresponden en absoluto, entonces no existe ninguna asociación y por tanto, ninguna correlación, entre las dos variables.

1.

Diagrama de puntos
Para iniciar un análisis de correlación (y también el de regresión) se elabora el diagrama de puntos o de dispersión, el cual proporciona un indicio, no sólo de la forma de la relación entre las variables, sino también del grado de correlación. Dicho gráfico permite representar, con un punto en el plano cartesiano, cada par ordenado (X,Y). Así por ejemplo:

Diagrama de dispersión
Xi X1 X2 Yi Y1 Y2 . . . Yn 0
X Y

Xn

(a) Lineal directa
Y Y

(b) Lineal inversa

• • • • • • • • •
Y

• • • • • • •

es s


X Y Lineal inversa (b)
Y


X
Y

• • Y • Positiva Lineal • • ibles • • •• • • • • • • tos • • • • • e •

Y

• • • • • • ••• • •• • • • •• • •• • • • • •
• • • ••

• Lineal directa (a) •

• • • •• • • • •

(c) C

X

X (e) Lineal inversa X con más dispersión

X (d) Curvilinea inversa

• • •• •• • • •

• Lineal •Negativa •• •
• •

Y

Y

(c) Curvilínea directa Y

(a) Lineal directa

( Y

X

Relaciones • • • • posibles entre • • y Y •vistos X • • • en diagramas de • • • X dispersión
Y

Y

• • • • • • • • •
Y

X Y

Curvilínea Positiva • • •
•• • • • • •• • • • • • • •• •• • • ••

• • •• •• • • •• • • • • •
X

X

X (d) Ninguna relación

n

Curvilínea Negativa

(d) Curvilinea inversa

( c

•• • •••


X

ta

(b) Lineal inversa X Y Y

X (c) Curvilínea directa

• •• • • •• • • • • • •

XX Y

• • • • • •

• •• • • •• • •• •

• • •• • • •
• •

Y Y

X X

sa

X

• •• • • ••• • • • • • • •

Lineal•Negativa con • Mayor dispersión • •
• •

(e) Lineal inversa con más dispersión

X X (d) Ninguna relación

• • •• •• • • • • • • • • • ••• • • • • • ••• • • •• • • •• • •• • • • •• •• • • • • •• • • • • • • •• •• •• • •

Y

• •

X (e) Lineal inversa con más dispersión

a

Ninguna Relación

X (d) Ninguna relación

Correlación Simple
El análisis de correlación es un grupo de técnicas estadísticas que nos permiten medir la intensidad de la relación que puede existir entre dos variables, su grado de relación y su sentido. El objetivo es determinar qué tan intensa es la relación y utilizamos para ello el coeficiente de correlación.

Coeficiente de Correlación Simple

Prueba de hipótesis acerca del parámetro (rho) Saber si X e Y están correlacionados: Ho : ρ = 0 H1 : ρ = 0 Estadístico de prueba es:

tc=

r

n–2 1–r2

Ejemplo 1
En una investigación se eligieron al azar nueve individuos de aproximadamente 30 años, de una misma ciudad, considerados sanos. A cada uno de ellos se le midió el peso y el nivel de colesterol en sangre. Los resultados se muestran a continuación.
Paciente Colesterol x 1 2 3 4 5 6 7 8 9 Total 210 122 309 198 260 230 175 198 224 1926 Peso y 70.2 62.4 95.4 68.9 75.2 76 64.5 64.2 80.2 657 X2 44100 14884 95481 39204 67600 52900 30625 39204 50176 434174 y2 4928.04 3893.76 9101.16 4747.21 5655.04 5776 4160.25 4121.64 6432.04 48815.14 xy 14742 7612.8 29478.6 13642.2 19552 17480 11287.5 12711.6 17964.8 144471.5

Ejemplo 1

Prueba de hipótesis parámetro 1. Planteamiento: Ho : ρ = 0 Hi : ρ = 0 2. Nivel de significación 5% 3.Estadístico de prueba:

tc=

r

n–2 1–r2

Para una t n-2  t7 , El valor de p es de aprox 0.01, por lo tanto

Conclusión: Rechazamos la Ho Se puede afirmar que existe alta correlación lineal (positiva) entre las variables, peso y colesterol.

Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables. Establecer una relación cuantitativa entre dos o más variables relacionadas. Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)). Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.

Regresión Lineal Simple
•Para resolver el problema tenemos que AJUSTAR una línea entre los puntos observados, a fin de usarla para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (variable independiente). •Para cada valor de X hay una subpoblación de valores Y. •Cada subpoblación de los valores de Y tiene distribución normal.

Línea de Regresión

Como todos los puntos no están exactamente sobre una línea recta, se cometen errores en el ajuste.

Línea de Regresión
Suposiciones de regresión y correlación  a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X.  b) Homoscedasticidad: la variación alrededor de la línea de regresión será constante para todos los valores de X.  c) Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X.  d) Linealidad: la relación entre las variables es lineal.

Estimadores Mínimo-Cuadráticos

Ejemplo 2
Se tiene una relación de 33 pacientes de los cuales se registró la presión sistólica. Se desea conducir un estudio para determinar la relación entre la edad de los pacientes y la presión registrada Paciente 1 2 3 4 5 … 33 Edad 22 23 24 27 28 … 81 PS 131 128 116 106 114 … 217

Diagrama de Dispersión
Según el diagrama de dispersión, se espera una relación positiva o directa entre ambas variables. Modelo de regresión: y =a+bx

Cálculos Estadísticos
Variable dependiente: la presión sistólica Variable independiente: la edad n = 33 Σx = 1542 (sumatoria de las edades) Σy = 4575 (sumatoria de las presiones) Σxy = 223.144 (productos cruzados) Σx2 = 79.176 Σy2 = 656.481

x = 46,73 y = 138,64
Σ(x – Σ(y – Σ(x –

x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6 y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6 x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33
= 9.366,7

Estimación de la Recta de Regresión
 (x - x) (y - y)
b = - - -- - - - - - - - - - - - - = 9366,7 / 7662,6 = 1.22 mm Hg / año de edad


y = a + bx a=y-b

(x - x) 2

x = 138,64 - (1,22)(46,73) = 81,54

Por consiguiente el modelo de Regresión Estimado es:

y = 81,54 + 1,22 x

Que significa:
Por cada año de incremento en la edad la presión aumenta en promedio en 1,22 mmHg.  Es importante interpretar los resultados obtenidos en función de las unidades en que se encuentran expresadas nuestras variables en estudio (y).

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->