You are on page 1of 41
 UNIDAD 3 REGRESIÓN Y CORRELACIÓN MIE Fernando Malagon Gonzalez Regresión y Correlación
  • UNIDAD 3

REGRESIÓN Y CORRELACIÓN

MIE Fernando Malagon

Gonzalez

Regresión y Correlación

Relaciones entre variables  El término regresión fue introducido por Galton en su libro “ Natural

Relaciones entre variables

El término regresión fue introducido por Galton en su libro Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”:

“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.” Regresión a la media

Relaciones entre variables  El término regresión fue introducido por Galton en su libro “ Natural

Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).

Francis Galton Primo de Darwin Estadístico y aventurer Fundador (con otros) de la estadística moderna

Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:

para explicar las teorías de Darwin.

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

MIE Fernando Malagon

Gonzalez

Regresión y Correlación

Conclusión  Padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura,

Conclusión

Padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.

Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.

MIE Fernando Malagon

Gonzalez

Regresión y Correlación

Qué vamos a estudiar?  Vamos a buscar la mejor estimación del modelo de Regresión Lineal

Qué vamos a estudiar?

  • Vamos a buscar la mejor estimación del modelo de Regresión Lineal

Y     x   i i i Error Residual Parámetros
Y     x  
i
i
i
Error
Residual
Parámetros
Qué vamos a estudiar?  Vamos a buscar la mejor estimación del modelo de Regresión Lineal

errores casuales errores de medición

deficiencias del modelo

MIE Fernando Malagon

Gonzalez

i es la parte de yi que no está explicada por la regresión lineal de Y sobre xi .

Regresión y Correlación

Regresión  El análisis de regresión sirve para predecir una medida en función de otra medida

Regresión

  • El análisis de regresión sirve para predecir una medida en función de otra medida (o

varias).

Y = Variable dependiente

  • predicha

  • explicada

X = Variable independiente

  • predictora

  • explicativa

MIE Fernando Malagon

Gonzalez

Regresión y Correlación

Estudio conjunto de dos variables  A la derecha tenemos una posible manera de recoger los

Estudio conjunto de dos variables

  • A la derecha tenemos una posible manera de recoger los datos observando dos variables en varios individuos de una muestra.

    • En cada fila tenemos los datos de un individuo

    • Cada columna representa los valores que toma una variable sobre los mismos.

    • Las individuos no se muestran en ningún orden particular.

  • Dichas observaciones pueden ser representadas en un diagrama de dispersión En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.

  •  

    Altura

    Peso

     

    en cm.

    en Kg.

     

    162

    61

     

    154

    60

    180

    78

    158

    62

           

    171

    66

    169

    60

    166

    54

    176

    84

    163

    68

    ...

    ...

    • Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Diagramas de dispersión o nube de puntos Tenemos las alturas y los pesos de 30 individuos

    Diagramas de dispersión o nube de puntos

    Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

    100 90 Pesa 76 kg. 80 70 60 Pesa 50 kg. 50 40 Mide 161 cm.
    100
    90
    Pesa 76 kg.
    80
    70
    60
    Pesa 50 kg.
    50
    40
    Mide 161 cm.
    30
    140
    150
    160
    170
    180
    190
    200
    Mide 187 cm.

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Relación entre variables. Tenemos las alturas y los pesos de 30 individuos representados en un diagrama

    Relación entre variables.

    Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

    100 90 80 70 60 50 40 30 140 150 160 170 180 190 200
    100
    90
    80
    70
    60
    50
    40
    30
    140
    150
    160
    170
    180
    190
    200

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Predicción de una variable en función de la otra. Aparentemente el peso aumenta 10Kg por cada

    Predicción de una variable en función de la otra.

    Aparentemente el peso aumenta 10Kg por cada 10 cm de altura el peso aumenta en una unidad por cada unidad de altura.

    ...

    o sea,

    100 160 30 40 50 60 70 80 90 10 cm. 10 kg. 140 150 170
    100
    160
    30
    40
    50
    60
    70
    80
    90
    10 cm.
    10 kg.
    140
    150
    170
    180
    190
    200

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Supuestos del Modelo  La variable "explicativa" X toma valores predeterminados por el investigador.  Para

    Supuestos del Modelo

    • La variable "explicativa" X toma valores predeterminados por el investigador.

    • Para cada valor fijo de X , la variable Y se distribuye

    en forma normal .

    • La relación entre las variables X e Y es decir, la regresión del promedio es lineal

    lineal , es

    Simbólicamente : E(Y/X) = α + .X

    , ya que E() = 0

    • Los valores de la variable Y son independientes entre si ya que existe Homocedasticidad ,significa que la

    variancia de los errores es constante , no depende

    del valor de X. La variancia de Y no depende del valor

    que tome la variable X .

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Covarianza de dos variables X e Y  La covarianza entre dos variables, Cov(x,y) , nos

    Covarianza de dos variables X e Y

    • La covarianza entre dos variables, Cov(x,y), nos indica si la posible relación entre dos variables es directa o inversa.

      • Directa: Cov(x,y), >0

      • Inversa: Cov(x,y), <0

    cov(

    )

    x y

    ,

    • 1

    n

    i

    (

    x

    i

    )(

    x y

    i

    y

    )

    • No existe relación : Cov(x,y), =0

    • El signo de la covarianza indica el comportamiento entre las

    variables. Esta puede ser directa, inversa o que no exista relación

    lineal.

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Supuestos de los errores e  y  y i o c  ~ N (0,

    Supuestos de los errores

    e y y

    i

    o

    c

    i

    ~ N (0,

    2

    )

    y

    o

    cov(,

    i

    j

    ) 0

    i j

    16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6
    16
    14
    12
    10
    8
    6
    4
    2
    0
    0
    1
    2
    3
    4
    5
    6

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    100 e n 90 80 70 e i yˆ  a  bx 60 e 1
    100
    e n
    90
    80
    70
    e i
    yˆ  a  bx
    60
    e 1
    50
    40
    30
    140
    150
    160
    170
    180
    190
    200

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    • Cómo reconocer relación directa e inversa.

    30 80 330 280 230 180 130 200 150 160 170 140 180 190
    30
    80
    330
    280
    230
    180
    130
    200
    150
    160
    170
    140
    180
    190

    Para valores de X por encima de la media

    tenemos valores de Y por encima y por debajo en cantidades similares. No existe relación

    60 160 150 140 100 90 80 70 50 40 30 170 200 190 180
    60
    160
    150
    140
    100
    90
    80
    70
    50
    40
    30
    170
    200
    190
    180

    Para los valores de X mayores que la media le corresponden valores de Y mayores también.

    Para los valores de X menores que la media le corresponden valores de Y menores también.

    Cómo reconocer relación directa e inversa. 30 80 330 280 230 180 130 200 150
    80 150 200 190 180 170 160 140 70 60 50 40 30 20 10 0
    80
    150
    200
    190
    180
    170
    160
    140
    70
    60
    50
    40
    30
    20
    10
    0

    MIE Fernando Malagon

    Gonzalez

    Esto se llama relación directa o creciente entre X e Y.

    Para los valores de X mayores que la media

    le corresponden valores de Y menores. Esto

    es relación inversa o decreciente.

    Regresión y Correlación

    CALCULO DE LA RECTA DE REGRESIÓN ( x , y ) , ( x , y

    CALCULO DE LA RECTA DE REGRESIÓN

    ( x 1 , y 1 ) , ( x 2 , y 2 ) ,

    ...

    , ( x n , y n )

    Modelo de Regresión

    CALCULO DE LA RECTA DE REGRESIÓN ( x , y ) , ( x , y

    y N E Y x

    i

    ~

    (

    (

    /

    i

    ),

    2

    )

    Y x

    i

    i

    i

    Recta de Estimación

    CALCULO DE LA RECTA DE REGRESIÓN ( x , y ) , ( x , y

    y a b. x

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Métodos de Estimación ˆ a   ˆ b   Existen dos métodos para hallar

    Métodos de Estimación

     

    ˆ

    a

    ˆ

    b

    Existen dos métodos para hallar los estimadores de y que dan los mismos resultados.

    Método de Máxima Verosimilitud

    Método de los Mínimos Cuadrados

    yˆ a b. x

    i

    n

    i 1

    (

    y

    i

    y

    i

    )

    2

    n

    2

    e mínimo

    i

    i 1

    n

    i 1

    (

    y

    i

    y

    i

    )

    2

    n

    [

    y

    i

    i 1

    (

    a b x

    .

    i

    )]

    2

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

     ( a b , )  ( a b ,  a )  (

    (

    a b

    ,

    )

    

    (

    a b

    ,

    a

    )

    

    (

    a b

    ,

    b

    )

    n

    [

    y

    i

    i 1

    a b x

    .

     

    i

    ]

    • 2 mín

    0

    a Y b.X

    0

    n n  x . y  n X Y . .  ( x .
    n
    n
    x
    .
    y
    n X Y
    .
    .
    (
    x
    .
    X
    ).(
    y
    Y
    )
    i
    i
    i
    i
    Cov x y
    (
    ,
    )
    i  1
    i  1
    b 
    n
    n
    V x
    (
    )
    2
    2
    2
    x
    n X
    .
    (
    x
    X
    )
    i
    i
    i  1
    i  1

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Interpretación de los coeficientes  a = ordenada al origen cuando x=0 ; y=a  b=

    Interpretación de los coeficientes

    • a = ordenada al origen cuando x=0 ; y=a

    • b= pendiente de la recta

    b>0 :existe una relación lineal directa entre las variables

    b<0: existe una relación lineal inversa entre las variables

    b=0 no existe relación lineal entre las variables .

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Otros modelos de regresión  Se pueden considerar otros tipos de modelos, en función del aspecto

    Otros modelos de regresión

    • Se pueden considerar otros tipos de modelos, en función del aspecto que presente el diagrama de dispersión (regresión no lineal)

    • Incluso se puede considerar el que una variable dependa de varias (regresión múltiple).

    MIE Fernando Malagon

    Gonzalez

    ¿recta o parábola? 140 150 160 170 180 190 200
    ¿recta o parábola?
    140
    150
    160
    170
    180
    190
    200
    200 ¿recta o cúbica? 140 150 160 170 180 190
    200
    ¿recta o cúbica?
    140
    150
    160
    170
    180
    190

    Regresión y Correlación

    ¿Cómo medir la bondad de una regresión? Imaginemos un diagrama de dispersión, y vamos a tratar

    ¿Cómo medir la bondad de una regresión?

    Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar qué es el error residual, su relación con la varianza de Y,

    y de ahí, cómo medir la bondad de un ajuste.

    ¿Cómo medir la bondad de una regresión? Imaginemos un diagrama de dispersión, y vamos a tratar
    ¿Cómo medir la bondad de una regresión? Imaginemos un diagrama de dispersión, y vamos a tratar

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Interpretación de la variabilidad en Y Y y En primer lugar olvidemos que existe la variable

    Interpretación de la variabilidad en Y

    Y y
    Y
    y

    En primer lugar olvidemos que existe la variable X. Veamos cuál es la variabilidad en el eje Y.

    Interpretación de la variabilidad en Y Y y En primer lugar olvidemos que existe la variable

    La franja sombreada indica la zona donde varían los valores de Y.

    Interpretación de la variabilidad en Y Y y En primer lugar olvidemos que existe la variable

    Proyección sobre el eje Y = olvidar X

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Interpretación del residuo Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el

    Interpretación del residuo

    Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el eje Y.

    Y
    Y

    Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original.

    Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Coeficiente de Determinación = r 160 30 Error no Explicado y yˆ o Error total Error

    Coeficiente de Determinación = r 2

    160 30 Error no Explicado y yˆ o Error total Error Explicado y 200 190 40
    160
    30
    Error no Explicado
    y
    o
    Error total
    Error Explicado
    y
    200
    190
    40
    170
    180
    150
    140
    100
    90
    80
    70
    60
    50

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Error total = Error no Explicado + Error Explicado  y i   Y 

    Error total

    =

    Error no Explicado

    +

    Error Explicado

    y

    i

    Y

    y

    i

    ˆ

    y

    i

    y

    ˆ

    i

    Y

    y

    i

    Y

    2

    y

    i

    yˆ

    i

    yˆ

    i

    Y

    2

    n

    y

    i

    i 1 n

    y

    i

    i 1

    Y

    2

    n

    i 1

    y

    i

    ˆ

    y

    i

    ˆ

    y

    i

    Y

    2

    n

    i

    1

    y

    i

    ˆ

    y

    i

    2

    n

    i 1

    ˆ

    y

    i

    Y

    2

    Y

    2

    V .T .V . N . E V . E .

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    V . T .  V N E V E . . .  . .

    V

    .

    T

    .

    V N E V E

    .

    .

    .

    .

    .

    1

    V N E

    .

    .

    .

    V E

    .

    .

    • V V T

    .

    T

    .

    .

    .

     

    V N E

    .

    .

    .

    V T

    .

    V E

    .

    .

    .

    V T

    .

    2

    .

     

    1

    r

     

    0

    V T

    .

    .

    r

    • 2 1

     

    V T

    .

    .

     

    r

    • 2 0

    VE

     

     

    0

    VNE

     

    VT

    r

    • 2  

    1

    VE

     

    VT

    VNE

    0

    No detecta

     

    el

     

    tipo

    de

     

    relacion

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Coeficiente de Determinación Resumiendo: Y 2 2 S  • La dispersión del error residual será

    Coeficiente de Determinación

    Resumiendo:

    Y 2 2
    Y
    2
    2

    S

    La dispersión del error residual será una fracción de la dispersión original de Y

    Cuanto menor sea la dispersión del error residual mejor será el ajuste de regresión.

    Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente de determinación a:

    VNE 2 R  1  VT
    VNE
    2
    R  1 
    VT

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Resumen sobre bondad de un ajuste  La bondad de un ajuste de un modelo de

    Resumen sobre bondad de un ajuste

    • La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R 2

    • R 2 es una medida adimensional que sólo puede tomar valores en [0, 1]

    • Cuando un ajuste es bueno, R 2 será cercano a uno.

    • Cuando un ajuste es malo R 2 será cercano a cero.

    • A R 2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Coef. de correlación lineal de Pearson  La coeficiente de correlación lineal de Pearson de dos

    Coef. de correlación lineal de Pearson

    • La coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

    • tiene el mismo signo que cov(x,y) por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

    • r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,

    ...

    )

    Coef. de correlación lineal de Pearson  La coeficiente de correlación lineal de Pearson de dos
    cov( x y , ) r  S S x y
    cov(
    x y
    ,
    )
    r 
    S S
    x
    y

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    Coeficiente de Correlación  X e Y son variables aleatorias . Luego, no existe una variable

    Coeficiente de Correlación

    • X e Y son variables aleatorias . Luego, no existe una variable explicativa y otra explicada.

    • La población de la cual se extrae la muestra es Normal Bivariada .

    • Existe una relación lineal entre las variables, la cual está medida por el coeficiente de correlación poblacional definido como :

      • X e Y están Norm almente distribuídas con

    E

    (

    x

    )

    x

    V

    (

    x

    )

    2

    x

    y

    E

    (

    y

    )

    y

    V

    (

    y

    )

    2

    y

    Coeficiente de

    Correlación Poblacional

    Cov x

    (

    ,

    y

    )

     

    x

    y

    E

    [(

    X

    x

    )(

    Y

    y

    )]

    Coeficiente de Correlación  X e Y son variables aleatorias . Luego, no existe una variable

    E

    [(

    X

    x

    )

    2

    ]

    E

    [(

    Y

    y

    )

    2

    ]

    1

     

    1

    r

    ˆ

    Coeficiente de Correlación Muestral

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    r  cov( x y , )  S x S y ( ). ( )

    r

    cov(

    x y

    ,

    )

    S x S y

    (

    ).

    (

    )

    n 1  ( x  X y )(  Y ) i i n i
    n
    1
    (
    x
    X y
    )(
    Y
    )
    i
    i
    n
    i  1
    n
    1
    2
    2
    (
    x
    X
    )
    (
    y
    Y
    )
    i
    i
    n
    i  1

    r

    n  x y  nXY i i i  1   1 r 
    n
    x y
    nXY
    i
    i
    i  1
     
    1
    r
    1
    2
    2
    2
    2
    (
    x
    nX
    )(
    y
    nY
    )
    i
    i

    r =-1 *Existe relación inversa y perfecta entre las variables

    r =1 *Existe relación directa y perfecta entre variables

    r =0 *No existe relación lineal entre las variables -Variables no correlacionada

    -1 < r < 0 *Existe relación inversa entre las variables

    0 < r < 1 * Existe relación directa entre las variables

    MIE Fernando Malagon

    Gonzalez

    2

    r

    (

    r

    )

    2

    0

    2

    r

    1;

    1

      r

    1

    Regresión y Correlación

    Propiedades de r  Es adimensional  Sólo toma valores en [-1,1]  Si no existe

    Propiedades de r

    • Es adimensional

    • Sólo toma valores en [-1,1]

    • Si no existe relación lineal r=0

    • Relación lineal perfecta entre dos variables r=+1 o r=-1

      • Excluimos los casos de puntos alineados horiz. o verticalmente.

    • Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

      • Siempre que no existan observaciones anómalas.

    Relación inversa Relación perfecta directa Variables casi incorreladas perfecta
    Relación
    inversa
    Relación
    perfecta
    directa
    Variables
    casi
    incorreladas
    perfecta

    -1

    MIE Fernando Malagon

    Gonzalez

    0

    +1

    Regresión y Correlación

    correlaciones negativas 170 200 60 70 80 90 140 150 160 40 180 190 50 r=-0,5

    correlaciones negativas

    170 200 60 70 80 90 140 150 160 40 180 190 50 r=-0,5 0 10
    170
    200
    60
    70
    80
    90
    140 150
    160
    40
    180
    190
    50
    r=-0,5
    0
    10
    20
    30
    70 170 160 140 150 80 180 60 50 40 20 10 0 30 r=-0,95 190
    70
    170
    160
    140 150
    80
    180
    60
    50
    40
    20
    10
    0
    30
    r=-0,95
    190
    200

    MIE Fernando Malagon

    Gonzalez

    correlaciones negativas 170 200 60 70 80 90 140 150 160 40 180 190 50 r=-0,5
    70 0 10 20 30 40 50 60 200 r=-0,7 80 140 150 160 170 180
    70
    0
    10
    20
    30
    40
    50
    60
    200
    r=-0,7
    80
    140 150
    160
    170
    180
    190
    50 r=-0,999 70 0 10 20 30 40 200 60 80 140 150 160 170 180
    50
    r=-0,999
    70
    0
    10
    20
    30
    40
    200
    60
    80
    140 150
    160
    170
    180
    190

    Regresión y Correlación

    correlaciones positivas 230 30 80 130 180 280 r=0,1 330 140 150 160 170 180 190

    correlaciones positivas

    230 30 80 130 180 280 r=0,1 330 140 150 160 170 180 190 200
    230
    30
    80
    130
    180
    280
    r=0,1
    330
    140 150
    160
    170
    180
    190
    200
    110 170 50 60 70 80 90 100 30 140 150 160 40 180 190 200
    110
    170
    50
    60
    70
    80
    90
    100
    30
    140 150
    160
    40
    180
    190
    200
    r=0,6

    MIE Fernando Malagon

    Gonzalez

    correlaciones positivas 230 30 80 130 180 280 r=0,1 330 140 150 160 170 180 190
    30 r=0,4 160 170 180 190 200 140 150 50 130 40 60 70 80 90
    30
    r=0,4
    160
    170
    180
    190
    200
    140 150
    50
    130
    40
    60
    70
    80
    90
    100
    110
    120
    80 r=0,8 30 40 50 60 70 90 100 140 150 160 170 180 190 200
    80
    r=0,8
    30
    40
    50
    60
    70
    90
    100
    140 150
    160
    170
    180
    190
    200

    Regresión y Correlación

    casi perfectas y positivas 190 r=0,9 30 200 40 180 170 160 140 150 100 90

    casi perfectas y positivas

    190 r=0,9 30 200 40 180 170 160 140 150 100 90 80 70 60 50
    190
    r=0,9
    30
    200
    40
    180
    170
    160
    140 150
    100
    90
    80
    70
    60
    50
    170 200 190 180 r=1 160 140 150 100 90 80 70 60 50 40 30
    170
    200
    190
    180
    r=1
    160
    140 150
    100
    90
    80
    70
    60
    50
    40
    30

    MIE Fernando Malagon

    Gonzalez

    casi perfectas y positivas 190 r=0,9 30 200 40 180 170 160 140 150 100 90
    70 r=0,99 40 50 60 30 80 90 100 140 150 160 170 180 190 200
    70
    r=0,99
    40
    50
    60
    30
    80
    90
    100
    140
    150
    160
    170
    180
    190
    200

    Regresión y Correlación

    Animación: Residuos del modelo de regresión MIE Fernando Malagon Gonzalez Regresión y Correlación

    Animación: Residuos del modelo de regresión

    Animación: Residuos del modelo de regresión MIE Fernando Malagon Gonzalez Regresión y Correlación

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIÓN Distribución del coeficiente de correlación muestral r r es simétrica

    INFERENCIA SOBRE EL COEFICIENTE DE

    CORRELACIÓN

    Distribución del coeficiente de correlación muestral r

    Para

    = 0

    r es simétrica alrededor de

    n .

    ( n )

    es pequeño

    r 2 1  r n  2
    r
    2
    1  r
    n  2

    ~ t

    n 2

    H 0 : = 0

    H 1 :   0

    H 0 : X e Y son independientes H 1 : X e Y no son
    H 0 : X
    e
    Y
    son independientes
    H 1 : X
    e
    Y
    no son independientes

    Normal

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    DISTRIBUCIÓN DE LOS ESTIMADORES DE  y  a ~ N (   , a

    DISTRIBUCIÓN DE LOS ESTIMADORES DE y

    a

    ~

    N

    (

     

    ,

    a

    )

    a

    ~

    a

    N

    (0,1)

    con

    a

    e

    .
    .

    2

    • x
      i

    n

    .

    (

    x

    X
    i

    )

    2

    e

    es desconocido

    entonces

    a

    S

    a

    ~ t

    n 2

    b

    ~

    N

    (

     

    ,

    b

    )

    b

    ~

    b

    N

    (0,1)

    com o

    entonces

    b

    ~

    S

    b

    t

    n 2

    ,

    b

    e

    DISTRIBUCIÓN DE LOS ESTIMADORES DE  y  a ~ N (   , a

    (

    x

    X
    i

    )

    e
    2

    es desconocido

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    VARIANCIA DE LA RECTA DE REGRESIÓN Y     X   i i

    VARIANCIA DE LA RECTA DE REGRESIÓN

    Y X

    i

    i

    i

    con

    ˆ

    Y

    i

    ˆ

     X

    ˆ

     

    i

    a bx

     

    i

    ˆ

    E Y )

    (

    i

    E (a) E (b) x

    i

    i

    ~

    (0,

    N

    2

    )

    x

    i

    ( ˆ

    E y

    i

    )

    x E y

    i

    (

    i

    )

    yˆ es un estimador no viciado de   x i i
    es un estimador no viciado de   x
    i
    i

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    ˆ V Y V a bx ( )  (  )  V {Y 
    ˆ
    V Y V a bx
    (
    ) 
    (
    ) 
    V {Y  b( x
     X )}
    i
    i
    i
    V Y V Y
    (
    ˆ
    )
    (
    )
    (
    x X V b
    )
    2
    (
    )
    i
    i
    2
        V 
    2
    2
    (
    )
    V Y 
    (
    )
    e
    i
    n
    2
    2
    ˆ
    2
    V Y 
    (
    )
    (
    x
    X
    )
    .
    i
    i
    2
    n
    (
    x
    X
    )
    i
    2
    1
    (
    x
    X
    )
    ˆ
    2
    i
    V Y 
    (
    )
    i
    2
    n
     
    (
    x
    X
    )
    i
    MIE Fernando Malagon
    Gonzalez
    Regresión y Correlación
    ESTIMACIÓN DE LA MEDIA DE Y Correspondiente a un valor conocido de x Y i y

    ESTIMACIÓN DE LA MEDIA DE Y i

    Correspondiente a un valor conocido de x i

    Y

    i

    y ˆ

    i

    ~

    N x

    (

    .

    i

    ,

    e

    )

    (

     

    .

    x

    i

    )

    y ˆ

    i

    y

    • i ~ N (0,1)

     
     

     

    y ˆ

    i

    ( ˆ

    S y

    )

    y ˆ

    i

    y ˆ

    i

    (

     

    .

    x

    i

    )

    y ˆ

    i

    y

    i

    ~ t

    yˆ

    i

    i

    S (

    y ˆ

    i

    )

    S (

    y ˆ

    i

    )

     

    n 2

     

    ˆ

    y

    i

    t

    n

     

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación

    ESTIMACION DE UN FUTURO VALOR Y PARA X FIJO la variación propia  la de los

    ESTIMACION DE UN FUTURO VALOR Y i

    PARA X i FIJO

    la variación propia la de los errores

    la variación de la recta de ajuste.

    V(y/x ˆ

    i

    )

    V

    (

    i

    )

    ( ˆ

    V y )

    i

    2

    2

    .

    1

    n

    (

    X

    )

    2

    x

    i

    (

    x

    i

    X

    )

    2

    ( ˆ /

    V y x

    i

    )

    S

    2

    (

    y

    i

    )

    S

    2

    e

    .

    1

    1

    n

    (

    X

    )

    2

    x

    i

    (

    x

    i

    X

    )

    2

    y ˆ  t . S y ( )  . S y ( ) i
    y
    ˆ 
    t
    .
    S y
    (
    )
    .
    S y
    (
    )
    i
    n
     
    2;
    / 2
    i
    / 2
    i

    ˆ

    i

    y y

    t

    n 2;

    MIE Fernando Malagon

    Gonzalez

    Regresión y Correlación