You are on page 1of 87

Universidade

de Vigo

Diagnosis en el modelo de
regresin lineal normal
(

Log L

0
Log L
Log L
Log L

Elementos de diagnosis,
interpretacin y anlisis

( )

( )
A
0

Justificacin del tema

Universidade
de Vigo

 Hasta ahora hemos considerado que las principales suposiciones

del modelo se verificaban, y en consecuencia, los estimadores


MCO eran los ms eficientes.
 Sin embargo, cuando trabajamos con datos reales, no siempre es
esto cierto, y necesitamos algn instrumento que nos permita
ver que suposiciones son vlidas y cuales no.

Fuentes de elaboracin de modelos

Universidade
de Vigo

 La fundamentacin terica, esto es, de la teora

econmica o de la empresa.

 Depende de cada problema concreto

 El anlisis de datos o elementos estadsticos de

diagnosis.

 Comn a muchos problemas

Fallos en el modelo

Universidade
de Vigo

 Un modelo puede fallar por dos tipos de causas:


 El modelo est mal especificado, es decir alguna suposicin de

partida no se verifica.
 Existen datos que provienen de otra poblacin y contaminan el
modelo.
 Cuando el modelo obtenido no se ve afectado por cambios en

las suposiciones o los datos se dice que es robusto.


 La diagnosis nos permite determinar el grado de robustez del
modelo.

Necesidad de la diagnosis

Universidade
de Vigo

 A continuacin se van a exponer de modo grfico cuatro

modelos cuyos resultados de la regresin son casi equivalentes


aparentemente.
 El coeficiente de determinacin vale en todos los casos 0,985 y
los coeficientes estimados son muy similares.

Variable Name

Caso1
Caso2
Caso3
Caso4

X
CONSTANT
X
CONSTANT
X
CONSTANT
X
CONSTANT

Estimated
Coefficient

0.84
19.15
0.80
19.87
0.90
18.08
0.80
20.00

Ejemplo del efecto de la forma de la


nube de puntos
1

Universidade
de Vigo

3
4

Residuos
Universidade
de Vigo

Interpretacin

Universidade
de Vigo

 (1) modelo bien especificado


 (2) forma funcional mal especificada: imponemos

una relacin lineal que en la realidad no existe


 (3) hay un valor influyente que cambia la direccin
de la recta y que, adems, es atpico
 (4) tenemos un valor de comportamiento influyente,
pero no atpico

Elementos para analizar en un


modelo

Universidade
de Vigo

 Eso nos indica que no solo se deben examinar la salida sino

tambin diagnosticar el modelo.


 Los elementos que se deben tener en cuenta a la hora de la
diagnosis son:
1 El comportamiento de los datos.
2 El efecto de ese comportamiento sobre las suposiciones.

17/12/2007

El comportamiento de los datos

Universidade
de Vigo

 Los datos marcan si el modelo con

el que se trabaja es vlido o no.


 De modo complementario, el
modelo ayuda a ver si los datos
son coherentes con el
comportamiento esperado o no,
existe por tanto un proceso de
retroalimentacin entre datos y
modelo, por lo que en la practica Modelo
hay que buscar un equilibrio entre
ambos.

Datos

Proceso de diagnosis de un modelo


1.
2.
3.
4.

Universidade
de Vigo

Se empieza con un modelo, se estima y se analiza si existen datos


extraos al modelo, suponiendo vlidas todas las suposiciones.
En caso de datos extraos se eliminan esos (o se corrigen) y se
revisa el modelo de nuevo.
Si alguna suposicin falla, se corrige y se vuelve a revisar el
modelo corregido.
Ese proceso se repite hasta que haya una adecuacin conveniente
entre modelo y datos.

Eso exige analizar los factores que afectan al


comportamiento de los datos

Factores que afectan a los datos

Universidade
de Vigo

 A los datos que tengan un comportamiento muy distinto del

resto se les conoce como valores atpicos o anmalos. Un


valor no es atpico siempre, sino que depende del entorno
donde se estudie:
 1. El contexto del anlisis
 2. La muestra considerada
 3. La forma funcional del modelo
 4. Las variables incluidas en el modelo

17/12/2007

Valores atpicos o anmalos

Universidade
de Vigo

Valor atpico bajo la


regresin lineal pero no en
la curvilinea

Rregresin
curvilinea
Y
*
*

*A
*
*
*
*B
*

Regresin lineal

X
17/12/2007

Elementos de Diagnosis

Universidade
de Vigo

 Medidas basadas en los residuos


 Grficos
 Estadsticos y test de hiptesis

El orden de anlisis es

Se vieron en la asignatura de
estadstica y slo los
comentaremos a medida que
los utilicemos

1. Grficos
2. Estadsticos y anlisis de los residuos
3. Test de hiptesis

Universidade
de Vigo

Grficos para la diagnosis


Instrumentos grficos que permiten evaluar la
calidad del modelo

Ruido Blanco

Universidade
de Vigo

El modelo bien especificado tiene residuos que se comportan


como un ruido blanco.
 Sucesin de variables

aleatorias
independientes:
 Media cero
 Varianza constante
 Simtrica

ei

*
*

X
*
*

*
*

*
*

*
*

Comportamiento de los residuos

Universidade
de Vigo

 Las perturbaciones del MRLN deberan comportarse como un

ruido blanco, puesto que son independientes e igualmente


distribuidas con media 0 y simtricas.
 Los residuos de la regresin son aproximaciones a las
perturbaciones y aunque no son independientes ni con varianza
constante son bastante cercanos a ese comportamiento, por lo que
suponemos que bajo todas las suposiciones del modelo deberan
comportarse casi como ruido blanco.
 En todos los grficos donde se representen los residuos respecto a
alguna variable, estos deben verificar que bajo las suposiciones del
MRLN debera ser cercanos a un ruido blanco.

Grficos de residuos

Universidade
de Vigo

 Por tanto, los residuos debe verificar:


 E(e)=0;

 los residuos deben oscilar alrededor del 0, no deben presentar ninguna forma funcional
 Var(e)= constante aproximadamente.
 Los residuos deben dispersarse de forma homognea, estar comprendidos entre dos bandas

 Independencia:
 Los residuos no deben presentar relaciones entre ellos, formas graficas encadenadas.

 Normalidad
 Los residuos deben estar cercanos al 0, simtricos a cada lado y las bandas no muy alejadas

del 0 (alrededor de dos veces la desviacin estndar).

 Eso significa que cualquier forma en que se aleje de esas

caractersticas existe un fallo de alguna suposicin.


 La variable independiente nos dice algo sobre ese fallo.

Grfico resumen de calidad del


modelo

Residuos
respecto a valores estimados
*

0.9

*
*

0.5

* *

-0.5

*
**
*

*
*
5.8

*
6.6

7.3

^Y

8.02

8.77

9.4
.

Universidade
de Vigo

Conceptos asociados al grfico

Universidade
de Vigo

 Este grfico representa los residuos frente a los valores estimados de la

variable dependiente.
 Los residuos deben verificar las condiciones del ruido blanco.
 La variable independiente en este caso es el valor estimado de la
dependiente, por tanto recoge los posibles efectos de esta variable sobre el
comportamiento de los residuos.
 Esa variable contiene informacin sobre:
 La variable dependiente, puesto que es la mejor aproximacin lineal en funcin de las independientes
 Las variables independientes, puesto que todas intervienen en la estimacin.

 Eso significa que nos da informacin sobre como influyen tanto la variable

dependiente como las independientes sobre los residuos. En ese sentido se


habla de resumen de la calidad del modelo puesto que integra todos los
componentes de este.

Interpretacin del grfico

Universidade
de Vigo

Se observa si existe:
 Linealidad,
 no se debe observar ninguna forma funcional. La media es constante e igual a
cero en todos los casos
 Normalidad
 Los datos se distribuyen de forma simtrica y ms concentrados alrededor del
0.
 Homocedasticidad
 La varianza es constante, dispersin igual para todos la serie.
 Estabilidad
 No se producen cambios repentinos de la serie de residuos
 Independencia
 No se observan relaciones entre residuos o grupos de residuos en la evolucin
de los datos

Grfico de residuos respecto a valores


predichos en la empresa XUMA

Universidade
de Vigo

SHAZAM PLOT
0.8

0.6

Valor
atpico

0.4

0.2

-0.2

-0.4
11.5

12

12.5

13

13.5

14
YE

14.5

15

15.5

16

16.5

Tipos de Grficos

Universidade
de Vigo

 De los residuos
 Se representan los residuos respecto a algunas variables que dan informacin
especifica del fallo de alguna suposicin. Cada tipo especfico se estudiar en la
correspondiente suposicin.
 De los residuos al cuadrado
 Se representan los residuos al cuadrado respecto a algunas variables que dan

informacin especifica del fallo la heterocedasticidad. Se estudiarn en esa


suposicin.

 Grficos de regresin parcial


 Miden el efecto que tendra en la regresin el aadir una nueva variable
independiente. Se estudiarn a continuacin.
 Grficos de probabilidad y de distribucin
 Miden la forma de la distribucin de los residuos. Se estudiarn con la

normalidad.

Ejemplos de Grficos de los residuos


Respecto a la variable
estimada
+
e

Respecto a variables
exgenas .
*
1
0,5 .

*
* * **
*
*
*
* *
* * *
* *
*
*
*

E
^
Y
t

0.
-0.5 .

*
*
*
* *
**
*
* ** ** *
*
*
6.

Respecto a
residuos
retardados

et
0

*
*
* *
* *
* ** * * *
*** * * *
* **

e t-1

*
7 8
LA

9. 10

Universidade
de Vigo

Ejemplos de Grficos de los residuos


al cuadrado

Universidade
de Vigo

Respecto a la variable estimada Respecto a variables exgenas


1

0,5
2
e

t
0

*
*
* *
*

*
*

*
*
*

*
*

E2
*

***
*

0.

*
*

*
*

^
Y

-0.5

*
*
**
* *

*
*

*
6.

8
LA

9.

10

Ejemplos de Grficos de probabilidad


y distribuciones
Grafico de probabilidad
respecto a una normal

Histograma

Universidade
de Vigo

Grficos de regresin parcial

114

5
E
-4
-6

*
*
*
*
*
*
* * * *
*
*

-12
-1. 2.7

-.9

-.2
EA

**

*
.5

1.3

2. 5

Universidade
de Vigo

Este grfico nos indica el


efecto que tendra en la
regresin el aadir la
variable Xj la ltima.
La pendiente de la lnea
de regresin en el grfico
nos da el coeficiente de
regresin parcial.

Mtodo de construccin

Universidade
de Vigo

 Trata de medir el efecto directo de una variable independiente

sobre la dependiente una vez eliminado el efecto de todas las dems


variables independientes, es decir su coeficiente de regresin
parcial.
 De ah que primero haya que quitar los efectos de todas las
independientes tanto sobre la dependiente como sobre la otra
independiente.
 Por lo tanto el mtodo de construccin es el siguiente:
Se calcula e(j) el residuo de la regresin de y respecto a todas las
variables menos Xj;
2. Se calcula u(j) el residuo de la regresin de Xj respecto a las otras
independientes.
3. Se representa e(j) respecto a u(j).
1.

Grfico de regresin parcial en XUMA


de VAB sobre inversiones

Universidade
de Vigo

E1

SHAZAM PLOT
0.8
0.6
0.4

E1

0.2
0
-0.2
-0.4

Corte en la pendiente
y un valor extrao

-0.6
-4

-3

-2

-1

1
E21

Grfico de regresin parcial en la


relacin desigualdad de la renta
respecto a democratizacin
10

Universidade
de Vigo

INEQ

9
Valor
especial. 8
Posible
influyente 7

Pendiente que mide el efecto


directo de la democratizacin
sobre la desigualdad

INEQ

6
5
4
3
2
1
Forma no lineal
10
20
30

posiblemente por
el valor influyente

40

50
TURNOUT

60

70

80

90

Universidade
de Vigo

Anlisis de residuos

El conocimiento de los residuos para evaluar grficos y


elementos de diagnosis

Residuos de Mnimos Cuadrados


Ordinarios
 Definicin

e=Y-Xb
 Propiedades
 e=My
 Siguen leyes normales N(0,2M)
 Son ortogonales a los regresores Xe=0
 (T-k-1)S2/2 sigue una 2 con T-k-1 grados de libertad

Universidade
de Vigo

Efecto de una suposicin sobre el


modelo estimado

Universidade
de Vigo

 Un modelo mal especificado no verifica alguna de las

suposiciones de partida.
 Por ejemplo si el modelo es cuadrtico en vez de lineal, los

residuos dependern de la variable independiente al cuadrado,


en vez de tener media 0.
 Los residuos siguen leyes normales N(x2,2M)
 Por tanto su forma no ser centrada en el 0

Efectos de una observacin sobre el


modelo estimado
y

regresin sin i

Universidade
de Vigo

 Todo valor tiene un efecto sobre




i cambia
algo la
recta de
regresin

regresin con i
x

la estimacin del modelo:


Unos afectan ms y otros
menos.
Los que cambian mucho el
modelo se denominan
influyentes
Esa influencia puede deberse a
las variables independientes o a
la dependiente
Las diferentes medias de
influencia buscan tambin la
causa

17/12/2007

Efecto de un en punto
La distancia a la
recta afecta en la
variable dependiente

Universidade
de Vigo

regresin sin i

y
regresin con i
Cuanto mas cerca del
centro esta el punto
menos efecto tiene

La distancia la centro
afecta
en la variable
independiente

Medidas basadas en los residuos

Universidade
de Vigo

 Medidas de influencia debidas a las

variables independientes
 Distancia de Mahalanobis
 Niveles de influencia
 Medidas de influencia debidas a la
variable dependiente:
 Residuos estandarizados
 Residuos estudentizados-Valores
atpicos
 Residuos predichos
 Medidas de influencia conjunta
 DFFIT
 DFBETAS
 COVRATIO

Valores
potencialmente
influyentes

Valores
atpicos

Valores
influyentes

Efectos de los diferentes tipos de


puntos sobre la regresin
 Se va a analizar el efecto de los valores potencialmente

influyentes segn su distancia a la media en el espacio de


variables independientes:
1. Valores cercanos a la media
2. Valores intermedios
3. Valores alejados de la media

Universidade
de Vigo

Observaciones no alejadas de la
media
y

regresin con i

Universidade
de Vigo

regresin con i
"i"

regresin sin i

regresin sin i

x
"i" no atipico
Difcilmente son influyentes

"i" atipico

x
17/12/2007

Observaciones intermedias
y

regresin con i

Universidade
de Vigo

regresin con i
"i"

regresin sin i

regresin sin i

x
"i" no atipico,
no influyente

Son influyentes si son atpicos

x
"i" atipico
influyente
17/12/2007

Observaciones alejadas de la media


y

Universidade
de Vigo

regresin sin i
y

regresin sin i

regresin con i
i no influyente
i
influyente

regresin con i
x
"i" no influyente

x
"i" influyente

Normalmente son influyentes aunque no sean atpicos

17/12/2007

Plan de trabajo

Universidade
de Vigo

 Definir cada una de las medidas utilizadas indicando sus

propiedades, sus ventajas y sus inconvenientes y la necesidad


de hacer uso de cada uno de ellos.
 Grupo 1 : Medidas de influencia a priori
 Grupo 2 : Medidas de extraeza
 Grupo 3 : Medidas de influencia a posteriori

Universidade
de Vigo

Medidas de influencia a priori

Distancia de Mahalanobis

Universidade
de Vigo

 Mide la distancia en un espacio multidimensional entre un punto cualquiera y

el centro. Para facilitar los clculos utilizo la distancia al cuadrado


 Tiene en cuenta las posibles interrelaciones y la diferente dispersin de la
variables del espacio.
 Se define como

1 de todas las variables x


 Siendo x la media y S la2 matriz de varianzas covarianzas
t en el espacio.
t
t
t
que intervienen

DM = D ( x , x ) = ( x x )' S ( x x )

Interpretacin geomtrica
Espacio bidimensional original

Distancia
euclidea

Centro del
espacio

Punto del
que se
quiere
conocer la
distancia

Espacio bidimensional transformado

Distancia de
Mahalanobis

Centro del
espacio

Punto del
que se
quiere
conocer la
distancia

Ejemplo

Universidade
de Vigo

 Sea el centro en el (1,1); el punto que se busca el (3,3) y la

matriz de covarianzas
 La distancia euclidea es 2 5

A =
5 1

 La distancia de Mahalanobis es

2 1 2 1
D1t = ( )' ( ) = 1 + 4 = 5
3 1 3 1
1

2 1 2 5 2 1
( ) = 0,4782609
D 2t = ( )'
3 1 5 1 3 1

Propiedades

Universidade
de Vigo

1. Tiene en cuenta no slo el valor medio sino tambin su discrepancia y la


covarianza de las variables midieron
2. Representa (explica) las gamas de aceptabilidad (la discrepancia) entre
variables
3. Compensa interacciones (la covarianza) entre variables
4. Es sin dimensiones
5. Si las variables son distribuidas normalmente puede ser convertida a
probabilidades que usan la funcin de densidad 2.
Esto nos permite aproximar su media por el nmero de dimensiones y su
varianza por dos veces ese numero.

Niveles de influencia

Universidade
de Vigo

Estudian el efecto de la variable dependiente sobre su

prediccin, dicindonos el grado de influencia que tiene sobre


sta.
T

Y t = hts Ys
s=1

Miden el efecto que la observacin Yt tiene sobre su prediccin

Y
t
= h tt = h t
Yt

Propiedades

Universidade
de Vigo

 El valor predicho se puede descomponer como un promedio

ponderado de esa observacin y del valor predicho sin ella.


 Si el nmero total de observaciones es T, el nivel de influencia
est acotado por los valores 1/T y 1

Propiedades (2)

Universidade
de Vigo

 Si DMt nos mide la distancia de Mahalanobis de la

observacin t-sima, entonces

1+ DM t
ht =
T


Al aumentar el nivel de influencia disminuye la varianza del


error

Ley de distribucin de los niveles de


Influencia

Universidade
de Vigo

 El valor medio de los niveles de influencia ser:


T

tt

h=


t =1

k +1
=
T

Su varianza viene dada por


T
1
2
2
Sh = ( h t h )
T t =1

que coincide con la varianza de la distancia de Mahalanobis.

Universidade
de Vigo

Medidas de extraeza

Medidas que indican si un punto tiene un comportamiento muy


diferente del resto

Estudentizados
(externamente estudentizados)

Universidade
de Vigo

Se definen como los residuos divididos, cada uno, por su


desviacin estndar eliminada la observacin
correspondiente

st =
siendo

2
R (t )

sR (t )

et
1 ht

1
=
T k 2

e s2

st

 se les denomina externamente estudentizados porque no

incluyen el propio valor al hacer la estimacin de la varianza


residual.

Propiedades de los residuos


estudentizados

Universidade
de Vigo

 Los residuos estudentizados siguen aproximadamente una t

de Student con T-k-2 grados de libertad


 Miden el error de cada observacin independientemente
de las unidades de medida de las variables

Estandarizados
(internamente estudentizados)

Universidade
de Vigo

Se definen como los residuos divididos, cada uno, por su


desviacin estndar

rt =

SR

et
1 ht

 se les denomina internamente estudentizados porque incluyen

el propio valor al hacer la estimacin de la varianza residual.

Propiedades de los residuos


estandarizados

Universidade
de Vigo

 Los residuos estandarizados son asintticamente

normales tipificados AN(0,1)


 No se conoce su ley de distribucin exacta, pues falla
la independencia
 Miden el error de cada observacin
independientemente de las unidades de medida de las
variables

Residuos predichos

Universidade
de Vigo

 Se definen como la distancia entre el valor observado y el valor

estimado haciendo uso de todas las observaciones menos la que


corresponde a ese residuo.

e t( t) = Y t Y
t( t)
donde

Y t( t ) = X t( t ) b( t )

Propiedades Residuos Predichos (1)


1.

El residuo predicho tambin se puede escribir como

e t (t )
2.
3.

Universidade
de Vigo

et
=
1 ht

El residuo predicho siempre es mayor que el residuo, porque


ht es siempre positiva.
Si el residuo es alto quiere decir que el valor se estimara mal
a partir de las dems observaciones, y por lo tanto, el residuo
predicho sera alto. En otro caso sera una buena estimacin.

Propiedades Residuos Predichos (2)

Universidade
de Vigo

4. Cuanto mayor sea el valor ht mayor es el residuo predicho.

Como ht nos mide el nivel de influencia de Yt sobre su


prediccin entonces cuanta ms influencia tenga una
observacin ms difcil es predecirla a partir del resto de los
valores de la muestra.
5. Si todos los residuos de prediccin son pequeos entonces su
suma tambin lo ser y por tanto nos servir de ayuda para
hacer una validacin de la calidad del modelo.

Comparacin entre los distintos tipos


de medidas

Universidade
de Vigo

 Existe una relacin directa entre los distintos tipos de

residuos, de tal forma que todos ellos dan una informacin


complementaria.
 Cuanto mayor es uno de ellos mayor son los dems, aunque
la influencia de los puntos afecta a su definicin.

Residuos estudentizados respecto a


residuos predichos estandarizados

e t (t ) 1 ht
et
e =
=
SR (t ) 1 h t
SR (t)

Depende de la varianza residual


estimada sin la observacin y del
nivel de influencia

Universidade
de Vigo

Residuos estandarizados respecto a


residuos predichos estandarizados

rt =

SR

et
e t (t ) 1 h t
=
1 ht
SR

Depende de la varianza residual


estimada y del nivel de influencia

Universidade
de Vigo

Los residuos estudentizados respecto


a residuos estandarizados.

SR
e =
rt
SR (t )

Depende de la varianza residual


estimada sin la observacin y con
ella

Universidade
de Vigo

Universidade
de Vigo

Medidas de influencia a posteriori

Indican si un valor afecta a la estimacin del modelo

Medidas de la robustez del modelo a


los datos

Universidade
de Vigo

 Existen varias medidas que nos ayudan a evaluar el grado

de robustez de un modelo a los datos, o sea hasta que


punto existe influencia de un dato sobre el
comportamiento global del modelo.
 En general nos interesa el efecto que una observacin tiene
sobre:
 Los estimadores de los coeficientes
 La prediccin de la variable dependiente
 Los estimadores de la varianza de las perturbaciones
 Definiremos un estadstico para cada uno de esos aspectos.

Medidas de robustez de los coeficientes


estimados

Universidade
de Vigo

 DFBETAS
 Se define para cada uno de los coeficientes estimados

bj como la distancia entre el coeficiente calculado


incluyendo el punto y sin incluirlo estandarizado

DFBETAtj

(
b
=

b j (t ) )

S R (t ) a jj

17/12/2007

Medidas de robustez de los valores


estimados de la dependiente

Universidade
de Vigo

 DFFITS (Distancia al valor predicho estandarizado)


 Mide el grado de influencia sobre los valores

estimados de eliminar la observacin t , y en este


sentido nos da una medida global de la influencia a
posteriori.

DFFITS =

X tb X tb( t )

( t ) ht

y t y t ( t )
=
S R ( t ) ht
17/12/2007

Medidas de robustez de los


estimadores de la varianza

Universidade
de Vigo

 COVRATIO (Razn entre los determinantes de las varianzas de


los estimadores)

 Mide el grado de influencia sobre la matriz de

varianza-covarianza de los estimadores de los


coeficientes como consecuencia de eliminar la
observacin t, y en este sentido nos da una medida de
la influencia a posteriori sobre la estimacin de la
varianza.

C O VRATIO i =

2
(i )

det[ s ( X '( i ) X ( i ) ) ]
2

det[ s ( X ' X ) ]
17/12/2007

Universidade
de Vigo

Valores especiales en la regresin

Valores especiales en la regresin

Universidade
de Vigo

 Existen dos tipos de valores que pueden afectar al

modelo:
 Los valores atpicos que afectan al comportamiento
de la variable dependiente sobre la estimacin
 Los valores influyentes que afectan a la estimacin
del modelo bien a los coeficientes, bien los valores
estimados de la dependiente o bien a las varianzas.

Definicin de valor atpico

Universidade
de Vigo

 El concepto de valor atpico se inserta dentro del

conjunto de datos con el que se trabaja:


 Se define valor atpico individual al nivel si

verifica que

et > tT k 2,

 Se define valor atpico conjunto al nivel si

verifica que

et > tT k 2, / 2T

Principio de
Bonferroni

Valor atpico al nivel

Universidade
de Vigo

Residuos Estudentizados
4

-2

-4

1 2 3 4 5 6 7 8 9 101112131415161718192021222324
17/12/2007

Efectos de los valores atpicos

Universidade
de Vigo

 Afectan a la distribucin de los datos.


 En muestras pequeas sesgan la estimacin.
 Pueden generar un efecto sobre los parmetros si tambin

son influyentes.
 Aumentan el error de la estimacin, generando ineficiencia
en los estimadores de los coeficientes y sesgo en el estimador
de la varianza.

Valores influyentes
 Son los que afectan a la estimacin de los parmetros

Universidade
de Vigo

produciendo un importante sesgo en sus valores.


 Puede afectar a los estimadores de coeficientes, al estimador
de la varianza o a ambos.
 Cuando slo afecta a la varianza pero no a los coeficientes
tiene menos importancia para la estimacin del modelo.
 No todos los puntos influyentes son atpicos ni viceversa.

Caractersticas de un punto influyente


en los coeficientes

Universidade
de Vigo

1.Modifica el vector b de los parmetros estimados.


2.Modifica el vector de prediccin.
3.Hace que la prediccin del punto influyente sea muy buena
cuando se incluye en el modelo y muy mala cuando se
excluye.

17/12/2007

Evaluacin de las medidas de


Robustez

Universidade
de Vigo

Medida

Estadstico

VC Bajo

VC Alto

Influencia
global

DFFITS

2(p/T)1/2

p1/2

Influencia en
los
estimadores

DFBETAS

2/T1/2

Influencia en
la varianza

COVRATIO

3(k+1)/T

Se utiliza el valor
absoluto de
COVRATIO-1
para realizar la
comparacin
17/12/2007

Relacin entre valores atpicos e


influyentes

Universidade
de Vigo

 Se demuestra que existe una relacin directa entre valores

atpicos e influyentes, puesto que

ht
DFFITS =
et
1 ht
Valor
influyente

Valor
Valor Atpico
potencialmente
influyente

Soluciones a posibles valores atpicos


o influyentes

Universidade
de Vigo

 Eliminar los puntos si realmente no presentan ningn

inters.
 Crear una variable ficticia (DUMMY) que trate de medir
el efecto del punto sobre el modelo y que lo caracterice
como punto especial proveniente de otra poblacin.
 Dichas variables se explicarn en el tema siguiente.

17/12/2007

Universidade
de Vigo

Test de hiptesis
Una aproximacin intuitiva

Test de hipotesis

Universidade
de Vigo

 Tratan de comprobar si una determinada hiptesis es

aceptable o no por unos determinados datos bajo una serie de


suposiciones previas.
 Son la clave de la demostracin emprica cientfica y por ello
son necesarios en las ciencias sociales.
 Nos vamos a centrar en los test de significacin que son
aquellos en los que se define un nivel de significacin, es
decir una cota de la probabilidad de elegir la hiptesis
alternativa cuando se supone que esa es falsa. De este modo
se facilita la construccin del test (Lema de Neyman
Pearson).

Test de significacin

Universidade
de Vigo

En todos los test de significacin se tienen en cuenta los


siguientes aspectos:

1.
2.
3.
4.
5.
6.

Definir modelo de anlisis e indicar suposiciones del test


Definir hiptesis nula y alternativa
Fijar el nivel de significacin
Estadstico de la prueba
Ley de distribucin del estadstico
Regla de decisin

Comentamos cada uno de esos elementos brevemente,

Modelo y suposiciones

Universidade
de Vigo

 Para poder contrastar una determinada hiptesis es necesario

presuponer un cierto comportamiento de los datos, puesto


que el proceso de generacin de estos siempre esta
determinado por los factores que los condicionan.
 Cuando ese modelo esta determinado por un nmero finito de

parmetros, se dice paramtrico. En otro caso es no


paramtrico.
 Estas suposiciones son previas, eso quiere decir que no se

contrastan en el test y por consiguiente los resultados de ese


test estn condicionados a la validez de las suposiciones.
 Cuando esas suposiciones inhabilitan totalmente el test se dice

que es poco robusto, en otro caso se dice que es robusto.

Hiptesis

Universidade
de Vigo

 En todos los test de significacin se contrastan dos hiptesis: la nula y la

alternativa.

 La hiptesis nula es aquella que se presupone inicialmente y los datos deben

comprobar si se rechaza o no hay argumentos suficientes para ello. Eso indica que
es una hiptesis conservadora en el sentido que se mantiene mientras nos e
demuestre lo contrario.
 La hiptesis alternativa es la que tienen valor probatorio en el sentido de que dice
que los datos rechazan claramente la hiptesis nula. Indica cual es la lnea de fallo
de la hiptesis nula y por consiguiente la que le da capacidad de discriminacin al
test. Por ese motivo es importante elegir bien la hiptesis alternativa para tener
mas capacidad de rechazar cuando haya que hacerlo. Esto es lo que se denomina
potencia del test.
 Normalmente la hiptesis nula es un caso particular de la alternativa. En ese

caso el test d se denomina anidado. En otro caso es no anidado.


 En el caso de contraste de suposiciones, la hiptesis nula siempre va a ser que
las suposiciones del MRLN se verifican y la alternativa ser el fallo de cada
suposicin.

El nivel de significacin

Universidade
de Vigo

 Indica un limite a la probabilidad de cometer un error de tipo I.

Para ello debemos definir previamente los diferentes tipos de


errores, tal como se hace en la tabla siguiente, segn sea cierta o
no determinada hiptesis.
H0 es cierta

H1 es cierta

Decido aceptar H0

BIEN

ERROR II

Decido aceptar H1

ERROR I

BIEN

 La idea es buscar la mnima probabilidad de cometer un error de

tipo II, una vez fijado un lmite a la probabilidad de cometer un


error de tipo de I.
 La eleccin del nivel de significacin es subjetiva, por lo que se
suele elegir entre el 5% o el 10% en ciencias sociales, mientras
que en las naturales se suele optar por el 1% o el 5%.

Estadstico de prueba

Universidade
de Vigo

 Consiste en formalizar la idea intuitiva del test, plasmando en

una funcin de los datos muestrales (estadstico) que nos d


informacin sobre como discriminar entre cada una de las
hiptesis.
 Normalmente este este estadstico tiene un comportamiento
bajo la hiptesis nula y otro bajo la alternativa y su resultado
nos va a permitir decidirnos por una u otra de las dos
hiptesis segn con cual sea mas coherente.
 Para definirlo es conveniente conocer cual es la idea intuitiva
del test, es decir, la forma en la que comparamos las
hiptesis con los datos en el test.

Ley de distribucin del estadstico

Universidade
de Vigo

 Para elaborar las reglas de decisin del test es conveniente

conocer cual es la ley que sigue el estadstico de prueba bajo


la hiptesis nula.
 Dicha ley se determina a partir a de las suposiciones de
partida y debe ser independiente de las hiptesis por lo
menos conocida si la hiptesis nula se verifica.
 A partir de esa ley de distribucin se pueden definir dos
regiones en el espacio muestral:
 la regin de aceptacin que es aquella en la que se espera que

caiga el estadistico cuando la hiptesis nula es cierta


 el resto de los valores muestrales que ser la regin de rechazo

Regla de decisin

Universidade
de Vigo

 Una vez determinada la ley simplemente se construye la regla

de decisin que siempre suele ser del mismo tipo:


 Si el estadstico muestral cae en la regin de aceptacin se

acepta la hiptesis nula, en caso contrario se rechaza.


 La regin de rechazo nos indica aquellos valores muestrales

que hacen improbable (con una probabilidad menor que el


nivel de significacin) que sea cierta la hiptesis nula. Es
decir, si la hiptesis nula fuera cierta la probabilidad que
ocurra lo que ocurri o algo mas distante es prcticamente
cero, por consiguiente supongo que la hiptesis nula no es
consistente con los datos, esto significa que la rechazo.

Ejercicio
 Plantear siguiendo el esquema anterior el contraste

individual de los coeficientes de regresin para ver


si son nulos o no.

Universidade
de Vigo