You are on page 1of 5

M´etodo Bootstrap

Francisco Cribari Neto
1 Introdu¸c˜ao
O m´etodo bootstrap, introduzido por Efron (1979), ´e um m´etodo de reamostragem
baseado na constru¸ c˜ao de subamostras a partir de uma amostra inicial. Na verdade,
trata-se tanto de uma alternativa para o processo inferencial como tamb´em de uma fer-
ramenta de diagn´ostico.
´
E bastante ´ util quando se deseja avaliar, para um certo esti-
mador, o seu erro padr˜ao, o seu vi´es, ou ainda quando se quer estimar a distribui¸ c˜ao
de probabilidade do estimador. O m´etodo bootstrap pode ser constru´ıdo param´etrica
ou n˜ao-parametricamente. No bootstrap param´etrico, fazemos suposi¸ c˜oes distribucionais
e reamostramos observa¸ c˜oes da distribui¸ c˜ao postulada, mas usando os valores das esti-
mativas dos parˆametros no processo de gera¸ c˜ao de pseudo-amostras. No bootstrap n˜ao-
param´etrico, o processo de reamostragem se d´a a partir da fun¸ c˜ao de distribui¸ c˜ao emp´ırica
dos dados (ou dos res´ıduos quando h´a uma estrutura de regress˜ao).
Freedman (1981) e Wu (1986) discutem detalhadamente propriedades do m´etodo
bootstrap em an´alises de regress˜ao tratando de dois problemas, o primeiro sendo a de-
termina¸ c˜ao da precis˜ao dos coeficientes estimados de regress˜ao ou valores ajustados da
resposta m´edia e o segundo sendo o estudo da influˆencia da sele¸ c˜ao de vari´aveis ou do
modelo sobre o vi´es de alguma medida do modelo ajustado. Efron e Tibshirani (1986)
apresentam muitas aplica¸ c˜oes do m´etodo bootstrap para procedimentos estat´ısticos, tais
como s´eries temporais e dados censurados. Fisher e Hall (1989) mostram como obter
regi˜oes de confian¸ ca via bootstrap quando se utilizam dados circulares.
2 M´etodo Bootstrap
Considere uma amostra aleat´oria y = (y
1
, . . . , y
n
) cujos valores s˜ao realiza¸ c˜oes de
vari´aveis aleat´orias independentes e identicamente distribu´ıdas Y
1
, . . . , Y
n
, cada uma pos-
suindo fun¸ c˜ao de densidade de probabilidade e fun¸ c˜ao de distribui¸ c˜ao denotadas por f
e F, respectivamente. A amostra ´e usada para realizar inferˆencia sobre alguma carac-
ter´ıstica da popula¸ c˜ao, genericamente denotada por θ, atrav´es de uma estat´ıstica T cujo
valor na amostra ´e t.
H´a duas situa¸ c˜oes distintas para diferenciar o bootstrap param´etrico e o n˜ao-param´etrico.
Quando h´a um modelo com constantes ajust´aveis ou parˆametros ψ que determinam com-
pletamente f, tal modelo ´e chamado de param´etrico e m´etodos estat´ısticos baseados neste
1
modelo s˜ao m´etodos param´etricos. Neste caso, o parˆametro de interesse θ ´e uma compo-
nente ou uma fun¸ c˜ao de ψ. Quando nenhum modelo matem´atico deste tipo ´e usado, a
an´alise estat´ıstica ´e n˜ao-param´etrica e usa apenas o fato de que as vari´aveis aleat´orias Y
i
’s
s˜ao independentes e identicamente distribu´ıdas. Mesmo se houver um modelo param´etrico
plaus´ıvel, uma an´alise n˜ao-param´etrica pode ainda ser ´ util para avaliar a robustez das
conclus˜oes de uma an´alise param´etrica.
Um importante papel ´e desempenhado na an´alise n˜ao-param´etrica pela distribui¸ c˜ao
emp´ırica, que coloca probabilidades iguais a n
−1
em cada valor y
i
da amostra. A estimativa
usada de F ´e a fun¸ c˜ao de distribui¸ c˜ao emp´ırica
´
F, que ´e definida como
´
F(y) = #
y
j
≤ y
n
.
Nota-se que o valor do salto da fun¸ c˜ao de distribui¸ c˜ao emp´ırica no ponto y
i
´e a propor¸ c˜ao
de vezes em que y
i
aparece na amostra. Se denotarmos essa propor¸ c˜ao por f
i
, e se,
por exemplo, estivermos interessados em estimar a m´edia, teremos
´
θ =

n
i=1
f
i
y
i
. As
propor¸ c˜oes f
i
podem assumir valores 0, 1/n, 2/n, . . . , 1, satisfazendo

n
i=1
f
i
= 1.
De forma mais ampla, a estat´ıstica de interesse t ´e uma fun¸ c˜ao sim´etrica de y
1
, . . . , y
n
,
significando que t n˜ao ´e afetada pelo reordenamento dos dados. Isto implica que t depende
apenas dos valores ordenados y
(1)
, . . . , y
(n)
ou, equivalentemente, da fun¸ c˜ao de distribui¸ c˜ao
emp´ırica
´
F. Freq¨ uentemente isto pode ser expresso simplesmente como t = t(
´
F), onde
t(·) ´e uma fun¸ c˜ao estat´ıstica — essencialmente ´e apenas uma express˜ao matem´atica do
algoritmo para computar t a partir de
´
F. Tal fun¸ c˜ao estat´ıstica ´e de importˆancia central
no caso n˜ao-param´etrico porque tamb´em define a quantidade de interesse θ atrav´es de
θ = t(F). Isto corresponde `a id´eia qualitativa de que θ ´e uma caracter´ıstica da popula¸ c˜ao
descrita por F. A mesma defini¸ c˜ao de θ se aplica em problemas param´etricos, onde θ ´e
usualmente definido como um dos parˆametros em ψ.
A rela¸ c˜ao entre a estimativa t e
´
F pode ser geralmente expressa como t = t(
´
F),
correspondendo `a rela¸ c˜ao θ = t(F) entre a caracter´ıstica de interesse e a distribui¸ c˜ao. A
fun¸ c˜ao estat´ıstica t(·) ´e utilizada para representar a estimativa de θ baseada nos dados
observados y
1
, . . . , y
n
.
Suponha um modelo param´etrico particular para a distribui¸ c˜ao dos dados y
1
, . . . , y
n
.
Usaremos F
ψ
(y) e f
ψ
(y) para denotar a fun¸ c˜ao de distribui¸ c˜ao e a fun¸ c˜ao densidade, res-
pectivamente. Quando ψ ´e estimado por
´
ψ — freq¨ uentemente, mas n˜ao invariavelmente,
pela sua estimativa de m´axima verossimilhan¸ ca — a substitui¸ c˜ao por
´
ψ no modelo resulta
no modelo ajustado, com fun¸ c˜ao de distribui¸ c˜ao
´
F(y) = F
b
ψ
(y), que pode ser usado para
se obter conhecimento sobre propriedades de T, `as vezes com exatid˜ao.
A utiliza¸ c˜ao do m´etodo bootstrap se justifica quando a teoria assint´otica ´e intrat´avel ou
quando, apesar de vi´avel, as aproxima¸ c˜oes assint´oticas de primeira ordem s˜ao imprecisas
para os tamanhos amostrais dispon´ıveis. Quando, por exemplo, a teoria assint´otica fornece
uma aproxima¸ c˜ao imprecisa para a distribui¸ c˜ao de uma estat´ıstica de teste, as diferen¸ cas
entre o n´ıvel exato do teste (realizado com base em valores cr´ıticos assint´oticos) e o
n´ıvel nominal podem ser substanciais. A aplica¸ c˜ao de bootstrap, neste caso, ´e de grande
2
relevˆancia, uma vez que o m´etodo pode reduzir consideravelmente, ou at´e mesmo elimi-
nar, distor¸ c˜oes de tamanho de testes estat´ısticos em amostras finitas (Espinheira, 2003).
Segundo Horowitz (1997), procedimentos bootstrap simples fornecem aproxima¸ c˜oes me-
lhoradas para a distribui¸ c˜ao de estat´ısticas assintoticamente pivotais, mas n˜ao para a
distribui¸ c˜ao de estat´ısticas que n˜ao apresentam esta propriedade. Beran (1988) mostra
que se a distribui¸ c˜ao assint´otica da estat´ıstica, sob a hip´otese nula, ´e pivotal, ent˜ao, sob
algumas condi¸ c˜oes de regularidade, os tamanhos de testes bootstrap apresentam erros
de ordem menor, i.e., erros cujas ordens convergem mais rapidamente para zero que as
ordens dos erros dos testes baseados na teoria assint´otica de primeira ordem.
3 Bootstrap em Modelos de Regress˜ao
Bootstrap ´e um m´etodo que pode ser usado para avaliar a precis˜ao de estimativas
estat´ısticas baseado em simula¸ c˜oes. O m´etodo bootstrap tipicamente produz uma aproxi-
ma¸ c˜ao para a distribui¸ c˜ao da estat´ıstica de interesse que pode ser consideravelmente mais
precisa do que sua aproxima¸ c˜ao assint´otica de primeira ordem. A aplica¸ c˜ao de bootstrap
em modelos de regress˜ao foi estudada em detalhes por Wu (1986). Mais recentemente,
muitos autores tˆem investigado o uso deste m´etodo em econometria, entre eles est˜ao
Horowitz (1997), Jeong e Maddala (1993), Li e Maddala (1996) e Vinod (1993).
Considere o seguinte modelo:
y
i
= β
1
+ β
2
x
i2
+ . . . + β
k
x
ik
+ ε
i
, i = 1, . . . , n,
onde ε = (ε
1
, . . . , ε
n
) ´e um vetor de erros com m´edia zero e variˆancia constante, σ
2
, e
E(ε
i
ε
j
) = 0, ∀ i = j. Suponha agora que desejamos um erro-padr˜ao de bootstrap para b
2
(estimativa pontual de β
2
). O procedimento para tanto pode ser descrito como segue:
(P1) Com base na amostra original, estime β : b =
_
X

X
_
−1
X

y. Obtenha os res´ıduos:
e = y −Xb.
(P2) Gere uma pseudo-amostra: y

= Xb + ε

, onde ε

= (ε

1
, . . . , ε

n
) ´e obtido de ε
usando amostragem com reposi¸ c˜ao.
´
E comum dividir cada ε

i
por
_
(1 −h
i
), onde
h
i
´e o i-´esimo elemento da diagonal da matriz chap´eu H = X(X

X)
−1
X

.
(P3) Regresse y

em X, obtendo b

= (X

X)
−1
X

y

.
(P4) Repita (P2) e (P3) B vezes.
(P5) Use B+1 realiza¸ c˜oes de b
2
para obter uma estimativa bootstrap de seu erro-padr˜ao.
Ou seja:
e.p.
boot
(b
2
) =
¸
¸
¸
_
1
B + 1
B

j=0
(b

2,j
−b

2
)
2
,
onde b

2
=
1
B+1

B
j=0
b

2,j
.
3
No entanto, quando h´a heteroscedasticidade o procedimento acima deve ser modi-
ficado. Tal mudan¸ ca ocorrer´a em (P2), permanecendo os demais passos iguais. Esta
mudan¸ ca ´e chamada de bootstrap selvagem e ´e dada por:
(P2’) Obtenha η

1
, . . . , η

n
de uma popula¸ c˜ao com m´edia zero e variˆancia um (de forma
independente). Gere y

1
, . . . , y

n
:
y

i
= x

i
b + η

i
e
i

1 −h
i
, i = 1, . . . , n.
Wu (1986) mostrou que o estimador de V (b) obtido desta forma ´e consistente e as-
sintoticamente n˜ao-viesado sob homoscedasticidade e sob heteroscedasticidade de forma
desconhecida.
Uma outra abordagem importante ´e a dos testes bootstrap. Suponha que o modelo ´e
y
i
= β
1
+ β
2
x
i2
+ β
3
x
i3
+ ε
i
, i = 1, . . . , n,
e que desejamos testar H
0
: β
3
= 1 contra H
1
: β
3
= 1. Suponha tamb´em que suspeitamos
da presen¸ ca de heteroscedasticidade e n˜ao desejamos assumir normalidade. Procedimento:
(P1) Para a amostra original, calcule b = (X

X)
−1
X

y, e a estat´ıstica de teste T =
b
3
−1/
_
ˆ
V (b
3
), onde
ˆ
V (b
3
) ´e um estimador consistente de V (b
3
) sob heteroscedas-
ticidade.
(P2) Use bootstrap ponderado para gerar y

= (y

1
, . . . , y

n
) e regresse y

em X : b

=
(X

X)
−1
X

y

. Calcule e a estat´ıstica de teste T

= b

3
− 1/
_
ˆ
V (b

3
). Na gera¸ c˜ao
dos dados imponha a hip´otese nula.
(P3) Repita (P2) B vezes.
(P4) Use as B + 1 realiza¸ c˜oes da estat´ıstica de teste para obter uma estimativa do valor
cr´ıtico.
Referˆencias
[1] Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of
Statistics 7: 1-25.
[2] Efron, B. e Tibshirani, R. J. (1993). An Introducion to the Bootstrap. New York:
Chapman e Hall.
[3] Davidson, A. C. e Hinkley, D. V. (1997). Bootstrap Methods e Their Applications. New
York: Cambridge University Press.
4
Comandos no R
# Load add-on packages
library(bootstrap)
# Read the data
x1 <- rnorm(100, mean=2)
x2 <- x1^2
y <- rnorm(100, mean=16)
# Fit linear model
ajuste<-lm(y~x1+x2)
# Result summaries of the model fitting
summary(ajuste)
# res receives residuos of the model fitting
res <- ajuste$res
# Xbeta receives X*beta of the model fitting
Xbeta <- ajuste$fit
# armazenando os valores que serao usados na funcao
xdata<-cbind(x1,x2,Xbeta,res)
# function of bootstrap
theta<-function(x,xdata)
{
x1b<-xdata[,1] # x1 bootstrap
x2b<-xdata[,2] # x2 bootstrap
xbetab<-xdata[,3] # XBeta bootstrap
resb<-xdata[x,4] # residuos
# Obtaining y.boot
y.boot <- xbetab + resb
# Fit linear model
ajuste.boot <- lm(y.boot~x1b+x2b)
# Return of bootstrap
ajuste.boot$coef
}
# aplicando a funcao bootstrap 10 vezes
results<-bootstrap(1:100,10,theta,xdata)
5