You are on page 1of 9

1

ESCOLA DE ADMINISTRAO DE EMPRESAS DE SO PAULO


FUNDAO GETULIO VARGAS
Prova Final de Estatstica II
Data: 29-nov-2012
Professores: Aldy Silva, Andr Samartini,
Eduardo Francisco e Mateus Ponchio


Nome do Aluno: GABARITO

Assinatura:

Professor: ( ) Aldy ( ) Andr ( ) Eduardo
( ) Mateus AE2 ( ) Mateus AE4

Notas:
Q1

Testes

Total








Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11
A

B

C

D

E

Instrues:
1. No faa qualquer pergunta aos professores. A correta compreenso
faz parte da prova. Em caso de dvida ou de suspeita de incorrees,
escreva o que voc assumiu.
2. Utilize caneta ou lpis (com clareza e nitidez).
3. permitida consulta apenas s suas prprias folhas de anotaes.
4. No solte o grampo. Calculadoras so permitidas. Celulares so
proibidos. proibido o emprstimo de qualquer material.
5. Assinale no quadro abaixo as suas respostas aos testes (Q2 a Q11). A
resposta Q1 deve ser feita no espao indicado.


2
Questo 01 [Valor: 3,0 pontos]
O Sr. Ivan, responsvel pela admisso dos estudantes de um curso de administrao de uma universidade,
pediu a voc um estudo para ajudar a selecionar quais alunos devem ser admitidos no curso. O objetivo
admitir estudantes que tenham sucesso no curso.

Para mensurar o sucesso no curso, foi utilizada a varivel Y=desempenho acadmico, dado pela nota mdia
das disciplinas cursadas.

Uma amostra aleatria de 100 alunos do ltimo ano foi selecionada para o estudo. Voc fez uma anlise de
regresso mltipla com todas as variveis disponveis e o seu modelo final, apenas com variveis
significantes, dado por:

Y=
0
+
1
X
1
+
2
X
2
+
3
X
3
+e

Em que:
X1=nota de redao do vestibular
X2=nmero de horas gastas, por semana, em atividades extracurriculares no ltimo ano do ensino mdio
X3=nota no ENEM (Exame Nacional do Ensino Mdio)

A sada do modelo final dada a seguir:


Admita, para responder os itens a seguir, que todas as suposies do modelo esto satisfeitas.

a) (0,75 ponto) Um dos alunos do ltimo ano, que tirou 8 em redao, gastou 5h por semana em
atividades extracurriculares e tirou 600 no ENEM, teve desempenho acadmico 6,1. Ele um
outlier? Apresente medidas estatsticas para apoiar sua resposta. Especifique o critrio para decidir se
uma observao outlier.

b) (0,75 ponto) O Sr. Ivan no sabe, afinal, se o modelo til para prever o desempenho acadmico.
Embora todas as variveis sejam significantes com =5%, o R
2
ajustado baixo. Ele te pergunta se,
ao aumentar a amostra para 200 estudantes, o modelo com as mesmas variveis vai melhorar.
Responda a pergunta dele e d uma recomendao do que pode ser feito para melhorar o modelo.

Estatstica de regresso
R mltiplo 0,52
R-Quadrado 0,27
R-quadrado ajustado 0,25
Erro padro 0,77
Observaes 100
ANOVA
gl SQ MQ F F de significao
Regresso 3 20,84 6,95 11,75 0,00
Resduo 96 56,74 0,59
Total 99 77,58
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 4,351 0,659 6,604 0,000 3,043 5,659
x1 0,175 0,037 4,675 0,000 0,101 0,250
x2 0,065 0,024 2,664 0,009 0,016 0,113
x3 0,002 0,001 2,078 0,040 0,000 0,004

3
c) (0,75 ponto) O Sr. Ivan estranhou que a varivel nota da prova de portugus do vestibular no
entrou no modelo. Como ele entende um pouco de estatstica, fez uma regresso simples em que
Y=desempenho e X=nota na prova de portugus. O valor-p obtido foi 0,045. Voc se lembra de ter
includo esta varivel no modelo de regresso mltipla inicial, mas ela foi excluda por apresentar
valor-p alto. Explique ao Sr. Ivan por que, na regresso simples, a varivel significante, mas no
permaneceu no modelo de regresso mltipla final.

d) (0,75 ponto) O Sr. Ivan quer incluir a varivel escolaridade do pai como preditora. A varivel pode
assumir os valores: superior, ensino mdio e ensino bsico. Escreva o modelo de regresso mltipla
com x1 (nota da redao), x2 (horas de atividades), x3 (nota ENEM) e outras que voc julgar
necessrias para inserir a escolaridade do pai no modelo. Interprete o(s) coeficiente(s) da(s)
varivel(is) associada(s) aos nveis de escolaridade.

Resposta (use a pgina seguinte se precisar de mais espao):


Gabarito e critrio de correo
a) Resduo padronizado=(6,1-7,276)/0,77=-1,52. Considerando outlier um valor que est a mais de dois
erros-padro do valor previsto, este aluno no considerado outlier.
(o aluno deve calcular corretamente o resduo padronizado, definir a tolerncia para decidir se
outlier e concluir)
b) Aumentar a nota no vai melhorar o modelo (no vai aumentar o r2 ajustado significativamente).
Recomenda-se buscar outras variveis relacionadas a Y e no-relacionadas s preditoras do modelo.
(o aluno deve citar que o tamanho da amostra no vai melhorar o modelo e deve citar que o Sr. Ivan
deve buscar outras variveis preditoras)
c) Provavelmente nota da prova de portugus do vestibular tem alta correlao com alguma varivel
(ou combinao delas) do modelo de regresso mltipla (nota da redao?). Quando h alta
correlao entre variveis preditoras, possvel que uma se torne no significante na presena da
outra.
o aluno deve citar que a correlao entre nota de portugus e f(x1,x2,x3) alta E o que ocorre quando
h alta correlao (uma se torna no significante).
d) Y=
0
+
1
X
1
+
2
x
2
+
3
X
3
+
4
X
4
+
5
x
5
+e
X4 vale 1 se escolaridade=mdio e 0 caso contrrio
X5 vale 1 se escolaridade=superior e 0 caso contrrio
(outras codificaes so possveis)

4
=diferena esperada no desempenho acadmico entre alunos com pai com ensino mdio e pai com
ensino bsico, mantidas as outras variveis constantes.

5
=diferena esperada no desempenho acadmico entre alunos com pai com ensino superior e pai
com ensino bsico, mantidas as outras variveis constantes.
o aluno deve apresentar as 2 variveis dummies, escrever o modelo com notao correta, escrever a
codificao de x4 e x5 e interpretar corretamente beta4 e beta5.


4
A seguir, so apresentadas 10 questes de mltipla escolha. Cada uma delas vale 0,70 ponto.
Assinale sua resposta no espao disponvel na capa da prova.
Em caso de pergunta com resposta numrica, caso voc ache que no h alternativa correta,
assinale a alternativa com o valor mais prximo.
Adote um nvel de significncia de 5% para os testes de hiptese, a no ser que outro valor
esteja claramente especificado.
Questo 02) Craps um famoso jogo de cassinos no qual os jogadores fazem suas apostas baseados nos
resultados do lanamento de dados. Um aluno da EAESP, em viagem a Las Vegas, observou e anotou os
resultados dos lanamentos de dados utilizados em uma mesa desse jogo. A tabulao apresentada a seguir:

Face do dado
1 2 3 4 5 6 Total
Nmero de ocorrncias 17 24 21 13 19 26 120

Considere o teste de hiptese:

: 1 = 2 = 3 = 4 = 5 = 6 =

(o dado honesto)

(o dado no honesto)

Dado:

com = 5% igual a 11,07.



Analise as afirmaes abaixo e assinale a alternativa apropriada.

I. O nmero de graus de liberdade do teste de qui-quadrado associado ao contexto 5. (V)
II. A estatstica de teste

= 5,6. (V)
III. O valor-p desse teste menor que 5%. (F)
IV. Adotando-se = 5%, devemos rejeitar a hiptese nula. (F)

A. Nenhuma afirmao est correta.
B. Apenas uma afirmao est correta.
C. Apenas duas afirmaes esto corretas.
D. Apenas trs afirmaes esto corretas.
E. Todas as afirmaes esto corretas.


Questo 03) Foram anotadas as preferncias de refeio principal de uma amostra de passageiros de voos
realizados entre So Paulo e Nova Iorque. Os dados so apresentados a seguir:

Categoria da passagem
Tipo da refeio
principal
Econmica Executiva e 1
Classe
Com frango 100 50
Com carne 120 40
Vegetariana 40 30

Analise as seguintes afirmaes sobre um teste de qui-quadrado de independncia entre tipo da refeio
principal e categoria da passagem. Adote o valor de 5,99 como crtico para a estatstica qui-quadrado (este
valor est baseado num nvel de significncia de 5%).


5
I. O nmero de graus de liberdade do teste de qui-quadrado associado ao contexto 6. (F)
II. A estatstica de teste

= 14,6. (F)
III. O valor-p desse teste menor que 5%. (V)
IV. Devemos rejeitar a hiptese nula do teste; logo, h evidncia de que as variveis so
independentes. (F)

A. Nenhuma afirmao est correta.
B. Apenas uma afirmao est correta.
C. Apenas duas afirmaes esto corretas.
D. Apenas trs afirmaes esto corretas.
E. Todas as afirmaes esto corretas.


Questo 04) Em um modelo de regresso linear simples, correto afirmar que:
A. Os valores de R e R ajustado sero iguais.
B. Em alguns casos, podemos identificar problemas de multicolinearidade.
C. Ao contrrio do modelo de regresso linear mltipla, no necessrio que os resduos sejam
normalmente distribudos.
D. O p-valor do teste F da tabela de ANOVA e o p-valor do teste t para o coeficiente da varivel
independente sero iguais.
E. O erro padro do modelo igual soma de quadrados dos resduos dividida pelo nmero de graus de
liberdade residuais.


Questo 05) Considere a seguinte sada do modelo de regresso em que Y (salrio) previsto por X (Anos
de estudo).
RESUMO DOS RESULTADOS
Estatstica de regresso
R mltiplo
R-Quadrado 0,70
R-quadrado ajustado
Erro padro
Observaes 24,00
ANOVA
gl SQ MQ F F de significao
Regresso 13.865.108,08 13.865.108,08 51,40 0,00
Resduo 22,00
Total 23,00 19.799.573,96
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -358,59 313,76 -1,14 0,27 -1.009,28 292,10
Anos de estudo 282,28 39,37 7,17 0,00

Estando os pressupostos do modelo satisfeitos, o intervalo com 95% de confiana para

, o coeficiente da
varivel Anos de estudo, :
A. [200,63 ; 363,94]
B. [242,91 ; 321,66]
C. [-22,72 ; 587,28]
D. [182,29 ; 382,29]
E. [133,75 ; 242,63]

6
Utilize as seguintes informaes para responder as questes 06 e 07.

Um corretor de imveis desenvolveu um modelo de regresso para explicar o comportamento dos preos de
venda de imveis. O corretor tinha como objetivos determinar os fatores importantes que explicam o preo de
venda dos imveis e usar a equao para estimar o preo de venda de imveis em funo desses fatores. Os
resultados abaixo apresentam um modelo em que Y representa o logaritmo natural dos preos de venda dos
imveis (lnpreo) com base nas variveis explicativas: rea til (areautil), nmero de quartos (quartos),
nmero de banheiros (banheiros), tamanho da garagem (numcarros) e tamanho do lote (tamanholote).

Regression Analysis: lnpreo versus areautil; quartos; ...

The regression equation is
lnpreo = 11,1 + 0,000353 areautil - 0,0174 quartos + 0,0933 banheiros
+ 0,113 numcarros + 0,000004 tamanholote

Predictor Coef SE Coef T P
Constant 11,1258 0,0418 266,38 0,000
areautil 0,00035335 0,00002113 16,72 0,000
quartos -0,01741 0,01146 -1,52 0,129
banheiros 0,09329 0,01400 6,67 0,000
numcarros 0,11324 0,01690 6,70 0,000
tamanholote 0,00000354 0,00000080 4,42 0,000

S = 0,210054 R-Sq = 76,5% R-Sq(adj) = 76,3%

Analysis of Variance
Source DF SS MS F P
Regression 5 74,316 14,863 336,86 0,000
Residual Error 516 22,767 0,044
Total 521 97,083

Questo 06) Em relao aos coeficientes do modelo, podemos afirmar:
A. Todos so estatisticamente diferentes de zero, ao nvel de significncia de 5%.
B. As variveis areautil e tamanholote no so importantes no modelo, pois seus coeficientes so
prximos de zero.
C. Se a varivel quartos tivesse sido multiplicada por 10, seu coeficiente tambm apareceria
multiplicado por 10.
D. A cada aumento de uma unidade no nmero de banheiros, mantidas as outras variveis fixas, o preo
de venda do imvel aumenta em mdia 0,09329 unidades.
E. De acordo com o procedimento backward de seleo de variveis, com = 5%, o prximo passo
seria retirar a varivel quartos e rodar o modelo com as variveis restantes.

Questo 07) Ainda em relao a esse modelo, podemos afirmar:
A. O modelo globalmente significante (rejeitamos

= 0).
B. O modelo globalmente significante, pois o R
2
ajustado igual a 76,3%, o que indica que 76,3% da
variao do logaritmo do preo de venda dos imveis explicada pelas variveis do modelo.
C. Retirar a varivel quartos e rodar novamente o modelo elevar o R e poder elevar o R ajustado.
D. Obter um modelo com todos os coeficientes das variveis explicativas estatisticamente diferentes de
zero suficiente para garantir que o modelo apresentar R elevado.
E. Todas as alternativas anteriores esto corretas.




7
Questo 08) Analise os seguintes grficos de um modelo de regresso linear baseado em uma amostra de mil
observaes e identifique a alternativa correta.

4 2 0 -2 -4
99,99
99
90
50
10
1
0,01
Standardized Residual
P
e
r
c
e
n
t
0,06 0,03 0,00 -0,03 -0,06
4
2
0
-2
-4
Fitted Value
S
t
a
n
d
a
r
d
i
z
e
d

R
e
s
i
d
u
a
l
3 2 1 0 -1 -2 -3
80
60
40
20
0
Standardized Residual
F
r
e
q
u
e
n
c
y
1000 900 800 700 600 500 400 300 200 100 1
4
2
0
-2
-4
Observation Order
S
t
a
n
d
a
r
d
i
z
e
d

R
e
s
i
d
u
a
l
Normal Probability Plot Versus Fits
Histogram Versus Order
Residual Plots for y


A. possvel observar, pelo grfico superior esquerda, que a distribuio dos resduos uniforme
(linear).
B. Para um modelo elaborado com base em uma amostra to grande, desprezvel conduzir a anlise de
resduos.
C. H evidncia de heterocedasticidade.
D. O pressuposto de distribuio normal dos resduos est satisfeito.
E. H evidncia de que os resduos no so independentes.


Utilize as seguintes informaes para responder as questes 09 e 10.

A Prefeitura de So Paulo elaborou um modelo de regresso para poder explicar a taxa de homicdios
(varivel Homicdios) dos 96 distritos da capital paulista (medidos em nmero de bitos por cem mil
habitantes). Para tal, utilizou as seguintes variveis scioeconmicas: Densidade Demogrfica (em hab/km
2
),
IDH (ndice de Desenvolvimento Humano, em escala de 0 a 1000), Renda Familiar (em R$), e Nmero de
Empregos Formais. Os dados utilizados so de 2010. A matriz de correlao entre as variveis e os resultados
do modelo so apresentados a seguir.

Matriz de Correlao



Densidade Demogrfica IDH Renda Empregos Formais Homicdios
Densidade Demogrfica 1
IDH -0,0084 1
Renda -0,1337 0,8414 1
Empregos Formais -0,1344 0,5164 0,5301 1
Homicdios -0,1110 -0,8810 -0,5916 -0,4381 1

8



Questo 09) O modelo globalmente significante. No entanto, h alguns valores-p no significantes ao nvel
de 5%. O correto a fazer :

A. Retirarmos a varivel IDH, com menor valor-p, avaliando se o R
2
e o R
2
ajustado no caem
significativamente. Se carem, no retiramos a varivel e, pois, paramos o processo.
B. Retirarmos simultaneamente as variveis Densidade Demogrfica e Renda, com valores-p acima de
5% e rodarmos um modelo com as variveis que restarem.
C. Retirarmos simultaneamente as variveis IDH e Empregos Formais, com valores-p abaixo de 5%, e
rodarmos um modelo com as variveis que restarem.
D. Retirarmos a varivel IDH, com menor valor-p, e rodarmos novo modelo, avaliando se ainda restam
variveis com baixo valor-p. Se persistirem, retiramos novamente, uma por vez.
E. Retirarmos a varivel Densidade Demogrfica, com maior valor-p, e rodarmos novo modelo,
avaliando se ainda restam variveis com valor-p maior que alfa. Se persistirem, retiramos novamente,
uma por vez.

Questo 10) Caso haja problemas de multicolinearidade neste modelo, seria devido provavelmente s
variveis:

A. IDH e Homicdios.
B. Densidade Demogrfica e IDH.
C. Renda e IDH.
D. Densidade Demogrfica e Homicdios.
E. Renda e Densidade Demogrfica.


RESUMO DOS RESULTADOS
Estatsticas da Regresso
R mltiplo 0,8100
R-Quadrado 0,6561
R-quadrado ajustado 0,6410
Erro padro 12,6423
Observaes 96
ANOVA
gl SS MS F F de significao
Regresso 4 27.752,9 6938,23 43,41 2,481E-20
Resduo 91 14.544,2 159,83
Total 95 42.297,1
Coeficientes Erro padro t Stat valor-P 95% inferiores 95% superiores
Intercepto 330,7389 32,1953 10,2729 0,0000 266,7869 394,6910
Densidade Demogrfica -0,0003 0,0003 -1,0454 0,2986 -0,0008 0,0003
IDH -0,3538 0,0427 -8,2934 0,0000 -0,4386 -0,2691
Renda 0,0021 0,0014 1,4886 0,1400 -0,0007 0,0050
Empregos Formais 0,0004 0,0002 2,4731 0,0153 0,0001 0,0008

9
Questo 11) O modelo de regresso linear apresentado a seguir foi elaborado para prever a Y (nota na prova)
a partir do time de futebol de preferncia do aluno (Corinthians, Palmeiras ou So Paulo, neste caso). A
varivel time de futebol foi codificada conforme Tabela 2.



Tabela 2

Time de
Futebol
TF1 TF2
Corinthians 1 0
Palmeiras 0 0
So Paulo 0 1

As seguintes quatro afirmaes so formuladas.

I) O modelo globalmente significativo (a um nvel de significncia de 5%), mas a codificao da varivel
Time de Futebol no respeitou a ordem entre as categorias, e por isso o modelo deve ser refeito. (F)
II) A um nvel de significncia de 5%, o desempenho mdio dos corintianos inferior aos palmeirenses,
pois o sinal do coeficiente de TF1 negativo. (V)
III) O coeficiente de TF1 representa a diferena do desempenho mdio entre alunos torcedores do
Corinthians e alunos torcedores do So Paulo. (F)
IV) A um nvel de significncia de 1%, no possvel afirmar que h diferenas de desempenho entre os
desempenhos dos alunos torcedores do Palmeiras e do Corinthians. (F)

Assinale a alternativa correta:

A. Nenhuma afirmao est correta.
B. H exatamente uma afirmao correta.
C. H exatamente duas afirmaes corretas.
D. H exatamente trs afirmaes corretas.
E. Todas as afirmaes esto corretas.
RESUMO DOS RESULTADOS
Estatsticas da Regresso
R mltiplo
R-Quadrado 0,6915
R-quadrado ajustado
Erro padro
Observaes 18
ANOVA
gl SS MS F F de significao
Regresso 2 7,523333333 3,761666667 16,80983118 0,000147773
Resduo 15 3,356666667 0,223777778
Total 17 10,88
Coeficientes Erro padro t Stat valor-P 95% inferiores 95% superiores
Intercepto 6,8167 0,1931 35,2971 0,0000 6,4050 7,2283
TF1 -0,8167 0,2731 -2,9902 0,0092 -1,3988 -0,2345
TF2 0,7667 0,2731 2,8071 0,0133 0,1845 1,3488