Professional Documents
Culture Documents
MAE116 - Noc Oes de Estat Istica
MAE116 - Noc Oes de Estat Istica
Exercı́cio 1
Com o objetivo de verificar se o número de faltas dos alunos influenciam na nota final que eles
obtêm, uma professora coletou informações de 7 estudantes. Os dados obtidos estão dispostos na
tabela a seguir.
Aluno Faltas (X) Nota final (Y )
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81
●
90
●
80
●
Nota Final (Y)
70
60
●
50
2 4 6 8 10 12 14
Faltas (X)
1
O gráfico sugere a existência de correlação linear negativa, pois aumentando o número de faltas,
a nota tende a diminuir, e próximo a uma reta.
(b) Obtenha o coeficiente de correlação entre X e Y . Com base nesse valor, faça
um comentário sobre a associação entre as variáveis
7
X
Xi Yi = 8 ⇥ 78 + 2 ⇥ 92 + · · · + 9 ⇥ 74 + 6 ⇥ 81 = 3751.
i=1
Logo,
P7 2
2 Xi2
i=1 7X 7.(8, 1429)2
579
SX = = = 19, 1420,
6 6
P7 2
Y2 7Y 39898 7.(73, 7143)2
SY2 = i=1 i = = 310, 2356,
6 6
e, portanto, o coeficiente de correlação r é dado por
P7
Xi Yi 7XY 3751 7.(8, 1429).(73, 7143)
r = i=1 = p p = 0, 9748
6SX SY 6.( 19, 1429).( 310, 2381)
2
(c) Obtenha a reta de regressão de Y em função de X
Yb = a + bX,
em que Pn
Xi Yi nXY
a=Y bX e b= i=1
2
.
(n 1)SX
Utilizando os valores já calculados no item (b), obtemos que
Yb = 105, 67 3, 92 ⇥ X
Para cada um dia a mais de falta do aluno, estima-se que sua nota final diminui, em média, 3,92.
(e) Com base na reta do item (c), obtenha uma estimativa da nota final de um
aluno que faltou a aula por 10 vezes
Com base no item (c), a reta de regressão ajustada para este conjunto de dados é dada por
Yb = 105, 67 3, 92 ⇥ X,
3
Exercı́cio 2
Uma rede de lojas de vendas por atacado quer avaliar o desempenho de suas filiais, e de quebra
verificar a viabilidade de implantar uma nova loja em Joinville, SC. Para isso, foram coletadas al-
gumas informações sobre suas filiais. Os dados obtidos estão dispostos no arquivo Vendas.xlsx. As
variáveis medidas foram
(1) Ler o conjunto de dados: Clique na guia Dados ) Importar arquivos de dados )
do arquivo Excel. Em seguida defina um nome para o seu conjunto de dados (por exemplo,
Vendas) e clique em OK. Navegue até o diretório onde o seu conjunto de dados está localizado e
clique em Abrir.
(2) Diagrama de dispersão: Após a leitura do banco de dados, vá até a guia Gráficos )
Diagrama de dispersão; escolha as variáveis correspondentes e clique em OK.
250
● ●
●
200
●
●
●
● ●
●
●
Vendas
●
●
●
●
●
●
●
150
●
●
●
●
●
100
Numero.de.clientes
4
(b) Calcule o coeficiente de correlação linear de Pearson entre X e Y
Para calcular a correlação linear entre as variáveis no Rcmdr, utilizamos a sequência de coman-
dos:
X Y
X 1.0000000 0.9510715
Y 0.9510715 1.0000000
Assim, temos que o coeficiente de correlação entre Vendas (Y ) e Número de clientes (X) é r =
0, 9510715.
(c) Com base nos itens (a) e (b) comente sobre a associação entre as variáveis X
eY.
A reta de regressão pode ser obtida utilizando o Rcmdr seguindo os seguintes comandos:
5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 22.84791 10.40813 2.195 0.0385 *
X 0.16490 0.01117 14.762 3.19e-13 ***
Dessa forma, podemos dizer que a estimativa do acréscimo médio no valor mensal de vendas de
uma filial com o aumento de um cliente num mês é de 0, 1649 milhares de reais. Isto significa que,
para cada cliente a mais que uma loja recebe, estima-se que o valor em vendas aumente em média
R$ 164,90. Para o caso em que há um aumento de 10 clientes num determinado mês, a estimativa
do acréscimo médio no valor mensal de vendas é de 0, 1649 ⇥ 10 = 1, 649. Ou seja, para cada 10
clientes a mais que a loja recebe, estima-se que o valor em vendas aumente em média R$ 1.649,00
(e) Obtenha uma previsão do valor de vendas para uma loja não observada na
amostra para a qual o número de clientes seja igual a 500.
Para prever o valor mensal em vendas de uma loja (Y ) em função do número de clientes (X)
podemos utilizar a reta de regressão de Y em função de X.
Utilizando a reta de regressão obtida temos que para X = 500
isto é, estima-se que uma loja que possui 500 clientes venda, em média, R$ 105.297,90 por mês.
Exercı́cio 3
Uma amostra aleatória de 521 pessoas que possuem um automóvel foi entrevistada, sendo anota-
dos de cada participante o gênero (masculino; feminino), a faixa etária (menos de 42 anos; 42 anos
ou mais) e o resultado da preferência pelo tipo de transmissão (automática; manual). Os resultados
estão apresentados no quadro a seguir.
6
Preferência
Gênero e Faixa etária
Transmissão automática Transmissão manual
Feminino e Menos de 42 anos 85 30
Masculino e Menos de 42 anos 122 112
Feminino e 42 anos ou mais 73 26
Masculino e 42 anos ou mais 38 35
(a) Verifique se há indicação de associação entre a preferência pelo tipo de trans-
missão e o gênero. Comente.
Inicialmente, vamos construir a tabela de contigência entre o gênero e a preferência pelo tipo de
transmissão. Para facilitar, também iremos acrescentar os totais marginais.
Para determinar se há indı́cios de associação entre estas variáveis, vamos calcular as porcentagens
segundo os totais das linhas da tabela de contingência, conforme apresentado a seguir.
7
mulheres por transmissão automática (73,8%), enquanto que entre os homens, transmissão automática
e manual são aproximadamente iguais (52,1% e 47,9%,) sugerindo que há existência de associação
entre o gênero e a preferência por tipo de transmissão.
Observação: Ao invés de construir as porcentagens em relação às linhas (gênero), também podemos
obtê-las em relação aos totais das colunas. Neste caso, temos:
Tabela 3: Tabela de frequências entre Gênero e Preferência (porcentagem de gênero por preferência
de transmissão)
Preferência
Gênero Total
Transmissão automática Transmissão manual
Feminino 158 (49,7%) 56 (27,6%) 214 (41,1%)
Masculino 160 (50,3%) 147 (72,4%) 307 (58,9%)
Total 318 (100%) 203 (100%) 521 (100%)
Os resultados mostram que na amostra, 41,1% dos participantes são do gênero feminino e que
58,9% são do gênero masculino. Neste caso também é possı́vel perceber que a distribuição dos
gêneros em cada tipo de preferência não são próximas das porcentagens calculadas independente da
preferência: entre os indivı́duos que preferem transmissão automática, não há, aproximadamente,
diferença entre os gêneros (49,7% e 50,3%); já entre os indivı́duos que preferem transmissão ma-
nual, há uma grande preferência entre os homens (72,4%). Assim, também concluı́mos que há uma
indicação de associação entre a preferência pelo tipo de transmissão e o gênero.
(b) Verifique se há indicação de associação entre a preferência pelo tipo de trans-
missão e a faixa etária. Comente.
As porcentagens segundo os totais das linhas da tabela de contingência (faixa de idade) são apre-
sentadas na tabela a seguir:
8
Tabela 5: Tabela de frequencias entre Faixa Etária e Preferência (porcentagens de Preferência por
Faixa Etária)
Preferência
Faixa etária Total
Transmissão automática Transmissão manual
Menos de 42 anos 207 (59,3%) 142 (40,7%) 349 (100%)
42 anos ou mais 111 (64,5%) 61 (35,5%) 172 (100%)
Total 318 (61%) 203 (39) 521 (100%)
Independentemente da faixa etária, observou-se na amostra que 61% dos participantes prefe-
rem transmissão automática e que 39% preferem transmissão manual. Note que as porcentagens
de preferência em cada faixa etária são relativamente próximas das porcentagens marginais, isto é, a
mudança de faixa etária parece não ter influência na preferência pelo tipo de transmissão. Entre os
indivı́duos com menos de 42 anos temos que 59,3% preferem transmissão automática e 40,7% prefe-
rem manual; enquanto que entre os indivı́duos com 42 anos ou mais temos 64% preferem transmissão
automática e 35% preferem manual. Assim, os dados sugerem que não há indicação de associação
entre a preferência pelo tipo de transmissão e a faixa etária.
Tabela 6: Tabela de frequencias entre Faixa Etária e Preferência (porcentagens de Faixa Etária por
Preferência de transmissão)
Preferência
Faixa etária Total
Transmissão automática Transmissão manual
Menos de 42 anos 207 (65,1%) 142 (70%) 349 (67%)
42 anos ou mais 111 (34,9%) 61 (30%) 172 (33%)
Total 218 (100%) 203 (100%) 521 (100%)
9
Exercı́cio 4
Um estudo no Reino Unido foi realizado para estudar as caracterı́sticas da população fumante
em comparação com a não-fumante. Os dados necessários para este exercicı́o estão disponı́veis no
arquivo Smoking.xlsx e fazem parte de um conjunto maior que pode ser acessado em
https://www.openintro.org/data/index.php?data=smoking
• Gender: gênero, um fator com dois nı́veis formado pelas categorias “Male” e “Female”;
• Age: faixa etária, um fator com quatro nı́veis formado pelas categorias “(15,35]”, “(35,55]”,
“(55,75]” e “(75,100]”;
• Marital status: estado civil, um fator com cinco nı́veis formado pelas categorias “Divorced”,
“Married”, “Separated”, “Single” e “Widowed”;
• Smoke: hábito de fumar, um fator com dois nı́veis que indica se o indivı́duo é fumante (categoria
“Yes”) ou não fumante (categoria “No”).
Toda a análise pode ser feita via Rcmdr. Podemos utilizar os seguintes passos:
(1) Ler o conjunto de dados: Clique na guia Dados ) Importar arquivos de dados )
do arquivo Excel. Em seguida defina um nome para o seu conjunto de dados (por exemplo,
Smoking) e clique em OK. Navegue até o diretório onde o seu conjunto de dados está localizado e
clique em Abrir.
10
As tabelas, com a adição dos totais marginais, são apresentadas a seguir.
(b) Dentre os respondentes com faixa etária entre 15 e 35 anos, qual é a porcen-
tagem de fumantes?
De acordo com a Tabela 8, temos um total de 458 respondentes com idade entre 15 e 35 anos.
Desses respondentes, 293 são não-fumantes e 165 são fumantes. Assim, a porcentagem solicitada é
165
⇡ 0, 3603,
458
ou seja, 36,03% dos respondentes com idade entre 15 e 35 anos são fumantes.
11
(c) Dentre os respondentes que possuem o hábito de fumar, qual é a porcenta-
gem de pessoas casadas?
Segundo a Tabela 9, temos um total de 421 pessoas fumantes. Dentre esses, 143 são casados.
Assim, a porcentagem solicitada é
143
⇡ 0, 3397,
421
ou seja, 33,97% dos respondentes que possuem hábito de fumar são casados.
De acordo com a Tabela 7, temos que de um total de 965 respondentes do gênero feminino, 234
são fumantes. Logo, a porcentagem de fumantes dentre os respondentes do gênero feminino é dada
por
234
⇡ 0, 2425 = 24, 25%.
965
Em relação ao gênero masculino, temos que 187 respondentes de um total de 726 são fumantes.
Assim, a porcentagem de fumantes dentre os respondentes do gênero masculino é dada por
187
⇡ 0, 2576 = 25, 76%.
726
(e) Você diria que existe associação entre o hábito de fumar e a faixa etária?
Justifique.
A tabela com os percentuais em relação aos totais das linhas (ou, equivalentemente, das colunas)
pode nos ajudar a perceber uma possı́vel associação entre o hábito de fumar e a faixa etária. No pacote
“Rcmdr”, repita os comandos descritos no passo “(2) Tabelas de contingência” com as variáveis Age
na linha e Smoke na coluna, mas antes de apertar OK, vá até a aba Estatı́sticas e selecione
Percentual nas linhas.
A tabela gerada é apresentada a seguir.
12
Tabela 10: Tabela de contingência com os percentuais fixados nas linhas para as variáveis Smoke e
Age.
Hábito de fumar
Faixa etária Total
Não Sim
(15,35] 64,0 36,0 100
(35,55] 71,3 28,7 100
(55,75] 84,0 16,0 100
(75,100] 91,6 8,4 100
Independente de outras variáveis, foram observados 1270 respondentes não fumantes e 421 fu-
mantes de um total de 1691 respondentes. Estas frequências podem ser obtidas usando as tabelas
7–9. Assim, independente da faixa etária, a amostra possui 1270/1691 ⇡ 75, 10% respondentes não
fumantes e 421/1691 ⇡ 24, 90% respondentes fumantes. Se não existe associação entre a faixa etária
e o hábito de fumar, espera-se que essas proporções entre não-fumantes e fumantes sejam encontradas
em cada faixa etária considerada. A Tabela 10 nos mostra essas proporções.
Note que as proporções de não-fumantes e fumantes por faixa etária diferem da proporção geral.
Por exemplo, para indivı́duos com idade entre 75 e 100 anos 91,6% são não-fumantes, enquanto que
essa proporção cai para 64% para indivı́duos com idade entre 15 e 35 anos. Assim, os dados sugerem
uma aparente associação entre o hábito de fumar e a faixa etária.
13