You are on page 1of 13

MAE116 – Noções de Estatı́stica

Grupo A – 1º Semestre de 2022


2021
Lista de exercı́cios 3 – Estatı́stica Descritiva III – CASA (Gabarito)

Exercı́cio 1

Com o objetivo de verificar se o número de faltas dos alunos influenciam na nota final que eles
obtêm, uma professora coletou informações de 7 estudantes. Os dados obtidos estão dispostos na
tabela a seguir.
Aluno Faltas (X) Nota final (Y )
1 8 78
2 2 92
3 5 90
4 12 58
5 15 43
6 9 74
7 6 81

(a) Construa o diagrama de dispersão da nota final (Y ) em função do número


de faltas (X)


90


80


Nota Final (Y)

70
60


50

2 4 6 8 10 12 14

Faltas (X)

1
O gráfico sugere a existência de correlação linear negativa, pois aumentando o número de faltas,
a nota tende a diminuir, e próximo a uma reta.

(b) Obtenha o coeficiente de correlação entre X e Y . Com base nesse valor, faça
um comentário sobre a associação entre as variáveis

O coeficiente de correlação entre as variáveis X e Y é dado por


Pn
Xi Yi nXY
r = i=1 ,
(n 1)SX SY
em que
n n n n
1X 1X 1 X 2 2 1 X 2
X= Xi , Y = 2
Yi , S X = X nX e SY2 = Yi2 nY .
n i=1 n i=1 n 1 i=1 i n 1 i=1

Calculando as quantidades necessárias, obtemos que


8 + 2 + ··· + 9 + 6 78 + 92 + · · · + 74 + 81
X= = 8, 1429 e Y = = 73, 7143;
7 7
e que
7
X 7
X
Xi2 2 2 2
= 8 + 2 + · · · + 9 + 6 = 579, 2
Yi2 = 782 + 922 + · · · + 742 + 812 = 39898,
i=1 i=1

7
X
Xi Yi = 8 ⇥ 78 + 2 ⇥ 92 + · · · + 9 ⇥ 74 + 6 ⇥ 81 = 3751.
i=1

Logo,
P7 2
2 Xi2
i=1 7X 7.(8, 1429)2
579
SX = = = 19, 1420,
6 6
P7 2
Y2 7Y 39898 7.(73, 7143)2
SY2 = i=1 i = = 310, 2356,
6 6
e, portanto, o coeficiente de correlação r é dado por
P7
Xi Yi 7XY 3751 7.(8, 1429).(73, 7143)
r = i=1 = p p = 0, 9748
6SX SY 6.( 19, 1429).( 310, 2381)

O coeficiente de correlação r = 0, 9748 indica correlação negativa entre o número de faltas e


a nota final dos alunos, conforme esperado pelo diagrama de dispersão entre as variáveis. Este valor
sugere forte relação linear decrescente entre as variáveis, de forma que aumentando-se o número de
faltas, diminui-se a nota final do aluno.

2
(c) Obtenha a reta de regressão de Y em função de X

Lembre que a reta de regressão ajustada é dada por

Yb = a + bX,

em que Pn
Xi Yi nXY
a=Y bX e b= i=1
2
.
(n 1)SX
Utilizando os valores já calculados no item (b), obtemos que

3751 7 ⇥ (8, 1429) ⇥ (73, 7143)


b= = 3, 9245
(7 1) ⇥ (19, 1420)
e
a = (73, 7143) ( 3, 9245) ⇥ (8, 1429) = 105, 6711
Logo, a reta de regressão ajustada é dada por

Yb = 105, 67 3, 92 ⇥ X

(d) Qual é o significado do coeficiente b obtido no ajuste da reta?

Para cada um dia a mais de falta do aluno, estima-se que sua nota final diminui, em média, 3,92.

(e) Com base na reta do item (c), obtenha uma estimativa da nota final de um
aluno que faltou a aula por 10 vezes

Com base no item (c), a reta de regressão ajustada para este conjunto de dados é dada por

Yb = 105, 67 3, 92 ⇥ X,

em que X é o número de faltas.


Assim, estima-se que a nota final média de um aluno que faltou 10 dias de aula seja de

Yb = 105, 67 3, 92 ⇥ 10 = 66, 47.

3
Exercı́cio 2

Uma rede de lojas de vendas por atacado quer avaliar o desempenho de suas filiais, e de quebra
verificar a viabilidade de implantar uma nova loja em Joinville, SC. Para isso, foram coletadas al-
gumas informações sobre suas filiais. Os dados obtidos estão dispostos no arquivo Vendas.xlsx. As
variáveis medidas foram

Y – Vendas em milhares de reais em um determinado mês por filial.

X – Número de clientes em determinado mês por filial.

(a) Construa os diagramas de dispersão de vendas (Y ) em função do número de


clientes (X)

Para fazer o gráfico com o pacote Rcmdr, siga os seguintes passos:

(1) Ler o conjunto de dados: Clique na guia Dados ) Importar arquivos de dados )
do arquivo Excel. Em seguida defina um nome para o seu conjunto de dados (por exemplo,
Vendas) e clique em OK. Navegue até o diretório onde o seu conjunto de dados está localizado e
clique em Abrir.

(2) Diagrama de dispersão: Após a leitura do banco de dados, vá até a guia Gráficos )
Diagrama de dispersão; escolha as variáveis correspondentes e clique em OK.
250

● ●


200




● ●


Vendas








150





100

400 600 800 1000 1200

Numero.de.clientes

4
(b) Calcule o coeficiente de correlação linear de Pearson entre X e Y

Para calcular a correlação linear entre as variáveis no Rcmdr, utilizamos a sequência de coman-
dos:

Estatı́sticas ) Resumos ) Matriz de correlação. Selecione as variáveis X e Y


(mantendo a tecla Ctrl pressionada para selecionar mais de uma variável). Em seguida, clique em
OK.

A saı́da do Rcmdr obtida é mostrada a seguir.

X Y
X 1.0000000 0.9510715
Y 0.9510715 1.0000000

Assim, temos que o coeficiente de correlação entre Vendas (Y ) e Número de clientes (X) é r =
0, 9510715.

(c) Com base nos itens (a) e (b) comente sobre a associação entre as variáveis X
eY.

No diagrama de dispersão da variável Y em função de X observa-se uma tendência linear cres-


cente, ou seja, com o aumento do número de clientes, tem-se um aumento na venda mensal e a
associação é linear. Isto significa que, quanto mais clientes uma loja possui, maior é o valor mensal
de suas vendas. O valor ⇠ = 0, 95 para o coeficiente de correlação linear de Pearson indica uma relação
positiva e forte entre as duas variáveis.

(d) Obtenha a reta de regressão de Y em função de X. Qual é a estimativa do


acréscimo médio no valor mensal de vendas de uma filial com o aumento de um
cliente que ela recebe por mês? E qual a estimativa se aumentar 10 clientes num
determinado mês?

A reta de regressão pode ser obtida utilizando o Rcmdr seguindo os seguintes comandos:

Estatı́sticas ) Ajuste de Modelos ) Regressão linear. Selecione as variáveis


informando qual é a variável resposta (Y ) e a variável explicativa (X).

O resultado desses passos está disposto a seguir

5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 22.84791 10.40813 2.195 0.0385 *
X 0.16490 0.01117 14.762 3.19e-13 ***

Assim, a reta de regressão ajustada é dada por

Yb = 22, 84791 + 0, 16490 ⇥ X.

Dessa forma, podemos dizer que a estimativa do acréscimo médio no valor mensal de vendas de
uma filial com o aumento de um cliente num mês é de 0, 1649 milhares de reais. Isto significa que,
para cada cliente a mais que uma loja recebe, estima-se que o valor em vendas aumente em média
R$ 164,90. Para o caso em que há um aumento de 10 clientes num determinado mês, a estimativa
do acréscimo médio no valor mensal de vendas é de 0, 1649 ⇥ 10 = 1, 649. Ou seja, para cada 10
clientes a mais que a loja recebe, estima-se que o valor em vendas aumente em média R$ 1.649,00

(e) Obtenha uma previsão do valor de vendas para uma loja não observada na
amostra para a qual o número de clientes seja igual a 500.

Para prever o valor mensal em vendas de uma loja (Y ) em função do número de clientes (X)
podemos utilizar a reta de regressão de Y em função de X.
Utilizando a reta de regressão obtida temos que para X = 500

Yb = 22, 84791 + 0, 16490 ⇥ 500 = 105, 2979,

isto é, estima-se que uma loja que possui 500 clientes venda, em média, R$ 105.297,90 por mês.

Exercı́cio 3

Uma amostra aleatória de 521 pessoas que possuem um automóvel foi entrevistada, sendo anota-
dos de cada participante o gênero (masculino; feminino), a faixa etária (menos de 42 anos; 42 anos
ou mais) e o resultado da preferência pelo tipo de transmissão (automática; manual). Os resultados
estão apresentados no quadro a seguir.

6
Preferência
Gênero e Faixa etária
Transmissão automática Transmissão manual
Feminino e Menos de 42 anos 85 30
Masculino e Menos de 42 anos 122 112
Feminino e 42 anos ou mais 73 26
Masculino e 42 anos ou mais 38 35

(a) Verifique se há indicação de associação entre a preferência pelo tipo de trans-
missão e o gênero. Comente.

Inicialmente, vamos construir a tabela de contigência entre o gênero e a preferência pelo tipo de
transmissão. Para facilitar, também iremos acrescentar os totais marginais.

Tabela 1: Tabela de frequencias entre Gênero e Preferência


Preferência
Gênero Total
Transmissão automática Transmissão manual
Feminino 158 56 214
Masculino 160 147 307
Total 318 203 521

Para determinar se há indı́cios de associação entre estas variáveis, vamos calcular as porcentagens
segundo os totais das linhas da tabela de contingência, conforme apresentado a seguir.

Tabela 2: Tabela de de frequencia entre Gênero e Preferência (porcentagens de Preferência por


Gênero)
Preferência
Gênero Total
Transmissão automática Transmissão manual
Feminino 158 (73,8%) 56 (26,2%) 214 (100%)
Masculino 160 (52,1%) 147 (47,9%) 307 (100%)
Total 318 (61%) 203 (39%) 521 (100%)

Independentemente do gênero, observou-se na amostra que 61% dos participantes preferem a


transmissão automática e que 39% preferem a transmissão manual. Note que as porcentagens de
preferência em cada um dos gêneros não se aproximam das porcentagens marginais de Preferência.
Os resultados mostram que: entre os indivı́duos do gênero feminino 73,8% preferem transmissão
automática e 26,2% preferem manual; enquanto que para indivı́duos do gênero masculino 52,1%
preferem transmissão automática e 47,9% preferem manual. Assim, vê-se uma forte preferência das

7
mulheres por transmissão automática (73,8%), enquanto que entre os homens, transmissão automática
e manual são aproximadamente iguais (52,1% e 47,9%,) sugerindo que há existência de associação
entre o gênero e a preferência por tipo de transmissão.

Observação: Ao invés de construir as porcentagens em relação às linhas (gênero), também podemos
obtê-las em relação aos totais das colunas. Neste caso, temos:

Tabela 3: Tabela de frequências entre Gênero e Preferência (porcentagem de gênero por preferência
de transmissão)
Preferência
Gênero Total
Transmissão automática Transmissão manual
Feminino 158 (49,7%) 56 (27,6%) 214 (41,1%)
Masculino 160 (50,3%) 147 (72,4%) 307 (58,9%)
Total 318 (100%) 203 (100%) 521 (100%)

Os resultados mostram que na amostra, 41,1% dos participantes são do gênero feminino e que
58,9% são do gênero masculino. Neste caso também é possı́vel perceber que a distribuição dos
gêneros em cada tipo de preferência não são próximas das porcentagens calculadas independente da
preferência: entre os indivı́duos que preferem transmissão automática, não há, aproximadamente,
diferença entre os gêneros (49,7% e 50,3%); já entre os indivı́duos que preferem transmissão ma-
nual, há uma grande preferência entre os homens (72,4%). Assim, também concluı́mos que há uma
indicação de associação entre a preferência pelo tipo de transmissão e o gênero.

(b) Verifique se há indicação de associação entre a preferência pelo tipo de trans-
missão e a faixa etária. Comente.

Análogo ao item (a), inicialmente calculamos a distribuição de frequência entre as variáveis de


interesse (tabela de contingência) .

Tabela 4: Tabela de frequencias entre Faixa Etária e Preferência


Preferência
Faixa etária Total
Transmissão automática Transmissão manual
Menos de 42 anos 207 142 349
42 anos ou mais 111 61 172
Total 318 203 521

As porcentagens segundo os totais das linhas da tabela de contingência (faixa de idade) são apre-
sentadas na tabela a seguir:

8
Tabela 5: Tabela de frequencias entre Faixa Etária e Preferência (porcentagens de Preferência por
Faixa Etária)
Preferência
Faixa etária Total
Transmissão automática Transmissão manual
Menos de 42 anos 207 (59,3%) 142 (40,7%) 349 (100%)
42 anos ou mais 111 (64,5%) 61 (35,5%) 172 (100%)
Total 318 (61%) 203 (39) 521 (100%)

Independentemente da faixa etária, observou-se na amostra que 61% dos participantes prefe-
rem transmissão automática e que 39% preferem transmissão manual. Note que as porcentagens
de preferência em cada faixa etária são relativamente próximas das porcentagens marginais, isto é, a
mudança de faixa etária parece não ter influência na preferência pelo tipo de transmissão. Entre os
indivı́duos com menos de 42 anos temos que 59,3% preferem transmissão automática e 40,7% prefe-
rem manual; enquanto que entre os indivı́duos com 42 anos ou mais temos 64% preferem transmissão
automática e 35% preferem manual. Assim, os dados sugerem que não há indicação de associação
entre a preferência pelo tipo de transmissão e a faixa etária.

Observação: Calculando as porcentagens segundo os totais das colunas (preferência de transmissão),


a tabela de contingência é dada por

Tabela 6: Tabela de frequencias entre Faixa Etária e Preferência (porcentagens de Faixa Etária por
Preferência de transmissão)
Preferência
Faixa etária Total
Transmissão automática Transmissão manual
Menos de 42 anos 207 (65,1%) 142 (70%) 349 (67%)
42 anos ou mais 111 (34,9%) 61 (30%) 172 (33%)
Total 218 (100%) 203 (100%) 521 (100%)

Da mesma maneira com as porcentagens em linha, as porcentagens em coluna, ou seja, as por-


centagens das faixas etárias por tipo de preferência de transmissão, são próximas, e próximas às
porcentagens das faixas etárias, independente da preferência (67% e 33%). Concluı́mos igualmente
que os dados não sugerem que exista uma associação entre a preferência pelo tipo de transmissão e a
faixa etária.

9
Exercı́cio 4

Um estudo no Reino Unido foi realizado para estudar as caracterı́sticas da população fumante
em comparação com a não-fumante. Os dados necessários para este exercicı́o estão disponı́veis no
arquivo Smoking.xlsx e fazem parte de um conjunto maior que pode ser acessado em

https://www.openintro.org/data/index.php?data=smoking

As variáveis presentes no arquivo Smoking.xlsx são descritas a seguir.

• Gender: gênero, um fator com dois nı́veis formado pelas categorias “Male” e “Female”;

• Age: faixa etária, um fator com quatro nı́veis formado pelas categorias “(15,35]”, “(35,55]”,
“(55,75]” e “(75,100]”;

• Marital status: estado civil, um fator com cinco nı́veis formado pelas categorias “Divorced”,
“Married”, “Separated”, “Single” e “Widowed”;

• Smoke: hábito de fumar, um fator com dois nı́veis que indica se o indivı́duo é fumante (categoria
“Yes”) ou não fumante (categoria “No”).

Utilizando recursos computacionais responda os itens a seguir.

(a) Construa tabelas de contingência para o hábito de fumar (Smoke) versus


cada uma das seguintes variáveis: gênero (Gender), faixa etária (Age) e estado
civil (Marital status).

Toda a análise pode ser feita via Rcmdr. Podemos utilizar os seguintes passos:

(1) Ler o conjunto de dados: Clique na guia Dados ) Importar arquivos de dados )
do arquivo Excel. Em seguida defina um nome para o seu conjunto de dados (por exemplo,
Smoking) e clique em OK. Navegue até o diretório onde o seu conjunto de dados está localizado e
clique em Abrir.

(2) Tabelas de contingência: Vá até a guia Estatı́sticas ) Tabelas de contingência


) Tabela de dupla entrada; escolha as variáveis de interesse para a construção da tabela
(somente duas por vez). Neste gabarito, escolhemos a variável Smoke sempre na coluna. Clique em
OK.

10
As tabelas, com a adição dos totais marginais, são apresentadas a seguir.

Tabela 7: Tabela de contingência para as variáveis Smoke e Gender.


Hábito de fumar
Gênero Total
Não Sim
Feminino 731 234 965
Masculino 539 187 726
Total 1270 421 1691

Tabela 8: Tabela de contingência para as variáveis Smoke e Age.


Hábito de fumar
Faixa etária Total
Não Sim
(15,35] 293 165 458
(35,55] 410 165 575
(55,75] 393 75 468
(75,100] 174 16 190
Total 1270 421 1691

Tabela 9: Tabela de contingência para as variáveis Smoke e Marital status.


Hábito de fumar
Estado civil Total
Não Sim
Divorciado 103 58 161
Casado 669 143 812
Separado 46 22 68
Solteiro 269 158 427
Viúvo 183 40 223
Total 1270 421 1691

(b) Dentre os respondentes com faixa etária entre 15 e 35 anos, qual é a porcen-
tagem de fumantes?

De acordo com a Tabela 8, temos um total de 458 respondentes com idade entre 15 e 35 anos.
Desses respondentes, 293 são não-fumantes e 165 são fumantes. Assim, a porcentagem solicitada é
165
⇡ 0, 3603,
458
ou seja, 36,03% dos respondentes com idade entre 15 e 35 anos são fumantes.

11
(c) Dentre os respondentes que possuem o hábito de fumar, qual é a porcenta-
gem de pessoas casadas?

Segundo a Tabela 9, temos um total de 421 pessoas fumantes. Dentre esses, 143 são casados.
Assim, a porcentagem solicitada é
143
⇡ 0, 3397,
421
ou seja, 33,97% dos respondentes que possuem hábito de fumar são casados.

(d) Qual é a porcentagem de fumantes dentre os respondentes do gênero femi-


nino? E dentre os respondentes do gênero masculino?

De acordo com a Tabela 7, temos que de um total de 965 respondentes do gênero feminino, 234
são fumantes. Logo, a porcentagem de fumantes dentre os respondentes do gênero feminino é dada
por
234
⇡ 0, 2425 = 24, 25%.
965
Em relação ao gênero masculino, temos que 187 respondentes de um total de 726 são fumantes.
Assim, a porcentagem de fumantes dentre os respondentes do gênero masculino é dada por
187
⇡ 0, 2576 = 25, 76%.
726

(e) Você diria que existe associação entre o hábito de fumar e a faixa etária?
Justifique.

A tabela com os percentuais em relação aos totais das linhas (ou, equivalentemente, das colunas)
pode nos ajudar a perceber uma possı́vel associação entre o hábito de fumar e a faixa etária. No pacote
“Rcmdr”, repita os comandos descritos no passo “(2) Tabelas de contingência” com as variáveis Age
na linha e Smoke na coluna, mas antes de apertar OK, vá até a aba Estatı́sticas e selecione
Percentual nas linhas.
A tabela gerada é apresentada a seguir.

12
Tabela 10: Tabela de contingência com os percentuais fixados nas linhas para as variáveis Smoke e
Age.
Hábito de fumar
Faixa etária Total
Não Sim
(15,35] 64,0 36,0 100
(35,55] 71,3 28,7 100
(55,75] 84,0 16,0 100
(75,100] 91,6 8,4 100

Independente de outras variáveis, foram observados 1270 respondentes não fumantes e 421 fu-
mantes de um total de 1691 respondentes. Estas frequências podem ser obtidas usando as tabelas
7–9. Assim, independente da faixa etária, a amostra possui 1270/1691 ⇡ 75, 10% respondentes não
fumantes e 421/1691 ⇡ 24, 90% respondentes fumantes. Se não existe associação entre a faixa etária
e o hábito de fumar, espera-se que essas proporções entre não-fumantes e fumantes sejam encontradas
em cada faixa etária considerada. A Tabela 10 nos mostra essas proporções.
Note que as proporções de não-fumantes e fumantes por faixa etária diferem da proporção geral.
Por exemplo, para indivı́duos com idade entre 75 e 100 anos 91,6% são não-fumantes, enquanto que
essa proporção cai para 64% para indivı́duos com idade entre 15 e 35 anos. Assim, os dados sugerem
uma aparente associação entre o hábito de fumar e a faixa etária.

13

You might also like