Professional Documents
Culture Documents
ESTATÍSTICA
Poços de Caldas
Segundo semestre de 2020
O presente texto é constituı́do por notas de aula da disciplina Es-
tatı́stica, ministrada no segundo semestre de 2020, em diversos cursos (Enge-
nharia de Computação, Licenciatutra em Ciências Biológicas, Técnico Subse-
quente em Administração, Tecnologia em Gestão Ambiental e Tecnologia em
Gestão Comercial) do Instituto Federal de Educação, Ciência e Tecnologia
do Sul de Minas Gerais (IFSULDEMINAS) - campus Poços de Caldas pelo
professor Bruno Alves. Correções e atualizações poderão ser acrescentadas
ao longo do semestre. Algumas informações importantes sobre a disciplina
(datas de provas, plano de ensino, este material, listas de exercı́cios avalia-
tivas, etc.) podem ser encontradas na página correspondente a sala de aula
virtual do google classroom correspondente a cada curso.
Todo o conteúdo deste texto pode ser encontrado nas referências bibli-
ográficas citadas ao final do mesmo. Este material não deve servir como subs-
tituto de nenhum livro, mas sim, apenas como um suporte ao conteúdo estu-
dado em sala de aula, especialmente no perı́odo remoto, seguindo a sequência
proposta pelo professor. Complemente-o com livros e outras fontes.
Como você já deve ter notado (ou não), este texto (assim como as aulas
do professor Bruno Alves) tentam expor o conteúdo com uma dose de bom
humor, na tentativa de tornar o aprendizado e a leitura deste mais prazeroza,
i
mais leve e mais natural. Se você prefere um texto mais mal humorado (não é
preciso de mal humor para ser sério), você facilmente encontrará em diversos
livros e apostilas, disponı́veis nos mais diversos meios (internet, bibliotecas,
livrarias, supermercados, casa do amigo, etc.).
Bons estudos!
ii
Sumário
1 Introdução 1
1.1 O que é estatı́stica? . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Como funciona a estatı́stica? . . . . . . . . . . . . . . . . . . . 1
1.3 Como surgiu a estatı́stica? . . . . . . . . . . . . . . . . . . . . 4
1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Variáveis 6
2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Amostragem 10
3.1 O que é amostragem? . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Por que fazer amostragem? . . . . . . . . . . . . . . . . 11
3.2 Técnicas de amostragem . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Amostragem aleatória simples (AAS) . . . . . . . . . . 13
3.2.2 Amostragem sistemática (AS) . . . . . . . . . . . . . . 13
3.2.3 Amostragem estratificada (AE) . . . . . . . . . . . . . 14
3.2.4 Amostragem por conglomerado (AC) . . . . . . . . . . 15
3.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Tabulação de Variáveis 17
4.1 Variáveis qualitativas unidimensionais . . . . . . . . . . . . . . 17
iii
4.2 Variáveis quantitativas unidimensionais . . . . . . . . . . . . . 19
4.3 Variáveis bidimensionais . . . . . . . . . . . . . . . . . . . . . 21
4.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Medidas de Posição 25
5.1 Máximo e mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.5 Medidas separatrizes . . . . . . . . . . . . . . . . . . . . . . . 32
5.5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.5.2 Outras medidas separatrizes . . . . . . . . . . . . . . . 33
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6 Medidas de Dispersão 36
6.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Desvio médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.5 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.6 Intervalo interquartil . . . . . . . . . . . . . . . . . . . . . . . 40
6.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7 Estatı́stica Gráfica 43
7.1 Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.2 Gráfico de setores (pizza) . . . . . . . . . . . . . . . . . . . . . 45
7.3 Gráfico de linhas (temporal) . . . . . . . . . . . . . . . . . . . 46
7.4 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.5 Gráfico de caixas (box-plot) . . . . . . . . . . . . . . . . . . . 49
7.6 Gráfico de velas (candlestick) . . . . . . . . . . . . . . . . . . 51
7.7 Gráfico de redes . . . . . . . . . . . . . . . . . . . . . . . . . . 52
iv
7.8 Gráfico de dispersão . . . . . . . . . . . . . . . . . . . . . . . 53
7.9 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8 Correlação e Regressão 57
8.1 Relação entre variáveis . . . . . . . . . . . . . . . . . . . . . . 57
8.2 Correlação e regressão linear . . . . . . . . . . . . . . . . . . . 58
8.2.1 Coeficiente de correlação linear . . . . . . . . . . . . . 59
8.2.2 Regressão linear . . . . . . . . . . . . . . . . . . . . . . 62
8.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9 Introdução à Probabilidade 66
9.1 Um pouco de história . . . . . . . . . . . . . . . . . . . . . . . 66
9.2 Definições iniciais . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.2.1 Operações com eventos . . . . . . . . . . . . . . . . . . 69
9.3 Definições de probabilidade . . . . . . . . . . . . . . . . . . . 72
9.3.1 Método clássico . . . . . . . . . . . . . . . . . . . . . . 73
9.3.2 Método frequentista . . . . . . . . . . . . . . . . . . . 74
9.3.3 Método subjetivo . . . . . . . . . . . . . . . . . . . . . 76
9.3.4 Método moderno (axiomático) . . . . . . . . . . . . . . 77
9.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
10 Fundamentos da Probabilidade 82
10.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . 82
10.1.1 Independência de eventos . . . . . . . . . . . . . . . . 84
10.2 Regra da probabilidade total . . . . . . . . . . . . . . . . . . . 85
10.2.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . 87
10.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
v
11.1.3 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . 94
11.2 Distribuições de probabilidade . . . . . . . . . . . . . . . . . . 95
11.2.1 Modelo uniforme discreta . . . . . . . . . . . . . . . . 95
11.2.2 Modelo de Bernoulli . . . . . . . . . . . . . . . . . . . 96
11.2.3 Modelo binomial . . . . . . . . . . . . . . . . . . . . . 97
11.2.4 Modelo hipergeométrico . . . . . . . . . . . . . . . . . 101
11.2.5 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . 105
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
vi
Capı́tulo 1
Introdução
1
cálculo de probabilidades e/ou da inferência estatı́stica, chegamos a con-
clusões sobre esta população.
Estas conclusões servem para nos auxiliar nas nossas tomadas de decisão.
Por exemplo, se um prefeito, visando promover a qualidade de vida dos mo-
radores de sua cidade, percebe que a população de sua cidade é composta
predominantemente por idosos, certamente buscará promover atividades vol-
tadas a este público (como a construção de praças e coretos, postos de saúde,
a oferta de aulas de pintura, ginásticas especı́ficas para a terceira idade, etc.).
Um outro prefeito que, com a mesma intenção, percebe a população de sua
cidade composta predominantemente por jovens, certamente deverá promo-
ver atividades distintas (como a construção de praças de esporte, academias
ao ar livre, a oferta de shows culturais, a promoção de atividades ao ar livre,
como escaladas, trilhas, etc.).
Parece fácil entender nos exemplos, mas não tão fácil assim no parágrafo
inicial, não é? Veja a imagem abaixo (retirada da apostila do professor Mar-
cos) e a definição de cada termo:
2
População: É o conjunto composto por todos os elementos de interesse
num estudo, que pode ser composto pelos moradores de uma cidade numa
situação como a supracitada; os estudantes de uma escola; os animais de
uma criação; as plantas de uma lavoura; os clientes de uma loja; as águas
das piscinas de um parque aquático; etc. A população depende do que e onde
estamos estudando.
3
1.3 Como surgiu a estatı́stica?
A estatı́stica surgiu por volta do século XVII, com a publicação do “Ob-
servations on the Bills of Mortality” (Observações sobre os Censos de Mor-
talidade, 1662) de John Graunt. Suas primeiras aplicações estavam volta-
das para as necessidades de Estado relacionadas a formulação de polı́ticas
públicas. Ainda no século XVII, seus fundamentos matemáticos “nasceram”
com o inı́cio do desenvolvimento da teoria das probabilidades por dois ma-
temáticos, os franceses Blaise Pascal (1623-1662) e Pierre de Fermat (1607-
1665).
1.4 Exercı́cios
Exercı́cio 1. Em cada um dos casos descritos a seguir, identifique a po-
pulação e a amostra correspondente.
4
d) Visando avaliar se as condições das águas de um lago tem relação com
uma repentina queda no número de peixes deste lago, um biólogo coletou
100ml de água da beira do lago para análise.
5
Capı́tulo 2
Variáveis
2.1 Definição
Uma variável é qualquer caracterı́stica da população que possa variar
entre seus elementos.
Exemplo 2.1. Na sua turma, a idade de cada estudante é uma variável (ou
todos tem a mesma idade?).
6
2.2 Classificação
Uma variável se classifica de acordo com sua natureza. Uma variável
pode ser:
7
lata, pit bull, pinsher, labrador, etc. e o sexo - masculino e feminino);
Variável quantitativa discreta: É uma variável quantitativa em que os
possı́veis resultados podem ser obtidos por uma simples contagem (como o
número de filhos - 0, 1, 2, etc. e a renda mensal - R$800,00, R$2.314,97,
R$2.314,98, R$5.300,00, etc.). Existe uma unidade mı́nima para este tipo de
variável;
Variável quantitativa contı́nua: É uma variável quantitativa em que os
possı́veis resultados não podem ser obtidos por uma contagem, necessitam
de uma medição mais precisa (como o tempo de duração de uma lâmpada -
1547 segundos, 1547,1 segundos, 1547,01 segundos, etc. e a altura de uma
pessoa - 1,80m, 1,801m, 1,8007m, 1,80068m, etc). Este tipo de variável não
possui uma unidade mı́nima.
2.3 Exercı́cios
Exercı́cio 3. Um questionário aplicado aos professores de um curso apre-
sentou os seguintes resultados:
8
Nesta tabela, Filhos representa o número de filhos, disc. representa o
número de disciplinas que ministra no curso, alunos representa a sua opinião
sobre os estudantes do curso (de maneira geral) e esc. representa o grau de
escolaridade. Classifique cada uma das variáveis analisadas como quantita-
tiva (discreta ou contı́nua) ou qualitativa (ordinal ou nominal).
9
Capı́tulo 3
Amostragem
10
Quando vamos fazer um exame de sangue, a nossa população é todo o
sangue do nosso corpo, porém, o exame é feito apenas numa pequena
porção de sangue retirada do nosso corpo, isto é, numa amostra.
Temos uma população muito grande (se quisermos, por exemplo, saber
da presença de fungos nos grãos de café de uma determinada plantação,
é inviável verificar grão por grão);
11
A(s) varı́ável(is) de interesse é(são) de fácil mensuração, pois, neste
caso, muitas vezes não vale a pena investir num plano de amostragem
(numa assembléia, pode-se simplesmente pedir para que todos que fo-
rem favoráveis a determinada ação que levantem a mão);
12
3.2 Técnicas de amostragem
Uma vez que decidimos por fazer uma amostragem, existem diversas
técnicas para empregarmos. Nos cabe agora decidir por qual delas utilizar.
Dentre estas diversas técnicas, as principais são as quatro que estudaremos
a seguir.
Existem várias maneiras de fazer um sorteio como este, dentre elas, po-
demos listar e numerar todos os N elementos da nossa população e, através
de n números aleatórios (podemos utilizar diversos mecanismos computa-
cionais para obter números aleatórios) entre 1; 2; ...; N , determinar os n
componentes da nossa amostra.
13
numerosas.
14
vidade na amostra final obtida. Não é regra, mas é comum utilizarmos a
AE proporcional, ou seja, se desejamos uma amostra formada por 10% da
população, devemos tomar 10% de cada extrato.
Exemplo 3.4. Para fazer uma pesquisa sobre a intenção de voto para pre-
feito em Poços de Caldas, um jornal numerou os quarteirões dos diversos
bairros da cidade, selecionou alguns através da AS e, nos quarteirões seleci-
onados, os jornalistas foram em cada uma das residências para consultar a
intenção de voto de cada um dos moradores.
15
3.3 Exercı́cios
Exercı́cio 4. Um administrador especialista em avaliar através de sistemas
informatizados as ações da BOVESPA, está interessado em fazer uma pes-
quisa nos preços das ações, para indicar aos seus clientes se hoje é um dia
favorável a fazer investimentos. Ele sabe que existe N = 500 ações diferentes
a venda. Como o tempo de estudo de cada ação é de aproximadamente 10
minutos, decidiu-se verificar apenas n = 25 ações. Utilizando as técnicas de
amostragem aleatória simples, quais ações serão selecionadas (use, quando
necessário, um gerador de números aleatórios como o LibreOffice Calc ou
outro qualquer de sua preferência)?
16
Capı́tulo 4
Tabulação de Variáveis
Nome da variável fi pi
Valor 1 f1 p1
Valor 2 f2 p2
Valor 3 f3 p3
.. .. ..
. . .
Valor n fn pn
P
TOTAL fi 100%
17
Na tabela acima, fi representa a frequência em que o valor em questão
foi observado, ou seja, o número de vezes em que se observou o valor em
questão, enquanto pi representa a proporção ou porcentagem desta frequência
em relação ao total (se for proporção, será um número entre 0 e 1, enquanto
se for porcentagem, entre 0% e 100%. Enquanto fi é obtido a partir de
uma simples contagem, o valor de pi corresponde ao resultado da expressão:
pi = f1 +f2f+...+f
i
n
.
Operadora de celular fi pi
Escuro 60 15%
Morto 40 10%
Tchau 30 7, 5%
MIT 120 30%
Não usa celular 150 37, 5%
TOTAL 400 100%
18
4.2 Variáveis quantitativas unidimensionais
Para variáveis quantitativas, podemos seguir o mesmo método utilizado
para variáveis qualitativas, mas, além disso, podemos também agrupar os
resultados quando for conveniente, isto é, quando tivermos muitos resultados
distintos. Este agrupamento não faz muito sentido para variáveis qualitati-
vas.
Idade fi Fi pi Pi
20| − 30 1.750 1.750 70% 70%
30| − 40 400 2.150 16% 86%
40| − 50 200 2.350 8% 94%
50| − 60 110 2.460 4, 4% 98, 4%
60| − 70 40 2.500 1, 6% 100%
TOTAL 2.500 — 100% —
19
absoluta.
Também observamos nesta tabela, os intervalos 20| − 30, 30| − 40, ...,
que representam todos com idade entre os extremos, INCLUSIVE aquele do
lado onde observamos uma barra vertical e EXCLUSIVE aquele do lado em
que não observamos. Isto significa que alguém com idade de 50 anos, estaria
incluı́do no intervalo 50| − 60 e não no intervalo 40| − 50. Na linguagem de
intervalos reais, comum em matemática, expressariamos o intervalo 60| − 70
na forma [60; 70[.
Sobre os resultados, é fácil observar, a partir desta tabela, que esta em-
presa emprega principalmente pessoas mais jovens. Será que com uma lista
dispondo de 2.500 idades diferentes conseguiriamos chegar tão facilmente
nesta conclusão?
20
apesar de mantermos a precisão alta, em muitos casos, não conseguimos resu-
mir suficientemente de forma a podermos compreender a situação. Quando
agrupamos os resultados em classes, temos que ter em mente que quanto
maior o tamanho de cada classe, menor a precisão obtida. Desta forma, fica
a dúvida: qual o tamanho ideal de cada classe quando fizermos um agrupa-
mento?
Não existe uma resposta certa e inflexı́vel para esta pergunta, cada caso
é um caso, cada caso demanda uma precisão diferente, uma necessidade de
resumir diferente. Não é regra, mas é comum utilizarmos de classes de mesma
amplitude (isto é, de mesmo tamanho) e um total entre 4 e 8 classes. Na
dúvida, podemos nos orientar por estes parâmetros.
Exemplo 4.3. Numa escola, as notas são dadas por conceitos. Foram feitas,
em algumas turmas, tabelas relacionando as notas obtidas em cada disciplina
e a quantidade de horas de estudo semanal dedicado a disciplina. Os resul-
tados referentes a uma turma com 40 estudantes, podem ser observados nas
tabelas abaixo:
21
MATEMÁTICA
A B C D Total (horas)
Até 1h 1 1 2 2 6
Entre 1h e 2h 2 1 2 1 6
Entre 2h e 3h 3 4 4 0 11
3h ou mais 4 8 5 0 17
Total (notas) 10 14 13 3 40
LÍNGUA PORTUGUESA
A B C D Total (horas)
Até 1h 0 3 4 3 10
Entre 1h e 2h 2 4 2 1 9
Entre 2h e 3h 3 6 2 0 11
3h ou mais 5 4 1 0 10
Total (notas) 10 17 9 4 40
CIÊNCIAS
A B C D Total (horas)
Até 1h 0 1 3 4 8
Entre 1h e 2h 1 5 7 2 15
Entre 2h e 3h 3 4 2 1 10
3h ou mais 4 2 1 0 7
Total (notas) 8 12 13 7 40
4.4 Exercı́cios
Para os exercı́cios deste capı́tulo, considere a seguinte tabela, que con-
siste na distribuição de notas dos estudantes ingressantes em um curso de
licenciatura em matemática, junto com a sua nota no vestibular, o seu sexo
e o seu número de identificação na turma:
22
Nº Sexo Vest. Álgebra Cálculo Geometria Metodologia Didática
1 M 74 A B B A C
2 M 81 A A A B C
3 F 72 B B C D B
4 F 65 B C B A A
5 F 64 C D D A A
6 M 59 D C C B C
7 F 66 B D C D B
8 M 70 C C C B A
9 F 66 D B B C A
10 M 54 C D B A B
11 M 72 A D B A C
12 M 70 C D D B C
13 M 59 D C C C A
14 M 61 D B C A A
15 F 76 D A D A B
16 M 62 C A A A B
17 M 63 A A C B C
18 F 71 A B A B C
19 M 65 B C B B C
20 F 65 A A C A B
21 F 59 B C B A A
22 M 72 D D C C C
23 M 62 C B D D B
24 M 61 A B B D B
25 F 70 C A C A C
26 M 60 D B C A C
27 F 66 A C A A C
28 M 64 B D B D D
29 F 69 A C B C D
30 F 61 C B C A C
23
Exercı́cio 7. Construa uma tabela de frequência com a frequência absoluta,
a frequencia acumulada, a proporção absoluta e a proporção acumulada re-
ferente a cada uma das variáveis presentes nesta tabela. Para a nota no
vestibular, agrupe em classes de amplitude 5.
24
Capı́tulo 5
Medidas de Posição
25
5.2 Moda
A moda de uma variável quantitativa é o valor observado com maior
frequência, ou seja, o resultado mais recorrente desta variável.
Observação 5.2. Caso haja “empate” entre dois ou mais valores, todos são
considerados como a moda, e, neste caso, a variável é chamada de bimodal,
trimodal, etc., de acordo com a quantidade de modas observadas. Caso todos
os valores forem observados com a mesma frequência (todos “empatem”),
então a variável não terá moda e será chamada de amodal.
Exemplo 5.3. Num time de basquete, o número de filhos dos jogadores ti-
tulares é 0, 0, 3, 0 e 1. Neste time, referente a variável quantitativa número
de filhos, temos a moda 0.
26
Ano de ingresso fi
2015 22
2016 7
2017 6
2018 29
2019 9
2020 7
Total 80
Observação 5.7. A moda pode também ser calculada para variáveis quali-
tativas. Pense...
5.3 Média
Dada uma variável quantitativa x e x1 , x2 , ..., xn seus n valores observados
em uma amostra, chamamos de média desta variável x, o valor x̄, dado por:
Pn
x1 + x2 + ... + xn i=1 xi
x̄ = = .
n n
27
podemos utilizar o conceito de média ponderada, onde utilizamos como peso
de cada valor, a sua frequência, isto é, caso tenhamos:
x fi
x1 f1
x2 f2
.. ..
. .
xk fk
Total n
podemos calcular:
Pk
x1 × f1 + x2 × f2 + ... + xk × fk i=1 xi × f i
x̄ = = ,
f1 + f2 + ... + fk n
Exemplo 5.9. Numa escola estadual, a idade de seus estudantes foi anali-
sada pela direção. Os resultados obtidos estão de acordo com a tabela abaixo:
IDADE fi
14 9
15 16
16 28
17 27
18 12
19 6
20 2
Total 100
28
14 × 9 + 15 × 16 + 16 × 28 + 17 × 27 + 18 × 12 + 19 × 6 + 20 × 2
x̄ =
9 + 16 + 28 + 27 + 12 + 6 + 2
1643
=
100
= 16, 43.
A média é uma medida muito útil, ela nos mostra o centro do nosso
conjunto de dados, porém, ela é muito sensı́vel a valores discrepantes.
Exemplo 5.10. Numa escola estadual, a idade de seus estudantes foi ana-
lisada pela direção. Depois da escola abrir uma pequena turma de EJA para
um determinado grupo de idosos, os resultados obtidos ficaram de acordo com
a tabela abaixo:
IDADE fi
14 9
15 16
16 28
17 27
18 12
19 6
20 2
65 9
66 6
Total 115
Nesta escola, a média das idades de seus estudantes passou a ser:
14 × 9 + 15 × 16 + 16 × 28 + 17 × 27 + 18 × 12 + 19 × 6 + 20 × 2 + 65 × 9 + 66 × 6
x̄ =
9 + 16 + 28 + 27 + 12 + 6 + 2 + 9 + 6
2624
=
115
≈ 22, 817.
29
Para contornar esta sensibilidade aos valores discrepantes, temos a
5.4 Mediana
Dada uma variável quantitativa x e x1 , x2 , ..., xn seus n valores observados
em uma amostra colocados ordenadamente, a mediana é o valor central, isto
é, o valor que ocupa a posição n+1
2
, caso n seja impar (ou seja, neste caso,
será o valor x n+1 ) ou a média dos valores que ocupam as posições n2 e n+2 2
,
2
x n +x n+2
2
caso n seja par (ou seja, neste caso, será o valor 2
2
.
Exemplo 5.12. Numa escola estadual, a idade de seus estudantes foi anali-
sada pela direção. Os resultados obtidos estão de acordo com a tabela abaixo:
IDADE fi Fi
14 9 9
15 16 25
16 28 53
17 27 80
18 12 92
19 6 98
20 2 100
Total 100 —
30
Nesta escola, a mediana das idades de seus estudantes será a média do 50
e do 51 termo, quando colocamos estas idades em ordenadamente (uma vez
que, neste caso, n = 100 é par). Observando a tabela, vemos quem ambos
os termos de interesse são iguais a 16, logo, a mediana das idades destes
estudantes será 16.
Exemplo 5.13. Numa escola estadual, a idade de seus estudantes foi ana-
lisada pela direção. Depois da escola abrir uma pequena turma de EJA para
um determinado grupo de idosos, os resultados obtidos ficaram de acordo com
a tabela abaixo:
IDADE fi Fi
14 9 9
15 16 25
16 28 53
17 27 80
18 12 92
19 6 98
20 2 100
65 9 109
66 6 115
Total 115 —
31
5.5 Medidas separatrizes
Perceba que a mediana divide os nossos dados exatamente no meio, ou
seja, metade dos valores observados para nossa variável são menores (ou
iguais) do que a mediana, enquanto a outra metade é maior (ou igual). Desta
forma, dizemos que a mediana é uma medida separatriz, pois separa os dados
em pedaços de mesmo tamanho (com a mesma quantidade de elementos).
Existem outras medidas separatrizes que dividem os dados em mais pedaços,
algumas dessas medidas são:
5.5.1 Quartis
Chamamos de quartis os valores que dividem o nosso conjunto de dados
em quatro partes iguais. Todo conjunto de dados possui três quartis (Q1 ,
Q2 e Q3 ). Colocando os dados de forma crescente, um quarto deles (ou seja,
25%) será menor (ou igual) ao primeiro quartil Q1 , enquanto outro quarto
destes dados estará entre o primeiro e o segundo quartil (entre Q1 e Q2 ),
outro quarto destes dados estará entre o segundo e o terceiro quartil (entre
Q2 e Q3 ) e finalmente, os 25% restantes serão maiores (ou iguais) ao terceiro
quartil Q3 .
Q1 : n+1
4
;
Q2 : 2 n+1
4
;
Q3 : 3 n+1
4
.
n+1
Em geral, temos Qi : i × 4
.
32
Exemplo 5.14. Se temos n = 10, então o primeio quartil será o termo na
posição 10+1
4
= 2, 75, ou seja, estará entre o segundo e o terceiro termo, mais
próximo do terceiro termo. Teremos então Q1 = x2 +3x 4
3
. Neste caso, quais
serão os demais quartis? E a mediana?
Exemplo 5.15. Numa escola estadual, a idade de seus estudantes foi anali-
sada pela direção. Os resultados obtidos estão de acordo com a tabela abaixo:
IDADE fi Fi
14 9 9
15 16 25
16 28 53
17 27 80
18 12 92
19 6 98
20 2 100
Total 100 —
Q1 : posição 100+1
4
= 25, 25;
Q2 : posição 2 100+1
4
= 50, 5;
Q3 : posição 3 100+1
4
= 75, 75.
33
de dados, e os percentis (P1 , P2 , ..., P99 ), que dividem os nossos dados em
100 pedaços, cada um com 1% dos dados. Em geral, para calcular os decis e
percentis referentes a uma variável quantitativa x, com seus n valores x1 , x2 ,
..., xn já ordenados, utilizaremos as seguntes fórmulas para determinar suas
posições:
Posição de Di : i × n+1
10
;
Posição de Pi : i × n+1
100
.
Temos, para ilustrar, que D3 , por exemplo, é maior (ou igual) do que
30% dos valores observados e menor (ou igual) aos demais 70%, que P88 , por
exemplo, é maior (ou igual) do que 88% dos valores observados e menor (ou
igual) aos demais 12%.
34
5.6 Exercı́cios
Exercı́cio 11. Um determinado defeito de série foi observado em alguns
veı́culos de determinado modelo. Tal defeito se manifesta após certo uso
do veı́culo. Para entender melhor sobre tal defeito, a montadora recolheu a
informação sobre a quilometragem em que o defeito foi observado em algu-
mas unidades. Os resultados foram: 54.000; 32.000; 33.000; 46.000; 41.000;
39.000; 58.000; 41.000; 44.000; 49.000; 46.000 e 39.000.
Com base nestas informações, calcule o máximo, o mı́nimo, a moda, a média
e a mediana.
Exercı́cio 12. Numa determinada população de uma nova espécie recém
descoberta, foram observados os pesos de alguns indivı́duos, os resultados
obtidos seguem na tabela abaixo:
PESO (kg) fi Fi pi Pi
10| − 11 35
11| − 12 153
12| − 13 102
13| − 14 19, 4%
14| − 15 94%
15| − 16
Total 500 — —
Como se pode observar, existem algumas lacunas nesta tabela, as quais se
devem ao fato do registro não ter sido devidamente armazenado.
35
Capı́tulo 6
Medidas de Dispersão
6.1 Motivação
Exemplo 6.1. Numa prova de habilidades para uma vaga de emprego em
determinada empresa, os cinco candidatos obtiveram notas de acordo com a
tabela indicada abaixo:
36
De acordo com os dados desta tabela, complete a tabela a seguir com as
respectivas medidas de posição referente às notas de cada candidato:
6.2 Amplitude
A amplitude nada mais é do que a diferença entre o máximo e o mı́nimo,
ou seja:
AM P LIT U DE = M AXIM O − M IN IM O
Exemplo 6.2. No caso do Arnaldo, sua maior nota foi 9, 0, enquanto sua
menor nota foi 6, 5, desta forma, a amplitude de suas notas será:
9, 0 − 6, 5 = 1, 5.
37
6.3 Desvio médio
O desvio médio é a média da diferença de cada um dos dados para a
média, ou seja, dado o conjunto de dados x1 , x2 , ..., xn , temos o desvio
médio dado por:
P
|x1 − x̄| + |x2 − x̄| + ... + |xn − x̄| |xi − x̄|
DM = = ,
n n
9, 0 + 5, 5 + 8, 0 + 8, 0 + 9, 5 40, 0
x̄ = = = 8, 0,
5 5
6.4 Variância
A amplitude tem uma expressão muito parecida com a do desvio médio,
basta trocar o módulo das diferenças entre cada dado e a média dos dados
pelo seu quadrado, isto é, a amplitude do conjunto de dados x1 , x2 , ..., xn é
dada por:
38
(x1 − x̄)2 + (x2 − x̄)2 + ... + (xn − x̄)2 (xi − x̄)2
P
2
σ = = .
n n
7, 5 + 8, 0 + 8, 0 + 8, 5 + 8, 0 40
x̄ = = = 8, 0,
5 5
(7, 5 − 8, 0)2 + (8, 0 − 8, 0)2 + (8, 0 − 8, 0)2 + (8, 5 − 8, 0)2 + (8, 0 − 8, 0)2
σ2 =
5
0, 52 + 0, 02 + 0, 02 + 0, 52 + 0, 02
=
5
0, 25 + 0, 0 + 0, 0 + 0, 25 + 0, 0
=
5
0, 5
=
5
= 0, 1.
9, 0 + 8, 0 + 8, 0 + 6, 5 + 8, 5 40
x̄ = = = 8, 0,
5 5
39
logo, o desvio padrão das notas será:
r
(9, 0 − 8, 0)2 + (8, 0 − 8, 0)2 + (8, 0 − 8, 0)2 + (6, 5 − 8, 0)2 + (8, 5 − 8, 0)2
σ =
r 5
2 2 2 2
1, 0 + 0, 0 + 0, 0 + 1, 5 + 0, 5 2
=
r 5
1, 0 + 0, 0 + 0, 0 + 2, 25 + 0, 25
=
5
r
3, 5
=
5
p
= 0, 7
∼
= 0, 83666.
IQ = Q3 − Q1 .
Posição de Q1 : 5+1
4
= 1, 5;
Posição de Q2 : 2 5+1
4
= 3, 0;
Posição de Q3 : 3 5+1
4
= 4, 5.
40
Q1 = 6,0+8,0
2
= 7, 0;
Q2 = 8, 0;
Q3 = 8,0+10,0
2
= 9, 0.
IQ = 9, 0 − 7, 0 = 2, 0.
6.7 Exercı́cios
Exercı́cio 13. Complete a tabela abaixo, com base nas notas obtidas por
cada um dos candidatos a vaga de emprego citados ao longo do capı́tulo e
determine qual candidato será o selecionado para a vaga.
A 7, 2 7, 6 6, 9 6, 1 7, 0 7, 7 7, 0 7, 0 74 7, 1
B 6, 0 6, 6 7, 3 7, 9 6, 2 6, 5 5, 9 7, 0 8, 1 8, 5
C 6, 2 7, 5 6, 8 7, 1 7, 2 7, 2 7, 9 6, 4 7, 1 6, 4
41
Para cada um destes aparelhos calcule a amplitude, o desvio médio, o desvio
padrão e o intervalo interquartil dos resultados obtidos. Calcule também a
média, a moda, a mediana, os quartis, o máximo e o mı́nimo destes resulta-
dos.
Exercı́cio 15. Para o exercı́cio anterior, determine qual dos aparelhos é mais
preciso (apresenta menor dispersão dos resultados), qual é menos viciado
(apresenta resultados mais próximos do verdadeiro) e qual é mais exato (o
mais preciso e menos viciado), e, com isso, decida qual aparelho deve ser
adquirido.
42
Capı́tulo 7
Estatı́stica Gráfica
43
Papel Valor investido
ITSA4 R$15.000, 00
MGLU3 R$10.000, 00
BIDI11 R$20.000, 00
FLRY3 R$8.000, 00
GOAU4 R$5.000, 00
PETR4 R$12.000, 00
B3SA3 R$5.000, 00
ABEV3 R$5.000, 00
TOTAL R$80.000, 00
44
7.2 Gráfico de setores (pizza)
O gráfico de setores, também conhecido como gráfico de pizza, consiste
numa circunferência que representa toda a nossa população dividida em se-
tores circulares (fatias de pizza) de tamanho proporcional ao valor que re-
presentam.
Exemplo 7.3. Segundo projeções feitas pelo IBGE, o Brasil possui hoje,
mais de 212.000.000 de habitantes. Estes brasileiros estão distribuı́dos nas
cinco regiões do paı́s de acordo com a tabela abaixo:
Região Habitantes
Centro-Oeste 16.496.340
Nordeste 58.174.912
Norte 18.583.035
Sudeste 88.601.482
Sul 30.221.606
TOTAL 212.077.375
45
Observação 7.4. Um gráfico de setores pode ter efeitos 3D, setores todos
destacados, ou todos unidos, ou apenas alguns destacados, rótulo com a por-
centagem, ou com o valor absoluto correspondente ao valor que representa
cada setor, etc.
46
É fácil perceber neste gráfico que o candidato Bolsonaro teve, no dia 20
de agosto, 20% das intenções de voto, porcentagem esta que só aumentou,
chegando a pouco mais de 35% na última pesquisa, realizada no começo de
outubro. Da mesma forma, o candidato Haddad teve também um grande
aumento no seu número de eleitores, aumento este muito grande entre os
dias 10 e 24 de setembro. Por outro lado, o candidato Ciro se manteve
quase sem alterações na porcentagem de eleitores que pretendiam elegê-lo,
sempre próximo a 10%. O candidato Alckmin também não teve muita va-
riação na sua intenção de voto inicial e final, apenas pequenos aumentos e
pequenas quedas em perı́odos especı́ficos. Por fim, a candidata Marina teve
um declı́nio, indo de cerca de 12% inicialmente a aproximadamente 3% na
última pesquisa.
7.4 Histograma
Um histograma é um gráfico parecido com o gráfico de barras, porém,
com significado um pouco diferente. Ele é utilizado para dados agrupados
em intervalos, e consiste em barras sem nenhum espaçamento entre elas,
cada uma com base de comprimento proporcional ao tamanho do intervalo
47
que representa e área proporcional a frequência correspondente ao intervalo.
48
Se a base corresponde a quantidade de minutos no intervalo e a área
corresponde a quantidade de pessoas no intervalo, então, como a área é o
produto da base pela altura, temos que a altura será o quociente entre a área
e a base, ou seja, neste caso, será a quantidade de pessoas por minuto em cada
intervalo. Observe que temos mais pessoas que levam entre 30 e 45 minutos
no traslado do que as que levam entre 20 e 30 minutos, porém, a coluna
referente ao intervalo de 30 a 45 minutos é mais baixa do que a referente
ao intervalo de 20 a 30 minutos. Isso se deve ao fato da base do intervalo
de 20 a 30 minutos ter tamanho 30 − 20 = 10, a sua área ter tamanho 801,
o que faz de sua altura 801/10 = 80, 1, enquanto o intervalo de 30 a 45
minutos tem base de tamanho 45 − 30 = 15, área 940, consequentemente,
altura 940/15 = 62, 666....
49
da mediana/segundo quartil Q2 e, por fim, um traço vertical indo do valor do
terceiro quartil Q3 até o valor máximo observado no nosso conjunto de dados.
Córgo Dânta 0 4 2 4 5 1 3 6 1 4 4 3
Parques Perânça 0 1 2 1 3 1 0 0 1 0 2 3
Vila Pobre 2 1 1 2 0 1 3 0 2 3 0 4
Com base nestes dados, ele pode obter as medidas de posição que seguem:
Por fim, com base nestes dados e medidas, ele pode construir os seguintes
gráficos de caixas, um para cada bairro analisado.
50
7.6 Gráfico de velas (candlestick)
Este é um tipo de gráfico muito parecido com o gráfico de barras, porém,
com significado bastante diferente. Assim como o gráfico de linhas, este
gráfico é comumente utilizado para nos dar informação sobre valores que
variam ao longo do tempo, em particular, para análises financeiras sobre o
preço de ações. Ele consiste em retângulos verdes ou vermelhos com linhas
verticais acopladas a ele.
51
Pode-se observar neste gráfico, que no mês de janeiro de 2020, a pon-
tuação caiu, porém, em determinado momento do mês, chegou a 120.000
pontos. Ainda no mês de março de 2020, houve uma grande queda, indo
esta pontuação de mais de 100.000 pontos a menos de 80.000, tendo chegado
perto de 60.000 pontos antes do fechamento. Até o momento, vimos nos me-
ses seguintes uma recuperação da bolsa, apesar da pequena queda em agosto,
o que, até o momento, parece ter sido revertida em setembro.
52
locidade (VEL), força (FOR), resistência (RES), marcação (MAR), passe
(PAS) e finalização (FIN). Comparando os craques dos três melhores times,
temos o gráfico abaixo.
É fácil observar por este gráfico que Allejo é o que tem melhor finalização,
seguido por Carboni e por fim Sieke, que Sieke e Allejo empatam com a
melhor velocidade, que Carboni tem melhor resistência, seguido por Sieke,
que nenhum deles é bom marcador...
Exemplo 7.12. Num asilo feminino, foi feito um gráfico de dispersão com
a altura e o peso de cada uma das 30 idosas atendidas. Os resultados seguem
53
abaixo.
Podemos observar neste gráfico que uma das idosas tem menos de 1, 45m
e pesa menos de 40kg, enquanto outra possui altura superior a 1, 70m, com
peso levemente superior a 60kg. Duas superam os 90kg, sendo uma delas,
com altura próxima a 1, 65m, outra, um pouco inferior a 1, 60m.
7.9 Exercı́cios
Exercı́cio 16. Construa um gráfico de barras, um de setores e um histograma
para os dados apresentados abaixo, correspondentes às notas de matemática
de uma determinada turma:
54
Notas fi
0 − |4 2
4 − |6 5
6 − |7 9
7 − |8 14
8 − |9 6
9 − |10 4
TOTAL 40
Exercı́cio 18. Construa um gráfico de redes com todas as suas notas nas
disciplinas cursadas no último semestre. Consulte um amigo que tenha cur-
sado as mesmas disciplinas e construa um g?afico de redes com as notas deste
seu amigo no mesmo gráfico. Compare os resultados.
55
Com base nas informações contidas nesta imagem, responda:
b) Em cada time, qual foi o jogador que mais causou dano a campeões?
56
Capı́tulo 8
Correlação e Regressão
57
Tempo de prática esportiva e frequência cardı́aca durante a prática
(pessoas que praticam esportes a mais tempo, tendem a apresentar
menor frequência cardı́aca durante a prática esportiva);
Nem sempre essa relação é muito clara, mas ela sempre pode ser verifi-
cada com métodos matemáticos.
58
X Y
x1 y1
x2 y2
.. ..
. .
xn yn
59
O valor de r nos dá também o coeficiente de determinação, dado por
r2 ×100%, que representa a quantidade de variabilidade nos dados explicados
pelo modelo de regressão.
60
Colocando estes dados num gráfico de dispersão, obtemos o seguinte:
Pn
i=1 xi yi − nx̄ȳ
r =
nσx σy
∼ 0 · 4, 0 + 1 · 6, 5 + 1 · 7, 5 + 2 · 5, 5 + 2 · 6, 0 + 2, 5 · 9, 5 + 3 · 7, 0 + 4 · 9, 0 − 8 · 1, 9375 · 6, 875
=
8 · 1, 1842 · 1, 691
∼ 117, 75 − 106, 5625
=
16, 0199
∼
= 0, 6984.
61
Temos então o valor r ∼ = 0, 6984 como o coeficiente de correlação linear,
o que nos dá o coeficiente de determinação r2 × 100% ∼
= 48, 77%.
Pn
i=1 xi yi − nx̄ȳ σy
a= 2
= r × , e b = ȳ − ax̄.
nσx σx
62
Y , temos, x̄ = 1, 9375, ȳ = 6, 875, σx ∼
= 1, 1842, σy ∼
= 1, 691 e r ∼
= 0, 6984.
Desta forma, para a reta ajustada y = ax + b, temos:
σy
a = r×
σx
∼ 1, 691
= 0, 6984 ×
1, 1842
∼
= 0, 9973,
b = ȳ − ax̄
∼
= 6, 875 − 0, 9973 × 1, 9375
∼
= 4, 9427.
63
quase 5 pontos (4, 9427) e, para cada hora extra de estudo, tem-se mais quase
1 ponto (0, 9973).
Observação 8.5. Você deve ter notado no exemplo acima, que os valores
obtidos como coeficientes da reta de regressão nos nossos cálculos estão li-
geiramente diferentes dos valores indicados no gráfico. Isso se deve ao fato
de, nos nossos cálculos, utilizarmos sempre um máximo de quatro casas de-
cimais nas nossas aproximações. O gráfico em questão foi feito computa-
cionalmente, e nos cálculos que levaram a sua construção, foram utilizadas
muitas outras casas decimais, fazendo a aproximação com quatro casas deci-
mais apenas após o fim dos cálculos. De fato, utilizando toda a precisão do
meu computador, neste caso, obtemos:
r∼
= 0, 698361456111078;
a∼
= 0, 997214484679666;
b∼
= 4, 94289693593315;
y = 0, 997214484679666x + 4, 94289693593315.
8.3 Exercı́cios
Exercı́cio 20. Num determinado exercı́cio, um levantador de peso profissio-
nal registrou o peso e o número máximo de repetições que ele conseguiu fazer
com o peso em questão. Os resultados seguem abaixo:
64
Com base nessas informações:
65
Capı́tulo 9
Introdução à Probabilidade
66
fundamentos matemáticos mais rigorosos foram estabelecidos pelo russo An-
drei Nikolaevich Kolmogorov (1903-1987).
Todos os nomes citados ao longo do texto, são alguns dos principais no-
mes no desenvolvimento histórico na área da probabilidade. São todos ma-
temáticos de nacionalidades diversas (apesar de serem todos europeus), e,
talvez por isso, a área da probabilidade é a área da estatı́stica que mais
carrega uma teoria matemática.
67
Exemplo 9.4. Temos:
68
nosso conjunto universo.
69
INTERSEÇÃO A ∩ B: é o evento onde ocorrem o evento A e o evento
B (simultaneamente);
70
Exemplo 9.7. Vamos considerar o experimento aleatório: lançar uma mo-
eda duas vezes e observar a sequência de resultados. Neste caso, temos
Ω = {(K, K); (K, C); (C, K); (C, C)} (onde K representa “cara” e C repre-
senta “coroa”). Vamos também considerar os eventos A: obter dois resulta-
dos iguais e B: obter pelo menos uma cara. Desta forma, temos:
A ∩ B = {(K, K)};
B C = {(C, C)}.
71
A = {(K, K); (C, C)};
A ∪ D = {};
Mas como podemos definir probabilidade? Uma possivel resposta é: Pro-
babilidade é uma medida que quantifica a incerteza frente a um aconteci-
mento futuro.
72
9.3.1 Método clássico
Este método é devido a Laplace, e consiste em associar a cada evento, a
razão entre o número de casos favoráveis e o número de casos possı́veis.
#E 3 1
p(E) = = = = 0, 5.
#Ω 6 2
#E 1
p(E) = = ∼= 0, 3333,
#Ω 3
73
9.3.2 Método frequentista
Este método consiste em repetir um experimento aleatório o máximo de
vezes possı́vel e, a cada evento, associar a probabilidade dada pela razão entre
os resultados favoráveis e o número total de repetições deste experimento.
Quanto maior o número de repetições deste experimento, mais confiável é o
resultado obtido por este método.
Experimento 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Resultado 1 6 3 2 4 1 4 4 4 5 3 1 3 6 5 6
8 1
p(E) = = = 0, 5.
16 2
74
e 47 vitórias do Atlético, desta forma, considerando o evento E: vitória da
Caldense, ou seja, E = {V }, segundo o método frequentista, temos:
17 ∼
p(E) = = 0, 2208.
77
17 ∼
p(E) = = 0, 1932.
88
75
não! Entendo que a vitória da Caldense sobre o Corinthians é improvável,
mas não impossı́vel.
76
9.3.4 Método moderno (axiomático)
Este método é devido a Kolmogorov e consiste em axiomatizar algumas
relações intuitivas e construir, a partir delas, toda a teoria de probabilidades,
a exemplo do que se faz no estudo da geometria euclidiana. Noutras palavras,
consiste em tomar como regra inquestionável algumas relações intuitivas e
concluir todo o resto a partir destas regras.
Definição 9.16. Probabilidade é uma função p(·) que associa a cada evento
E do espaço amostral Ω um número, satisfazendo as seguintes condições:
0 ≤ p(E) ≤ 1;
p(Ω) = 1;
p(∅) = 0;
p(E C ) = 1 − p(E);
77
p(A ∪ B ∪ C) = p(A) + p(B) + p(C) − p(A ∩ B) − p(A ∩ C) − p(B ∩
C) + p(A ∩ B ∩ C).
9.4 Exercı́cios
Exercı́cio 21. Determine se cada item abaixo pode ou não ser considerado
um experimento aleatório:
a) Acender uma lâmpada e observar o tempo que ela leva até se apagar;
d) Num paı́s com apenas duas cidades, a vila dos mentirosos (onde todos
mentem sempre) e a vila dos honestos (onde ninguém nunca mente),
verificar onde mora um determinado cidadão;
e) Num paı́s com apenas duas cidades, a vila dos mentirosos (onde todos
mentem sempre) e a vila dos honestos (onde ninguém nunca mente),
perguntar a um cidadão em qual vila ele mora;
78
Exercı́cio 22. Determine o espaço amostral associado a cada um dos eventos
aleatórios listados abaixo:
c) Lançar uma moeda para cima quantas vezes forem necessárias até obter
uma cara e contar o número de lançamentos;
e) Uma bola é retirada de uma urna com 10 bolas verdes, 10 bolas amarelas
e 10 bolas azuis e a sua cor é observada;
f ) Uma bola é retirada de uma urna com 10 bolas verdes, 7 bolas amarelas
e 2 bolas azuis e a sua cor é observada.
A: número par;
B: número impar;
C: número primo;
G: número múltiplo de 3;
79
Obtenha agora os eventos:
a) A ∪ D;
b) C ∩ E;
c) B C ;
d) (F ∪ H)C ;
e) GC ∩ A;
f ) (C C ∪ E)C .
h) Obter uma bola branca ao retirar uma bola de uma urna com 5 bolas
brancas e 4 bolas pretas;
i) Obter uma bola preta ao retirar uma bola de uma urna com 5 bolas
brancas e 4 bolas pretas;
j) Obter duas bolas de mesma cor ao retirar duas bolas de uma urna com
2 bolas brancas e 3 bolas pretas;
80
k) Acertar uma questão de múltipla escolha chutando a resposta dentre as
cinco alternativas;
m) Ganhar na mega sena com uma aposta simples (de seis números, que,
para serem ganhadores, devem ser os seis sorteados dentre os sessenta
possı́veis);
r) Acertar pelo menos seis questões de uma prova com dez questões de
múltipla escolha, com duas alternativas cada, escolhendo aleatóriamente
as respostas.
81
Capı́tulo 10
Fundamentos da Probabilidade
82
sentido, temos:
p(A ∩ B)
p(A|B) = .
p(B)
#A 160 32 ∼
p(A) = = = = 0, 5614.
#Ω 285 57
83
b) A probabilidade dele praticar entre 2h e 3h de atividade fı́sica semanal.
#B 70 14 ∼
p(B) = = = = 0, 2456.
#Ω 285 57
c) A probabilidade dele ter peso normal, sabendo que ele pratica entre 2h
e 3h de atividade fı́sica semanal.
p(A ∩ B) 53/285 53 ∼
p(A|B) = = = = 0, 7571.
p(B) 70/285 70
p(B ∩ A) 53/285 53 ∼
p(B|A) = = = = 0, 3313.
p(A) 160/285 160
84
Neste caso, temos, consequentemente, que:
Tal regra pode parecer uma complicação desnecessária, mas é através dela
que conseguimos tratar de situações onde temos uma divisão do nosso inte-
resse em vários subcasos. A situação descrita pode ser observada na imagem
85
abaixo, com n = 5 (imagem retirada da apostila do professor Marcos).
Exemplo 10.4. Carlos é um programador que possui três projetos. Ele di-
vide seu dia, empenhando 45% do seu tempo de trabalho no projeto P1 , 35%
no projeto P2 e 20% no projeto P3 . Segundo um analista que ele contratou,
caso ele empenhe seu tempo no projeto P1 , ele terá 0, 3 de probabilidade de
vender este projeto para uma grande empresa de tecnologia, enquanto, no
caso do projeto P2 , a probabilidade é de 0, 2 e, por fim, no caso do projeto
P3 , a probabilidade é de 0, 05. Vamos calcular a probabilidade de Carlos ven-
der algum de seus projetos.
86
10.2.1 Teorema de Bayes
Thomas Bayes (1702-1761) afirmou que as probabilidades devem ser re-
vistas quando conhecemos algo a mais sobre os dados. Para tal revisão, ele
propôs o teorema que leva o seu nome, que é uma das relações mais im-
portantes envolvendo probabilidades condicionais. Em resumo, nas mesmas
condições anteriores, o teorema de Bayes diz que:
p(D ∩ A3 ) 0, 01 ∼
p(A3 |D) = = = 0, 0699
p(D) 0, 143
10.3 Exercı́cios
Exercı́cio 25. Um aparelho eletrônico simples funciona com dois componen-
tes que possuem funcionamento independente. Este aparelho funciona apenas
se ambos os componentes não falharem. Se estes componentes tem probabili-
dade 0, 1 e 0, 2 de falhar, qual a probabilidade deste aparelho funcionar?
Exercı́cio 26. Um aparelho eletrônico simples funciona com dois compo-
nentes que possuem funcionamento independente. Este aparelho funciona
apenas se pelo menos um dos componentes não falhar. Se estes componentes
tem probabilidade 0, 1 e 0, 2 de falhar, qual a probabilidade deste aparelho
funcionar?
87
Exercı́cio 27. Uma confecção tem algumas costureiras, as quais são res-
ponsáveis por uma certa proporção da produção total da confecção, as quais
também possuem uma proporção de defeitos no total de peças que produzem,
de acordo com a tabela abaixo:
d) Uma peça sem defeitos selecionada aleatóriamente, não tenha sido pro-
duzida por Lourdes.
88
Exercı́cio 30. Ao inspecionar um lote de pregos produzidos numa metalúrgica,
a cada pacote com 100 unidades, 5 são selecionadas e analisadas, e, caso al-
guma apresende defeito, o lote é devolvido para a fábrica. Se a probabilidade
de um prego apresentar defeito for de 0, 001, qual a probabilidade de um lote
ser devolvido? E se a probabilidade de um prego apresentar defeito for de
0, 05?
89
Exercı́cio 34. Numa turma, 65% dos homens e 35% das mulheres possuem
mais de 1, 70m de altura. Se nesta turma, 60% são mulheres, selecionando
aleatóriamente uma pessoa desta turma qual a probabilidade de:
c) Esta pessoa ser uma mulher, sabendo que ela tem mais de 1, 70m?
90
Capı́tulo 11
Ω = {M M M ; M M F ; M F M ; F M M ; M F F ; F M F ; F F M ; F F F }.
Se nos interessar saber quantos destes estudantes são do sexo feminino, temos
a variável aleatória X= número de estudantes do sexo feminino. A cada
ponto do Ω, temos associado um valor para X, de acordo com a tabela abaixo:
91
Para entendermos bem a ideia relacionada a uma variável aleatória e a sua
aplicação ao cálculo de probabilidades, é associar a cada valor desta variável
aleatória a sua probabilidade, obtendo assim o que chamamos de distri-
buição de probabilidade. Se x1 , x2 , ..., xn são todos os possı́veis valores
de uma variável aleatória X, temos p(X = xi ) representando a probabilidade
de X assumir o valor xi . Esta função probabilidade p(·) deve satisfazer:
Ω = {M M M ; M M F ; M F M ; F M M ; M F F ; F M F ; F F M ; F F F }.
xi 0 1 2 3
1 3 3 1
p(X = xi ) 8 8 8 8
92
11.1.1 Esperança matemática
Calculamos a esperança de uma variável aleatória X multiplicando cada
um de seus possı́veis valores a probabilidade deste valor ocorrer e somando
os resultados. Ou seja, temos:
n
X
E(X) = xi p(X = xi ).
i=0
Ω = {M M M ; M M F ; M F M ; F M M ; M F F ; F M F ; F F M ; F F F }.
e:
xi 0 1 2 3
1 3 3 1
p(X = xi ) 8 8 8 8
1 3 3 1 12 3
E(X) = 0 × +1× +2× +3× = = = 1, 5.
8 8 8 8 8 2
xi 0 1 2 3 4 5
p(X = xi ) 0, 1 0, 25 0, 3 0, 2 0, 1 0, 05
E(X) = 0, 1 × 0 + 0, 25 × 1 + 0, 3 × 2 + 0, 2 × 3 + 0, 1 × 4 + 0, 05 × 5 = 2, 1.
93
Observação 11.5. Note que, no exemplo acima, em nenhum dia será ven-
dido 2, 1 carros, afinal, isto é impossı́vel. Este valor representa a média de
vendas diárias esperada ao longo de vários dias.
11.1.2 Variância
Para calcularmos a dispersão dos valores de uma varável aleatória X,
podemos calcular sua variância, dada por:
n
X
2 2
σ = V ar(X) = E[X − E(X)] = (xi − E(X))p(X = xi ).
i=1
xi 0 1 2 3 4 5
p(X = xi ) 0, 1 0, 25 0, 3 0, 2 0, 1 0, 05
94
diariamente é E(X) = 2, 1, enquanto sua variância é dada por:
1
p(X = xi ) = , ∀i ∈ {1; 2; ...; n}.
n
95
n n
!2
2 1X 2
2 1 X
V ar(X) = E(X ) − [E(X)] = xi − 2 xi .
n i=1 n i=1
1 + 2 + ... + 10 55
E(X) = = = 5, 5,
10 10
a variância é:
V ar(X) = 8, 25 ∼
p p
DP (X) = = 2, 8723.
p(X = k) = P k (1 − P )1−k ,
96
além disso, a esperança e a variância serão dados, respectivamente por:
E(X) = P , e V ar(X) = P (1 − P ).
!
n
p(X = k) = P k (1 − P )n−k .
k
!
n n!
Onde, = k!(n−k)! , representando a combinação de n elementos
k
tomados k a k (lembre, n! = n × (n − 1) × (n − 2) × ... × 3 × 2 × 1). Neste
caso, temos ainda:
97
E(X) = nP , e V ar(X) = nP (1 − P ).
Temos então:
!
6 10−6
10 1 1
p(X = 6) = 1−
6 5 5
4
10! 1 4
=
6!(10 − 6)! 56 5
1 44
= 210 × 6 × 4
5 5
44 × 210
=
510
53.760
=
9.765.625
∼
= 0, 0055,
98
!
7 10−7
10 1 1
p(X = 7) = 1−
7 5 5
3
10! 1 4
=
7!(10 − 7)! 57 5
1 43
= 120 × 7 × 3
5 5
43 × 120
=
510
7.680
=
9.765.625
∼
= 0, 0008,
!
8 10−8
10 1 1
p(X = 8) = 1−
8 5 5
2
10! 1 4
=
8!(10 − 8)! 58 5
1 42
= 45 × 8 × 2
5 5
42 × 45
=
510
720
=
9.765.625
∼
= 0, 0001,
!
9 10−9
10 1 1
p(X = 9) = 1−
9 5 5
1
10! 1 4
=
9!(10 − 9)! 59 5
1 4
= 10 × 9 ×
5 5
4 × 10
=
510
99
40
=
9.765.625
∼
= 0,
e
!
1 10−10
10 1 1
p(X = 10) = 0 1−
10 5 5
10! 1
=
10!(10 − 10)! 510
1
= 1 × 10
5
1
=
9.765.625
∼
= 0.
Fica claro assim que Lucas esta ferrado! De fato, o número esperado de
acerto de Lucas nesta prova é:
1
E(X) = 10 × = 2.
5
100
o que significa que muito provavelmente o número de acertos ficará entre
2 − 1, 2649 = 0, 7351 e 2 + 1, 2649 = 3, 2649, bem distante do mı́nimo de 6
acertos que Lucas precisa.
No exemplo que acabamos de analizar, nosso querido (ou nem tanto) Lu-
cas chutou várias questões numa prova de múltipla escolha. O fato dele ter
acertado ou errado uma questão em nada afeta a probabilidade dele acertar
ou errar a questão seguinte, assim, usamos, neste caso, o modelo binomial.
Se, ao invés disso, ao invés de Lucas ter que escolher 10 entre 50 respostas
possı́veis, ele tivesse que tirar aleatóriamente 10 bolinhas de uma caixa, que
contém 10 bolinhas verdes (correspondentes às alternativas corretas) e 40
bolinhas vermelhas (correspondentes às alternativas incorretas), o fato de ele
tirar uma bola verde ou uma vermelha afetaria as probabilidades referentes
a próxima bola que ele fosse tirar, o que faria desta situação, modelada pelo
modelo hipergeométrico.
101
! !
r N −r
k n−k
p(X = k) = ! , para max(0; n + r − N ) ≤ k ≤ min(n; r).
N
n
np(1 − p)(N − n)
E(X) = np, e V ar(X) = ,
N −1
r
onde p = N
.
P (X ≥ 6) = P (X = 6) + P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10).
! !
10 50 − 10
7 10 − 7
p(X = 7) = !
50
10
120 × 9.880
=
10.272.278.170
1.185.600
=
10.272.278.170
∼
= 0, 0001,
! !
10 50 − 10
8 10 − 8
p(X = 8) = !
50
10
45 × 780
=
10.272.278.170
35.100
=
10.272.278.170
∼
= 0,
! !
10 50 − 10
9 10 − 9
p(X = 9) = !
50
10
10 × 40
=
10.272.278.170
103
400
=
10.272.278.170
∼
= 0
e
! !
10 50 − 10
10 10 − 10
p(X = 10) = !
50
10
1×1
=
10.272.278.170
1
=
10.272.278.170
∼
= 0.
Finalmente, temos:
P (X ≥ 6) = P (X = 6) + P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10)
19.191.900 1.185.600 35.100
= + + +
10.272.278.170 10.272.278.170 10.272.278.170
400 1
+ +
10.272.278.170 10.272.278.170
20.413.001
=
10.272.278.170
∼
= 0, 002.
Vemos então que, mais uma vez, Lucas está ferrado! Além disso, temos neste
caso:
104
escolha, cada uma com 5 alternativas, sendo apenas 1 delas correta. Isso se-
ria equivalente a fazer 10 sorteios em 10 caixas, cada caixa com 5 bolinhas,
sendo 4 vermelhas e 1 verde, assim, o resultado de um sorteio numa caixa
não afeta as probabilidades do resultado do sorteio na caixa seguinte. Quando
se coloca todas as bolinhas numa única caixa, temos algo equivalente a uma
estranha prova onde temos 50 alternativas e destas, 10 estão certas, de forma
que quando se chuta a uma resposta, se o chute for certeiro, sobram 49 outras
respostas, das quais, 9 estão corretas e 40 estão incorretas, caso o chute vá
pra fora, das 49 respostas que sobrarem, serão 10 corretas e 39 incorretas, de
forma que os próximos chutes tem a sua probabilidade afetada pelo resultado
do primeiro.
105
é, teoricamente, infinito. Nesta distribuição, temos:
e−λ λk
p(X = k) = ,
k!
Temos:
e−2,2 2, 22 ∼ 0, 1108 × 4, 84 ∼
p(X = 2) = = = 0, 2681,
2! 2
e−2,2 2, 21 ∼ 0, 1108 × 2, 2 ∼
p(X = 1) = = = 0, 2438
1! 1
e−2,2 2, 20 ∼ 0, 1108 × 1 ∼
p(X = 0) = = = 0, 1108,
0! 1
106
assim:
11.3 Exercı́cios
Exercı́cio 35. Ao lançar três dados, qual a probabilidade de que o produto
dos resultados obtidos seja múltiplo de seis?
Exercı́cio 36. Num cassino, existe um jogo onde o apostador rola dois dados
e ele vence se a soma dos resultados dos dois dados for um número primo.
Qual a probabilidade de vitória deste apostador (supondo dados honestos)?
Exercı́cio 37. Num jogo, são espalhados 50 cartas, divididas em pares, sobre
uma mesa. As duas cartas de cada par são iguais e cartas de pares distintos
são diferentes. Suponha que duas dessas cartas são retiradas da mesa ao
acaso. Qual a probabilidade de essas duas cartas serem iguais é?
Exercı́cio 38. João vai lançar N vezes um dado não viciado de 10 faces
numeradas de 1 a 10, até obter um resultado maior do que 5. Qual a proba-
bilidade de N ser maior que 5?
X 0 1 2 3 4 5
P (X) 0, 15 0, 5 0, 2 0, 1 0, 04 0, 01
Com base nestas informações:
107
b) Calcule o desvio padrão σ do número de carros por famı́lia;
Exercı́cio 40. Um motorista vai fazer uma viagem de 600km com um carro
que consome um litro de combustı́vel a cada 8km. O preço por litro do com-
bustı́vel é R$2, 89 e, pelo histórico deste motorista, sabe-se que ele tem pro-
babilidade 0, 1 de cometer uma infração leve, 0, 05 de cometer uma infração
média, 0, 01 de cometer uma infração grave e 0, 001 de cometer uma infração
gravı́ssima. Se a multa por infração segue a tabela abaixo:
108
a) Calcule a probabilidade desta central passar um minuto sem receber
nenhuma chamada;
Exercı́cio 44. Um lote com 30 processadores foi enviado para uma empresa.
Sabe-se que, destes, 3 não estão funcionando bem. A empresa selecionará
aleatóriamente 5 destes processadores para testar, e aceitará todo o lote caso
pelo menos 4 destes funcionarem perfeitamente. Qual a probabilidade do lote
ser aceito?
Exercı́cio 46. Uma seguradora de veı́culos estima que 0, 05% dos seus segu-
rados sofrerão determinado acidente no próximo ano. Esta seguradora possui
50.000 contratos com cobertura para este tipo de acidente. Com base nestas
informações:
109
sorteados ganha um prêmio de R$1.000.000, 00, enquanto quem acertar 4
dos 5 sorteados ganha R$10.000, 00 e, quem não acertar nenhum número,
ganha R$1, 00. Com base nestas informações:
110
Capı́tulo 12
111
12.1 Função densidade de probabilidades (FDP)
Tendo entendido o que é uma variável aleatória contı́nua, temos a pergunta:
como atribuir probabilidades para este tipo de variável?
Vemos que existe uma simetria aproximada em torno do valor 70kg para a
variável aleatória X = peso. A maioria dos valores se encontra no intervalo
[50; 90].
Podemos ajustar uma função densidade com base nestas informações,
como segue abaixo.
112
A probabilidade de o valor de X se localizar num determinado intervalo
é dada pela área entre o gráfico desta função e os limites deste intervalo.
Definição 12.2. Dizemos que uma função y = f (x) é uma função densidade
para uma variável aleatória X se:
f (x) ≥ 0, ∀x ∈ R;
R f (x)dx = 1.‘
R
113
12.1.1 Função de distribuição acumulada (FDA)
Além da função densidade f (x) para uma variável aleatória X, temos também
a função de distribuição acumulada F (x), dada por:
Z x
F (x) = p(X < x) = f (t)dt.
−∞
114
Temos:
1 1
p X≤ = F
2 2
Z 1
2
= f (x)dx
−∞
1
Z0 Z
2
= f (x)dx + f (x)dx
−∞ 0
Z 0 Z 1
2
= 0dx + e−x dx
−∞ 0
1
−x
= 0 − e |0 2
1
= 0 + e0 − √
e
∼
= 0, 3935.
Exemplo 12.5. Segundo algumas análises, o tempo X de vida útil (em anos)
destes SSDs produzidos por determinada empresa é dado como uma variável
115
aleatória com função densidade de probabilidades dada por:
(
e−x , para x ≥ 0
f (x) = .
0, para x < 0
Vamos calcular a vida útil esperada de um SSD produzidos por esta empresa,
tal como também o desvio padrão deste valor. Temos:
Z
E(X) = xf (x)dx
ZR0 Z ∞
= xf (x)dx + xf (x)dx
−∞ 0
Z 0 Z ∞
= 0dx + xe−x dx
−∞ −x 0
−x ∞
= −xe − e 0
= 1,
Z
V ar(X) = x2 f (x)dx − 12
ZR0 Z ∞
2
= x f (x)dx + x2 f (x)dx − 1
−∞ 0
Z 0 Z ∞
= 0dx + x2 e−x dx − 1
−∞2 −x 0
∞
= −x e − 2xe−x − 2e−x 0 − 1
= 1,
116
12.2 Distribuições de probabilidade
Temos diversos tipos de modelos de distribuições de probabilidades para
variáveis aleatórias contı́nuas. Estudaremos neste capı́tulo os principais.
a+b (b − a)2
E(X) = , e V ar(X) = .
2 12
Temos:
(
1
25
,para 40 < x < 65
f (x) = .
0, caso contrário
117
Assim:
Z 60 Z 60
1 10
P (50 < X < 60) = f (x)dx = dx = = 0, 4.
50 50 25 25
1 1 1
E(X) = e V ar(X) = 2 ⇒ DP (X) = .
λ λ λ
Exemplo 12.7. Sabe-se que o tempo médio de vida útil de deteminado mo-
delo de celular é de 100.000 horas, e que a vida útil de celulares deste modelo
seguem o modelo exponencial. Num lote com 10.000 celulares deste modelo,
camos calcular quantos devem ter vida útil superior a 100.000 horas (pouco
menos de 11 anos e meio).
Temos que:
1
E(X) = 105 = ⇒ λ = 10−5 ,
10−5
118
desta forma:
Z ∞
P (X > 100.000) = f (x)dx
Z100.000
∞
−5
= 10−5 e−10 x dx
105
−5
= −e−10 x |∞
105
1
=
e
∼
= 0, 3679,
Desta forma, aproximadamente 36, 79% destes celulares devem ter vida útil
superior a 100.000 horas, assim, num lote com 10.000 celulares, 3679 devem
ter vida útil superior a a 100.000 horas.
1 1 x−µ 2
f (x) = √ e2( σ ) ,
2πσ 2
119
onde µ = E(X) e σ = DP (X) são parâmetros da distribuição.
Dizemos que uma variável aleatória contı́nua X tem modelo normal N (µ; σ 2 )
se a função dada acima é a sua função densidade de probabilidades.
A variância da distribuição é σ 2 ;
R
R
f (x)dx = 1.
120
Neste momento, você deve estar pensando “estou ferrado, vou ter que
calcular integrais com esta função maluca aı́”...
Calma, nem tudo é tão ruim como parece. Para contornar este cálculo
(que seria muito difı́cil), temos tabelados os valores destas integrais, porém,
para utilizar a tabela (que se encontra no final do presente texto), devemos
antes padronizar a nossa distribuição. Os valores que temos tabelados são
para N (0; 1), ou seja uma distribuição normal com média µ = 0 e variância
σ 2 = 1. Dada uma variável aleatória contı́nua X com distribuição normal
N (µ; σ 2 ), podemos fazer:
X −µ
Z= .
σ
121
mato da distribuição, apenas muda a sua escala.
122
p(0, 12 < Z ≤ 0, 99) = 0, 2911, pois:
123
A probabilidade de alguém desta população ter altura maior que 1, 85m.
Temos:
185 − 170
p(X > 185) = p Z > ( veja que µ = 170 e σ 2 = 100)
10
= p(Z > 1, 5)
= 1 − p(Z ≤ 1, 5)
= 1 − A(1, 5)
= 1 − 0, 9332
= 0, 0668;
124
= A(1) − [1 − A(1)]
= 2A(1) − 1
= 2 × 0, 8413 − 1
= 0, 6826,
podemos então concluir que 68, 26% desta população tem altura entre
1, 6m e 1, 8m.
Observação 12.10. Vale, para toda variável aleatória contı́nua X com dis-
tribuição N (µ; σ 2 ) que:
0, 4975 = P (0 ≤ Z < z)
= P (Z < z) − p(Z ≤ 0)
= P (Z < z) − 0, 5
⇓
p(Z < z) = 0, 9975
⇓
A(z) = 0, 9975
z = 2, 81.
P (Z ≥ z) = 0, 2. Temos:
0, 2 = P (Z ≥ z)
125
= 1 − P (Z < z)
⇓
p(Z < z) = 0, 8
⇓
A(z) = 0, 8
z ∼
= 0, 84.
Temos que calcular um valor de x para o qual p(X > x) = 0, 95. Temos
µ = 40.000 e σ = 5.000, assim:
p(X > x) = 0, 95
⇓
x − 40.000
p(Z > z) = 0, 95, com z =
5.000
⇓
p(Z < −z) = 0, 95
⇓
A(−z) = 0, 95
⇓
−z ∼
= 1, 645
⇓
x − 40.000
−1, 645 ∼
=
5.000
126
⇓
x ∼
= 31.775.
Vemos então que, com a empresa oferecendo garantia de 30.000km, 97, 72%
dos pneus não acionarão a garantia, ou seja, apenas 2, 28% acionarão esta
garantia.
12.3 Exercı́cios
Exercı́cio 48. Verifique as expressões correspondentes a E(X) e V ar(X)
nos modelos uniforme e exponencial.
Exercı́cio 49. O diâmetro (em cm)de um cabo elétrico é uma variável aleatória
contı́nua com função densidade de probabilidades dada por:
(
6x(1 − x), para 0 < x < 1
f (x) = .
0, caso contrário
127
b) Obtenha F (x);
Exercı́cio 50. O valor anual (em milhões de reais) gasto com a manutenção
do asfalto de uma cidade de interior é uma variável aleatória contı́nua X
com função de densidade de probabilidades dada por:
(
8x−4
9
,para 12 < x < 2
f (x) = .
0, caso contrário
b) Obtenha F (x);
128
Exercı́cio 52. O tempo de espera num determinado consultório é uma variável
aleatória contı́nua com distribuição exponencial, com tempo médio de espera
de 15 minutos.Com base nestas informações:
Exercı́cio 53. Sendo Z uma variável aleatória contı́nua com modelo N (0; 1),
calcule:
b) p(Z ≥ 2, 01);
Exercı́cio 54. Sendo Z uma variável aleatória contı́nua com modelo N (0; 1),
calcule o valor de z para o qual:
d) p(0 ≤ Z ≤ z) = 0, 1596
129
e) p(Z > z) = 0, 1162;
c) Qual deve ser o tempo de prova para garantir que 95% dos vestibulandos
terminem a prova?
130
TABELA DA DISTRIBUIÇÃO NORMAL PADRÃO
131
Referências Bibliográficas
[3] CRESPO, A.A. Estatı́stica Fácil. 19ª edição. São Paulo: Saraiva, 2009.
ISBN 978-85-0208-106-2.
132
[10] SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatı́stica
aplicada à administração e economia. 3ª edição. São Paulo: Cengage
Learning, 2013. xxi, ISBN 978-85-2211-281-4.
133