Notas de Aula - Estatística

IFSULDEMINAS
campus Poços de Caldas

Professor Bruno Alves
ESTATÍSTICA
Poços de Caldas
Segundo semestre de 2020
O presente texto é constituı́do por notas de aula da disciplina Es-
tatı́stica, ministrada no segundo semestre de 2020, em diversos cursos (Enge-
nharia de Computação, Licenciatutra em Ciências Biológicas, Técnico Subse-
quente em Administração, Tecnologia em Gestão Ambiental e Tecnologia em
Gestão Comercial) do Instituto Federal de Educação, Ciência e Tecnologia
do Sul de Minas Gerais (IFSULDEMINAS) - campus Poços de Caldas pelo
professor Bruno Alves. Correções e atualizações poderão ser acrescentadas
ao longo do semestre. Algumas informações importantes sobre a disciplina
(datas de provas, plano de ensino, este material, listas de exercı́cios avalia-
tivas, etc.) podem ser encontradas na página correspondente a sala de aula
virtual do google classroom correspondente a cada curso.
Você encontrará ao longo do texto alguns exercı́cios criados pelo professor

e/ou copiados das referências. Não os ignore, você só consolidará seu apren-
dizado se praticar o que aprendeu. Tais exercı́cios são em uma quantidade
pequena, de forma que é recomendável que você faça TODOS, e, caso sinta
necessidade, busque mais exercı́cios sobre o assunto nas referências, noutros
livros e/ou apostilas, na internet, embaixo da cama, etc.. Peça ajuda a seus
professores, colegas, amigos, familiares (até a São Longuinho) caso tenha di-
ficuldade em encontrar tais exercı́cios e/ou em solucioná-los.
Todo o conteúdo deste texto pode ser encontrado nas referências bibli-
ográficas citadas ao final do mesmo. Este material não deve servir como subs-
tituto de nenhum livro, mas sim, apenas como um suporte ao conteúdo estu-
dado em sala de aula, especialmente no perı́odo remoto, seguindo a sequência
proposta pelo professor. Complemente-o com livros e outras fontes.
Como você já deve ter notado (ou não), este texto (assim como as aulas
do professor Bruno Alves) tentam expor o conteúdo com uma dose de bom
humor, na tentativa de tornar o aprendizado e a leitura deste mais prazeroza,
i
mais leve e mais natural. Se você prefere um texto mais mal humorado (não é
preciso de mal humor para ser sério), você facilmente encontrará em diversos
livros e apostilas, disponı́veis nos mais diversos meios (internet, bibliotecas,
livrarias, supermercados, casa do amigo, etc.).
Aproveito a oportunidade para prestar a minha admiração e o meu agra-

decimento ao Dr. Marcos Santos de Oliveira, que além de me incentivar, de
me ajudar a traçar meus objetivos e trilhar os meus caminhos acadêmicos,
me deu a bagagem de conhecimentos que me permite hoje assumir a res-
ponsabilidade desta disciplina e, desde a primeira vez em que ministrei uma
disciplina na área de estatı́stica, em 2015, se mostrou totalmente disponı́vel
para me ajudar a conduzir a disciplina com a mesma maestria que ele o fez
a alguns anos atrás, em 2007, quando eu era um estudante de graduação do
curso de licenciatura em matemática da UFSJ, onde tive o privilégio de tê-lo
como professor.
Crı́ticas, sugestões, correções ou quaisquer tipo de opiniões que possam

contribuir para a melhoria deste texto são bem vindas. Caso tenha alguma,
compartilhe com o professor Bruno Alves (que aparentemente gosta de se
referir a si mesmo na terceira pessoa) para que esta seja compartilhada com
seus colegas. Escreva para bruno.alves@ifsuldeminas.edu.br ou procure pes-
soalmente o professor.
Bons estudos!
ii
Sumário
1 Introdução 1
1.1 O que é estatı́stica? . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Como funciona a estatı́stica? . . . . . . . . . . . . . . . . . . . 1
1.3 Como surgiu a estatı́stica? . . . . . . . . . . . . . . . . . . . . 4
1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Variáveis 6
2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Amostragem 10
3.1 O que é amostragem? . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Por que fazer amostragem? . . . . . . . . . . . . . . . . 11
3.2 Técnicas de amostragem . . . . . . . . . . . . . . . . . . . . . 13
3.2.1 Amostragem aleatória simples (AAS) . . . . . . . . . . 13
3.2.2 Amostragem sistemática (AS) . . . . . . . . . . . . . . 13
3.2.3 Amostragem estratificada (AE) . . . . . . . . . . . . . 14
3.2.4 Amostragem por conglomerado (AC) . . . . . . . . . . 15
3.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Tabulação de Variáveis 17
4.1 Variáveis qualitativas unidimensionais . . . . . . . . . . . . . . 17
iii
4.2 Variáveis quantitativas unidimensionais . . . . . . . . . . . . . 19
4.3 Variáveis bidimensionais . . . . . . . . . . . . . . . . . . . . . 21
4.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Medidas de Posição 25
5.1 Máximo e mı́nimo . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.5 Medidas separatrizes . . . . . . . . . . . . . . . . . . . . . . . 32
5.5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.5.2 Outras medidas separatrizes . . . . . . . . . . . . . . . 33
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6 Medidas de Dispersão 36
6.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Desvio médio . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.5 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.6 Intervalo interquartil . . . . . . . . . . . . . . . . . . . . . . . 40
6.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7 Estatı́stica Gráfica 43
7.1 Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.2 Gráfico de setores (pizza) . . . . . . . . . . . . . . . . . . . . . 45
7.3 Gráfico de linhas (temporal) . . . . . . . . . . . . . . . . . . . 46
7.4 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.5 Gráfico de caixas (box-plot) . . . . . . . . . . . . . . . . . . . 49
7.6 Gráfico de velas (candlestick) . . . . . . . . . . . . . . . . . . 51
7.7 Gráfico de redes . . . . . . . . . . . . . . . . . . . . . . . . . . 52
iv
7.8 Gráfico de dispersão . . . . . . . . . . . . . . . . . . . . . . . 53
7.9 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8 Correlação e Regressão 57
8.1 Relação entre variáveis . . . . . . . . . . . . . . . . . . . . . . 57
8.2 Correlação e regressão linear . . . . . . . . . . . . . . . . . . . 58
8.2.1 Coeficiente de correlação linear . . . . . . . . . . . . . 59
8.2.2 Regressão linear . . . . . . . . . . . . . . . . . . . . . . 62
8.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9 Introdução à Probabilidade 66
9.1 Um pouco de história . . . . . . . . . . . . . . . . . . . . . . . 66
9.2 Definições iniciais . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.2.1 Operações com eventos . . . . . . . . . . . . . . . . . . 69
9.3 Definições de probabilidade . . . . . . . . . . . . . . . . . . . 72
9.3.1 Método clássico . . . . . . . . . . . . . . . . . . . . . . 73
9.3.2 Método frequentista . . . . . . . . . . . . . . . . . . . 74
9.3.3 Método subjetivo . . . . . . . . . . . . . . . . . . . . . 76
9.3.4 Método moderno (axiomático) . . . . . . . . . . . . . . 77
9.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
10 Fundamentos da Probabilidade 82
10.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . 82
10.1.1 Independência de eventos . . . . . . . . . . . . . . . . 84
10.2 Regra da probabilidade total . . . . . . . . . . . . . . . . . . . 85
10.2.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . 87
10.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11 Variáveis Aleatórias Discretas 91

11.1 Esperança, variância e desvio padrão . . . . . . . . . . . . . . 92
11.1.1 Esperança matemática . . . . . . . . . . . . . . . . . . 93
11.1.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . 94
v
11.1.3 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . 94
11.2 Distribuições de probabilidade . . . . . . . . . . . . . . . . . . 95
11.2.1 Modelo uniforme discreta . . . . . . . . . . . . . . . . 95
11.2.2 Modelo de Bernoulli . . . . . . . . . . . . . . . . . . . 96
11.2.3 Modelo binomial . . . . . . . . . . . . . . . . . . . . . 97
11.2.4 Modelo hipergeométrico . . . . . . . . . . . . . . . . . 101
11.2.5 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . 105
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
12 Variáveis Aleatórias Contı́nuas 111

12.1 Função densidade de probabilidades (FDP) . . . . . . . . . . . 112
12.1.1 Função de distribuição acumulada (FDA) . . . . . . . . 114
12.1.2 Esperança, variância e desvio padrão . . . . . . . . . . 115
12.2 Distribuições de probabilidade . . . . . . . . . . . . . . . . . . 117
12.2.1 Modelo uniforme . . . . . . . . . . . . . . . . . . . . . 117
12.2.2 Modelo exponencial . . . . . . . . . . . . . . . . . . . . 118
12.2.3 Modelo normal . . . . . . . . . . . . . . . . . . . . . . 119
12.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
vi
Capı́tulo 1
Introdução
Vamos neste capı́tulo começar os nossos estudos em estatı́stica. Antes

mesmo de prosseguirmos, é importante respondermos algumas questões ini-
ciais, a primeira delas é...
1.1 O que é estatı́stica?

Estatı́stica é uma ciência que nos permite coletar, organizar, descrever,
analisar e interpretar dados oriundos de estudos em qualquer área do co-
nhecimento. Podemos aplicar as técnicas a serem discutidas nesta disciplina
nas mais variadas áreas das atividades humanas, nas mais diversas áreas
do conhecimento, com isso, o principal objetivo da estatı́stica é nos auxiliar
a tomar decisões ou tirar conclusões em situações de incerteza, a partir de
informações numéricas.
1.2 Como funciona a estatı́stica?

Na prática, partindo de uma população, utilizando técnicas de amostra-
gem, extraı́mos uma amostra, a partir da qual, com auxı́lio da estatı́stica
descritiva, retiramos algumas informações de nosso interesse. Por meio do
1
cálculo de probabilidades e/ou da inferência estatı́stica, chegamos a con-
clusões sobre esta população.
Estas conclusões servem para nos auxiliar nas nossas tomadas de decisão.
Por exemplo, se um prefeito, visando promover a qualidade de vida dos mo-
radores de sua cidade, percebe que a população de sua cidade é composta
predominantemente por idosos, certamente buscará promover atividades vol-
tadas a este público (como a construção de praças e coretos, postos de saúde,
a oferta de aulas de pintura, ginásticas especı́ficas para a terceira idade, etc.).
Um outro prefeito que, com a mesma intenção, percebe a população de sua
cidade composta predominantemente por jovens, certamente deverá promo-
ver atividades distintas (como a construção de praças de esporte, academias
ao ar livre, a oferta de shows culturais, a promoção de atividades ao ar livre,
como escaladas, trilhas, etc.).
Parece fácil entender nos exemplos, mas não tão fácil assim no parágrafo
inicial, não é? Veja a imagem abaixo (retirada da apostila do professor Mar-
cos) e a definição de cada termo:
2
População: É o conjunto composto por todos os elementos de interesse
num estudo, que pode ser composto pelos moradores de uma cidade numa
situação como a supracitada; os estudantes de uma escola; os animais de
uma criação; as plantas de uma lavoura; os clientes de uma loja; as águas
das piscinas de um parque aquático; etc. A população depende do que e onde
estamos estudando.
Amostra: É qualquer subconjunto (ou seja, qualquer pedaço) da po-

pulação.
Técnicas de amostragem: É um nome autoexplicativo. São as técnicas

(ou seja, as maneiras) utilizadas para se coletar uma amostra de uma po-
pulação.
Análise descritiva: É um conjunto de técnicas utilizadas para descrever

e resumir informações.
Probabilidade: É a teoria que utilizamos para estudar a incerteza asso-

ciada a eventos aleatórios, associando a cada possı́vel resultado deste evento,
um número entre 0 e 1, o qual indica a chance deste resultado acontecer, ou
seja, a proporção esperada deste resultado em relação a todos os resultados
possı́veis quando repetimos o mesmo evento aleatório muitas vezes.
Inferência estatı́stica: É o conjunto de técnicas que nos permitem

extrapolar a toda uma população as conclusões obtidas a partir de uma
amostra.
3
1.3 Como surgiu a estatı́stica?
A estatı́stica surgiu por volta do século XVII, com a publicação do “Ob-
servations on the Bills of Mortality” (Observações sobre os Censos de Mor-
talidade, 1662) de John Graunt. Suas primeiras aplicações estavam volta-
das para as necessidades de Estado relacionadas a formulação de polı́ticas
públicas. Ainda no século XVII, seus fundamentos matemáticos “nasceram”
com o inı́cio do desenvolvimento da teoria das probabilidades por dois ma-
temáticos, os franceses Blaise Pascal (1623-1662) e Pierre de Fermat (1607-
1665).
Por volta do século XIX, a estatı́stica começou a ser utilizada de forma

mais abrangente, e nos dias atuais, ela é largamente utilizada em diveras
aplicações nas mais diversas áreas do conhecimento como também na admi-
nistração pública e privada.
1.4 Exercı́cios
Exercı́cio 1. Em cada um dos casos descritos a seguir, identifique a po-
pulação e a amostra correspondente.
a) Um prefeito que deseja descobrir a renda média dos habitantes de sua

cidade, questionou todos que passaram em frente a prefeitura de sua
cidade num determinado dia.
b) Para verificar a quantidade de plaquetas no sangue de um paciente, um

enfermeiro retirou 5ml de sange do braço direito deste paciente.
c) Uma loja querendo saber sobre o nı́vel de satisfação de seus clientes,

enviou um e-mail com um questionário para todos os cadastrados em
seu banco de dados.
4
d) Visando avaliar se as condições das águas de um lago tem relação com
uma repentina queda no número de peixes deste lago, um biólogo coletou
100ml de água da beira do lago para análise.
Exercı́cio 2. Determine e justifique, em cada caso descrito no exercı́cio

anterior, se a amostragem é representativa (isto é, se os resultados obtidos
da amostra se aplicam a toda a população).
5
Capı́tulo 2
Variáveis
Neste capı́tulo, vamos entender o que são e como se classificam as variáveis

estatı́sticas. Váriáveis distintas nos dão distintas possibilidades de aborda-
gem, por isso, é importante sabermos identificá-las.
2.1 Definição
Uma variável é qualquer caracterı́stica da população que possa variar
entre seus elementos.
Exemplo 2.1. Na sua turma, a idade de cada estudante é uma variável (ou
todos tem a mesma idade?).
Exemplo 2.2. No IFSULDEMINAS - campus Poços de Caldas, o nı́vel

de escolaridade dos servidores é uma variável (alguns são doutores, outros
mestres, outros especialistas, graduados, etc).
Exemplo 2.3. Numa escola, o nı́vel de escolaridade dos estudantes de uma

turma de primeiro ano do ensino médio não é uma variável (todos, sem
exceção, concluiram apenas o ensino fundamental).
Podemos ver no exemplo acima que uma mesma caracterı́stica pode ou

não ser uma variável, dependendo da população.
6
2.2 Classificação
Uma variável se classifica de acordo com sua natureza. Uma variável
pode ser:
Qualitativa: Quando se refere a uma qualidade (como sexo, estado civil,

cor dos olhos, etc.);
Quantitativa: Quando se refere a uma quantidade (como altura, peso,
salário, idade, etc.).
Existem algumas sutilezas que merecem atenção...
Exemplo 2.4. A escolaridade é uma variável qualitativa, quando medida em

nı́vel de escolaridade máximo concluido, mas é uma variável quantitativa,
quando medida em tempo de estudo.
Exemplo 2.5. Se numa pesquisa de satisfação em relação ao atendimento de

um vendedor, é solicitado a escolha de um número de 1 a 10, sendo 1 muito
insatisfeito e 10 muito satisfeito, a resposta a esta pesquisa é uma variável
que, apesar de ser um número, não é quantitativa, é sim qualitativa, afinal
se refere a uma qualidade, mesmo que esta qualidade esteja representada por
um número.
Além da classificação em variável qualitativa e variável quantitativa, exis-

tem subclassificações, a saber:
Variável qualitativa ordinal: É uma variável qualitativa em que os possı́veis

resultados apresentam uma ordem natural (como o nı́vel de escolaridade - en-
sino fundamental, ensino médio, ensino superior, etc. e o grau de satisfação
- muito insatisfeito, insatisfeito, satisfeito, etc.);
Variável qualitativa nominal: É uma variável qualitativa em que os
possı́veis resultados não apresentam uma ordem natural (como a raça - vira
7
lata, pit bull, pinsher, labrador, etc. e o sexo - masculino e feminino);
Variável quantitativa discreta: É uma variável quantitativa em que os
possı́veis resultados podem ser obtidos por uma simples contagem (como o
número de filhos - 0, 1, 2, etc. e a renda mensal - R$800,00, R$2.314,97,
R$2.314,98, R$5.300,00, etc.). Existe uma unidade mı́nima para este tipo de
variável;
Variável quantitativa contı́nua: É uma variável quantitativa em que os
possı́veis resultados não podem ser obtidos por uma contagem, necessitam
de uma medição mais precisa (como o tempo de duração de uma lâmpada -
1547 segundos, 1547,1 segundos, 1547,01 segundos, etc. e a altura de uma
pessoa - 1,80m, 1,801m, 1,8007m, 1,80068m, etc). Este tipo de variável não
possui uma unidade mı́nima.
2.3 Exercı́cios
Exercı́cio 3. Um questionário aplicado aos professores de um curso apre-
sentou os seguintes resultados:
Sexo Altura Peso Idade Filhos Fuma Disc. Alunos Esc.

M 1,72m 92kg 54 4 Não 4 Bons Especialista
M 1,91m 95kg 34 2 Sim 3 Ruins Mestre
F 1,55m 74kg 48 2 Não 1 Ótimos Especialista
F 1,77m 65kg 26 0 Não 1 Ótimos Especialista
F 1,64m 53kg 28 1 Sim 1 Bons Mestra
M 1,79m 112kg 68 3 Não 2 Bons Mestre
M 1,58m 77kg 63 2 Não 5 Ruins Especialista
F 1,54m 49kg 71 0 Sim 1 Ótimos Doutora
8
Nesta tabela, Filhos representa o número de filhos, disc. representa o
número de disciplinas que ministra no curso, alunos representa a sua opinião
sobre os estudantes do curso (de maneira geral) e esc. representa o grau de
escolaridade. Classifique cada uma das variáveis analisadas como quantita-
tiva (discreta ou contı́nua) ou qualitativa (ordinal ou nominal).
9
Capı́tulo 3
Amostragem
Neste capı́tulo, vamos discutir algumas técnicas de amostragem, as quais

serão úteis em nossas análises estatı́sticas. A amostragem é o primeiro passo
de um estudo estatı́stico e, se mal feita, pode invalidar todo um estudo, por
isso, é importante darmos a devida atenção a este assunto.
3.1 O que é amostragem?

Uma amostra, como já vimos anteriormente, é qualquer subconjunto da
população. Sem perceber, no nosso dia a dia, diversas vezes utilizamos a
amostragem, veja:
Quando vamos cozinhar, a nossa população é o alimento que estamos

preparando e em diversos momentos, retiramos uma pequena porção
(isto é, uma amostra) deste alimento para experimentarmos (verificar
a temperatura, consistência, tempero, etc);
Quando vamos escolher uma música para ouvir, a nossa população é

todo o conjunto de músicas dispo?iveis, e antes de escolhermos, muitas
vezes, ouvimos pequenos trechos de algumas, trechos estes que são
nossa amostra;
10
Quando vamos fazer um exame de sangue, a nossa população é todo o
sangue do nosso corpo, porém, o exame é feito apenas numa pequena
porção de sangue retirada do nosso corpo, isto é, numa amostra.
3.1.1 Por que fazer amostragem?

A amostragem é importante em diversos casos para que consigamos ve-
rificar algumas informações de nosso interesse. Em geral, a amostragem é
importante quando:
Temos uma população muito grande (se quisermos, por exemplo, saber
da presença de fungos nos grãos de café de uma determinada plantação,
é inviável verificar grão por grão);
Temos pouco tempo disponı́vel (numa pesquisa sobre a intenção de

votos a presidente de um paı́s, não é possı́vel consultar todos os eleitores
antes da eleição);
A coleta de informações individualmente é muito cara, trabalhosa ou

demorada (quando se testa os dispositivos de amortecimento de im-
pacto em determinados veı́culos, o custo, o trabalho e o tempo para o
teste de cada veı́culo é alto);
Não é possı́vel consultar toda a população (não podemos, por exemplo,

tirar todo o sangue de nosso corpo para medir o número de hemáceas
e plaquetas).
Por outro lado, a amostragem não é indicada em alguns casos, a saber:
A população é pequena, pois, neste caso, simplesmente consultamos

toda a população (não precisamos fazer amostragem para verificar o
prato favorito dos filhos de uma famı́lia);
11
A(s) varı́ável(is) de interesse é(são) de fácil mensuração, pois, neste
caso, muitas vezes não vale a pena investir num plano de amostragem
(numa assembléia, pode-se simplesmente pedir para que todos que fo-
rem favoráveis a determinada ação que levantem a mão);
Existe a necessidade de alta precisão dos resultados, pois qualquer

método de amostragem acaba gerando uma margem de erro (no censo
demográfico realizado pelo IBGE, uma vez que algumas informações so-
bre a população são de fundamental importância para o planejamento
do paı́s, é necessário alta precisão dos resultados, por isso, neste caso,
se consulta toda a população).
Num estudo estatı́stico, para se determinar se vale ou não a pena fa-

zer uma amostragem na população, devemos levar em consideração estas
questões que foram levantadas, e, caso se opte por fazer a amostragem, o
tamanho da amostra em relação a população também deve ser pensado, le-
vando sempre em consideração que uma amostra maior, por um lado é mais
significativa, mais representativa, mais confiável, mas também demanda mais
tempo, recursos e trabalho para ser avaliada, enquanto por outro lado, uma
amostra menor demanda menos tempo, recursos e trabalho para se consul-
tar, porém, pode ser ”resumida demais“, de forma que seus resultados não
sejam suficientemente confiáveis. Existem métodos para avaliarmos a confia-
bilidade dos resultados obtidos de uma amostra com base no tamanho desta
amostra em relação ao tamanho da população, mas estes métodos envolvem
cálculos avançados de probabilidades e, por este motivo, não os estudare-
mos neste curso. Por hora, basta ter em mente estas questões para levar em
consideração.
12
3.2 Técnicas de amostragem
Uma vez que decidimos por fazer uma amostragem, existem diversas
técnicas para empregarmos. Nos cabe agora decidir por qual delas utilizar.
Dentre estas diversas técnicas, as principais são as quatro que estudaremos
a seguir.
3.2.1 Amostragem aleatória simples (AAS)

Como o nome sugere, este é o método mais simples de amostragem. Para
utilizá-lo, basta sortear entre todos os N elementos da população, os n ele-
mentos que comporão a nossa amostra.
Existem várias maneiras de fazer um sorteio como este, dentre elas, po-
demos listar e numerar todos os N elementos da nossa população e, através
de n números aleatórios (podemos utilizar diversos mecanismos computa-
cionais para obter números aleatórios) entre 1; 2; ...; N , determinar os n
componentes da nossa amostra.
Exemplo 3.1. Para sortear n = 5 funcionários dentre os N = 50 que

trabalham numa empresa para responder um questionário sobre a satisfação
com as condições de trabalho desta empresa, um pesquisador os ordenou de
acordo com a ordem alfabética de seus nomes e, utilizando o LibreOffice Calc,
através da função “=ALEATÓRIOENTRE(1;50)” utilizada cinco vezes, ob-
teve como resultados os números 15, 32, 27, 13 e 22, e, com isso, determinou
quais funcionários responderiam esta pesquisa.
3.2.2 Amostragem sistemática (AS)

Este método é também bastante simples, e, mais que isso, de execução
menos trabalhosa do que a AAS, especialmente para populações e amostras
13
numerosas.
Para utilizá-lo, basta numerar os N componentes da população, determi-

nar o tamanho n da amostra, calcular o resultado da divisão i = N/n, sortear
um número k entre 1 e i, e, por fim, selecionar os elementos correspondentes
aos números k, k + i, k + 2i, ..., k + (n − 1)i.
Exemplo 3.2. Para sortear n = 8 estudantes dentre os N = 60 que estudam
num cursinho para realizarem testes psicológicos visando entender a pressão
que o vestibular impõe aos estudantes, um pesquisador os ordenou de acordo
com a ordem alfabética de seus nomes, calculou o valor i = 60/8 = 7, 5 e, uti-
lizando o LibreOffice Calc, através da função “=ALEATÓRIOENTRE(1;7)”,
obteve como resultado o número k = 4, com isso, selecionou para os testes os
estudantes correspondentes aos números 4; 4 + 7, 5 = 11, 5; 11, 5 + 7, 5 = 19;
19 + 7, 5 = 26, 5; 26, 5 + 7, 5 = 34; 34 + 7, 5 = 41, 5; 41, 5 + 7, 5 = 49 e
49 + 7, 5 = 56, 5. Como não é possı́vel utilizar números não inteiros nesta
situação, ele optou por arredondar de forma que a escolha, ao final, foi dos
estudantes correspondentes aos números 4; 11; 19; 26; 34; 41; 49 e 56.
3.2.3 Amostragem estratificada (AE)

Neste tipo de amostragem, precisamos ter algum conhecimento prévio
sobre a população. O método consiste em dividir a população em subgrupos
(chamados extratos) de forma que cada extrato seja composto por elementos
com alguma caracterı́stica em comum (sexo, renda, idade, etc). Espera-se
que estes extratos sejam internamente mais homogêneos do que a população
como um todo, e externamente, heterogêneos entre si. Isto significa que os
elementos de cada extrato devem ser, de certa forma, parecidos entre si,
porém, distintos dos elementos dos demais extratos.
Uma vez realizada a extratificação da população, realizamos a AAS ou

AS em cada extrato para que todos os extratos tenham uma representati-
14
vidade na amostra final obtida. Não é regra, mas é comum utilizarmos a
AE proporcional, ou seja, se desejamos uma amostra formada por 10% da
população, devemos tomar 10% de cada extrato.
Exemplo 3.3. Para entender os efeitos do regime remoto na qualidade do

ensino, a reitoria do IFSULDEMINAS fez uma pesquisa com toda a sua
comunidade acadêmica. Tal comunidade foi extratificada entre professores
(500), técnicos (400), terceirizados (250) e estudantes (8.000). Foram sele-
cionados, por meio de AS, 50 dos 500 professores, 40 dos 400 técnicos, 25
dos 250 terceirizados e 800 dos 8.000 estudantes para serem entrevistados.
3.2.4 Amostragem por conglomerado (AC)

Este método é, de certa forma, parecido com a AE, e também exige algum
conhecimento prévio sobre a população. Uma população é dividida subgru-
pos (chamados conglomerados, podendo ser quarteirões, famı́lias, residências,
etc), de forma que os conglomerados sejam externamente homogêneos, porém,
internamente, tão heterogêneos quanto a população (ou seja, os conglomera-
dos são parecidos entre sı́, porém, dentro de cada conglomerado existe muitas
diferenças entre seus elementos).
Feita a separação da população em conglomerados, utiliza-se a AAS ou AS

para selecionar um ou alguns conglomerados, e, por fim, todos os elementos
dos conglomerados selecionados são consultados.
Exemplo 3.4. Para fazer uma pesquisa sobre a intenção de voto para pre-
feito em Poços de Caldas, um jornal numerou os quarteirões dos diversos
bairros da cidade, selecionou alguns através da AS e, nos quarteirões seleci-
onados, os jornalistas foram em cada uma das residências para consultar a
intenção de voto de cada um dos moradores.
15
3.3 Exercı́cios
Exercı́cio 4. Um administrador especialista em avaliar através de sistemas
informatizados as ações da BOVESPA, está interessado em fazer uma pes-
quisa nos preços das ações, para indicar aos seus clientes se hoje é um dia
favorável a fazer investimentos. Ele sabe que existe N = 500 ações diferentes
a venda. Como o tempo de estudo de cada ação é de aproximadamente 10
minutos, decidiu-se verificar apenas n = 25 ações. Utilizando as técnicas de
amostragem aleatória simples, quais ações serão selecionadas (use, quando
necessário, um gerador de números aleatórios como o LibreOffice Calc ou
outro qualquer de sua preferência)?
Exercı́cio 5. Um gerente de controle de qualidade estudará fontes de com-

putador que passam numa esteira transportadora dentro da empresa onde
trabalha. Sabendo que por dia passam N = 85 fontes e na amostra deverá
ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica
de amostragem sistemática (use, quando necessário, um gerador de números
aleatórios como o LibreOffice Calc ou outro qualquer de sua preferência)?
Exercı́cio 6. Num depósito em uma determinada empresa produtora de ma-

teriais eletrônicos possui N = 100 computadores que estão separados em duas
qualidades. N1 = 40 computadores Core i5 e N2 = 60 computadores Core
i7. O custo para verificar se cada computador está sob controle é muito alto.
O administrador responsável disse que a empresa tem condições de verificar
apenas n = 12 computadores. Utilizando a técnica de amostragem estra-
tificada proporcional, quais computadores serão selecionados (use, quando
necessário, um gerador de números aleatórios como o LibreOffice Calc ou
outro qualquer de sua preferência)?
16
Capı́tulo 4
Tabulação de Variáveis
Neste capı́tulo, estudaremos métodos para organizarmos os valores obser-

vados de uma variável em tabelas, de forma a resumir os resultados evitando
ao máximo a perca de informações. Tais resumos em formas de tabelas são
importantes pois, sem eles, dependendo da quantidade de informações, não
conseguimos gerenciar e trabalhar com o que temos.
4.1 Variáveis qualitativas unidimensionais

No estudo de uma variável qualitativa, podemos listar todos os possı́veis
resultados e analisar a sua ocorrência. Para isso, utilizaremos um modelo de
tabela como segue:
Nome da variável fi pi
Valor 1 f1 p1
Valor 2 f2 p2
Valor 3 f3 p3
.. .. ..
. . .
Valor n fn pn
P
TOTAL fi 100%
17
Na tabela acima, fi representa a frequência em que o valor em questão
foi observado, ou seja, o número de vezes em que se observou o valor em
questão, enquanto pi representa a proporção ou porcentagem desta frequência
em relação ao total (se for proporção, será um número entre 0 e 1, enquanto
se for porcentagem, entre 0% e 100%. Enquanto fi é obtido a partir de
uma simples contagem, o valor de pi corresponde ao resultado da expressão:
pi = f1 +f2f+...+f
i
n
.
Exemplo 4.1. Entre os 400 moradores de um bairro afastado de Poços de

Caldas, foi consultado a operadora de celular que cada um deles utiliza. Os
resultados obtidos foram colocados na tabela abaixo:
Operadora de celular fi pi
Escuro 60 15%
Morto 40 10%
Tchau 30 7, 5%
MIT 120 30%
Não usa celular 150 37, 5%
TOTAL 400 100%
Veja que é fácil observarmos a tabela acima e entendermos como é a

adesão por cada operadora pelos moradores neste bairro. Caso não tivéssemos
resumido as informações nesta tabela, caso tivéssemos apresentado uma lista
com os 400 resultados individuais, a leitura e compreensão dos dados certa-
mente seria mais difı́cil.
Talvez você esteja se perguntando o porquê da coluna referente a pro-

porção, qual a sua utilidade... Esta coluna é importante para compararmos
os mesmos dados em situações distintas. Se fizéssemos a mesma análise
num bairro maior, com 5.000 moradores, a comparação da coluna referente
a frequência não seria “justa”, uma vez que trataria de valores muito discre-
pantes, porém a proporção é sempre comparável.
18
4.2 Variáveis quantitativas unidimensionais
Para variáveis quantitativas, podemos seguir o mesmo método utilizado
para variáveis qualitativas, mas, além disso, podemos também agrupar os
resultados quando for conveniente, isto é, quando tivermos muitos resultados
distintos. Este agrupamento não faz muito sentido para variáveis qualitati-
vas.
Como assim agrupar resultados? Simplesmente representamos de maneira

agrupada num intervalo os resultados próximos. Isto ficará mais claro no
seguinte
Exemplo 4.2. Numa emrpesa com 2.500 funcionários, foram consultadas as

idades de cada um. Observou-se nos resultados diversos valores entre 20 e
69 anos, de forma que a tabela de frequência teria 50 linhas, caso não fosse
feito o agrupamento. Agrupando os resultados, temos:
Idade fi Fi pi Pi
20| − 30 1.750 1.750 70% 70%
30| − 40 400 2.150 16% 86%
40| − 50 200 2.350 8% 94%
50| − 60 110 2.460 4, 4% 98, 4%
60| − 70 40 2.500 1, 6% 100%
TOTAL 2.500 — 100% —
Na tabela acima, além das colunas de frequência (fi , também chamada

de frequência absoluta) de de proporção (pi , também chamada de proporção
absoluta), temos também as colunas de frequência acumulada (Fi ) e de pro-
porção acumulada (Pi ). Obtemos a frequência acumulada somando-se to-
das as frequências absolutas observadas até então, ou seja, F1 = f1 , F2 =
f1 + f2 = F1 + f2 ; F3 = f1 + f2 + f3 = F2 + f3 ; ...; Fn = f1 + f2 + f3 + ... + fn =
Fn−1 +fn . O mesmo vale para a proporção acumulada em relação a proporção
19
absoluta.
Também observamos nesta tabela, os intervalos 20| − 30, 30| − 40, ...,
que representam todos com idade entre os extremos, INCLUSIVE aquele do
lado onde observamos uma barra vertical e EXCLUSIVE aquele do lado em
que não observamos. Isto significa que alguém com idade de 50 anos, estaria
incluı́do no intervalo 50| − 60 e não no intervalo 40| − 50. Na linguagem de
intervalos reais, comum em matemática, expressariamos o intervalo 60| − 70
na forma [60; 70[.
Por fim, os totais não foram calculados na frequência acumulada e nem na

proporção acumulada, uma vez que estes totais não teriam significado algum.
Sobre os resultados, é fácil observar, a partir desta tabela, que esta em-
presa emprega principalmente pessoas mais jovens. Será que com uma lista
dispondo de 2.500 idades diferentes conseguiriamos chegar tão facilmente
nesta conclusão?
Em geral, toda tabela contém a coluna referente a frequência absoluta

(fi ). As demais nem sempre estão presentes, mas são de fácil obtenção a
partir da frequência absoluta e nos dão uma informação “mais completa”,
uma vez que nos permitem comparações.
Quando agrupamos os dados para a construção de uma tabela, cada inter-

valo é chamado de classe. Veja que quando agrupamos, perdemos precisão,
ou seja, não sabemos exatamente a idade de cada um dos 1.750 funcionários
que compõem a classe 20| − 30, sabemos apenas que elas estão entre 20 e 30,
podendo algumas ser 20, mas nenhuma será 30. Podem todos ter 20, ou todos
ter 21, 25, ou alguns terem 24 e outros 27, ou podem estar igualmente divi-
didos em todas as possı́veis idades... Apesar de perdermos alguma precisão,
ainda assim convém agrupar em classes, uma vez que sem este agrupamento,
20
apesar de mantermos a precisão alta, em muitos casos, não conseguimos resu-
mir suficientemente de forma a podermos compreender a situação. Quando
agrupamos os resultados em classes, temos que ter em mente que quanto
maior o tamanho de cada classe, menor a precisão obtida. Desta forma, fica
a dúvida: qual o tamanho ideal de cada classe quando fizermos um agrupa-
mento?
Não existe uma resposta certa e inflexı́vel para esta pergunta, cada caso
é um caso, cada caso demanda uma precisão diferente, uma necessidade de
resumir diferente. Não é regra, mas é comum utilizarmos de classes de mesma
amplitude (isto é, de mesmo tamanho) e um total entre 4 e 8 classes. Na
dúvida, podemos nos orientar por estes parâmetros.
4.3 Variáveis bidimensionais

As tabelas utilizadas neste caso são conhecidas como tabelas de dupla
entrada,tabela de associação, tabela de contingência ou distribuições conjun-
tas de frequências. Nestas tabelas, colocamos uma primeira linha referente
aos possı́veis resultados de uma variável e uma primeira coluna referente aos
possı́veis resultados de outra variável. No “miolo” da tabela, obtemos os
valores que correspondem a ambos os resultados simultaneamente, isto é, a
frequência absoluta.
Exemplo 4.3. Numa escola, as notas são dadas por conceitos. Foram feitas,
em algumas turmas, tabelas relacionando as notas obtidas em cada disciplina
e a quantidade de horas de estudo semanal dedicado a disciplina. Os resul-
tados referentes a uma turma com 40 estudantes, podem ser observados nas
tabelas abaixo:
21
MATEMÁTICA
A B C D Total (horas)
Até 1h 1 1 2 2 6
Entre 1h e 2h 2 1 2 1 6
Entre 2h e 3h 3 4 4 0 11
3h ou mais 4 8 5 0 17
Total (notas) 10 14 13 3 40
LÍNGUA PORTUGUESA
Até 1h 0 3 4 3 10
Entre 1h e 2h 2 4 2 1 9
Entre 2h e 3h 3 6 2 0 11
3h ou mais 5 4 1 0 10
Total (notas) 10 17 9 4 40
CIÊNCIAS
Até 1h 0 1 3 4 8
Entre 1h e 2h 1 5 7 2 15
Entre 2h e 3h 3 4 2 1 10
3h ou mais 4 2 1 0 7
Total (notas) 8 12 13 7 40
4.4 Exercı́cios
Para os exercı́cios deste capı́tulo, considere a seguinte tabela, que con-
siste na distribuição de notas dos estudantes ingressantes em um curso de
licenciatura em matemática, junto com a sua nota no vestibular, o seu sexo
e o seu número de identificação na turma:
22
Nº Sexo Vest. Álgebra Cálculo Geometria Metodologia Didática
1 M 74 A B B A C
2 M 81 A A A B C
3 F 72 B B C D B
4 F 65 B C B A A
5 F 64 C D D A A
6 M 59 D C C B C
7 F 66 B D C D B
8 M 70 C C C B A
9 F 66 D B B C A
10 M 54 C D B A B
11 M 72 A D B A C
12 M 70 C D D B C
13 M 59 D C C C A
14 M 61 D B C A A
15 F 76 D A D A B
16 M 62 C A A A B
17 M 63 A A C B C
18 F 71 A B A B C
19 M 65 B C B B C
20 F 65 A A C A B
21 F 59 B C B A A
22 M 72 D D C C C
23 M 62 C B D D B
24 M 61 A B B D B
25 F 70 C A C A C
26 M 60 D B C A C
27 F 66 A C A A C
28 M 64 B D B D D
29 F 69 A C B C D
30 F 61 C B C A C
23
Exercı́cio 7. Construa uma tabela de frequência com a frequência absoluta,
a frequencia acumulada, a proporção absoluta e a proporção acumulada re-
ferente a cada uma das variáveis presentes nesta tabela. Para a nota no
vestibular, agrupe em classes de amplitude 5.
Exercı́cio 8. Construa uma tabela de associação com as notas em cálculo e

as notas em álgebra.
Exercı́cio 9. Construa uma tabela de associação com as notas em geometria

e as notas do vestibular.
Exercı́cio 10. Construa uma tabela de associação com o sexo e a nota em

didática.
24
Capı́tulo 5
Medidas de Posição
Existem algumas medidas que podemos utilizar para melhor entender o

comportament de variáveis quantitativas, as medidas de posição e as medidas
de disperssão. Neste capı́tulo, estudaremos as medidas de posição, que nos
dão informações sobre “onde” estão os resultados da nossa variável.
5.1 Máximo e mı́nimo

Chamamos de máximo o maior valor observado, enquanto o mı́nimo é o
menor valor observado.
Exemplo 5.1. Num time de basquete, a altura dos jogadores titulares é

1, 94m, 1, 91m, 2, 03m, 1, 89m e 2, 01m. Neste time, referente a variável
quantitativa altura, temos o máximo igual a 2, 03m e o mı́nimo igual a 1, 89m.
Se os valores de nossa variável de interesse estiverem dados numa tabela

ao invés de listados um a um, a dificuldade para determinarmos o máximo e
o mı́nimo será a mesma.
25
5.2 Moda
A moda de uma variável quantitativa é o valor observado com maior
frequência, ou seja, o resultado mais recorrente desta variável.
Observação 5.2. Caso haja “empate” entre dois ou mais valores, todos são
considerados como a moda, e, neste caso, a variável é chamada de bimodal,
trimodal, etc., de acordo com a quantidade de modas observadas. Caso todos
os valores forem observados com a mesma frequência (todos “empatem”),
então a variável não terá moda e será chamada de amodal.
Exemplo 5.3. Num time de basquete, o número de filhos dos jogadores ti-
tulares é 0, 0, 3, 0 e 1. Neste time, referente a variável quantitativa número
de filhos, temos a moda 0.

1, 94m, 1, 91m, 2, 03m, 1, 89m e 2, 01m. Neste time a variável quantitativa
altura é amodal.
Exemplo 5.5. Numa turma de formandos, a idade de cada um dos estudan-

tes é 22; 23; 22; 22; 29; 23; 30; 25; 39; 25; 58; 36; 41; 25 e 27. Nesta turma,
referente a variável quantitativa idade, a moda é 22 e 25, e esta variável é
bimodal.
Quando temos muitos dados para analisar, é difı́cil observar a moda

através dos dados listados, mas, com a ajuda de uma tabela de frequência,
fica fácil verificarmos a moda, basta observarmos qual valor apresenta maior
frequência absoluta.
Exemplo 5.6. Numa escola aberta em 2015, um de seus gestores decidiu

consultar o ano de ingresso de cada um de seus 80 professores. Os resultados
foram tabulados abaixo:
26
Ano de ingresso fi
2015 22
2016 7
2017 6
2018 29
2019 9
2020 7
Total 80
Temos então, de acordo com a tabela, que a moda da variável quantitativa

ano de ingresso é 2018.
Observação 5.7. A moda pode também ser calculada para variáveis quali-
tativas. Pense...
5.3 Média
Dada uma variável quantitativa x e x1 , x2 , ..., xn seus n valores observados
em uma amostra, chamamos de média desta variável x, o valor x̄, dado por:
Pn
x1 + x2 + ... + xn i=1 xi
x̄ = = .
n n
‘A média de uma variável quantitativa representa o centro do conjunto

de dados correspondente as resultados observados desta variável.

1, 94m, 1, 91m, 2, 03m, 1, 89m e 2, 01m. Neste time a média das alturas
de seus jogadores é:
1, 94m + 1, 91m + 2, 03m + 1, 89m + 2, 01m

x̄ = = 1, 956m.
5
Caso os valores da nossa variável de estudo estiverem dados numa tabela,
27
podemos utilizar o conceito de média ponderada, onde utilizamos como peso
de cada valor, a sua frequência, isto é, caso tenhamos:
x fi
x1 f1
x2 f2
.. ..
. .
xk fk
Total n
podemos calcular:
Pk
x1 × f1 + x2 × f2 + ... + xk × fk i=1 xi × f i
x̄ = = ,
f1 + f2 + ... + fk n
pois, neste caso, o valor xi estaria aparecendo fi vezes em nossos resulta-

dos.
Exemplo 5.9. Numa escola estadual, a idade de seus estudantes foi anali-
sada pela direção. Os resultados obtidos estão de acordo com a tabela abaixo:
IDADE fi
14 9
15 16
16 28
17 27
18 12
19 6
20 2
Total 100
Nesta escola, a média das idades de seus estudantes é:
28
14 × 9 + 15 × 16 + 16 × 28 + 17 × 27 + 18 × 12 + 19 × 6 + 20 × 2
x̄ =
9 + 16 + 28 + 27 + 12 + 6 + 2
1643
=
100
= 16, 43.
A média é uma medida muito útil, ela nos mostra o centro do nosso
conjunto de dados, porém, ela é muito sensı́vel a valores discrepantes.
Exemplo 5.10. Numa escola estadual, a idade de seus estudantes foi ana-
lisada pela direção. Depois da escola abrir uma pequena turma de EJA para
um determinado grupo de idosos, os resultados obtidos ficaram de acordo com
a tabela abaixo:
IDADE fi
14 9
15 16
16 28
17 27
18 12
19 6
20 2
65 9
66 6
Total 115
Nesta escola, a média das idades de seus estudantes passou a ser:
14 × 9 + 15 × 16 + 16 × 28 + 17 × 27 + 18 × 12 + 19 × 6 + 20 × 2 + 65 × 9 + 66 × 6
x̄ =
9 + 16 + 28 + 27 + 12 + 6 + 2 + 9 + 6
2624
=
115
≈ 22, 817.
29
Para contornar esta sensibilidade aos valores discrepantes, temos a
5.4 Mediana
Dada uma variável quantitativa x e x1 , x2 , ..., xn seus n valores observados
em uma amostra colocados ordenadamente, a mediana é o valor central, isto
é, o valor que ocupa a posição n+1
2
, caso n seja impar (ou seja, neste caso,
será o valor x n+1 ) ou a média dos valores que ocupam as posições n2 e n+2 2
,
2
x n +x n+2
2
caso n seja par (ou seja, neste caso, será o valor 2
2
.

1, 94m, 1, 91m, 2, 03m, 1, 89m e 2, 01m. Neste time a mediana das alturas
de seus jogadores é 1, 94m, uma vez que temos 5 jogadores, logo, a mediana
será a altura que ocupa a posição 5+1
2
= 3 quando ordenamos estas alturas
(seja de forma crescente ou decrescente).
Para calcularmos a mediana quando os dados estão tabulados, podemos

utilizar a frequência acumulada.
IDADE fi Fi
14 9 9
15 16 25
16 28 53
17 27 80
18 12 92
19 6 98
20 2 100
Total 100 —
30
Nesta escola, a mediana das idades de seus estudantes será a média do 50
e do 51 termo, quando colocamos estas idades em ordenadamente (uma vez
que, neste caso, n = 100 é par). Observando a tabela, vemos quem ambos
os termos de interesse são iguais a 16, logo, a mediana das idades destes
estudantes será 16.
Exemplo 5.13. Numa escola estadual, a idade de seus estudantes foi ana-
lisada pela direção. Depois da escola abrir uma pequena turma de EJA para
um determinado grupo de idosos, os resultados obtidos ficaram de acordo com
a tabela abaixo:
IDADE fi Fi
14 9 9
15 16 25
16 28 53
17 27 80
18 12 92
19 6 98
20 2 100
65 9 109
66 6 115
Total 115 —
Nesta escola, a mediana das idades de seus estudantes será o termo na

posição 115+1
2
= 58. Observando a tabela, vemos queo termo em questão
é igual a 17, logo, a mediana das idades destes estudantes será 17.
A média e a mediana terão resultados próximos quando não existir valores

muito discrepantes dos demais. Caso tais valores existam, eles afetarão tanto
a média quanto a mediana, porém, a média será mais afetada.
31
5.5 Medidas separatrizes
Perceba que a mediana divide os nossos dados exatamente no meio, ou
seja, metade dos valores observados para nossa variável são menores (ou
iguais) do que a mediana, enquanto a outra metade é maior (ou igual). Desta
forma, dizemos que a mediana é uma medida separatriz, pois separa os dados
em pedaços de mesmo tamanho (com a mesma quantidade de elementos).
Existem outras medidas separatrizes que dividem os dados em mais pedaços,
algumas dessas medidas são:
5.5.1 Quartis
Chamamos de quartis os valores que dividem o nosso conjunto de dados
em quatro partes iguais. Todo conjunto de dados possui três quartis (Q1 ,
Q2 e Q3 ). Colocando os dados de forma crescente, um quarto deles (ou seja,
25%) será menor (ou igual) ao primeiro quartil Q1 , enquanto outro quarto
destes dados estará entre o primeiro e o segundo quartil (entre Q1 e Q2 ),
outro quarto destes dados estará entre o segundo e o terceiro quartil (entre
Q2 e Q3 ) e finalmente, os 25% restantes serão maiores (ou iguais) ao terceiro
quartil Q3 .
Para calcular os quartis referentes a uma variável quantitativa x, com

seus n valores x1 , x2 , ..., xn já ordenados, utilizaremos as fórmulas seguintes
para determinar suas posições:
Q1 : n+1
4
;
Q2 : 2 n+1
4
;
Q3 : 3 n+1
4
.
n+1
Em geral, temos Qi : i × 4
.
32
Exemplo 5.14. Se temos n = 10, então o primeio quartil será o termo na
posição 10+1
4
= 2, 75, ou seja, estará entre o segundo e o terceiro termo, mais
próximo do terceiro termo. Teremos então Q1 = x2 +3x 4
3
. Neste caso, quais
serão os demais quartis? E a mediana?
Pense: A mediana sempre coincidirá com o segundo quartil?
IDADE fi Fi
14 9 9
15 16 25
16 28 53
17 27 80
18 12 92
19 6 98
20 2 100
Total 100 —
Nesta escola, temos:
Q1 : posição 100+1
4
= 25, 25;
Q2 : posição 2 100+1
4
= 50, 5;
Q3 : posição 3 100+1
4
= 75, 75.
Assim, Q1 = 3x254+x26 = 3×15+164

= 15, 25, Q2 = x50 +x51
2
= 16+16
2
= 16 e
Q3 = x75 +3x
4
76
= 17+3×17
4
= 17.
5.5.2 Outras medidas separatrizes

Não nos aprofundaremos muito, mas temos também os decis (D1 , D2 , ...,
D9 ), que dividem os nossos valores em 10 pedaços, cada um com 10% do total
33
de dados, e os percentis (P1 , P2 , ..., P99 ), que dividem os nossos dados em
100 pedaços, cada um com 1% dos dados. Em geral, para calcular os decis e
percentis referentes a uma variável quantitativa x, com seus n valores x1 , x2 ,
..., xn já ordenados, utilizaremos as seguntes fórmulas para determinar suas
posições:
Posição de Di : i × n+1
10
;
Posição de Pi : i × n+1
100
.
Temos, para ilustrar, que D3 , por exemplo, é maior (ou igual) do que
30% dos valores observados e menor (ou igual) aos demais 70%, que P88 , por
exemplo, é maior (ou igual) do que 88% dos valores observados e menor (ou
igual) aos demais 12%.
Calcular decis e, principalmente, percentis, pode parecer trabalhoso e

desnecessário. De fato, fazê-lo manualmente é sim bastante trabalhoso, mais
ainda se nosso conjunto de dados em análise for grande (caso o conjunto
de dados for pequeno, não faz sentido dividı́-lo em tantos pedaços), mas,
em geral, quando tais valores são calculados, o cálculo é feito computaci-
onamente, cabendo ao pesquisador apenas “alimentar” o computador com
as informações necessárias (os dados e, eventualmente, um código de pro-
gramação,caso não esteja utilizando um programa já existente). Separar os
dados em 100 pedaços iguais, por mais que possa parecer muito e desne-
cessário, pode ser um grande avanço no sentido de resumir e entender me-
lhor o nosso conjunto de dados quando estamos trabalhando com um número
muito grande de informações (como, por exemplo, toda uma população de
um determinado paı́s).
34
5.6 Exercı́cios
Exercı́cio 11. Um determinado defeito de série foi observado em alguns
veı́culos de determinado modelo. Tal defeito se manifesta após certo uso
do veı́culo. Para entender melhor sobre tal defeito, a montadora recolheu a
informação sobre a quilometragem em que o defeito foi observado em algu-
mas unidades. Os resultados foram: 54.000; 32.000; 33.000; 46.000; 41.000;
39.000; 58.000; 41.000; 44.000; 49.000; 46.000 e 39.000.
Com base nestas informações, calcule o máximo, o mı́nimo, a moda, a média
e a mediana.
Exercı́cio 12. Numa determinada população de uma nova espécie recém
descoberta, foram observados os pesos de alguns indivı́duos, os resultados
obtidos seguem na tabela abaixo:
PESO (kg) fi Fi pi Pi
10| − 11 35
11| − 12 153
12| − 13 102
13| − 14 19, 4%
14| − 15 94%
15| − 16
Total 500 — —
Como se pode observar, existem algumas lacunas nesta tabela, as quais se
devem ao fato do registro não ter sido devidamente armazenado.
Complete as lacunas nesta tabela e, com base nas informações dadas e

obtidas, calcule o máximo, o mı́nimo, a moda, a média, a mediana e os três
quartis referentes ao peso dos indivı́duos desta espécie.
Observação 5.16. Quando vamos calcular medidas de posição com base
em dados tabelados com os valores agrupados em intervados, consideramos o
ponto médio de cada intervalo.
35
Capı́tulo 6
Medidas de Dispersão
As medidas de dispersão para variáveis quantitativas, nos mostram o

quanto os dados obtidos como resultado desta variável estão distribuı́dos
entre si, nos mostram “a distância entre estes resultados”. Como o nome
sugere, tais medidas nos informam sobre o quão dispersos tais dados estão.
Dois conjuntos de dados com mesma média, mesma mediana e mesma moda,
podem ter dispersões bem diferentes.
6.1 Motivação
Exemplo 6.1. Numa prova de habilidades para uma vaga de emprego em
determinada empresa, os cinco candidatos obtiveram notas de acordo com a
tabela indicada abaixo:
Candidato Lógica Inglês Informática Teamwork Criatividade

Arnaldo 8, 0 9, 0 8, 5 8, 0 6, 5
Bernaldo 9, 0 5, 5 8, 0 8, 0 9, 5
Cernaldo 7, 5 8, 0 8, 0 8, 5 8, 0
Dernaldo 9, 0 8, 0 8, 0 6, 5 8, 5
Eduardo 10, 0 8, 0 8, 0 6, 0 8, 0
36
De acordo com os dados desta tabela, complete a tabela a seguir com as
respectivas medidas de posição referente às notas de cada candidato:
Candidato Média Mediana Moda

Arnaldo
Bernaldo
Cernaldo
Dernaldo
Eduardo
Como definir qual candidato contratar nesta situação? Uma alternativa é

elencar uma das habilidades medida nas provas como mais importante e ob-
servar quem obteve melhor desempenho na prova correspondente. Mas e se
todas as habilidades forem entendidas como igualmente importantes? Uma
outra alternativa para este caso, é escolher o candidato mais estável, aquele
que que demonstrou menor dispersão entre suas notas.
São cinco as medidas de dispersão que estudaremos:
6.2 Amplitude
A amplitude nada mais é do que a diferença entre o máximo e o mı́nimo,
ou seja:
AM P LIT U DE = M AXIM O − M IN IM O
Exemplo 6.2. No caso do Arnaldo, sua maior nota foi 9, 0, enquanto sua
menor nota foi 6, 5, desta forma, a amplitude de suas notas será:
9, 0 − 6, 5 = 1, 5.
37
6.3 Desvio médio
O desvio médio é a média da diferença de cada um dos dados para a
média, ou seja, dado o conjunto de dados x1 , x2 , ..., xn , temos o desvio
médio dado por:
P
|x1 − x̄| + |x2 − x̄| + ... + |xn − x̄| |xi − x̄|
DM = = ,
n n
onde x̄ representa a média deste conjunto de dados:

P
x1 + x2 + ... + xn xi
x̄ = = .
n n
Exemplo 6.3. No caso de Bernaldo, temos a média das notas:
9, 0 + 5, 5 + 8, 0 + 8, 0 + 9, 5 40, 0
x̄ = = = 8, 0,
5 5
assim, o desvio médio de suas notas será:
|9, 0 − 8, 0| + |5, 5 − 8, 0| + |8, 0 − 8, 0| + |8, 0 − 8, 0| + |9, 5 − 8, 0|

DM =
5
1, 0 + 1, 5 + 0, 0 + 0, 0 + 1, 5
=
5
3, 5
=
5
= 0, 7.
6.4 Variância
A amplitude tem uma expressão muito parecida com a do desvio médio,
basta trocar o módulo das diferenças entre cada dado e a média dos dados
pelo seu quadrado, isto é, a amplitude do conjunto de dados x1 , x2 , ..., xn é
dada por:
38
(x1 − x̄)2 + (x2 − x̄)2 + ... + (xn − x̄)2 (xi − x̄)2
P
2
σ = = .
n n
Exemplo 6.4. No caso de Cernaldo, temos a média das notas:
7, 5 + 8, 0 + 8, 0 + 8, 5 + 8, 0 40
x̄ = = = 8, 0,
5 5
logo, a variância das notas será:
(7, 5 − 8, 0)2 + (8, 0 − 8, 0)2 + (8, 0 − 8, 0)2 + (8, 5 − 8, 0)2 + (8, 0 − 8, 0)2
σ2 =
5
0, 52 + 0, 02 + 0, 02 + 0, 52 + 0, 02
=
5
0, 25 + 0, 0 + 0, 0 + 0, 25 + 0, 0
=
5
0, 5
=
5
= 0, 1.
6.5 Desvio padrão

O desvio padrão é simplesmente a raiz quadrada da variância, ou seja, o
conjunto de dados x1 , x2 , ..., xn tem desvio padrão dado por:
√
σ = rσ 2
(x1 − x̄)2 + (x2 − x̄)2 + ... + (xn − x̄)2
=
rP n
(xi − x̄)2
= .
n
Exemplo 6.5. No caso de Dernaldo, temos como média das notas:
9, 0 + 8, 0 + 8, 0 + 6, 5 + 8, 5 40
x̄ = = = 8, 0,
5 5
39
logo, o desvio padrão das notas será:
r
(9, 0 − 8, 0)2 + (8, 0 − 8, 0)2 + (8, 0 − 8, 0)2 + (6, 5 − 8, 0)2 + (8, 5 − 8, 0)2
σ =
r 5
2 2 2 2
1, 0 + 0, 0 + 0, 0 + 1, 5 + 0, 5 2
=
r 5
1, 0 + 0, 0 + 0, 0 + 2, 25 + 0, 25
=
5
r
3, 5
=
5
p
= 0, 7
∼
= 0, 83666.
6.6 Intervalo interquartil

O intervalo interquartil é simplesmente a diferença entre o terceiro e o
primeiro quartil, e nos dá a amplitude dos 50% dados centrais no nosso
conjunto de dados. Noutras palavras, temos o intervalo interquartil dado
por:
IQ = Q3 − Q1 .
Exemplo 6.6. No caso de Eduardo, temos a seguinte posição para os quartis

de suas notas:
Posição de Q1 : 5+1
4
= 1, 5;
Posição de Q2 : 2 5+1
4
= 3, 0;
Posição de Q3 : 3 5+1
4
= 4, 5.
As notas de Eduardo, ordenadamente, são: 6, 0, 8, 0, 8, 0, 8, 0 e 10, 0. Desta

forma, os quartis serão:
40
Q1 = 6,0+8,0
2
= 7, 0;
Q2 = 8, 0;
Q3 = 8,0+10,0
2
= 9, 0.
Finalmente, o intervalo interquartil das notas de Eduardo será:
IQ = 9, 0 − 7, 0 = 2, 0.
6.7 Exercı́cios
Exercı́cio 13. Complete a tabela abaixo, com base nas notas obtidas por
cada um dos candidatos a vaga de emprego citados ao longo do capı́tulo e
determine qual candidato será o selecionado para a vaga.
Amplitude Desvio médio Variância Desvio padrão IQ

Arnaldo
Bernaldo
Cernaldo
Dernaldo
Eduardo
Exercı́cio 14. Um laboratório de pesquisa irá adquirir um aparelho para

medir o pH de determinadas soluções. Para decidir entre as três opções dis-
ponı́veis, o responsável pelas análises testou várias vezes em cada um destes
aparelhos, uma solução com pH neutro (igual a 7, 0). Os resultados apresen-
tados pelos aparelhos seguem de acordo com a tabela abaixo:
A 7, 2 7, 6 6, 9 6, 1 7, 0 7, 7 7, 0 7, 0 74 7, 1
B 6, 0 6, 6 7, 3 7, 9 6, 2 6, 5 5, 9 7, 0 8, 1 8, 5
C 6, 2 7, 5 6, 8 7, 1 7, 2 7, 2 7, 9 6, 4 7, 1 6, 4
41
Para cada um destes aparelhos calcule a amplitude, o desvio médio, o desvio
padrão e o intervalo interquartil dos resultados obtidos. Calcule também a
média, a moda, a mediana, os quartis, o máximo e o mı́nimo destes resulta-
dos.
Exercı́cio 15. Para o exercı́cio anterior, determine qual dos aparelhos é mais
preciso (apresenta menor dispersão dos resultados), qual é menos viciado
(apresenta resultados mais próximos do verdadeiro) e qual é mais exato (o
mais preciso e menos viciado), e, com isso, decida qual aparelho deve ser
adquirido.
42
Capı́tulo 7
Estatı́stica Gráfica
Muitas informações podem ser apresentadas e assimiladas de maneira

muito simples e rápidas com o auxı́lio de elementos gráficos. Neste capı́tulo,
vamos aprender sobre algumas das várias maneiras de representarmos e in-
terpretarmos gráficos estatı́sticos, isto é, sobre alguns dos vários tipos de
gráficos existentes.
7.1 Gráfico de barras

O gráfico de barras é talvez o mais simples e comum tipo de gráfico que
estudaremos. Certamente você já viu um em algum lugar. Para representar-
mos graficamente todos os possı́veis resultados de uma variável utilizando um
gráfico de barras, basta construir uma barra (retângulo) para cada possı́vel
resultado da variável em questão. As barras podem ser horizontais ou ver-
ticais. Caso sejam barras verticais, todas as bases dos retângulos devem
ter mesmo comprimento e a altura de cada retângulo deve ser proporcional
a frequência em que o resultado correspondente foi observado, caso sejam
barras horizontais, mantemos a altura e variamos o comprimento das barras.
Exemplo 7.1. Um investidor que decidiu diversificar seus investimentos em

ações, distribuiu seus investimentos como segue a tabela abaixo:
43
Papel Valor investido
ITSA4 R$15.000, 00
MGLU3 R$10.000, 00
BIDI11 R$20.000, 00
FLRY3 R$8.000, 00
GOAU4 R$5.000, 00
PETR4 R$12.000, 00
B3SA3 R$5.000, 00
ABEV3 R$5.000, 00
TOTAL R$80.000, 00
Colocando estas informações num gráfico de barras verticais, obtemos o gráfico

que segue.
Observação 7.2. Um gráfico de barras pode ter barras de diversas cores,

efeitos 3D, a frequência indicada sobre cada barra, linhas de referência para
o valor correspondente a cada barra, barras em formatos não retangulares,
etc. São muitas as possı́veis variações, mas o mais importante é as barras
terem tamanho proporcional à frequência que representam.
44
7.2 Gráfico de setores (pizza)
O gráfico de setores, também conhecido como gráfico de pizza, consiste
numa circunferência que representa toda a nossa população dividida em se-
tores circulares (fatias de pizza) de tamanho proporcional ao valor que re-
presentam.
Exemplo 7.3. Segundo projeções feitas pelo IBGE, o Brasil possui hoje,
mais de 212.000.000 de habitantes. Estes brasileiros estão distribuı́dos nas
cinco regiões do paı́s de acordo com a tabela abaixo:
Região Habitantes
Centro-Oeste 16.496.340
Nordeste 58.174.912
Norte 18.583.035
Sudeste 88.601.482
Sul 30.221.606
TOTAL 212.077.375
Colocando estas informações num gráfico de setores e destacando a região

Sudeste, obtemos o gráfico que segue.
45
Observação 7.4. Um gráfico de setores pode ter efeitos 3D, setores todos
destacados, ou todos unidos, ou apenas alguns destacados, rótulo com a por-
centagem, ou com o valor absoluto correspondente ao valor que representa
cada setor, etc.
Os gráficos que estudamos até o presente momento são próprios para

variáveis qualitativas e também para variáveis quantitativas. Os que estu-
daremos a seguir, são apenas para variáveis quantitativas. Fique atento e
tente perceber pela maneira de construı́-los, o porquê de não ser possı́vel tal
construção caso estivéssemos utilizando variáveis qualitativas.
7.3 Gráfico de linhas (temporal)

Um gráfico de linhas, também chamado de gráfico temporal, é um gráfico
onde pode-se observar a evolução do valor de uma ou mais variáveis ao longo
do tempo. Para construı́-lo, devemos fazer um eixo horizontal com os tempos
de medição dos valores da variável e um eixo vertical com os respectivos
valores. Marcamos os pontos correspondentes a medida de cada variável no
tempo em questão e, por fim, ligamos os pontos correspondentes a mesma
variável.
Exemplo 7.5. Na corrida presidencial de 2018, de acordo com pesquisas

especializadas realizadas desde o final do mês de agosto até o inı́cio do mês
de outubro, a intenção de votos (em porcentagem de eleitors) de cada um dos
cinco principais candidatos evoluiu de acordo com o gráfico abaixo:
46
É fácil perceber neste gráfico que o candidato Bolsonaro teve, no dia 20
de agosto, 20% das intenções de voto, porcentagem esta que só aumentou,
chegando a pouco mais de 35% na última pesquisa, realizada no começo de
outubro. Da mesma forma, o candidato Haddad teve também um grande
aumento no seu número de eleitores, aumento este muito grande entre os
dias 10 e 24 de setembro. Por outro lado, o candidato Ciro se manteve
quase sem alterações na porcentagem de eleitores que pretendiam elegê-lo,
sempre próximo a 10%. O candidato Alckmin também não teve muita va-
riação na sua intenção de voto inicial e final, apenas pequenos aumentos e
pequenas quedas em perı́odos especı́ficos. Por fim, a candidata Marina teve
um declı́nio, indo de cerca de 12% inicialmente a aproximadamente 3% na
última pesquisa.
7.4 Histograma
Um histograma é um gráfico parecido com o gráfico de barras, porém,
com significado um pouco diferente. Ele é utilizado para dados agrupados
em intervalos, e consiste em barras sem nenhum espaçamento entre elas,
cada uma com base de comprimento proporcional ao tamanho do intervalo
47
que representa e área proporcional a frequência correspondente ao intervalo.
Observação 7.6. Observe que a área deve ser proporcional a frequência,

não a altura. Se todos os intervalos forem do mesmo tamanho, todas as
bases serão também do mesmo tamanho, assim, fazer a área proporcional a
frequência será a mesma coisa de fazer a altura proporcional a esta frequência,
porém, se tivermos intervalos de tamanhos diferentes, poderemos ter inter-
valos grandes com grande incidência (frequência) sendo representados por
retângulos de menor altura do que intervalos pequenos com pequena incidência.
Exemplo 7.7. Uma grande multinacional, tentando entender os possı́veis

benefı́cios de aderir ao modelo de “home office” fez um levantamento sobre
o tempo de traslado no trajeto de casa até o trabalho de todos os seus fun-
cionários. Após consultar cada um deles e tabular os resutados, obteve-se a
seguinte:
Tempo (min) Funcionários (un)

0| − 10 232
10| − 20 547
20| − 30 801
30| − 45 940
45| − 60 684
60| − 90 235
90| − 120 134
120| − 240 27
TOTAL 3.600
Construindo um histograma com estas informações, observando que a

amplitude dos intervalos varia, obtemos o seguinte:
48
Se a base corresponde a quantidade de minutos no intervalo e a área
corresponde a quantidade de pessoas no intervalo, então, como a área é o
produto da base pela altura, temos que a altura será o quociente entre a área
e a base, ou seja, neste caso, será a quantidade de pessoas por minuto em cada
intervalo. Observe que temos mais pessoas que levam entre 30 e 45 minutos
no traslado do que as que levam entre 20 e 30 minutos, porém, a coluna
referente ao intervalo de 30 a 45 minutos é mais baixa do que a referente
ao intervalo de 20 a 30 minutos. Isso se deve ao fato da base do intervalo
de 20 a 30 minutos ter tamanho 30 − 20 = 10, a sua área ter tamanho 801,
o que faz de sua altura 801/10 = 80, 1, enquanto o intervalo de 30 a 45
minutos tem base de tamanho 45 − 30 = 15, área 940, consequentemente,
altura 940/15 = 62, 666....
7.5 Gráfico de caixas (box-plot)

Este gráfico utiliza o máximo, o mı́nimo e os três quartis dos dados que
estão sendo representados. Inicialmente, temos uma linha vertical, indo do
valor mı́nimo observado até o primeiro quartil Q1 , depois, um retângulo indo
do primeiro ao terceiro quartil (de Q1 a Q3 ), com um traço horizontal na altra
49
da mediana/segundo quartil Q2 e, por fim, um traço vertical indo do valor do
terceiro quartil Q3 até o valor máximo observado no nosso conjunto de dados.
Na descrição, pode parecer complicado, mas você verá que é bastante

simples este tipo de gráfico.
Exemplo 7.8. Um prefeito, a fim de entender o contexto familiar de cada

famı́lia de sua cidade, fez uma pesquisa com algumas famı́lias em cada um
de três bairros de sua cidade, consultando sobre o número de crianças em
cada uma dessas famı́lias. Os resultados obtidos foram os seguintes:
Córgo Dânta 0 4 2 4 5 1 3 6 1 4 4 3
Parques Perânça 0 1 2 1 3 1 0 0 1 0 2 3
Vila Pobre 2 1 1 2 0 1 3 0 2 3 0 4
Com base nestes dados, ele pode obter as medidas de posição que seguem:
Bairro Mı́nimo Q1 Q2 Q3 Máximo

Córgo Dânta 0 1, 5 4 4 6
Parques Perânça 0 0 1 1, 5 3
Vila Pobre 0 0, 5 1 2 3
Por fim, com base nestes dados e medidas, ele pode construir os seguintes
gráficos de caixas, um para cada bairro analisado.
50
7.6 Gráfico de velas (candlestick)
Este é um tipo de gráfico muito parecido com o gráfico de barras, porém,
com significado bastante diferente. Assim como o gráfico de linhas, este
gráfico é comumente utilizado para nos dar informação sobre valores que
variam ao longo do tempo, em particular, para análises financeiras sobre o
preço de ações. Ele consiste em retângulos verdes ou vermelhos com linhas
verticais acopladas a ele.
Observação 7.9. Existem pessoas que vivem apenas de operações na bolsa

de valores. Estas pessoas baseiam suas decisões em diversos fatores, dentre
eles, análises gráficas deste tipo de gráfico. Para qualquer um que algum dia
quiser operar na bolsa de valores, é indispensável um mı́nimo conhecimento
sobre este assunto para avaliar devidamente os riscos envolvidos nas suas
operações.
Neste tipo de gráfico, primeiro, determinamos um perı́odo de tempo

(anual, mensal, diário, a cada minuto, etc.) e, para cada perı́odo definido,
construı́mos uma “vela”, que nada mais é do que um retângulo verde ou ver-
melho, chamado “corpo”, com uma linha vertical sobre ele e outra inferior
a ele, linhas estas chamadas pavis. Para a variável analisada, se o seu valor
aumentou ao longo do perı́odo em questão, o corpo da vela será verde, com
o valor desta variável na abertura do perı́odo embaixo do corpo e o valor
de fechamento acima, caso seu valor tenha diminuı́do ao longo do perı́odo
analisado, o corpo da vela será vermelho, com o valor de abertura no topo e o
valor de fechamento no final. O pavil superior irá até o maior valor atingido
pela variável no perı́odo analisado, enquanto o pavil inferior irá até o menor
valor atingido pela variável no mesmo perı́odo.
Exemplo 7.10. O gráfico abaixo mostra a evolução mensal da pontuação do

iBovespa desde o inı́cio de 2015 até o mês de setembro de 2020.
51
Pode-se observar neste gráfico, que no mês de janeiro de 2020, a pon-
tuação caiu, porém, em determinado momento do mês, chegou a 120.000
pontos. Ainda no mês de março de 2020, houve uma grande queda, indo
esta pontuação de mais de 100.000 pontos a menos de 80.000, tendo chegado
perto de 60.000 pontos antes do fechamento. Até o momento, vimos nos me-
ses seguintes uma recuperação da bolsa, apesar da pequena queda em agosto,
o que, até o momento, parece ter sido revertida em setembro.
7.7 Gráfico de redes

Este tipo de gráfico nos permite observar várias variáveis para cada mem-
bro da população simultaneamente, permitindo assim uma fácil comparação.
Ele consiste em várias linhas saindo de um mesmo ponto central, cada linha
indicando um valor para esta variável. Para cada membro da população,
marcamos em cada uma das linhas, o valor correspondente a variável anali-
sada e, por fim, formamos um polı́gono unindo estes pontos.
Exemplo 7.11. Em um jogo de futebol, para cada jogador, foram atribuı́dos

pontos referentes a cada um dos atributos relevantes no jogo, a saber: ve-
52
locidade (VEL), força (FOR), resistência (RES), marcação (MAR), passe
(PAS) e finalização (FIN). Comparando os craques dos três melhores times,
temos o gráfico abaixo.
É fácil observar por este gráfico que Allejo é o que tem melhor finalização,
seguido por Carboni e por fim Sieke, que Sieke e Allejo empatam com a
melhor velocidade, que Carboni tem melhor resistência, seguido por Sieke,
que nenhum deles é bom marcador...
7.8 Gráfico de dispersão

Este tipo de gráfico é utilizado para variáveis bidimensionais, ou seja,
quando estamos medindo e comparando duas variáveis simultaneamente.
Nele, cada elemento da nossa amostra corresponde a um ponto num plano
cartesiano, onde, cada eixo, corresponde a uma variável.
Exemplo 7.12. Num asilo feminino, foi feito um gráfico de dispersão com
a altura e o peso de cada uma das 30 idosas atendidas. Os resultados seguem
53
abaixo.
Podemos observar neste gráfico que uma das idosas tem menos de 1, 45m
e pesa menos de 40kg, enquanto outra possui altura superior a 1, 70m, com
peso levemente superior a 60kg. Duas superam os 90kg, sendo uma delas,
com altura próxima a 1, 65m, outra, um pouco inferior a 1, 60m.
Neste tipo de gráfico, podemos observar individualmente cada ponto, mas

em geral, buscamos relações entre as variáveis, tentando encontrar um padrão
de comportamento dos pontos, ou seja, em geral, não damos um olhar indi-
vidual a cada ponto, mas sim um olhar mais amplo.
7.9 Exercı́cios
Exercı́cio 16. Construa um gráfico de barras, um de setores e um histograma
para os dados apresentados abaixo, correspondentes às notas de matemática
de uma determinada turma:
54
Notas fi
0 − |4 2
4 − |6 5
6 − |7 9
7 − |8 14
8 − |9 6
9 − |10 4
TOTAL 40
Exercı́cio 17. Pesquise na internet sobre a cotação do dolar-U S$ (em reais-

R$) ao longo de todos os meses deste ano e, com base nos resultados, construa
um gráfico de linhas, um boxplot e um candlestick.
Exercı́cio 18. Construa um gráfico de redes com todas as suas notas nas
disciplinas cursadas no último semestre. Consulte um amigo que tenha cur-
sado as mesmas disciplinas e construa um g?afico de redes com as notas deste
seu amigo no mesmo gráfico. Compare os resultados.
Exercı́cio 19. O gráfico abaixo mostra a análise de uma partida do Campe-

onato Brasileiro de League of Legends - 2020.
55
Com base nas informações contidas nesta imagem, responda:
a) Qual foi a maior diferenção de ouro a favor da equipe do Flamengo

(FLA)? Em quantos minutos de jogo tal diferença aconteceu?
b) Em cada time, qual foi o jogador que mais causou dano a campeões?
c) A qual time pertence o jogador que mais causou dano a campeões? E

o que menos causou dano?
d) Qual foi o último momento em que a equipe do Flamengo esteve a frente

na diferença de ouro?
56
Capı́tulo 8
Correlação e Regressão
Vimos, dentre diversos tipos de gráficos estudados no capı́tulo anterior,

o gráfico de dispersão. Este tipo de gráfico é usado para observarmos, si-
multaneamente, duas variáveis. Muitas vezes, existe uma relação entre estas
variáveis, e é isso que estudaremos neste capı́tulo.
8.1 Relação entre variáveis

Algumas variáveis apresentam relação entre si como:
Altura e peso de indivı́duos (pessoas mais altas tendem a ser mais

pesadas);
Altura e idade de crianças (crianças mais velhas tendem a ser mais

altas);
Taxa de desemprego e taxa de criminalidade (regiões com maior de-

semprego tendem a ter maior criminalidade);
Expectativa de vida e escolaridade (povos com maior escolaridade ten-

dem a ter maior expectativa de vida);
57
Tempo de prática esportiva e frequência cardı́aca durante a prática
(pessoas que praticam esportes a mais tempo, tendem a apresentar
menor frequência cardı́aca durante a prática esportiva);
Renda familiar e gasto relativo com alimentação (famı́lias com maior

renda tendem a gastar proporcionalmente menos de sua renda com a
alimentação)...
Nem sempre essa relação é muito clara, mas ela sempre pode ser verifi-
cada com métodos matemáticos.
Quando percebemos esta relação entre duas variáveis (correlação), po-

demos tentar determinar uma função que nos dê uma destas variáveis em
função da outra. Vamos estudar neste capı́tulo apenas a correlação linear,
isto é, vamos apenas analisar a correlação entre duas variáveis do ponto de
vista linear, através de uma reta, ou seja, uma função afim (y = ax + b).
Observação 8.1. Podemos fazer a correlação entre duas variáveis através

de funções quadráticas, exponenciais, logarı́timicas, trigonométricas, etc, uti-
lizando métodos matemáticos especı́ficos, mas não abordaremos tais possibi-
lidades ao longo desta disciplina. Se tiver interesse sobre o assunto, procure
um livro de cálculo numérico e você certamente encontrará um capı́tulo deste
livro tratando do assunto.
8.2 Correlação e regressão linear

Vamos tentar determinar a reta que melhor aproxima os pontos corres-
pondentes ao gráfico de dispersão com os pontos:
58
X Y
x1 y1
x2 y2
.. ..
. .
xn yn
8.2.1 Coeficiente de correlação linear

O coeficiente de correlação linear nos diz o quão bem os dados em questão
podem ser bem aproximados por uma reta. Ele é dado por:
Pn Pn
i=1 (xi− x̄)(yi − ȳ) i=1 xi yi − nx̄ȳ
r= = .
nσx σy nσx σy
Observação 8.2. Lembre que x̄ = x1 +x2 +...+x n

n
é a média dos distintos valores
y1 +y2 +...+yn
da variável X, ȳ = n
é a média dos distintos valores da variável
q Pn
(x −x̄)2
i=1 i
Y , σx = n
é o desvio padrão da variável X e, por fim, σy =
q Pn
2
i=1 (yi −ȳ)
n
é o desvio padrão da variável Y .
O valor do coeficiente de correlação linear r obtido será sempre um valor

entre −1 e 1, ou seja, −1 ≤ r ≤ 1. O sinal de r aponta se a reta será crescente
(caso r > 0, neste caso, quanto maiores forem os valores de X, maiores serão
os valores de Y ) ou decrescente (caso r < 0, neste caso, quanto maiores forem
os valores de X, menores serão os valores de Y ). Além disso, o valor abso-
luto de r nos diz o quão boa será a aproximação destes dados por uma reta
(quanto mais próximo de 1 estiver o valor de |r|, melhor será a aproximação).
Podemos observar graficamente o significado do valor de r na imagem

abaixo, retirada da apostila do professor Marcos.
59
O valor de r nos dá também o coeficiente de determinação, dado por
r2 ×100%, que representa a quantidade de variabilidade nos dados explicados
pelo modelo de regressão.
Exemplo 8.3. Um determinado grupo de amigos decidiu comparar e cor-

relacionar a quantidade de horas de estudo semanal e a sua nota final em
matemática. Os resultados podem ser observados na tabela abaixo:
Horas de estudo Nota final

0 4, 0
1 6, 5
1 7, 5
2 5, 5
2 6, 0
2, 5 9, 5
3 7, 0
4 9, 0
60
Colocando estes dados num gráfico de dispersão, obtemos o seguinte:
Sem fazer nenhum cálculo, apenas observando o gráfico, temos a expecta-

tiva de que o coeficiente de correlação seja positivo, próximo mas não muito
de 1, ou seja de que a reta seja crescente e que aproxime bem aos pontos,
mas não perfeitamente.
Chamando a quantidade de horas de estudo semanal de X e as notas de

= 1, 1842 e σy ∼
Y , temos, x̄ = 1, 9375, ȳ = 6, 875, σx ∼ = 1, 691 (verifique!).
Desta forma, temos:
Pn
i=1 xi yi − nx̄ȳ
r =
nσx σy
∼ 0 · 4, 0 + 1 · 6, 5 + 1 · 7, 5 + 2 · 5, 5 + 2 · 6, 0 + 2, 5 · 9, 5 + 3 · 7, 0 + 4 · 9, 0 − 8 · 1, 9375 · 6, 875
=
8 · 1, 1842 · 1, 691
∼ 117, 75 − 106, 5625
=
16, 0199
∼
= 0, 6984.
61
Temos então o valor r ∼ = 0, 6984 como o coeficiente de correlação linear,
o que nos dá o coeficiente de determinação r2 × 100% ∼
= 48, 77%.
8.2.2 Regressão linear

Agora que sabemos calcular o quão bem uma reta pode aproximar um
conjunto de pontos num gráfico de dispersão, como podemos obter esta reta?
Esta reta, chamada de reta ajustada, terá equação y = ax + b, onde os

valores de a e b se deseja determinar. Para determiná-los, utilizamos um
método do cálculo de funções de multiplas variáveis, chamado de método
dos mı́nimos quadrados, que visa minimizar o erro (a diferença entre o valor
real e o valor obtido pela reta). Os valores que obtemos são:
Pn
i=1 xi yi − nx̄ȳ σy
a= 2
= r × , e b = ȳ − ax̄.
nσx σx
Exemplo 8.4. Um determinado grupo de amigos decidiu comparar e cor-

relacionar a quantidade de horas de estudo semanal e a sua nota final em
matemática. Os resultados podem ser observados na tabela abaixo:
Horas de estudo Nota final

0 4, 0
1 6, 5
1 7, 5
2 5, 5
2 6, 0
2, 5 9, 5
3 7, 0
4 9, 0
Chamando a quantidade de horas de estudo semanal de X e as notas de
62
Y , temos, x̄ = 1, 9375, ȳ = 6, 875, σx ∼
= 1, 1842, σy ∼
= 1, 691 e r ∼
= 0, 6984.
Desta forma, para a reta ajustada y = ax + b, temos:
σy
a = r×
σx
∼ 1, 691
= 0, 6984 ×
1, 1842
∼
= 0, 9973,
b = ȳ − ax̄
∼
= 6, 875 − 0, 9973 × 1, 9375
∼
= 4, 9427.
Obtemos então a reta ajustada como a reta de equação y = 0, 9973x +

4, 9427. Esboçando o gráfico de dispersão e a reta ajustada, temos:
De acordo com a reta ajustada, inicialmente, sem estudar nada, tem-se
63
quase 5 pontos (4, 9427) e, para cada hora extra de estudo, tem-se mais quase
1 ponto (0, 9973).
Observação 8.5. Você deve ter notado no exemplo acima, que os valores
obtidos como coeficientes da reta de regressão nos nossos cálculos estão li-
geiramente diferentes dos valores indicados no gráfico. Isso se deve ao fato
de, nos nossos cálculos, utilizarmos sempre um máximo de quatro casas de-
cimais nas nossas aproximações. O gráfico em questão foi feito computa-
cionalmente, e nos cálculos que levaram a sua construção, foram utilizadas
muitas outras casas decimais, fazendo a aproximação com quatro casas deci-
mais apenas após o fim dos cálculos. De fato, utilizando toda a precisão do
meu computador, neste caso, obtemos:
r∼
= 0, 698361456111078;
a∼
= 0, 997214484679666;
b∼
= 4, 94289693593315;
y = 0, 997214484679666x + 4, 94289693593315.
8.3 Exercı́cios
Exercı́cio 20. Num determinado exercı́cio, um levantador de peso profissio-
nal registrou o peso e o número máximo de repetições que ele conseguiu fazer
com o peso em questão. Os resultados seguem abaixo:
Peso (kg) Repetições

90 15
120 9
150 5
165 3
180 2
64
Com base nessas informações:
a) Esboce o gráfico de dispersão correspondente a estes dados (considere

o peso como o eixo x e o número de repetições como o eixo y);
b) Calcule o coeficiente de correlação e o coeficiente de determinação;
c) Calcule a equação da reta ajustada;
d) Esboce esta reta no gráfico de dispersão.
65
Capı́tulo 9
Introdução à Probabilidade
Neste capı́tulo, vamos dar inı́cio ao estudo da teoria da probabilidade,

explorando alguns conceitos fundamentais e o seu significado.
9.1 Um pouco de história

Os estudos sobre probabilidades tiveram origens ligadas a jogos de azar,
por volta do século XVII na Europa, e são muito anteriores a formalização da
área da estatı́stica. Os franceses Pierre de Fermat (1601-1665) e Blaise Pas-
cal (1623-1662) e também o holandês Christiaan Huygens (1629-1695) foram
os primeiros a trabalhar significativamente na área. Antes deles, o italiano
Girolamo Cardano (1501-1576) já havia publicado um livro sobre o assunto,
mas estes não tiveram muita repercussão em seu tempo, tendo aparecido im-
presso apenas em 1663.
Apenas no século seguinte, o francês Pierre-Simon Laplace (1749-1827)

enunciou pela primeira vez a definição clássica da probabilidade, e apenas
alguns anos mais tarde, o alemão Johann Carl Friedrich Gauss (1777-1855)
que a probabilidade teve, pela primeira vez, aplicações voltadas a ciência,
saindo do campo dos jogos de azar. Finalmente, apenas no século XX, os
66
fundamentos matemáticos mais rigorosos foram estabelecidos pelo russo An-
drei Nikolaevich Kolmogorov (1903-1987).
Hoje em dia, a probabilidade está presente em diversas áreas, como na

avaliação de riscos, no mercado de ações, na teoria dos jogos (que, apesar do
nome, não tem aplicação restrita a jogos), na previsão do tempo, nos esportes
e até mesmo de forma intuitiva no nosso cotidiano, quando, antes de sair de
casa, olhamos pela janela e decidimos levar ou não um guarda chuva.
Todos os nomes citados ao longo do texto, são alguns dos principais no-
mes no desenvolvimento histórico na área da probabilidade. São todos ma-
temáticos de nacionalidades diversas (apesar de serem todos europeus), e,
talvez por isso, a área da probabilidade é a área da estatı́stica que mais
carrega uma teoria matemática.
9.2 Definições iniciais

Definição 9.1. Chamamos de experimento aleatório qualquer fenômeno
cujo resultado seja incerto.
Exemplo 9.2. Temos:
Jogar um dado e observar a face voltada para cima;
Observar a idade de uma pessoa;
Medir o tempo de duração de uma lâmpada acesa continuamente;
Verificar o resultado de uma partida de futebol.
Definição 9.3. Chamamos de espaço amostral (Ω) o conjunto com todos

os possı́veis resultados de um experimento aleatório.
A todo experimento aleatório, temos associado um espaço amostral.
67
Exemplo 9.4. Temos:
Ao jogar um dado e observar a face voltada para cima, temos o espaço

amostral Ω = {1; 2; 3; 4; 5; 6};
Ao observar a idade de uma pessoa, temos o espaço amostral Ω =

{0; 1; 2; 3; ...; 150};
Ao medir o tempo de duração de uma lâmpada acesa continuamente,

temos o espaço amostral Ω = [0; ∞[;
Ao verificar o resultado de uma partida de futebol, temos o espaço amos-

tral Ω = {(0, 0); (1, 0); (0, 1); (1, 1); (2, 0); ...}.
Definição 9.5. Chamamos de evento qualquer subconjunto do espaço amos-

tral (usualmente, denotado por uma letra maiúscula).
Exemplo 9.6. Temos:
Ao jogar um dado e observar a face voltada para cima, consideramos o

evento E: obter um resultado par, assim, E = {2; 4; 6};
Ao observar a idade de uma pessoa, consideramos o evento E: pessoas

adultas, assim temos E = {18; 19; 20; ...; 150};
Ao medir o tempo de duração de uma lâmpada acesa continuamente,

consideramos o evento E: a lâmpada durar mais de 500 horas, desta
formaE =]500; ∞[;
Ao verificar o resultado de uma partida de futebol, consideramos o

evento E: empate, logo temos E = {(0, 0); (1, 1); (2, 2); (3, 3); ...}.
A linguagem de espaço amostral e eventos associados a um experimento

aleatório é muito semelhante a teoria de conjuntos, onde, o espaço amostral
representa o nosso conjunto universo e cada evento é um subconjunto do
68
nosso conjunto universo.
Os eventos Ω, correspondente ao espaço todo, o evento certo, e ∅, cor-

respondente ao conjunto vazio, o evento impossı́vel, não possuem aplicações
práticas, mas são importantes para nossa compreensão sobre a teoria das
probabilidades.
9.2.1 Operações com eventos

Tal como fazemos com conjuntos, podemos operar com os eventos. Dados
dois eventos A e B de um mesmo espaço amostral Ω, podemos representá-los
num diagrama de Venn como segue abaixo:
Com estes eventos, podemos fazer as operações de:
UNIÃO A ∪ B: é o evento onde ocorre o evento A ou o evento B (ou

ambos);
69
INTERSEÇÃO A ∩ B: é o evento onde ocorrem o evento A e o evento
B (simultaneamente);
COMPLEMENTAR AC : é o evento onde não ocorre o evento A (ou

não ocorre o evento B, no caso de B C ).
70
Exemplo 9.7. Vamos considerar o experimento aleatório: lançar uma mo-
eda duas vezes e observar a sequência de resultados. Neste caso, temos
Ω = {(K, K); (K, C); (C, K); (C, C)} (onde K representa “cara” e C repre-
senta “coroa”). Vamos também considerar os eventos A: obter dois resulta-
dos iguais e B: obter pelo menos uma cara. Desta forma, temos:
A = {(K, K); (C, C)};
B = {(K, K); (K, C), (C, K)};
A ∪ B = {(K, K); (K, C), (C, K), (C, C)} = Ω;
A ∩ B = {(K, K)};
AC = {(K, C), (C, K)};
B C = {(C, C)}.
Se dois eventos A e B são impossı́veis de ocorrer simultaneamente, temos

que sua A ∩ B = ∅ e dizemos que estes eventos são disjuntos.
Exemplo 9.8. Vamos considerar o experimento aleatório: lançar uma mo-

eda duas vezes e observar a sequência de resultados. Neste caso, temos
Ω = {(K, K); (K, C); (C, K); (C, C)} (onde K representa “cara” e C repre-
senta “coroa”). Vamos também considerar os eventos A: obter dois resulta-
dos iguais e D: obter exatamente uma cara. Desta forma, temos:
71
A = {(K, K); (C, C)};
D = {(K, C), (C, K)};
A ∪ D = {};
logo, A e D são eventos disjuntos.
9.3 Definições de probabilidade

A ideia de probabilidade já está presente no nosso dia a dia, mesmo que a
nomenclatura não seja utilizada. Quando saı́mos de casa com a intenção de
chegar no IF num determinado horário, consideramos o provável tráfego que
encontraremos no caminho e, com isso, estimamos quanto antes do horário
de chegada devemos sair. Quanto mais importante for a pontualidade, menos
damos margem para o erro de nossa estimativa, isso é, mais cedo saı́mos de
casa.
Mas como podemos definir probabilidade? Uma possivel resposta é: Pro-
babilidade é uma medida que quantifica a incerteza frente a um aconteci-
mento futuro.
Nesta quantificação, alguns métodos são possı́veis. Em todos eles, a pro-

babilidade de qualquer evento será sempre um número entre 0 e 1, sendo
0 a probabilidade de um evento impossı́vel (p(∅))e 1 a probabilidade de um
evento certo (p(Ω)). Quanto mais próximo de 1 a probabilidade de um evento,
maior a chance dele ocorrer, enquanto eventos com probabilidade próxima
a zero são eventos com pouca chance de ocorrer. A seguir, estudaremos os
principais métodos.
72
9.3.1 Método clássico
Este método é devido a Laplace, e consiste em associar a cada evento, a
razão entre o número de casos favoráveis e o número de casos possı́veis.
Exemplo 9.9. Quando lançamos um dado e observamos a face voltada para

cima, temos Ω = {1; 2; 3; 4; 5; 6}. A probabilidade de obtermos um resultado
par é a probabilidade de ocorrer o evento E = {2; 4; 6}, desta forma, temos,
segundo o método clássico:
#E 3 1
p(E) = = = = 0, 5.
#Ω 6 2
Observação 9.10. Utilizamos #E para representar o número de elementos

do conjunto/evento E.
Este método é muito simples e eficiente, porém, possui suas limitações.

Se, no Campeonato Mineiro tivermos o confronto entre Caldense e Atlético,
temos, como espaço amostral Ω = {V ; E; D}, onde V representa vitória da
Caldense, E represennta empate e D representa derrota da Caldense (con-
siderando o resultado simplificado apenas). Desta forma, segundo o método
clássico, a probabilidade da Caldense vencer seria a probabilidade de ocorrer
o evento E = {V }, dada por:
#E 1
p(E) = = ∼= 0, 3333,
#Ω 3
a mesma probabilidade do Atlético vencer. Se o confronto fosse entre Cal-

dense e Barcelona, seria a mesma situação. Faz sentido pra você, dizer que
num confronto entre Caldense e Barcelona, ambos os times tem a mesma
probabilidade de vitória?
73
9.3.2 Método frequentista
Este método consiste em repetir um experimento aleatório o máximo de
vezes possı́vel e, a cada evento, associar a probabilidade dada pela razão entre
os resultados favoráveis e o número total de repetições deste experimento.
Quanto maior o número de repetições deste experimento, mais confiável é o
resultado obtido por este método.
Exemplo 9.11. Quando lançamos um dado e observamos a face voltada para

cima, temos Ω = {1; 2; 3; 4; 5; 6}. A probabilidade de obtermos um resultado
par é a probabilidade de ocorrer o evento E = {2; 4; 6}. A fim de utilizar
o método frequentista, eu joguei um dado 16 vezes e observei os resultados
obtidos, que seguem na tabela abaixo:
Experimento 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Resultado 1 6 3 2 4 1 4 4 4 5 3 1 3 6 5 6
Desta forma, foram 16 repetições do experimento aleatório e 8 casos fa-

voráveis ao evento E: obter resultado par, assim, segundo o método frequen-
tista, temos:
8 1
p(E) = = = 0, 5.
16 2
Observação 9.12. Eu realmente peguei um dado, rolei e anotei os resultados

(ou seja, eu realmente realizei o experimento aleatório em questão), de forma
que os resultados acima são reais. O mesmo experimento pode ser realizado
novamente o mesmo número de vezes (ou mais, ou menos) e, eventualmente,
termos resultados diferentes (tente você em sua casa!), assim, nota-se que
este método nos dá espaço para diferentes resultados.
No caso Caldense X Atlético, temos, segundo o histórico de confrontos no

campeonato mineiro, foram 77 jogos, com 17 vitórias da Caldense, 13 empates
74
e 47 vitórias do Atlético, desta forma, considerando o evento E: vitória da
Caldense, ou seja, E = {V }, segundo o método frequentista, temos:
17 ∼
p(E) = = 0, 2208.
77
Se considerarmos todo o histórico de confrontos, não restringindo apenas ao

campeonato mineiro, foram 88 jogos, com 17 vitórias da Caldense, 15 empates
e 56 vitórias do Atlético, assim, segundo o método frequentista, temos:
17 ∼
p(E) = = 0, 1932.
88
Este método parece mais confiável do que o método clássico em muitos

casos (quando o espaço amostral não é equiprovável, ou seja, a probabili-
dade/chance de ocorrer cada um dos possı́veis resultados não for a mesma),
porém, dá margem para interpretações e resultados diferentes, de acordo com
os resultados obtidos nas repetidas realizações do evento aleatório, que nem
sempre serão os mesmos. Além disso, assim como o método clássico, ele tem
outra limitação, quando o espaço amostral é infinito. Digamos que queremos
saber a probabilidade de uma lâmpada ter vida útil inferior a 10 minutos.
Se testarmos 1.000.000 de lâmpadas e medirmos a vida útil de cada uma
delas, pode ser que nenhuma delas tenha vida útil menor do que 10 minutos,
porém, isso não significa que isso acontecerá com nenhuma outra lâmpada,
mas significa que, segundo o método frequentista, a probabilidade de uma
lâmpada ter vida útil menor do que 10 minutos seja 0. Mesmo para espaços
amostrais finitos, isto pode ocorrer.
A Caldense e o Corinthians se enfrentaram 7 vezes ao longo da história,

com 4 vitórias do “timão” e 3 empates. Segundo o método frequentista, a
probabilidade de vitória da “veterana” é 0, o que significa que não importa
quantas vezes o confronto se repetir, nunca veremos uma vitória do “maior
verdão do Brasil”, que este evento é impossı́vel. Você concorda com isso? Eu
75
não! Entendo que a vitória da Caldense sobre o Corinthians é improvável,
mas não impossı́vel.
E no caso Caldense X Barcelona, onde não existe nenhum confronto re-

alizado? Seguindo o método frequentista, sequer é possı́vel determinar a
probabilidade de ocorrer qualquer resultado. Temos então outra limitação
deste método, no caso em que a realização do evento aleatório é muito difı́cil,
trabalhosa, cara, ou tenha qualquer impecı́lio que impeça a sua repetida
realização.
9.3.3 Método subjetivo

Este método consiste em associar a cada evento, uma probabilidade ba-
seada em suas vivências e experiências anteriores. Daı́ o nome “subjetivo”.
Exemplo 9.13. Ao rolar um dado num jogo, precisando obter o resultado 6,

algumas pessoas sentem que é uma tarefa impossı́vel, e associam a tal evento
a probabilidade 0, pois se consideram “pessoas azaradas”.
Exemplo 9.14. Baseado em sintomas e exames, um médico atribui a um

paciente uma probabilidade deste estar com determinada doença, mesmo sem
fazê-lo através de um número (afinal, não dá pra ter certeza que alguém está
gripado sem observar o vı́rus da gripe instalado no organismo desta pessoa).
Exemplo 9.15. Se você, assim como eu, assistiu os desenhos do Yu-Gi-

Oh, sabe que a probabilidade dele compar o Mago Negro do seu baralho num
momento de necessidade é 1, mesmo o baralho dele tendo várias cartas e
apenas 1 Mago Negro.
Este método é bastante útil em algumas situações e não há limitações

a sua aplicabilidade, porém, subjetividade é algo muito vago, o que não é
conveniente em nenhum estudo.
76
9.3.4 Método moderno (axiomático)
Este método é devido a Kolmogorov e consiste em axiomatizar algumas
relações intuitivas e construir, a partir delas, toda a teoria de probabilidades,
a exemplo do que se faz no estudo da geometria euclidiana. Noutras palavras,
consiste em tomar como regra inquestionável algumas relações intuitivas e
concluir todo o resto a partir destas regras.
Tal abordagem engloba todas as abordagens anteriores e dá possibilidade

para outras, assim, é a que consideraremos a partir de agora em todo o nosso
estudo sobre probabilidade.
Temos, segundo o método moderno:
Definição 9.16. Probabilidade é uma função p(·) que associa a cada evento
E do espaço amostral Ω um número, satisfazendo as seguintes condições:
0 ≤ p(E) ≤ 1;
p(Ω) = 1;
Se A e B são eventos exclusivos/disjuntos (ou seja, se A ∩ B = ∅),

então p(A ∪ B) = p(A) + p(B).
A partir da definição de probabilidade, podemos provar as seguintes pro-

priedades:
p(∅) = 0;
p(E C ) = 1 − p(E);
p(A ∪ B) = p(A) + p(B) − p(A ∩ B);
Se A ⊂ B, então p(A) ≤ p(B);
77
p(A ∪ B ∪ C) = p(A) + p(B) + p(C) − p(A ∩ B) − p(A ∩ C) − p(B ∩
C) + p(A ∩ B ∩ C).
Exemplo 9.17. Numa determinada região, sabe-se que a probabilidade de

chover num certo dia é de 0, 7, enquanto a probabilidade de chover dois dias
seguidos é 0, 4. Vamos calcular a probabilidade de termos dois dias seguidos
sem chuva.
9.4 Exercı́cios
Exercı́cio 21. Determine se cada item abaixo pode ou não ser considerado
um experimento aleatório:
a) Acender uma lâmpada e observar o tempo que ela leva até se apagar;
b) Acender uma lâmpada e observar se em algum momento posterior ela

se apagará;
c) Anotar o número de filhos de uma pessoa;
d) Num paı́s com apenas duas cidades, a vila dos mentirosos (onde todos
mentem sempre) e a vila dos honestos (onde ninguém nunca mente),
verificar onde mora um determinado cidadão;
e) Num paı́s com apenas duas cidades, a vila dos mentirosos (onde todos
mentem sempre) e a vila dos honestos (onde ninguém nunca mente),
perguntar a um cidadão em qual vila ele mora;
f ) Arremessar uma lâmpada comum na parede e observar se ela se quebou

ou não;
g) Arremessar uma lâmpada comum na parede e contar o número de

pedaços em que ela se dividiu;
h) Medir a altura de uma árvore de um bosque.
78
Exercı́cio 22. Determine o espaço amostral associado a cada um dos eventos
aleatórios listados abaixo:
a) Lançar uma moeda três vezes e observar a sequência de faces voltadas

para cima obtidas;
b) Lançar uma moeda três vezes e contar a quantidade de caras obtidas;
c) Lançar uma moeda para cima quantas vezes forem necessárias até obter
uma cara e contar o número de lançamentos;
d) Medir o tempo de vida útil de um motor de combustão;
e) Uma bola é retirada de uma urna com 10 bolas verdes, 10 bolas amarelas
e 10 bolas azuis e a sua cor é observada;
f ) Uma bola é retirada de uma urna com 10 bolas verdes, 7 bolas amarelas
e 2 bolas azuis e a sua cor é observada.
Exercı́cio 23. Considere o espaço amostral Ω = {0; 1; 2; 3; 4; 5; 6; 7; 8; 9}.

Defina, listando seus elementos, cada um dos seguintes eventos:
A: número par;
B: número impar;
C: número primo;
D: número divisor de 120;
E: número maior ou igual a 7;
F : número menor que 5;
G: número múltiplo de 3;
H: número que, por extenso, se escreve terminando com uma vogal.
79
Obtenha agora os eventos:
a) A ∪ D;
b) C ∩ E;
c) B C ;
d) (F ∪ H)C ;
e) GC ∩ A;
f ) (C C ∪ E)C .
Exercı́cio 24. Calcule a probabilidade de (considerando sempre métodos ho-

nestos, sem trapaças e/ou tendenciosidades):
a) Obter resultado 5 no lançamento de um dado;
b) Obter resultado maior ou igual a 5 no lançamento de um dado;
c) Obter cara no lançamento de um dado;
d) Obter cara no lançamento de uma moeda;
e) Obter três caras em três lançamentos de uma moeda;
f ) Obter uma cara em três lançamentos de uma moeda;
g) Obter pelo menos uma cara em três lançamentos de uma moeda;
h) Obter uma bola branca ao retirar uma bola de uma urna com 5 bolas
brancas e 4 bolas pretas;
i) Obter uma bola preta ao retirar uma bola de uma urna com 5 bolas
brancas e 4 bolas pretas;
j) Obter duas bolas de mesma cor ao retirar duas bolas de uma urna com
2 bolas brancas e 3 bolas pretas;
80
k) Acertar uma questão de múltipla escolha chutando a resposta dentre as
cinco alternativas;
l) Acertar duas questões de múltipla escolha chutando as respostas dentre

as cinco alternativas de cada uma;
m) Ganhar na mega sena com uma aposta simples (de seis números, que,
para serem ganhadores, devem ser os seis sorteados dentre os sessenta
possı́veis);
n) Tirar um ás de um baralho comum completo (com 52 cartas, das quais,

4 são azes);
o) Tirar uma carta de espadas de um baralho comum completo (com 52

cartas, das quais, 13 são de espadas);
p) Tirar um ás de espadas de um baralho comum completo;
q) Tirar um ás ou uma carta de espadas de um baralho comum completo.
r) Acertar pelo menos seis questões de uma prova com dez questões de
múltipla escolha, com duas alternativas cada, escolhendo aleatóriamente
as respostas.
81
Capı́tulo 10
Fundamentos da Probabilidade
Neste capı́tulo estudaremos alguns dos fundamentos da probabilidade,

que são propriedades mais elaboradas, tanto na sua formulação quando na
sua demonstração. Nosso foco será sempre a compreensão e a aplicação destes
conceitos.
10.1 Probabilidade condicional

Muitas vezes temos dois eventos A e B de um mesmo espaço amostral
onde há uma certa associação, ou seja, que o fato de um deles ter ocorrido
afeta a probabilidade do outro ocorrer. Uma coisa é calcular a probabilidade
da Caldense vencer o Atlético numa partida de futebol, outra é calcular esta
mesma probabilidade sabendo que o jogo esté com placar de 1 × 0 a favor
da Caldense, uma terceira é calcular sabendo ainda que faltam dois minutos
para o fim da partida...
Escrevemos p(A|B) para representar a probabilidade de ocorrer o evento

A sabendo que o evento B ocorreu, ou, resumidamente, a probabilidade de
A dado B. Se trata de um cálculo da probabilidade de A ocorrer dentro do
espaço amostral reduzido B, não mais do espaço amostral total Ω. Neste
82
sentido, temos:
Definição 10.1. Dados dois eventos A e B de um mesmo espaço amostral

Ω, a probabilidade condicional p(A|B) é dada por:
p(A ∩ B)
p(A|B) = .
p(B)
Segue diretamente desta definição que:
p(A ∩ B) = p(A|B) × p(B).
Exemplo 10.2. Numa determinada escola, os estudantes foram analisados

de acordo com a quantidade de horas semanais de atividade fı́sica e o peso.
Os resultados seguem de acordo com a tabela abaixo:
menos de 1h 1h a 2h 2h a 3h mais de 3h TOTAL (peso)

baixo 5 2 3 15 25
normal 10 32 53 55 160
alto 25 20 12 3 60
muito alto 30 16 2 2 50
TOTAL (horas) 70 70 70 75 285
Escolhendo aleatóriamente um estudante desta escola, vamos determinar:
a) A probabilidade dele ter peso normal.
Fazendo A: estudantes com peso normal, dentre Ω: estudantes desta

escola, temos:
#A 160 32 ∼
p(A) = = = = 0, 5614.
#Ω 285 57
83
b) A probabilidade dele praticar entre 2h e 3h de atividade fı́sica semanal.
Fazendo B: estudantes que praticam de 2h a 3h de atividade fı́sica

semanal, dentre Ω: estudantes desta escola, temos:
#B 70 14 ∼
p(B) = = = = 0, 2456.
#Ω 285 57
c) A probabilidade dele ter peso normal, sabendo que ele pratica entre 2h
e 3h de atividade fı́sica semanal.
Neste caso, queremos p(A|B). Temos:
p(A ∩ B) 53/285 53 ∼
p(A|B) = = = = 0, 7571.
p(B) 70/285 70
d) A probabilidade dele praticar entre 2h e 3h de atividade fı́sica semanal,

sabendo que ele tem peso normal.
Neste caso, queremos p(B|A). Temos:
p(B ∩ A) 53/285 53 ∼
p(B|A) = = = = 0, 3313.
p(A) 160/285 160
Veja que p(A|B) e p(B|A) tem significados bastante distintos.
10.1.1 Independência de eventos

Dizemos que dois eventos são independentes se a probabilidade de um
deles ocorrer não é afetada pela ocorrência do outro. Noutras palavras, se:
p(A|B) = p(A), e p(B|A) = p(B).
84
Neste caso, temos, consequentemente, que:
p(A ∩ B) = p(A) × p(B).
Exemplo 10.3. A Caldense tem 0, 2 de probabilidade de vencer seu próximo

jogo contra o Cruzeiro pelo campeonato mineiro, que ocorrerá no próximo
domingo. Neste mesmo dia, existe a probabilidade 0, 3 de chover. Vamos
determinar a probabilidade da Caldense vencer o jogo e não chover.
Temos A: Caldense ganha do Cruzeiro, onde p(A) = 0, 2 e B: não

choverá no domingo, onde p(B C ) = 0, 3, assim, temos então que p(B) =
1 − p(B C ) = 0, 7. Mais que isso, queremos p(A ∩ B), onde A e B são eventos
independentes. Temos p(A ∩ B) = p(A) × p(B) = 0, 2 × 0, 7 = 0, 14.
10.2 Regra da probabilidade total

Considere um espaço amostral Ω particionado nas partições A1 , A2 , ...,
An , ou seja, temos que Ai ∩ Aj = ∅ sempre que i 6= j e A1 ∪ A2 ∪ ... ∪ An = Ω.
Nestas condições, para qualquer evento D do espaço amostral Ω, temos que
D = (D ∩ A1 ) ∪ (D ∩ A2 ) ∪ ... ∪ (D ∩ An ), com (D ∩ Ai ) ∩ (D ∩ Aj ) = ∅,
sempre que i 6= j, assim, vale a lei da probabilidade total:
p(D) = p(D ∩ A1 ) + p(D ∩ A2 ) + ... + p(D ∩ An )

= p(A1 ) × p(D|A1 ) + p(A2 ) × p(D|A2 ) + ... + p(An ) × p(D|An )
Xn
= p(Ai ) × p(D|Ai ).
i=1
Tal regra pode parecer uma complicação desnecessária, mas é através dela
que conseguimos tratar de situações onde temos uma divisão do nosso inte-
resse em vários subcasos. A situação descrita pode ser observada na imagem
85
abaixo, com n = 5 (imagem retirada da apostila do professor Marcos).
Exemplo 10.4. Carlos é um programador que possui três projetos. Ele di-
vide seu dia, empenhando 45% do seu tempo de trabalho no projeto P1 , 35%
no projeto P2 e 20% no projeto P3 . Segundo um analista que ele contratou,
caso ele empenhe seu tempo no projeto P1 , ele terá 0, 3 de probabilidade de
vender este projeto para uma grande empresa de tecnologia, enquanto, no
caso do projeto P2 , a probabilidade é de 0, 2 e, por fim, no caso do projeto
P3 , a probabilidade é de 0, 05. Vamos calcular a probabilidade de Carlos ven-
der algum de seus projetos.
Temos D: probabilidade de vender um projeto e Ai : trabalhar no projeto

Pi . Temos então:
p(D) = p(A1 )p(D|A1 ) + p(A2 )p(D|A2 ) + p(A3 )p(D|A3 )

= 0, 45 × 0, 3 + 0, 35 × 0, 2 + 0, 2 × 0, 05
= 0, 135 + 0, 07 + 0, 01
= 0, 143.
86
10.2.1 Teorema de Bayes
Thomas Bayes (1702-1761) afirmou que as probabilidades devem ser re-
vistas quando conhecemos algo a mais sobre os dados. Para tal revisão, ele
propôs o teorema que leva o seu nome, que é uma das relações mais im-
portantes envolvendo probabilidades condicionais. Em resumo, nas mesmas
condições anteriores, o teorema de Bayes diz que:
p(D ∩ Ai ) p(Ai )p(D|Ai )

p(Ai |D) = = Pn .
p(D) i=1 p(Ai ) × p(D|Ai )
Veja que tal teorema é a simples substituição da probabilidade de ocorrer

o evento D na expressão da probabilidade condicional p(Ai |D) pela expressão
obtida pela regra da probabilidade total.
Exemplo 10.5. Supondo que Carlos vendeu um projeto para uma grande
empresa de tecnologia, vamos calcular a probabilidade deste projeto ser o
projeto P3 .
Temos:
p(D ∩ A3 ) 0, 01 ∼
p(A3 |D) = = = 0, 0699
p(D) 0, 143
10.3 Exercı́cios
Exercı́cio 25. Um aparelho eletrônico simples funciona com dois componen-
tes que possuem funcionamento independente. Este aparelho funciona apenas
se ambos os componentes não falharem. Se estes componentes tem probabili-
dade 0, 1 e 0, 2 de falhar, qual a probabilidade deste aparelho funcionar?
Exercı́cio 26. Um aparelho eletrônico simples funciona com dois compo-
nentes que possuem funcionamento independente. Este aparelho funciona
apenas se pelo menos um dos componentes não falhar. Se estes componentes
tem probabilidade 0, 1 e 0, 2 de falhar, qual a probabilidade deste aparelho
funcionar?
87
Exercı́cio 27. Uma confecção tem algumas costureiras, as quais são res-
ponsáveis por uma certa proporção da produção total da confecção, as quais
também possuem uma proporção de defeitos no total de peças que produzem,
de acordo com a tabela abaixo:
Costureira Produção (%) Defeitos (%)

Cidoca 40% 3%
Lourdes 25% 1%
Analice 20% 2, 5%
Rutinha 15% 2%
Com base nestas informações, calcule a probabilidade de:
a) Uma peça selecionada aleatóriamente seja defeituosa;
b) Uma peça defeituosa selecionada aleatóriamente tenha sido produzida

por Cidoca;
c) Uma peça selecionada aleatóriamente não tenha defeitos;
d) Uma peça sem defeitos selecionada aleatóriamente, não tenha sido pro-
duzida por Lourdes.
Exercı́cio 28. Um carro é selecionado de uma sequência de produção de

250 carros. Os defeitos de fabricação são classificados em três categorias, A,
B e C, os quais ocorrem nas proporções 2%, 1, 6% e 0, 8%, respectivamente.
Além disso, sabe-se que 0, 8% apresentam simultaneamente os defeitos A e B,
0, 4% os defeitos A e C e nenhum apresenta simultaneamente os defeitos B e
C. Qual a probabilidade de um carro selecionado aleatóriamente apresentar
pelo menos um dos três defeitos?
Exercı́cio 29. Um lote de produção contém 100 unidades de determinado

produto, dos quais 15% são defeituosos. Selecionando-se aleatóriamente 4
produtos deste lote, qual a probabilidade de que nenhum apresente defeito?
88
Exercı́cio 30. Ao inspecionar um lote de pregos produzidos numa metalúrgica,
a cada pacote com 100 unidades, 5 são selecionadas e analisadas, e, caso al-
guma apresende defeito, o lote é devolvido para a fábrica. Se a probabilidade
de um prego apresentar defeito for de 0, 001, qual a probabilidade de um lote
ser devolvido? E se a probabilidade de um prego apresentar defeito for de
0, 05?
Exercı́cio 31. O diagrama a seguir representa um circuito eletrônico, divi-

dido em três montagens, cada uma, com um certo número de componentes.
Para o circuito funcionar, pelo menos um componente de cada montagem

deve funcionar. Se o número sobre cada componente representa a probabili-
dade deste componente funcionar, qual é a probabilidade do circuito funcio-
nar?
Exercı́cio 32. Como a probabilidade do exercı́cio anterior é afetada se a

probabilidade de funcionamento do único componente na montagem III for
alterada de 0, 9 para 0, 99?
Exercı́cio 33. Sabendo que o circuito não funcionou, qual a probabilidade

de nenhum componente da montagem II tenha funcionado?
89
Exercı́cio 34. Numa turma, 65% dos homens e 35% das mulheres possuem
mais de 1, 70m de altura. Se nesta turma, 60% são mulheres, selecionando
aleatóriamente uma pessoa desta turma qual a probabilidade de:
a) Esta pessoa ter mais de 1, 70m?
b) Esta pessoa ter mais de 1, 70m e ser mulher?
c) Esta pessoa ser uma mulher, sabendo que ela tem mais de 1, 70m?
90
Capı́tulo 11
Variáveis Aleatórias Discretas
Neste capı́tulo, vamos estudar o conceito de probabilidade ao estudo de

variáveis associadas a caracterı́sticas em uma população. Muitos experi-
mentos produzem resultados não numéricos, assim, antes de analisá-los, é
conveniente transformar seus resultados em números. Isso é feito através da
variável aleatória, que é uma função que associa um valor numérico a cada
ponto do espaço amostral de um experimento aleatório.
Exemplo 11.1. Se observarmos o gênero de três estudantes escolhidos aleatóriamente

numa escola, temos o espaço amostral:
Ω = {M M M ; M M F ; M F M ; F M M ; M F F ; F M F ; F F M ; F F F }.
Se nos interessar saber quantos destes estudantes são do sexo feminino, temos
a variável aleatória X= número de estudantes do sexo feminino. A cada
ponto do Ω, temos associado um valor para X, de acordo com a tabela abaixo:
Evento MMM MMF MFM FMM MF F F MF FFM FFF

X 0 1 1 1 2 2 2 3
91
Para entendermos bem a ideia relacionada a uma variável aleatória e a sua
aplicação ao cálculo de probabilidades, é associar a cada valor desta variável
aleatória a sua probabilidade, obtendo assim o que chamamos de distri-
buição de probabilidade. Se x1 , x2 , ..., xn são todos os possı́veis valores
de uma variável aleatória X, temos p(X = xi ) representando a probabilidade
de X assumir o valor xi . Esta função probabilidade p(·) deve satisfazer:
0 ≤ p(X = xi ) ≤ 1, ∀i ∈ {1; 2; ...; n};

Pn
i=0 p(X = xi ) = 1.
Garantimos assim as condições do método moderno.

numa escola, temos o espaço amostral:
Este é um espaço amostral equiprovável, ou seja, cada um de seus elementos

tem a mesma probabilidade de ocorrer (probabilidade esta igual a 81 ). Desta
forma, temos:
xi 0 1 2 3
1 3 3 1
p(X = xi ) 8 8 8 8
11.1 Esperança, variância e desvio padrão

Estas são duas medidas que tem relação muito parecida com a média
e a variância para variáveis quantitativas. A esperança representa a média
esperada caso o experimento aleatório seja repetido muitas vezes, enquanto
a variância e o desvio padrão estão associados ao quanto os valores devem
destoar desta média.
92
11.1.1 Esperança matemática
Calculamos a esperança de uma variável aleatória X multiplicando cada
um de seus possı́veis valores a probabilidade deste valor ocorrer e somando
os resultados. Ou seja, temos:
n
X
E(X) = xi p(X = xi ).
i=0

numa escola, temos:
e:
xi 0 1 2 3
1 3 3 1
p(X = xi ) 8 8 8 8
Desta forma, temos:
1 3 3 1 12 3
E(X) = 0 × +1× +2× +3× = = = 1, 5.
8 8 8 8 8 2
Exemplo 11.4. De acordo com uma análise de mercado, o número de car-

ros vendidos diariamente numa determinada concessionária (xi ) ocorre com
determinada probabilidade de acordo com a tabela abaixo:
xi 0 1 2 3 4 5
p(X = xi ) 0, 1 0, 25 0, 3 0, 2 0, 1 0, 05
De acordo com estas informações, o número esperado de carros vendidos

diariamente é:
E(X) = 0, 1 × 0 + 0, 25 × 1 + 0, 3 × 2 + 0, 2 × 3 + 0, 1 × 4 + 0, 05 × 5 = 2, 1.
93
Observação 11.5. Note que, no exemplo acima, em nenhum dia será ven-
dido 2, 1 carros, afinal, isto é impossı́vel. Este valor representa a média de
vendas diárias esperada ao longo de vários dias.
11.1.2 Variância
Para calcularmos a dispersão dos valores de uma varável aleatória X,
podemos calcular sua variância, dada por:
n
X
2 2
σ = V ar(X) = E[X − E(X)] = (xi − E(X))p(X = xi ).
i=1
Ao desenvolvermos esta expressão, obtemos uma outra equivalente:

n
X
2 2 2 2
σ = V ar(X) = E(X ) − [E(X)] , onde E(X ) = x2i p(X = xi ).
i=1
11.1.3 Desvio padrão

Para calcularmos a dispersão dos valores de uma varável aleatória X,
podemos calcular seu desvio padrão, o qual apresenta, em relação a variância,
a vantagem de expressar esta dispersão na mesma unidade de medida da
variável aleatória. Temos:
√ p
DP (X) = σ = σ 2 = V ar(X).
Exemplo 11.6. De acordo com uma análise de mercado, o número de car-

ros vendidos diariamente numa determinada concessionária (xi ) ocorre com
determinada probabilidade de acordo com a tabela abaixo:
xi 0 1 2 3 4 5
p(X = xi ) 0, 1 0, 25 0, 3 0, 2 0, 1 0, 05
De acordo com estas informações, o número esperado de carros vendidos
94
diariamente é E(X) = 2, 1, enquanto sua variância é dada por:
V ar(X) = E(X 2 ) − [E(X)]2

= 0, 1 × 02 + 0, 25 × 12 + 0, 3 × 22 + 0, 2 × 32 + 0, 1 × 42 + 0, 05 × 52 = 2, 1 − 2, 12
= 6, 1 − 4, 41
= 1, 69,
enquanto seu desvio padrão será:

p
DP (X) = 1, 69 = 1, 3.
11.2 Distribuições de probabilidade

Vamos estudar alguns modelos probabilı́sticos que se aplicam a muitos
fenômenos. Estes modelos visam descrever a função de probabilidade associ-
ada a uma variável aleatória X, sendo, cada um deles, adequado a um tipo
de situação.
11.2.1 Modelo uniforme discreta

Este é um tipo de distribuição própria para variáveis aleatórias cujos
possı́veis valores possuem mesma probabilidade de ocorrer, assim, se X é a
variável aleatória em questão e x1 , x2 ,...,xn são seus possı́veis valores, temos:
1
p(X = xi ) = , ∀i ∈ {1; 2; ...; n}.
n
Neste caso, temos também:

n n
X X 1 x1 + x2 + ... + xn
E(X) = xi p(X = xi ) = xi = ;
i=1 i=1
n n
95
n n
!2
2 1X 2
2 1 X
V ar(X) = E(X ) − [E(X)] = xi − 2 xi .
n i=1 n i=1
Exemplo 11.7. Num evento, um número entre 1 e 10 será sorteado como

parte de uma promoção. Neste caso, temos que cada valor tem probabilidade
1
10
de ser sorteado, além disso, a esperança desta variável aleatória é:
1 + 2 + ... + 10 55
E(X) = = = 5, 5,
10 10
a variância é:
12 + 22 + ... + 102 385

V ar(X) = E(X 2 ) − [E(X)]2 = − 5, 52 = − 30, 25 = 8, 25,
10 10
finalmente, o desvio padrão é:
V ar(X) = 8, 25 ∼
p p
DP (X) = = 2, 8723.
11.2.2 Modelo de Bernoulli

Este é um modelo voltado para casos onde só temos dois possı́veis resul-
tados para nossa variável aleatória, o sucesso (X = 1) e o fracasso (X = 0).
A ideia de sucesso ou fracasso pode ser bastante simples (como, ao classificar
uma peça numa linha de produção como boa ou defeituosa) como também
pode ser um pouco mais sutil (como num sorteio da Mega Sena, classificar o
resultado como vencedor ou não, de acordo com uma aposta realizada).
Se a variável aleatória X tem distribuição de Bernoulli com probabilidade

de sucesso P , temos que 1−P será sua probabilidade de fracasso. Neste caso,
temos a função probabilidade:
p(X = k) = P k (1 − P )1−k ,
96
além disso, a esperança e a variância serão dados, respectivamente por:
E(X) = P , e V ar(X) = P (1 − P ).
Exemplo 11.8. No lançamento de um dado honesto, considera-se como su-

cesso a obtenção do resultado 6 e como fracasso qualquer outro resultado.
Neste caso, temos uma variável aleatória que pode ser modelada de acordo
com o modelo de Bernoulli, com P = 16 ∼ = 0, 1667. Temos assim:
0 1−0
1 1 5
p(X = 0) = 1− = ∼ = 0, 8333
6 6 6
1 1−1
1 1 1
p(X = 1) = 1− = ∼ = 0, 1667
6 6 6
1
E(X) = ∼ = 0, 1667
6
1 1 5 ∼
V ar(X) = 1− = = 0, 1389.
6 6 36
11.2.3 Modelo binomial

O modelo de distribuição binomial consiste em sucessivas repetições do
mesmo experimento de Bernoulli, todos independentes entre si. Se fizermos n
repetições de um experimento de Bernoulli com probabilidade P de sucesso,
teremos, para 0 ≤ k ≤ n:
!
n
p(X = k) = P k (1 − P )n−k .
k
!
n n!
Onde, = k!(n−k)! , representando a combinação de n elementos
k
tomados k a k (lembre, n! = n × (n − 1) × (n − 2) × ... × 3 × 2 × 1). Neste
caso, temos ainda:
97
E(X) = nP , e V ar(X) = nP (1 − P ).
Exemplo 11.9. Lucas vai fazer o exame final da disciplina de estatı́stica,

que consiste em dez questões de múltipla escolha, com cinco alternativas cada.
Lucas precisa acertar pelo menos seis destas dez questões para ser aprovado,
porém Lucas não estudou e pretende “chutar” todas as respostas. Vamos
calcular a probabilidade de Lucas ser aprovado.
Neste caso, cada questão é um experimento de Bernoulli, com P = 51 =

0, 2, sendo as questões independentes, fazendo deste um experimento que
segue o modelo binomial, com n = 10 experimentos de Bernoulli, cada um
deles com probabilidade P = 0, 2 de sucesso. Se Lucas é aprovado com, pelo
menos seis acertos, nos interessa calcular:
p(X ≥ 6) = p(X = 6) + p(X = 7) + p(X = 8) + p(X = 9) + p(X = 10).
Temos então:
!
6 10−6
10 1 1
p(X = 6) = 1−
6 5 5
4
10! 1 4
=
6!(10 − 6)! 56 5
1 44
= 210 × 6 × 4
5 5
44 × 210
=
510
53.760
=
9.765.625
∼
= 0, 0055,
98
!
7 10−7
10 1 1
p(X = 7) = 1−
7 5 5
3
10! 1 4
=
7!(10 − 7)! 57 5
1 43
= 120 × 7 × 3
5 5
43 × 120
=
510
7.680
=
9.765.625
∼
= 0, 0008,
!
8 10−8
10 1 1
p(X = 8) = 1−
8 5 5
2
10! 1 4
=
8!(10 − 8)! 58 5
1 42
= 45 × 8 × 2
5 5
42 × 45
=
510
720
=
9.765.625
∼
= 0, 0001,
!
9 10−9
10 1 1
p(X = 9) = 1−
9 5 5
1
10! 1 4
=
9!(10 − 9)! 59 5
1 4
= 10 × 9 ×
5 5
4 × 10
=
510
99
40
=
9.765.625
∼
= 0,
e
!
1 10−10
10 1 1
p(X = 10) = 0 1−
10 5 5
10! 1
=
10!(10 − 10)! 510
1
= 1 × 10
5
1
=
9.765.625
∼
= 0.
Daı́, finalmente, temos:
p(X ≥ 6) = p(X = 6) + p(X = 7) + p(X = 8) + p(X = 9) + p(X = 10)

53.760 7.680 720 40 1
= + + + +
9.765.625 9.765.625 9.765.625 9.765.625 9.765.625
62.201
=
9.765.625
∼
= 0, 0064.
Fica claro assim que Lucas esta ferrado! De fato, o número esperado de
acerto de Lucas nesta prova é:
1
E(X) = 10 × = 2.
5
Além disso, temos:

1 1 40
= 1, 6 ⇒ DP (X) = 1, 6 ∼
p
V ar(X) = 10 × × 1 − = = 1, 2649,
5 5 25
100
o que significa que muito provavelmente o número de acertos ficará entre
2 − 1, 2649 = 0, 7351 e 2 + 1, 2649 = 3, 2649, bem distante do mı́nimo de 6
acertos que Lucas precisa.
11.2.4 Modelo hipergeométrico

Estem modelo é muito parecido com o modelo binomial, porém, com uma
diferença fundamental: cada experimento de Bernoulli, neste caso, não é in-
dependente dos demais (ou seja, o sucesso ou o fracasso de um experimento
afeta a probabilidade do experimento seguinte).
No exemplo que acabamos de analizar, nosso querido (ou nem tanto) Lu-
cas chutou várias questões numa prova de múltipla escolha. O fato dele ter
acertado ou errado uma questão em nada afeta a probabilidade dele acertar
ou errar a questão seguinte, assim, usamos, neste caso, o modelo binomial.
Se, ao invés disso, ao invés de Lucas ter que escolher 10 entre 50 respostas
possı́veis, ele tivesse que tirar aleatóriamente 10 bolinhas de uma caixa, que
contém 10 bolinhas verdes (correspondentes às alternativas corretas) e 40
bolinhas vermelhas (correspondentes às alternativas incorretas), o fato de ele
tirar uma bola verde ou uma vermelha afetaria as probabilidades referentes
a próxima bola que ele fosse tirar, o que faria desta situação, modelada pelo
modelo hipergeométrico.
OK, entendemos a diferença entre o modelo binomial e o modelo hiper-

geométrico, mas como utilizar este último? Se vamos fazer um sorteio com
N objetos, dos quais, r são do tipo I (sucesso) e N − r do tipo II (fracasso).
A variável aleatória X será igual ao número de objetos do tipo I selecionados
em n sorteios.
Os valores de X vão de max(0; n+r −N ) a min(n; r), e temos sua função

probabilidade dada por:
101
! !
r N −r
k n−k
p(X = k) = ! , para max(0; n + r − N ) ≤ k ≤ min(n; r).
N
n
A esperança e a variância são dadas respectivamente por:
np(1 − p)(N − n)
E(X) = np, e V ar(X) = ,
N −1
r
onde p = N
.
Exemplo 11.10. Lucas vai participar de um jogo onde, para vencer, em

10 sorteios seguidos ele deve retirar, pelo menos, 6 bolinhas verdes de uma
caixa contendo 50 bolinhas, sendo 10 delas verdes e as demais 40 vermelhas.
Não haverá reposição entre um sorteio e o seguinte e Lucas não consegue ver
o conteúdo da caixa, apenas consegue ver a cor da bolinha escolhida quando
a escolha já estiver feita. Vamos calcular a chance de Lucas ganhar este jogo.
Neste caso, se aplica o modelo hipergeométrico, com N = 50, n = 10,

r = 10. Queremos P (X ≥ 6). Temos:
P (X ≥ 6) = P (X = 6) + P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10).
Temos ainda que:

! !
50 − 10
10
6 10 − 6
p(X = 6) = !
50
10
210 × 91.390
=
10.272.278.170
102
19.191.900
=
10.272.278.170
∼
= 0, 0019,
! !
10 50 − 10
7 10 − 7
p(X = 7) = !
50
10
120 × 9.880
=
10.272.278.170
1.185.600
=
10.272.278.170
∼
= 0, 0001,
! !
10 50 − 10
8 10 − 8
p(X = 8) = !
50
10
45 × 780
=
10.272.278.170
35.100
=
10.272.278.170
∼
= 0,
! !
10 50 − 10
9 10 − 9
p(X = 9) = !
50
10
10 × 40
=
10.272.278.170
103
400
=
10.272.278.170
∼
= 0
e
! !
10 50 − 10
10 10 − 10
p(X = 10) = !
50
10
1×1
=
10.272.278.170
1
=
10.272.278.170
∼
= 0.
Finalmente, temos:
P (X ≥ 6) = P (X = 6) + P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10)
19.191.900 1.185.600 35.100
= + + +
10.272.278.170 10.272.278.170 10.272.278.170
400 1
+ +
10.272.278.170 10.272.278.170
20.413.001
=
10.272.278.170
∼
= 0, 002.
Vemos então que, mais uma vez, Lucas está ferrado! Além disso, temos neste
caso:
10 10 × 0, 2(1 − 0, 2)(50 − 10) ∼

E(X) = 10 × = 2, e V ar(X) = = 13, 0612.
50 50 − 1
Observação 11.11. Os dois últimos exemplos envolvendo Lucas podem pa-

recer de mesma natureza, porém, são bastante distintos (tais como também
seus resultados). No primeiro, ele chuta a resposta de 10 questões de múltipla
104
escolha, cada uma com 5 alternativas, sendo apenas 1 delas correta. Isso se-
ria equivalente a fazer 10 sorteios em 10 caixas, cada caixa com 5 bolinhas,
sendo 4 vermelhas e 1 verde, assim, o resultado de um sorteio numa caixa
não afeta as probabilidades do resultado do sorteio na caixa seguinte. Quando
se coloca todas as bolinhas numa única caixa, temos algo equivalente a uma
estranha prova onde temos 50 alternativas e destas, 10 estão certas, de forma
que quando se chuta a uma resposta, se o chute for certeiro, sobram 49 outras
respostas, das quais, 9 estão corretas e 40 estão incorretas, caso o chute vá
pra fora, das 49 respostas que sobrarem, serão 10 corretas e 39 incorretas, de
forma que os próximos chutes tem a sua probabilidade afetada pelo resultado
do primeiro.
11.2.5 Modelo de Poisson

Nesta distribuição, mais uma vez, vamos contar o número de sucessos
obtidos, porém, não em relação ao número de tentativas, mas sim em relação
a algum perı́odo contı́nuo. Este caso se aplica quando queremos contar o
número de ocorrência de determinado evento (o que é discreto) num intervalo
contı́nuo, como o tempo, a distância, a área, etc. Alguns exemplos onde a
distribuição de Poisson se aplica:
Número de acidentes por hora;
Número de clientes por dia;
Número de vendas por mês;
Número de furos por metro quadrado;
Número de buracos por quilômetro...
O menor número possı́vel de ocorrências é sempre zero enquanto o maior
105
é, teoricamente, infinito. Nesta distribuição, temos:
e−λ λk
p(X = k) = ,
k!
onde a variável aleatória X representa o número de ocorrências do evento

de interesse, λ é o número médio destas ocorrências e e é uma constante
irracional dada aproximadamente por e ∼ = 2, 71828182845904. Neste caso,
temos E(X) = V ar(X) = λ.
Observação 11.12. Poisson lê-se “Poasson” (não me pergunte o porquê).
Exemplo 11.13. Uma consessionária vende semanalmente, uma média de

2, 2 carros. Vamos calcular a probabilidade de numa determinada semana
esta consessionária vender 3 ou mais carros.
Neste caso, temos:
p(X ≥ 3) = p(X = 3) + p(X = 4) + p(X = 5) + p(X = 6) + ...
o que é uma soma infinita. Vamos utilizar outra estratégia:
p(X ≥ 3) = 1 − p(X < 3) = 1 − p(X = 2) − p(X = 1) − p(X = 0).
Temos:
e−2,2 2, 22 ∼ 0, 1108 × 4, 84 ∼
p(X = 2) = = = 0, 2681,
2! 2
e−2,2 2, 21 ∼ 0, 1108 × 2, 2 ∼
p(X = 1) = = = 0, 2438
1! 1
e−2,2 2, 20 ∼ 0, 1108 × 1 ∼
p(X = 0) = = = 0, 1108,
0! 1
106
assim:
p(X ≥ 3) = 1 − p(X < 3)

= 1 − p(X = 2) − p(X = 1) − p(X = 0)
∼
= 1 − 0, 2681 − 0, 2438 − 0, 1108
∼
= 0, 3773.
11.3 Exercı́cios
Exercı́cio 35. Ao lançar três dados, qual a probabilidade de que o produto
dos resultados obtidos seja múltiplo de seis?
Exercı́cio 36. Num cassino, existe um jogo onde o apostador rola dois dados
e ele vence se a soma dos resultados dos dois dados for um número primo.
Qual a probabilidade de vitória deste apostador (supondo dados honestos)?
Exercı́cio 37. Num jogo, são espalhados 50 cartas, divididas em pares, sobre
uma mesa. As duas cartas de cada par são iguais e cartas de pares distintos
são diferentes. Suponha que duas dessas cartas são retiradas da mesa ao
acaso. Qual a probabilidade de essas duas cartas serem iguais é?
Exercı́cio 38. João vai lançar N vezes um dado não viciado de 10 faces
numeradas de 1 a 10, até obter um resultado maior do que 5. Qual a proba-
bilidade de N ser maior que 5?
Exercı́cio 39. Numa determinada cidade, a distribuição do número X de

carros por famı́lia é de acordo com a tabela abaixo:
X 0 1 2 3 4 5
P (X) 0, 15 0, 5 0, 2 0, 1 0, 04 0, 01
Com base nestas informações:
a) Calcule o número médio µ de carros por famı́lia;
107
b) Calcule o desvio padrão σ do número de carros por famı́lia;
c) Calcule a probabilidade P (µ − σ ≤ X ≤ µ + σ).
Exercı́cio 40. Um motorista vai fazer uma viagem de 600km com um carro
que consome um litro de combustı́vel a cada 8km. O preço por litro do com-
bustı́vel é R$2, 89 e, pelo histórico deste motorista, sabe-se que ele tem pro-
babilidade 0, 1 de cometer uma infração leve, 0, 05 de cometer uma infração
média, 0, 01 de cometer uma infração grave e 0, 001 de cometer uma infração
gravı́ssima. Se a multa por infração segue a tabela abaixo:
Tipo de infação Valor da penalidade

Leve R$88, 38
Média R$130, 16
Grave R$195, 23
Gravı́ssima R$293, 47
Faça um estudo da variável aleatória X = valor gasto na viagem, construindo

sua distribuição de probabilidade (como foi feito na questão anterior) e cal-
cule também sua esperança e seu desvio padrão (suponha que o motorista
cometerá no máximo, uma infração de trânsito na viagem).
Exercı́cio 41. Sabe-se que 7% dos bezerros de determinada fazenda são

estéreis. Com base nesta informação:
a) Calcule a probabilidade de, num grupo de 5 bezerros, pelo menos 1 ser

estéril;
b) Calcule a probabilidade de, num grupo de 4 bezerros, pelo menos 1 não

ser estéril.
Exercı́cio 42. Numa central de atendimento telefônico, o número de telefo-

nemas recebidos por minuto segue o modelo de Poisson, com média λ = 6.
Com base nesta informação:
108
a) Calcule a probabilidade desta central passar um minuto sem receber
nenhuma chamada;
b) Calcule a probabilidade desta central receber mais de 10 chamadas em

um minuto.
Exercı́cio 43. Uma costureira costurou 12 camisetas de uniforme para um

time esportivo, porém, como ela fez com pressa, 3 delas sairam com defeito.
Qual a probabilidade de no time titular, composto por 5 atletas, nenhum
uniforme seja defeituoso? E de todas as defeituosas serem do time titular?
Exercı́cio 44. Um lote com 30 processadores foi enviado para uma empresa.
Sabe-se que, destes, 3 não estão funcionando bem. A empresa selecionará
aleatóriamente 5 destes processadores para testar, e aceitará todo o lote caso
pelo menos 4 destes funcionarem perfeitamente. Qual a probabilidade do lote
ser aceito?
Exercı́cio 45. No trevo de entrada de uma cidade, em média, 15 carros

passam por minuto. Calcule a probabilidade de, neste trevo, não passarem
mais do que 5 carros num determinado munito.
Exercı́cio 46. Uma seguradora de veı́culos estima que 0, 05% dos seus segu-
rados sofrerão determinado acidente no próximo ano. Esta seguradora possui
50.000 contratos com cobertura para este tipo de acidente. Com base nestas
informações:
a) Qual o número esperado de sinistros contra estas apólices no próximo

ano?
b) Qual a probabilidade de 5 ou menos sinistros sejam registrados no

próximo ano?
Exercı́cio 47. Numa determinada loteria, 5 números são sorteados dentre

50 possı́veis. Os apostadores escolhem 10 números e, quem acertar os 5
109
sorteados ganha um prêmio de R$1.000.000, 00, enquanto quem acertar 4
dos 5 sorteados ganha R$10.000, 00 e, quem não acertar nenhum número,
ganha R$1, 00. Com base nestas informações:
a) Qual a probabilidade de um apostador acertar 5 números?
b) Qual a probabilidade de um apostador acertar 4 números?
c) Qual a probabilidade de um apostador errar todos os números?
d) Qual o valor esperado para uma aposta?
110
Capı́tulo 12
Variáveis Aleatórias Contı́nuas
Uma variável aleatória contı́nua X é uma variável aleatória cujos possı́veis

valores formem um intervalo. Toda variável aleatória contı́nua tem um
número infinito de possı́veis resultados, enquanto algumas variáveis aleatórias
discretas assumem apenas alguns possı́veis valores.
Temos alguns exemplos de variáveis aleatórias contı́nuas:
A altura de uma pessoa, escolhida ao acaso;
O peso de um animal, escolhido ao acaso;
O tempo de duração de uma lâmpada, escolhida ao acaso;
O tempo de vida de um inseto, escolhido ao acaso.
Em todos os casos, temos um número real como resultado do experimento

aleatório. Em alguns desses casos, é um número real num intervalo finito
(nenhuma pessoa tem altura superior a 3m), noutros, não (uma lâmpada,
teoricamente, pode durar eternamente).
111
12.1 Função densidade de probabilidades (FDP)
Tendo entendido o que é uma variável aleatória contı́nua, temos a pergunta:
como atribuir probabilidades para este tipo de variável?
A resposta a esta pergunta se dá através de uma função com carac-

terı́sticas especı́ficas, chamada função densidade de probabilidades. Para
entender melhor este conceito, vejamos o seguinte exemplo.
Exemplo 12.1. Foi observado o peso de 1500 pessoas adultas, selecionadas

aleatóriamente. Os resultados foram colocados num histograma, que segue
abaixo:
Vemos que existe uma simetria aproximada em torno do valor 70kg para a
variável aleatória X = peso. A maioria dos valores se encontra no intervalo
[50; 90].
Podemos ajustar uma função densidade com base nestas informações,
como segue abaixo.
112
A probabilidade de o valor de X se localizar num determinado intervalo
é dada pela área entre o gráfico desta função e os limites deste intervalo.
Uma função densidade é uma função como a função do exemplo acima.

De maneira mais geral, temos:
Definição 12.2. Dizemos que uma função y = f (x) é uma função densidade
para uma variável aleatória X se:
f (x) ≥ 0, ∀x ∈ R;
R f (x)dx = 1.‘
R
Para calcularmos a probabilidade de uma variável aleatória contı́nua X

assumir um valor no intervalo [a; b], devemos calcular:
Z b
p(a ≤ X ≤ b) = f (x)dx.
a
Observação 12.3. Veja que, de acordo com a definição, temos p(X = c) =

0, para qualquer valor de c, assim, p(a ≤ X ≤ b) = p(a < X ≤ b) = p(a ≤
X < b) = p(a < X < b).
113
12.1.1 Função de distribuição acumulada (FDA)
Além da função densidade f (x) para uma variável aleatória X, temos também
a função de distribuição acumulada F (x), dada por:
Z x
F (x) = p(X < x) = f (t)dt.
−∞
Exemplo 12.4. Um fabricante de SSD oferece 6 meses de garantia para

os seus produtos, trocando gratuitamente qualquer produto que apresentar
defeito neste perı́odo. Segundo algumas análises, o tempo X de vida útil
(em anos) destes produtos é dado como uma variável aleatória com função
densidade de probabilidades dada por:
(
e−x , para x ≥ 0
f (x) = .
0, para x < 0
Vamos calcular a probabilidade de um SSD comprado nesta empresa precisar

ser substituı́do ainda durante a garantia, ou seja, vamos calcular p(X ≤ 12 ).
114
Temos:

1 1
p X≤ = F
2 2
Z 1
2
= f (x)dx
−∞
1
Z0 Z
2
= f (x)dx + f (x)dx
−∞ 0
Z 0 Z 1
2
= 0dx + e−x dx
−∞ 0
1
−x
= 0 − e |0 2
1
= 0 + e0 − √
e
∼
= 0, 3935.
12.1.2 Esperança, variância e desvio padrão

Para uma variável aleatória contı́nua X com função densidade de proba-
bilidades f (x), temos:
Z
E(X) = xf (x)dx;
R
Z Z 2
2 2 2
V ar(X) = E(X ) − [E(X)] = x f (x)dx − xf (x)dx ;
R R
s Z 2
p Z
DP (X) = V ar(X) = x2 f (x)dx − xf (x)dx .
R R
Exemplo 12.5. Segundo algumas análises, o tempo X de vida útil (em anos)
destes SSDs produzidos por determinada empresa é dado como uma variável
115
aleatória com função densidade de probabilidades dada por:
(
e−x , para x ≥ 0
f (x) = .
0, para x < 0
Vamos calcular a vida útil esperada de um SSD produzidos por esta empresa,
tal como também o desvio padrão deste valor. Temos:
Z
E(X) = xf (x)dx
ZR0 Z ∞
= xf (x)dx + xf (x)dx
−∞ 0
Z 0 Z ∞
= 0dx + xe−x dx
−∞ −x 0
−x ∞

= −xe − e 0
= 1,
Z
V ar(X) = x2 f (x)dx − 12
ZR0 Z ∞
2
= x f (x)dx + x2 f (x)dx − 1
−∞ 0
Z 0 Z ∞
= 0dx + x2 e−x dx − 1
−∞2 −x 0
∞
= −x e − 2xe−x − 2e−x 0 − 1
= 1,
daı́, temos que:

√
DP (X) = 1 = 1.
116
12.2 Distribuições de probabilidade
Temos diversos tipos de modelos de distribuições de probabilidades para
variáveis aleatórias contı́nuas. Estudaremos neste capı́tulo os principais.
12.2.1 Modelo uniforme

O modelo mais simples de distribuição de probabilidade de uma variável
aleat?oia contı́nua é o modelo uniforme. Dizemos que uma variável aleatória
contı́nua X tem modelo uniforme U (a; b) se a sua função densidade de pro-
babilidades é dada por:
(
1
b−a
,para a < x < b
f (x) = .
0, caso contrário
Neste caso, temos também:
a+b (b − a)2
E(X) = , e V ar(X) = .
2 12
Exemplo 12.6. Devido a um problema na fabricação, a amperagem das bate-

rias produzidas num determinado lote podem ser considerados uma variável
aleatória contı́nua, com distribuição uniforme U (40; 65). Sabendo que de-
terminado veı́culo apresenta bom funcionamento com baterias de amperagem
entre 50 e 60, vamos calcular a probabilidade do uso de uma bateria deste lote,
escolhida aleatóriamente, não comprometer o funcionamento dese veı́culo.
Temos:
(
1
25
,para 40 < x < 65
f (x) = .
0, caso contrário
117
Assim:
Z 60 Z 60
1 10
P (50 < X < 60) = f (x)dx = dx = = 0, 4.
50 50 25 25
Neste caso, temos ainda que:
40 + 65 105 (65 − 40)2 625 ∼

E(X) = = = 52, 5 e V ar(X) = = = 52, 0833.
2 2 12 12
12.2.2 Modelo exponencial

Este modelo se aplica a situações em que a probabilidade de sucesso
é maior em intervalos mais próximos de 0 do que em intervalos de mesmo
tamanho que estejam mais distantes de 0. Dizemos que uma variável aleatória
contı́nua X tem modelo exponencial com taxa λ se sua função densidade de
probabilidades for:
(
λe−λx , para x ≥ 0
f (x) = .
0, para x < 0
Neste caso, temos ainda que:
1 1 1
E(X) = e V ar(X) = 2 ⇒ DP (X) = .
λ λ λ
Exemplo 12.7. Sabe-se que o tempo médio de vida útil de deteminado mo-
delo de celular é de 100.000 horas, e que a vida útil de celulares deste modelo
seguem o modelo exponencial. Num lote com 10.000 celulares deste modelo,
camos calcular quantos devem ter vida útil superior a 100.000 horas (pouco
menos de 11 anos e meio).
Temos que:
1
E(X) = 105 = ⇒ λ = 10−5 ,
10−5
118
desta forma:
Z ∞
P (X > 100.000) = f (x)dx
Z100.000
∞
−5
= 10−5 e−10 x dx
105
−5
= −e−10 x |∞
105
1
=
e
∼
= 0, 3679,
Desta forma, aproximadamente 36, 79% destes celulares devem ter vida útil
superior a 100.000 horas, assim, num lote com 10.000 celulares, 3679 devem
ter vida útil superior a a 100.000 horas.
12.2.3 Modelo normal

Este é o modelo mais comum e mais importante das distribuições para
variáveis aleatórias contı́nuas. Este modelo foi introduzido em 1730 pelo
francês Abraham de Moivre (1667 − 1754) e muito utilizado pelo alemão
Carl Friedrich Gauss (1777 − 1855) nos seus estudos de astronomia, levando
muitos a pensar inclusive que foi Gauss quem o desenvolveu.
Muitos dos fenômenos aleatórios de interesse comportam-se como no

exemplo apresentado no inı́cio do capı́tulo, com valores muito frequentes
em volta da média e com a frequência diminuindo conforme nos afastamos
da média.
A distribuição normal se caracteriza pela função densidade:
1 1 x−µ 2
f (x) = √ e2( σ ) ,
2πσ 2
119
onde µ = E(X) e σ = DP (X) são parâmetros da distribuição.
Dizemos que uma variável aleatória contı́nua X tem modelo normal N (µ; σ 2 )
se a função dada acima é a sua função densidade de probabilidades.
Sobre o modelo normal, temos as seguintes caracterı́sticas:
A média (ou esperança) da distribuição é µ;
A variância da distribuição é σ 2 ;
O desvio padrão da distribuição é σ;
A curva normal é simétria em volta de µ;
Os pontos de inflexão da curva são µ − σ e µ + σ;

R
R
f (x)dx = 1.
A distribuição normal depende dos parâmetros µ e σ.
120
Neste momento, você deve estar pensando “estou ferrado, vou ter que
calcular integrais com esta função maluca aı́”...
Distribuição normal padronizada
Calma, nem tudo é tão ruim como parece. Para contornar este cálculo
(que seria muito difı́cil), temos tabelados os valores destas integrais, porém,
para utilizar a tabela (que se encontra no final do presente texto), devemos
antes padronizar a nossa distribuição. Os valores que temos tabelados são
para N (0; 1), ou seja uma distribuição normal com média µ = 0 e variância
σ 2 = 1. Dada uma variável aleatória contı́nua X com distribuição normal
N (µ; σ 2 ), podemos fazer:
X −µ
Z= .
σ
Esta nova variável se chama variável normal padronizada, e é com base

nela que utilizaremos a tabela. Note que esta normalização não afeta o for-
121
mato da distribuição, apenas muda a sua escala.
Se temos uma variável aleatória contı́nua X com distribuição N (µ; σ 2 ),

fazendo a padronização supracitada, temos:
p(a < X < b) = p(a − µ < X − µ < b − µ)

a−µ X −µ b−µ
= p < <
σ σ σ

a−µ b−µ
= p <Z< .
σ σ
Exemplo 12.8. Vamos usar a tabela para calcular algumas probabilidades,

com Z uma variável aleatória contı́nua com distribuição N (0; 1). Temos:
p(Z ≤ 1, 42) = 0, 9222, pois:
p(Z ≤ 1, 42) = A(1, 42)

= 0, 9222;
p(Z < 0, 87) = 0, 8078, pois:
p(Z < 0, 87) = A(0, 87)

= 0, 8078;
p(Z > 1, 06) = 0, 1446, pois:
p(Z > 1, 06) = 1 − p(Z ≤ 1, 06)

= 1 − A(1, 06)
= 1 − 0, 8554
= 0, 1446;
122
p(0, 12 < Z ≤ 0, 99) = 0, 2911, pois:
p(0, 12 < Z ≤ 0, 99) = p(Z ≤ 0, 99) − p(Z < 0, 12)

= A(0, 99) − A(0, 12)
= 0, 8389 − 0, 5478
= 0, 2911;
p(Z ≤ −0, 64) = 0, 2611, pois:
p(Z ≤ −0, 64) = p(Z ≥ 0, 64)

= 1 − p(Z < 0, 64)
= 1 − A(0, 64)
= 1 − 0, 7389
= 0, 2611;
p(−0, 2 < Z ≤ 1, 33) = 0, 4875, pois:
p(−0, 2 < Z ≤ 1, 33) = p(Z ≤ 1, 33) − p(Z < −0, 2)

= p(Z ≤ 1, 33) − p(Z > 0, 2)
= p(Z ≤ 1, 33) − [1 − p(Z > 0, 2)]
= A(1, 33) − [1 − A(0, 2)]
= A(1, 33) + A(0, 2) − 1
= 0, 9082 + 0, 5793 − 1
= 0, 4875.
Exemplo 12.9. Num determinado grupo de pessoas, a altura (em centı́metros)

é uma variável aleatória contı́nua X com distribuição N (170; 100). Vamos
calcular:
123
A probabilidade de alguém desta população ter altura maior que 1, 85m.
Temos:

185 − 170
p(X > 185) = p Z > ( veja que µ = 170 e σ 2 = 100)
10
= p(Z > 1, 5)
= 1 − p(Z ≤ 1, 5)
= 1 − A(1, 5)
= 1 − 0, 9332
= 0, 0668;
A probabilidade de alguém desta população ter altura menor que 1, 5m.

Temos:

150 − 170
p(X < 150) = p Z <
10
= p(Z < −2)
= p(Z > 2)
= 1 − p(Z ≤ 2)
= 1 − A(2)
= 1 − 0, 9772
= 0, 0228;
A proporção desta população com altura entre 1, 6m e 1, 8m. Temos:

160 − 170 180 − 170
p(160 < X < 180) = p <Z<
10 10
= p(−1 < Z < 1)
= p(Z < 1) − p(Z < −1)
= p(Z < 1) − p(Z > 1)
= p(Z < 1) − [1 − p(Z ≤ 1)]
124
= A(1) − [1 − A(1)]
= 2A(1) − 1
= 2 × 0, 8413 − 1
= 0, 6826,
podemos então concluir que 68, 26% desta população tem altura entre
1, 6m e 1, 8m.
Observação 12.10. Vale, para toda variável aleatória contı́nua X com dis-
tribuição N (µ; σ 2 ) que:
P (µ − σ < X < µ + σ) = 0, 6826;
P (µ − 2σ < X < µ + 2σ) = 0, 9544;
P (µ − 3σ < X < µ + 3σ) = 0, 9974.
Exemplo 12.11. Vamos calcular o valor de z para o qual:
P (0 ≤ Z < z) = 0, 4975. Temos:
0, 4975 = P (0 ≤ Z < z)
= P (Z < z) − p(Z ≤ 0)
= P (Z < z) − 0, 5
⇓
p(Z < z) = 0, 9975
⇓
A(z) = 0, 9975
z = 2, 81.
P (Z ≥ z) = 0, 2. Temos:
0, 2 = P (Z ≥ z)
125
= 1 − P (Z < z)
⇓
p(Z < z) = 0, 8
⇓
A(z) = 0, 8
z ∼
= 0, 84.
Exemplo 12.12. Uma fábrica de pneus fabrica pneus (hum, é mesmo?)

cuja quilometragem de uso antes de apresentar algum defeito é uma variável
aleatória contı́nua X com distribuição N (40.000; 25.000.000). Esta empresa
desejaoferecer uma garantia por quilometragem rodada de cada pneu, de
forma que 95% dos seus pneus não acione a garantia. Vamos calcular qual
a quilometragem máxima que esta empresa deve garantir.
Temos que calcular um valor de x para o qual p(X > x) = 0, 95. Temos
µ = 40.000 e σ = 5.000, assim:
p(X > x) = 0, 95
⇓
x − 40.000
p(Z > z) = 0, 95, com z =
5.000
⇓
p(Z < −z) = 0, 95
⇓
A(−z) = 0, 95
⇓
−z ∼
= 1, 645
⇓
x − 40.000
−1, 645 ∼
=
5.000
126
⇓
x ∼
= 31.775.
Desta forma, esta empresa deve oferecer garantia até a quilometragem de

31.775 para que apenas 5% dos pneus acionem a garantia. Talvez, se ela
oferecer garantia até 30.000km ela terá um número mais “bonito”, além de
diminuir ainda mais o númer de pneus que acionarão a garantia. Vejamos:

30.000 − 40.000
p(X > 30.000) = p Z >
5.000
= p (Z > −2)
= p (Z < 2)
= A(2)
= 0, 9772.
Vemos então que, com a empresa oferecendo garantia de 30.000km, 97, 72%
dos pneus não acionarão a garantia, ou seja, apenas 2, 28% acionarão esta
garantia.
12.3 Exercı́cios
Exercı́cio 48. Verifique as expressões correspondentes a E(X) e V ar(X)
nos modelos uniforme e exponencial.
Exercı́cio 49. O diâmetro (em cm)de um cabo elétrico é uma variável aleatória
contı́nua com função densidade de probabilidades dada por:
(
6x(1 − x), para 0 < x < 1
f (x) = .
0, caso contrário

a) Verifique se f (x) é realmente uma função densidade de probabilidades;
127
b) Obtenha F (x);
c) Calcule a probabilidade do diâmetro ser igual a 5mm;
d) Calcule a probabilidade do diâmetro estar entre 4mm e 6mm.
Exercı́cio 50. O valor anual (em milhões de reais) gasto com a manutenção
do asfalto de uma cidade de interior é uma variável aleatória contı́nua X
com função de densidade de probabilidades dada por:
(
8x−4
9
,para 12 < x < 2
f (x) = .
0, caso contrário
a) Verifique se f (x) é realmente uma função densidade de probabilidades;
b) Obtenha F (x);
c) Calcule a deste valor ser igual a R$3.000.000, 00;
c) Calcule a deste valor estar entre igual R$3.000.000, 00 e R$4.500.000, 00.
Exercı́cio 51. O tempo (em minutos) de conclusão de uma maratona é uma

variável aleatória contı́nua com distribuição U (50; 120). Com base nestas
informações:
a) Qual a probabilidade de um atleta terminar em exatamente 60min?
b) Qual a probabilidade de um atleta terminar a prova em menos de

60min?
c) Qual o tempo médio de prova dos atletas?
d) Qual o desvio padrão deste tempo de prova?
128
Exercı́cio 52. O tempo de espera num determinado consultório é uma variável
aleatória contı́nua com distribuição exponencial, com tempo médio de espera
de 15 minutos.Com base nestas informações:
a) Qual a probabilidade de um paciente esperar menos de 10 minutos para

o atendimento?
b) Qual a probabilidade de um paciente esperar mais de 30 minutos para

o atendimento?
d) Qual o desvio padrão do tempo de espera?
Exercı́cio 53. Sendo Z uma variável aleatória contı́nua com modelo N (0; 1),
calcule:
a) p(1, 22 ≤ Z < 1, 75);
b) p(Z ≥ 2, 01);
c) p(Z < −0, 84);
d) p(−1 < Z < 0, 5);
e) p(Z > 0, 91);
f ) p(−2 < Z ≤ −0, 47).
Exercı́cio 54. Sendo Z uma variável aleatória contı́nua com modelo N (0; 1),
calcule o valor de z para o qual:
a) p(Z < z) = 0, 8212;
b) p(Z > z) = 0, 7454;
c) p(−z < Z < z) = 0, 5;
d) p(0 ≤ Z ≤ z) = 0, 1596
129
e) p(Z > z) = 0, 1162;
f ) p(−1 < Z < z) = 0, 6012.
Exercı́cio 55. Numa escola, para a aprovação, é necessário alcançar a média

de 6, 0 pontos. Se as notas dos estudantes desta escola estão distribuı́dos
normalmente, com média 5, 0 e desvio padrão 1, 5, qual porcentagem dos
estudantes serão aprovados? Qual a probabilidade de um estudante escolhido
aleatóriamente ter obtido nota 9, 0? E nota maior que 9, 0?
Exercı́cio 56. Numa universidade, o tempo de prova de seu vestibular de

ingresso é uma variável aleatória contı́nua com distribuição N (90; 225). Com
base nestas informações:
a) Qual a probabilidade de, um aluno sorteado ao acaso, termine a prova

em menos de 60 minutos?
b) Qual a probabilidade de, um aluno sorteado ao acaso, termine a prova

em mais de 100 minutos?
c) Qual deve ser o tempo de prova para garantir que 95% dos vestibulandos
terminem a prova?
d) Qual o intervalo central no qual 80% dos estudantes terminam a prova?
130
TABELA DA DISTRIBUIÇÃO NORMAL PADRÃO
131
Referências Bibliográficas
[1] OLIVEIRA, D. C. R.; OLIVEIRA, M. S. Estatı́stica e Probabilidade.

Cursos Diversos. Data completa 2015. Notas de Aula. Universidade Fe-
deral de São João del Rei.
[2] MORETTIN, P. A.; BUSSAB, W. O. Estatı́stica Básica. 8ª edição. São

Paulo: Saraiva, 2013. ISBN 978-85-0220-799-8.
[3] CRESPO, A.A. Estatı́stica Fácil. 19ª edição. São Paulo: Saraiva, 2009.
ISBN 978-85-0208-106-2.
[4] LARSON, R.; FARBER, E. Estatı́stica Aplicada. 4ª edição. São Paulo:

Pearson Prentice Hall, 2010. ISBN 978-85-7605-372-9.
[5] CASTANHEIRA, N. P. Estatı́stica: aplicada a todos os nı́veis. 4ª edição.

Curitiba: IBPEX, 2008. ISBN 978-85-7838-019-9.
[6] LAPPONI, J. C. Estatı́stica usando Excel. 4ª edição. Rio de Janeiro:

Elsevier, 2005. ISBN 978-85-3521-574-8.
[7] MORETTIN, L. G. Estatı́stica Básica: probabilidade e inferência. São

Paulo: Makron Books, 2010. ISBN 978-85-7605-370-5.
[8] MUCELIN, C. A. Estatı́stica. Curitiba: Livro Técnico, 2010. ISBN 978-

85-6368-708-1.
[9] TRIOLA, M. F. Introdução à Estatı́stica. 11ª edição. Rio de Janeiro:

LTC, 2013. ISBN 978-85-2162-206-2.
132
[10] SWEENEY, D. J.; WILLIAMS, T. A.; ANDERSON, D. R. Estatı́stica
aplicada à administração e economia. 3ª edição. São Paulo: Cengage
Learning, 2013. xxi, ISBN 978-85-2211-281-4.
[11] GOTELLI, N. J.; ELLISON, A. M. Princı́pios de estatı́stica em ecologia.

Porto Alegre: Artmed, 2011. ISBN 978-85-3632-432-6.
[12] JACQUES, S. M. C. Bioestatı́stica princı́pios e aplicações. Porto Alegre:

ArtMed, 2011. 1 recurso online. ISBN 978-85-3631-144-9.
[13] OLIVEIRA, M. A. Probabilidade e estatı́stica: um curso introdutório.

Brası́lia: IFB, 2011. (Novos autores da educação profissional e tec-
nológica). ISBN 978-85-6412-407-3.
[14] FERREIRA, D. F.; Estatı́stica básica. Lavras: UFLA, 2005.
[15] NAZARETH, H. A. R. S. Curso básico de estatı́stica. São Paulo:

ATICA, 2005.
133

Notas de Aula - Estatística

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Notas de Aula - Estatística

Uploaded by

Copyright:

Available Formats

IFSULDEMINAS

campus Poços de Caldas

Você encontrará ao longo do texto alguns exercı́cios criados pelo professor

Aproveito a oportunidade para prestar a minha admiração e o meu agra-

Crı́ticas, sugestões, correções ou quaisquer tipo de opiniões que possam

11 Variáveis Aleatórias Discretas 91

12 Variáveis Aleatórias Contı́nuas 111

Vamos neste capı́tulo começar os nossos estudos em estatı́stica. Antes

1.1 O que é estatı́stica?

1.2 Como funciona a estatı́stica?

Amostra: É qualquer subconjunto (ou seja, qualquer pedaço) da po-

Técnicas de amostragem: É um nome autoexplicativo. São as técnicas

Análise descritiva: É um conjunto de técnicas utilizadas para descrever

Probabilidade: É a teoria que utilizamos para estudar a incerteza asso-

Inferência estatı́stica: É o conjunto de técnicas que nos permitem

Por volta do século XIX, a estatı́stica começou a ser utilizada de forma

a) Um prefeito que deseja descobrir a renda média dos habitantes de sua

b) Para verificar a quantidade de plaquetas no sangue de um paciente, um

c) Uma loja querendo saber sobre o nı́vel de satisfação de seus clientes,

Exercı́cio 2. Determine e justifique, em cada caso descrito no exercı́cio

Neste capı́tulo, vamos entender o que são e como se classificam as variáveis

Exemplo 2.2. No IFSULDEMINAS - campus Poços de Caldas, o nı́vel

Exemplo 2.3. Numa escola, o nı́vel de escolaridade dos estudantes de uma

Podemos ver no exemplo acima que uma mesma caracterı́stica pode ou

Qualitativa: Quando se refere a uma qualidade (como sexo, estado civil,

Existem algumas sutilezas que merecem atenção...

Exemplo 2.4. A escolaridade é uma variável qualitativa, quando medida em

Exemplo 2.5. Se numa pesquisa de satisfação em relação ao atendimento de

Além da classificação em variável qualitativa e variável quantitativa, exis-

Variável qualitativa ordinal: É uma variável qualitativa em que os possı́veis

Sexo Altura Peso Idade Filhos Fuma Disc. Alunos Esc.

Neste capı́tulo, vamos discutir algumas técnicas de amostragem, as quais

3.1 O que é amostragem?

 Quando vamos cozinhar, a nossa população é o alimento que estamos

 Quando vamos escolher uma música para ouvir, a nossa população é

3.1.1 Por que fazer amostragem?

 Temos pouco tempo disponı́vel (numa pesquisa sobre a intenção de

 A coleta de informações individualmente é muito cara, trabalhosa ou

 Não é possı́vel consultar toda a população (não podemos, por exemplo,

Por outro lado, a amostragem não é indicada em alguns casos, a saber:

 A população é pequena, pois, neste caso, simplesmente consultamos

 Existe a necessidade de alta precisão dos resultados, pois qualquer

Num estudo estatı́stico, para se determinar se vale ou não a pena fa-

3.2.1 Amostragem aleatória simples (AAS)

Exemplo 3.1. Para sortear n = 5 funcionários dentre os N = 50 que

3.2.2 Amostragem sistemática (AS)

Para utilizá-lo, basta numerar os N componentes da população, determi-

3.2.3 Amostragem estratificada (AE)

Uma vez realizada a extratificação da população, realizamos a AAS ou

Exemplo 3.3. Para entender os efeitos do regime remoto na qualidade do

3.2.4 Amostragem por conglomerado (AC)

Feita a separação da população em conglomerados, utiliza-se a AAS ou AS

Exercı́cio 5. Um gerente de controle de qualidade estudará fontes de com-

Exercı́cio 6. Num depósito em uma determinada empresa produtora de ma-

Neste capı́tulo, estudaremos métodos para organizarmos os valores obser-

4.1 Variáveis qualitativas unidimensionais

Exemplo 4.1. Entre os 400 moradores de um bairro afastado de Poços de

Veja que é fácil observarmos a tabela acima e entendermos como é a

Talvez você esteja se perguntando o porquê da coluna referente a pro-

Como assim agrupar resultados? Simplesmente representamos de maneira

Exemplo 4.2. Numa emrpesa com 2.500 funcionários, foram consultadas as

Na tabela acima, além das colunas de frequência (fi , também chamada

Por fim, os totais não foram calculados na frequência acumulada e nem na

Em geral, toda tabela contém a coluna referente a frequência absoluta

Quando vamos cozinhar, a nossa população é o alimento que estamos

Quando vamos escolher uma música para ouvir, a nossa população é

Temos pouco tempo disponı́vel (numa pesquisa sobre a intenção de

A coleta de informações individualmente é muito cara, trabalhosa ou

Não é possı́vel consultar toda a população (não podemos, por exemplo,

A população é pequena, pois, neste caso, simplesmente consultamos

Existe a necessidade de alta precisão dos resultados, pois qualquer