You are on page 1of 53

Matemática 

Aplicada à Engenharia Química

2012/2013
O que é a Estatística?

 Estatística é a ciência que se ocupa da recolha e tratamento de informação, 
i.e., da obtenção de uma amostra, sua descrição e interpretação e, com 
apoio da teoria da probabilidade efectuar inferências para a população e 
previsões da evolução futura do fenómeno em estudo.

 A Estatística é a ciência que nos guia na tomada de decisões em 
situação de incerteza.

Quando consultam um estatístico pedindo a análise de dados


recolhidos sem o seu aconselhamento prévio, pretendem um
diagnóstico – mas em geral só já é possível fazer uma AUTÓPSIA

R. A. Fisher
Principais tópicos da UC
 Estatística descritiva
– sumariar e descrever os aspectos relevantes num conjunto de 
dados. Recurso a tabelas, gráficos e indicadores numéricos.
 Teoria da Probabilidade ‐ Modelos probabilísticos
– apresentar os modelos mais usuais de fenómenos naturais nos 
quais se supõe intervir o acaso ‐ fenómenos aleatórios.
 Inferência estatística (estimação pontual, estimação intervalar, 
testes de hipóteses, Análise de Variância – ANOVA, Regressão 
Linear Simples)
– tirar conclusões para a população a partir do estudo da amostra;
– tomar decisões quanto ao(s) valor(es) de características 
importantes da população de onde foi retirada a amostra
 Controlo de Qualidade
Estatística Descritiva
 Objectivos da Estatística Descritiva
‒ condensar, sob a forma de tabelas os dados observados
‒ fazer a representação gráfica
‒ calcular medidas de localização, de dispersão e de forma

 Conceitos básicos em Estatística
‒ população: conjunto de todos os elementos que têm uma 
característica em comum (Ex: todos os alunos da FEUP )
‒ unidades estatísticas: são os elementos da população (os 
alunos) 
‒ variável: característica de interesse (ex:  ‐ a altura dos alunos 
da FEUP e  – a altura observada de um aluno)
‒ amostra: subconjunto da população, efectivamente observado
‒ outlier: valor observado que se distingue dos restantes dados
Estatística Descritiva
 Aos valores das características de interesse observadas nos 
elementos da amostra costuma chamar‐se dados. 
 Os dados podem ser de natureza
‒ quantitativa
 discreta (dados podem tomar um nº finito ou um nº infinito 
numerável de valores ‐ resultados de 100 lançamentos de 
um dado, nº de acidentes na VCI durante um determinado 
período de tempo) 
 contínua (resultam de uma medição: peso, altura, tempo, 
concentração, volume)
‒ qualitativa
 nominal (dados classificados por categorias ou classes não 
ordenadas: género, cor dos olhos, marcas de carros)
 ordinal (dados classificados por categorias ou classes 
ordenadas: avaliação dos estudantes numa escala de Não 
Satisfaz a Excelente)
Estatística Descritiva

 Estatística descritiva a uma dimensão:
‒ apenas uma só característica (variável) está em estudo
‒ amosta univariada
 Estatística descritiva a duas ou mais dimensões:
‒ duas ou mais características (variáveis) estão em estudo bem 
como as relações entre elas
‒ amostra bivariada ou multivariada
Caracterização de amostras univariadas
 Dados qualitativos
‒ Tabela de frequências 
‒ Diagrama de barras
‒ Diagrama circular

 Dados quantitativos
‒ Tabela de frequências
‒ Histograma de frequências
‒ Polígono de frequências e polígono de frequências acumuladas
‒ Estatísticas de localização, de dispersão e de forma
‒ Representação gráfica de estatísticas 
Caracterização de amostras univariadas
 Algumas definições

 Frequência absoluta da categoria ou classe  ‐
número de dados contidos na categoria ou classe 

 Número total de dados ‐

– nº de categorias ou classes

 Frequência relativa da categoria ou classe  ‐
número de dados da categoria ou classe  expresso como uma 
proporção do número total de dados 

 Frequência relativa acumulada da categoria ou classe  ‐


Caracterização de amostras univariadas
 Dados qualitativos – Exemplo (Guimarães,R.C. e Cabral,J.S., 2007)
Numa amostra constituída por 120 peças constatou‐se que 100 não tinham 
qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram 
irrecuperáveis

 Tabela de frequências

Categorias de peças Frequência absoluta Frequência relativa (%)


Sem defeito 100 83.3
Recuperáveis 15 12.5
Sucata 5 4.2
Caracterização de amostras univariadas
 Diagrama de barras:
‒ a frequência associada a cada categoria é representada pela altura da 
barra correspondente
Caracterização de amostras univariadas
 Diagrama circular:
‒ a frequência associada a cada categoria é representada pela área do 
sector correspondente
Caracterização de amostras univariadas
 Dados quantitativos contínuos – Exemplo (Guimarães,R.C. e Cabral,J.S., 2007)

Amostra constituída por 100 latas de pêssego em calda de uma determinada 
marca, cujo rótulo indica um peso médio líquido escorrido de 450 gramas.  
Na tabela incluem‐se os pesos observados na amostra.

452 455 425 453 464 438 457 444 447 454

441 450 457 445 454 450 429 442 454 447

455 436 444 453 421 438 432 452 445 458

440 451 446 436 441 448 435 447 427 450

443 450 432 449 445 436 433 441 449 443

448 449 437 437 449 440 424 453 438 452

447 435 443 451 426 449 441 451 445 454

453 445 449 431 446 437 441 428 450 447

447 440 441 430 439 454 439 444 455 448

459 450 456 440 445 442 430 436 450 454
Caracterização de amostras univariadas

 Construção de uma tabela de frequências
‒ Determinar o máximo, max , e o mínimo, min ,  valor do 
conjunto dos dados

‒ Calcular a amplitude total: max min

‒ Escolher um número de subintervalos (regra geral, de igual 
amplitude ‐ ) cuja reunião (sem sobreposição) cubra a 
amplitude total. Aos intervalos chamamos classes e aos 
extremos limites de classes. Consideraremos classes abertas à 
esquerda e fechadas à direita.

‒ Para cada classe calcula‐se a frequência absoluta, relativa e 
acumulada 
Caracterização de amostras univariadas
 Tabela de frequências

Freq. relativa
Classes Freq. absoluta Freq. relativa
acumulada
]420,425] 3 0.03 0.03
]425,430] 6 0.06 0.09
]430,435] 6 0.06 0.15
]435,440] 16 0.16 0.31
]440,445] 20 0.2 0.51
]445,450] 24 0.24 0.75
]450,455] 19 0.19 0.94
]455,460] 5 0.05 0.99
]460,465] 1 0.01 1
Caracterização de amostras univariadas
 Tabela de frequências
‒ qual o número de classes a adoptar?
‒ um número que não deve ser excessivo nem reduzido de mais 
de modo a não se perder a forma como as frequências se 
distribuem pelas classes.

 Duas regras utilizadas para determinar o número de classes 
com igual amplitude:
‒ regra de Sturges
 o número de classes é o inteiro mais próximo de  . log
‒ número de classes 

 Estas regras são meramente indicativas devendo adoptar‐se
números redondos para os limites inferior e superior por 
razões de ordem prática.
Caracterização de amostras univariadas
 Histograma de frequências:
‒ a frequência relativa associada a cada classe é representada pela 
altura da barra correspondente
Caracterização de amostras univariadas
 Histograma de densidade:
‒ a frequência relativa associada a cada classe é representada pela área 
da barra correspondente
Caracterização de amostras univariadas
 polígono de frequências:
‒ linha que une os pontos de abcissa igual ao ponto médio de cada 
classe e ordenada igual à frequência da classe respectiva
Caracterização de amostras univariadas
 polígono de frequências acumuladas:
‒ linha que une os pontos de abcissa igual ao limite superior de cada 
classe e ordenada igual à frequência acumulada da classe respectiva
Caracterização de amostras univariadas
 Dados quantitativos discretos – Exemplo (Guimarães,R. e Cabral,J., 2007)
No âmbito de um estudo realizado com o objectivo de caracterizar o 
comportamento dos clientes de um hipermercado, analisou‐se o número de 
ocupantes por veículo para 1000 veículos que entraram no parque 
automóvel do referido hipermercado, num sábado. 

 Tabela de frequências
Nº de ocupantes 
Frequência absoluta Frequência relativa (%)
por veículo
1 103 10.3
2 147 14.7
3 248 24.8
4 197 19.7
5 152 15.2
6 100 10.0
7 53 5.3
Caracterização de amostras univariadas
 Diagrama de barras:
‒ a frequência associada a cada categoria é representada pela altura da 
barra correspondente
Caracterização de amostras univariadas
 Estatísticas:
‒ Medidas calculadas a partir dos dados que nos permitem descrever 
globalmente e de forma objectiva o conjunto de valores que os dados 
tomam
 Estatísticas de localização
‒ Medida cujo valor referencia a posição dos dados
‒ Medidas mais usadas: média, mediana, moda e os quartis
 Estatísticas de dispersão
‒ Medida que caracteriza a variabilidade dos dados
‒ Medidas mais usadas: amplitude da amostra, amplitude interquartil, 
desvio médio, variância, coeficiente de variação, z‐scores
 Estatísticas de forma
‒ Medida que caracteriza a forma da distribuição de frequências
‒ Medidas mais usadas: coeficiente de assimetria e coeficiente de 
curtose
Caracterização de amostras univariadas
 Estatísticas de localização
Seja  , , … , um conjunto de  observações (i.e. uma amostra de 
dados)
‒ Média amostral: média aritmética dos dados

‒ desvio de uma observação relativamente à média:  ̅
‒ Facilmente se demonstra que:

‒ A média é o ponto de “equílibrio” de um conjunto de dados e nesse 
sentido a localização central por excelência.
Caracterização de amostras univariadas
 Propriedades da média 
1. Efectuando uma mudança de origem dos dados,  ,
, , … , então  ̅

2. Efectuando uma mudança de escala nos dados, i.e.,  ,
, ,…, então  ̅

3. Se juntarmos as duas vem que se  , , , … , então 
̅

4. Sejam  , , … , um conjunto de  observações de média  ̅ e 


, ,…, outro conjunto de  observações de média  então a 
̅
média do conjunto das  observações é 

5. O valor de  que minimiza a soma dos desvios quadráticos 
relativamente a essa constante  é precisamente a média amostral:
valor de  que minimiza ∑ é  ̅
Caracterização de amostras univariadas
 Estatísticas de localização
‒ A média apresenta uma desvantagem: é sensível a valores extremos 
da amostra. Uma medida robusta a valores extremos é a mediana.
‒ Mediana amostral: é o valor do meio, depois dos dados serem 
ordenados por ordem crescente de grandeza. Designemos por 
, ,⋯, tal que ⋯ então

se é ímpar

se é par

‒ A mediana é o valor tal que 50% dos dados é menor ou igual a esse 
valor e 50% dos dados é maior ou igual
‒ Num histograma de frequências como identificar a mediana?
Caracterização de amostras univariadas
 Estatísticas de localização
‒ A mediana divide um conjunto de valores em duas partes iguais.

‒ Os quartis dividem um conjunto de valores em quatro partes iguais, 
, ≡ ,
 O 1º quartil,  , será o valor tal que 25% das observações são menores ou 
iguais a ele e 75% das observações são maiores ou iguais

‒ Aos valores que dividem um conjunto de dados em
 Dez partes iguais – decis
 Cem partes iguais – percentis

‒ Generalizando, o quantil de ordem , , é o valor tal que 
% dos valores observados são menores ou iguais a esse valor e 
% são maiores  ou iguais. Designemos por 
, ,⋯, tal que  ⋯ então
, não inteiro

, inteiro
onde  designa o maior inteiro contido em 
Caracterização de amostras univariadas
 Estatísticas de localização – moda ( )
‒ No caso discreto – a moda é o valor mais frequente

‒ No caso contínuo – a moda é a classe mais frequente, também 


chamada de classe modal

‒ Um conjunto de observações pode não ter moda ou apresentar 
mais do que uma moda. Uma distribuição com uma única moda 
chama‐se unimodal

‒ Útil sobretudo quando temos dados qualitativos quando não é 
possível calcular a média ou mesmo a mediana 
Caracterização de amostras univariadas
 Estatísticas de dispersão
‒ Amplitude da amostra – max min
 Tem a desvantagem de ser afectado por valores atípicos dos dados 
extremos
‒ Amplitude interquartil –
 tem a desvantagem de ignorar a informação da zona central e das zonas 
extremas das observações
‒ Desvio médio – medida que tem em consideração a posição de 
todos os valores relativamente a um ponto de referência, a 
média amostral

‒ Variância amostral – é o valor médio dos desvios quadráticos 
Caracterização de amostras univariadas
 Estatísticas de dispersão
‒ Desvio padrão –
 Tem a vantagem de ser expresso na mesma unidade dos dados

‒ Propriedades da variância
1. A variância é não negativa
2. Se , , , … , então
 A variância não é afectada por uma mudança de origem mas é 
afectada por uma mudança de escala
 O desvio padrão 

‒ Outra fórmula para calcular a variância:
Caracterização de amostras univariadas
 Estatísticas de dispersão relativas
‒ Permitem comparar distribuições cujas unidades são 
diferentes ou cujos dados diferem consideravelmente em 
grandeza
‒ Coeficiente de variação – usada quando os dados são todos 
positivos
%
̅
 Interpretado como a percentagem da dispersão (desvio padrão) por que 
a média é responsável

 Outra forma de comparar dados incomparáveis:
‒ Variáveis normalizadas ou estandardizadas  (z‐scores): 
̅
,  ̅ ,

‒ são quantidades independentes das unidades usadas 
Caracterização de amostras univariadas
 Representação gráfica de estatísticas
‒ Diagrama extremos e quartis

Este tipo de representação gráfica sintetiza num só gráfico a localização, a 
dispersão e o afastamento da simetria de um conjunto de dados
Caracterização de amostras univariadas
 Representação gráfica de estatísticas
‒ caixa‐de‐bigodes

outliers

AI AS

Amplitude interquartil ‐ –
Barreira inferior =  . ∗ Barreira superior =  . ∗
Valor adjacente inferior ≡ AI
o menor valor do conjunto de dados que é maior ou igual à barreira inferior
Valor adjacente superior ≡ AS 
o maior valor do conjunto de dados que é menor ou igual à barreira superior
outlier ≡ valor do conjunto de dados “atípico”, que se afasta do padrão geral dos dados
Caracterização de amostras univariadas
 Representação gráfica de estatísticas
‒ Caixa‐de‐bigodes permite comparar grupos
Caracterização de amostras univariadas
 Dados agrupados:

Freq. relativa
Classes Freq. absoluta Freq. relativa
acumulada 
]420,425] 3 0.03 0.03
]425,430] 6 0.06 0.09
]430,435] 6 0.06 0.15
]435,440] 16 0.16 0.31
]440,445] 20 0.2 0.51
]445,450] 24 0.24 0.75
]450,455] 19 0.19 0.94
]455,460] 5 0.05 0.99
]460,465] 1 0.01 1
Caracterização de amostras univariadas
 Dados agrupados:
‒ Média agrupada: 
‒ Seja  ̅ ‐ ponto médio da classe  então

̅ ̅

‒ Considera‐se que o facto da média agrupada estar próxima da média não 
agrupada é um indicador de que o agrupamento usado é razoável. 
‒ Se média agrupada for diferente da média simples pode ser um sinal de 
que o agrupamento escolhido está a moderar a influência dos valores 
extremos obtendo‐se uma melhor representação da estrutura global da 
população subjacente à amostra.

‒ Variância agrupada

̅ ̅
Caracterização de amostras univariadas
 Dados agrupados:
‒ Mediana agrupada
‒ A classe mediana é a primeira classe cuja frequência relativa acumulada 
é superior ou igual a 0.5

.

‐ limite inferior da classe mediana
∆ ‐ amplitude da classe mediana
‐ limite inferior da classe mediana
‐ limite superior da classe mediana

. .
. g
. .
Caracterização de amostras univariadas
 Dados agrupados:
‒ Moda agrupada


limite inferior da classe modal
∆ ‐ amplitude da classe modal
, ‐ distância entre a altura da 
classe modal e a altura das classes 
adjacentes (freq. abs. ou
freq. rel. (em % ou não))

. g
Caracterização de amostras univariadas
 Estatísticas de forma – relacionadas com momentos amostrais
 momento de ordem 

 Por exemplo,  ̅
 momento centrado de ordem 

 Por exemplo, ∑ ̅

 se os dados se localizarem de forma simétrica em relação à média 
amostral todos os momentos centrados de ordem ímpar serão 
nulos
Caracterização de amostras univariadas

 Coeficiente de assimetria amostral ( ) – dá uma 


indicação do peso relativo das caudas

Média Mediana Moda Moda=Mediana=Média


Moda Mediana Média
Histograma assimétrico à esquerda Histograma simétrico Histograma assimétrico à direita
Caracterização de amostras univariadas
 Curtose ou achatamento amostral –
‒ dá indicação sobre a maior ou menor concentração junto do centro e 
das caudas
‒ valores elevados de curtose significam que os valores estão mais 
concentrados no centro (junto à média) e nas caudas e menos 
concentrados nos intervalos que separam essas zonas

 Coeficiente de curtose ou achatamento amostral ( ) –


medida relativa à curtose da distribuição da população 
normal 

mesmo achatamento  mais achatada  mais alta e concentrada


que a dist. normal que a dist. normal que a dist. normal
Caracterização de amostras bivariadas
 Vamos considerar amostras bivariadas (só de dados quantitativos), 
i.e., conjuntos de pares de variáveis:
, , , ,…, ,
‒ O objectivo é estudar as relações entre as características em estudo

 Que tipo de relações?
‒ Por exemplo, a relação entre o perímetro ( ) de uma circunferência e 
o raio ( ) do círculo correspondente está perfeitamente definida por 
uma expressão matemática: 
 Neste caso, temos uma relação determinística entre as duas variáveis.
 O raio dum círculo determina univocamente o perímetro da 
circunferência correspondente e o perímetro determina univocamente o 
raio do círculo correspondente. Temos uma correspondência biunívoca 
entre o raio e o perímetro.
Caracterização de amostras bivariadas
 Que tipo de relações?
‒ Quando referimos as relações entre o peso e a altura de um homem 
adulto ou entre as idades dos cônjuges na data do casamento vamos 
ter relações mais imprecisas.
 Neste caso, vamos ter meras relações estatísticas.
 Pode suceder que para a mesma altura correspondam valores diferentes 
de peso.  
 A altura não determina o peso, mas em média os indivíduos mais altos 
são mais pesados. A idade do marido não determina a idade da mulher (e 
inversamente), mas em média quanto mais idoso é o marido mais idosa é 
a mulher. 
 As relações estatísticas tratam desta variação em média.
 Dizemos que existe correlação entre duas variáveis quando estas estão 
ligadas por uma relação estatística.
 Como se mede a intensidade da correlação entre duas variáveis?
Caracterização de amostras bivariadas
 Diagrama de dispersão
Exemplo: Alturas e pesos de 20 alunos (Pestana, D. e Velosa, S., 2010)
Caracterização de amostras bivariadas
 Covariância amostral – permite avaliar a variação conjunta de 
duas variáveis
cov , ̅

̅ ̅

cov , . m kg

̅ ̅
Caracterização de amostras bivariadas
 Covariância amostral
‒ indicador da associação linear entre duas variáveis

cov , ̅

‒ Uma assosiação linear positiva traduz‐se numa covariância positiva
‒ Uma associação linear negativa traduz‐se numa covariância negativa
‒ A não associação linear entre as variáveis traduz‐se numa covariância 
próxima de zero

 Será que a covariância nos dá o grau de associação entre duas 
variáveis?
‒ Não, porque a covariância depende das unidades.
Caracterização de amostras bivariadas

Exemplo: Alturas e pesos de 20 alunos (Pestana, D. e Velosa, S., 2010)

cov , . m kg cov , cm g


Caracterização de amostras bivariadas
 Propriedades da covariância:
1. Seja  e  , , , … , então     

cov , cov ,
2.
cov ,

 Facilmente se mostra que:
cov , ̅

 Note que:
cov ,

 A covariância também pode ser expressa:
cov , ̅ (porque ∑ ̅ )

ou

cov , (porque ∑ )
Caracterização de amostras bivariadas
 Coeficiente de correlação amostral (
‒ Considerando as observações normalizadas, isto é,
∗ ̅ ∗
e  
‒ definimos o coeficiente de correlação amostral da seguinte foma:
cov ∗ , ∗
‒ Ou seja,
cov ,

‒ Se a associação entre as variáveis for linear então o coeficiente de 
correlação amostral é a medida que nos permite avaliar o grau de 
associação entre as variáveis. 
Caracterização de amostras bivariadas
 Propriedades do coeficiente de correlação 
1. tem sempre o mesmo sinal da covariância

2. (porque  cov , )

3. Seja  e  , , , … , , então  se 


e  se 

4. O coeficiente de correlação é igual a 1 em valor absoluto se todos os 
valores observados se encontram sobre uma recta de declive 
positivo se  , de declive negativo se 
Caracterização de amostras bivariadas
 Alguns exemplos de valores de 
Caracterização de amostras bivariadas
 Mais alguns exemplos de valores de 
.

.
Caracterização de amostras bivariadas
 Correlação mede associação não mede causalidade
‒ Afirmar que há correlação entre duas variáveis não nos permite dizer 
existe uma relação causal entre elas
‒ Consideremos o seguinte exemplo (Murteira, B. et al (2010)):
‒ Existe uma forte correlação positiva entre o número anual de casos de 
insolação e a colheita de trigo
 Podemos ser levados a concluir que é a produção de trigo que causa 
insolações ou que são as insolações que provocam boas colheitas de trigo
 Nada mais errado, o que se verifica é que os verões quentes causam 
insolações e boas colheitas de trigo
Estatística descritiva
 Bibliografia
‒ Guimarães,R.C. e Cabral,J.S. (2007), Estatística, 2ª edição, Mc Graw
Hill
‒ Ross, S.M., Introduction to probability and statistics for engineers and 
scientists, 3ª edição, Elsevier Academic Press 
‒ Murteira, B., Ribeiro,C.S., Silva,J.A., Pimenta, C. (2010), Introdução à 
Estatística, Escolar Editora
‒ Pestana, D.D. e Velosa, S.F. (2010), Introdução à Probabilidade e à
Estatística, 4ª edição, Fundação Calouste Gulbenkian.

You might also like