Professional Documents
Culture Documents
1 Estatistica Descritiva
1 Estatistica Descritiva
Aplicada à Engenharia Química
2012/2013
O que é a Estatística?
Estatística é a ciência que se ocupa da recolha e tratamento de informação,
i.e., da obtenção de uma amostra, sua descrição e interpretação e, com
apoio da teoria da probabilidade efectuar inferências para a população e
previsões da evolução futura do fenómeno em estudo.
A Estatística é a ciência que nos guia na tomada de decisões em
situação de incerteza.
R. A. Fisher
Principais tópicos da UC
Estatística descritiva
– sumariar e descrever os aspectos relevantes num conjunto de
dados. Recurso a tabelas, gráficos e indicadores numéricos.
Teoria da Probabilidade ‐ Modelos probabilísticos
– apresentar os modelos mais usuais de fenómenos naturais nos
quais se supõe intervir o acaso ‐ fenómenos aleatórios.
Inferência estatística (estimação pontual, estimação intervalar,
testes de hipóteses, Análise de Variância – ANOVA, Regressão
Linear Simples)
– tirar conclusões para a população a partir do estudo da amostra;
– tomar decisões quanto ao(s) valor(es) de características
importantes da população de onde foi retirada a amostra
Controlo de Qualidade
Estatística Descritiva
Objectivos da Estatística Descritiva
‒ condensar, sob a forma de tabelas os dados observados
‒ fazer a representação gráfica
‒ calcular medidas de localização, de dispersão e de forma
Conceitos básicos em Estatística
‒ população: conjunto de todos os elementos que têm uma
característica em comum (Ex: todos os alunos da FEUP )
‒ unidades estatísticas: são os elementos da população (os
alunos)
‒ variável: característica de interesse (ex: ‐ a altura dos alunos
da FEUP e – a altura observada de um aluno)
‒ amostra: subconjunto da população, efectivamente observado
‒ outlier: valor observado que se distingue dos restantes dados
Estatística Descritiva
Aos valores das características de interesse observadas nos
elementos da amostra costuma chamar‐se dados.
Os dados podem ser de natureza
‒ quantitativa
discreta (dados podem tomar um nº finito ou um nº infinito
numerável de valores ‐ resultados de 100 lançamentos de
um dado, nº de acidentes na VCI durante um determinado
período de tempo)
contínua (resultam de uma medição: peso, altura, tempo,
concentração, volume)
‒ qualitativa
nominal (dados classificados por categorias ou classes não
ordenadas: género, cor dos olhos, marcas de carros)
ordinal (dados classificados por categorias ou classes
ordenadas: avaliação dos estudantes numa escala de Não
Satisfaz a Excelente)
Estatística Descritiva
Estatística descritiva a uma dimensão:
‒ apenas uma só característica (variável) está em estudo
‒ amosta univariada
Estatística descritiva a duas ou mais dimensões:
‒ duas ou mais características (variáveis) estão em estudo bem
como as relações entre elas
‒ amostra bivariada ou multivariada
Caracterização de amostras univariadas
Dados qualitativos
‒ Tabela de frequências
‒ Diagrama de barras
‒ Diagrama circular
Dados quantitativos
‒ Tabela de frequências
‒ Histograma de frequências
‒ Polígono de frequências e polígono de frequências acumuladas
‒ Estatísticas de localização, de dispersão e de forma
‒ Representação gráfica de estatísticas
Caracterização de amostras univariadas
Algumas definições
Frequência absoluta da categoria ou classe ‐
número de dados contidos na categoria ou classe
Número total de dados ‐
– nº de categorias ou classes
Frequência relativa da categoria ou classe ‐
número de dados da categoria ou classe expresso como uma
proporção do número total de dados
Frequência relativa acumulada da categoria ou classe ‐
∑
Caracterização de amostras univariadas
Dados qualitativos – Exemplo (Guimarães,R.C. e Cabral,J.S., 2007)
Numa amostra constituída por 120 peças constatou‐se que 100 não tinham
qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram
irrecuperáveis
Tabela de frequências
Amostra constituída por 100 latas de pêssego em calda de uma determinada
marca, cujo rótulo indica um peso médio líquido escorrido de 450 gramas.
Na tabela incluem‐se os pesos observados na amostra.
452 455 425 453 464 438 457 444 447 454
441 450 457 445 454 450 429 442 454 447
455 436 444 453 421 438 432 452 445 458
440 451 446 436 441 448 435 447 427 450
443 450 432 449 445 436 433 441 449 443
448 449 437 437 449 440 424 453 438 452
447 435 443 451 426 449 441 451 445 454
453 445 449 431 446 437 441 428 450 447
447 440 441 430 439 454 439 444 455 448
459 450 456 440 445 442 430 436 450 454
Caracterização de amostras univariadas
Construção de uma tabela de frequências
‒ Determinar o máximo, max , e o mínimo, min , valor do
conjunto dos dados
‒ Calcular a amplitude total: max min
‒ Escolher um número de subintervalos (regra geral, de igual
amplitude ‐ ) cuja reunião (sem sobreposição) cubra a
amplitude total. Aos intervalos chamamos classes e aos
extremos limites de classes. Consideraremos classes abertas à
esquerda e fechadas à direita.
‒ Para cada classe calcula‐se a frequência absoluta, relativa e
acumulada
Caracterização de amostras univariadas
Tabela de frequências
Freq. relativa
Classes Freq. absoluta Freq. relativa
acumulada
]420,425] 3 0.03 0.03
]425,430] 6 0.06 0.09
]430,435] 6 0.06 0.15
]435,440] 16 0.16 0.31
]440,445] 20 0.2 0.51
]445,450] 24 0.24 0.75
]450,455] 19 0.19 0.94
]455,460] 5 0.05 0.99
]460,465] 1 0.01 1
Caracterização de amostras univariadas
Tabela de frequências
‒ qual o número de classes a adoptar?
‒ um número que não deve ser excessivo nem reduzido de mais
de modo a não se perder a forma como as frequências se
distribuem pelas classes.
Duas regras utilizadas para determinar o número de classes
com igual amplitude:
‒ regra de Sturges
o número de classes é o inteiro mais próximo de . log
‒ número de classes
Estas regras são meramente indicativas devendo adoptar‐se
números redondos para os limites inferior e superior por
razões de ordem prática.
Caracterização de amostras univariadas
Histograma de frequências:
‒ a frequência relativa associada a cada classe é representada pela
altura da barra correspondente
Caracterização de amostras univariadas
Histograma de densidade:
‒ a frequência relativa associada a cada classe é representada pela área
da barra correspondente
Caracterização de amostras univariadas
polígono de frequências:
‒ linha que une os pontos de abcissa igual ao ponto médio de cada
classe e ordenada igual à frequência da classe respectiva
Caracterização de amostras univariadas
polígono de frequências acumuladas:
‒ linha que une os pontos de abcissa igual ao limite superior de cada
classe e ordenada igual à frequência acumulada da classe respectiva
Caracterização de amostras univariadas
Dados quantitativos discretos – Exemplo (Guimarães,R. e Cabral,J., 2007)
No âmbito de um estudo realizado com o objectivo de caracterizar o
comportamento dos clientes de um hipermercado, analisou‐se o número de
ocupantes por veículo para 1000 veículos que entraram no parque
automóvel do referido hipermercado, num sábado.
Tabela de frequências
Nº de ocupantes
Frequência absoluta Frequência relativa (%)
por veículo
1 103 10.3
2 147 14.7
3 248 24.8
4 197 19.7
5 152 15.2
6 100 10.0
7 53 5.3
Caracterização de amostras univariadas
Diagrama de barras:
‒ a frequência associada a cada categoria é representada pela altura da
barra correspondente
Caracterização de amostras univariadas
Estatísticas:
‒ Medidas calculadas a partir dos dados que nos permitem descrever
globalmente e de forma objectiva o conjunto de valores que os dados
tomam
Estatísticas de localização
‒ Medida cujo valor referencia a posição dos dados
‒ Medidas mais usadas: média, mediana, moda e os quartis
Estatísticas de dispersão
‒ Medida que caracteriza a variabilidade dos dados
‒ Medidas mais usadas: amplitude da amostra, amplitude interquartil,
desvio médio, variância, coeficiente de variação, z‐scores
Estatísticas de forma
‒ Medida que caracteriza a forma da distribuição de frequências
‒ Medidas mais usadas: coeficiente de assimetria e coeficiente de
curtose
Caracterização de amostras univariadas
Estatísticas de localização
Seja , , … , um conjunto de observações (i.e. uma amostra de
dados)
‒ Média amostral: média aritmética dos dados
‒ desvio de uma observação relativamente à média: ̅
‒ Facilmente se demonstra que:
‒ A média é o ponto de “equílibrio” de um conjunto de dados e nesse
sentido a localização central por excelência.
Caracterização de amostras univariadas
Propriedades da média
1. Efectuando uma mudança de origem dos dados, ,
, , … , então ̅
2. Efectuando uma mudança de escala nos dados, i.e., ,
, ,…, então ̅
3. Se juntarmos as duas vem que se , , , … , então
̅
5. O valor de que minimiza a soma dos desvios quadráticos
relativamente a essa constante é precisamente a média amostral:
valor de que minimiza ∑ é ̅
Caracterização de amostras univariadas
Estatísticas de localização
‒ A média apresenta uma desvantagem: é sensível a valores extremos
da amostra. Uma medida robusta a valores extremos é a mediana.
‒ Mediana amostral: é o valor do meio, depois dos dados serem
ordenados por ordem crescente de grandeza. Designemos por
, ,⋯, tal que ⋯ então
se é ímpar
se é par
‒ A mediana é o valor tal que 50% dos dados é menor ou igual a esse
valor e 50% dos dados é maior ou igual
‒ Num histograma de frequências como identificar a mediana?
Caracterização de amostras univariadas
Estatísticas de localização
‒ A mediana divide um conjunto de valores em duas partes iguais.
‒ Os quartis dividem um conjunto de valores em quatro partes iguais,
, ≡ ,
O 1º quartil, , será o valor tal que 25% das observações são menores ou
iguais a ele e 75% das observações são maiores ou iguais
‒ Aos valores que dividem um conjunto de dados em
Dez partes iguais – decis
Cem partes iguais – percentis
‒ Generalizando, o quantil de ordem , , é o valor tal que
% dos valores observados são menores ou iguais a esse valor e
% são maiores ou iguais. Designemos por
, ,⋯, tal que ⋯ então
, não inteiro
∗
, inteiro
onde designa o maior inteiro contido em
Caracterização de amostras univariadas
Estatísticas de localização – moda ( )
‒ No caso discreto – a moda é o valor mais frequente
‒ Um conjunto de observações pode não ter moda ou apresentar
mais do que uma moda. Uma distribuição com uma única moda
chama‐se unimodal
‒ Útil sobretudo quando temos dados qualitativos quando não é
possível calcular a média ou mesmo a mediana
Caracterização de amostras univariadas
Estatísticas de dispersão
‒ Amplitude da amostra – max min
Tem a desvantagem de ser afectado por valores atípicos dos dados
extremos
‒ Amplitude interquartil –
tem a desvantagem de ignorar a informação da zona central e das zonas
extremas das observações
‒ Desvio médio – medida que tem em consideração a posição de
todos os valores relativamente a um ponto de referência, a
média amostral
‒ Variância amostral – é o valor médio dos desvios quadráticos
Caracterização de amostras univariadas
Estatísticas de dispersão
‒ Desvio padrão –
Tem a vantagem de ser expresso na mesma unidade dos dados
‒ Propriedades da variância
1. A variância é não negativa
2. Se , , , … , então
A variância não é afectada por uma mudança de origem mas é
afectada por uma mudança de escala
O desvio padrão
‒ Outra fórmula para calcular a variância:
Caracterização de amostras univariadas
Estatísticas de dispersão relativas
‒ Permitem comparar distribuições cujas unidades são
diferentes ou cujos dados diferem consideravelmente em
grandeza
‒ Coeficiente de variação – usada quando os dados são todos
positivos
%
̅
Interpretado como a percentagem da dispersão (desvio padrão) por que
a média é responsável
Outra forma de comparar dados incomparáveis:
‒ Variáveis normalizadas ou estandardizadas (z‐scores):
̅
, ̅ ,
‒ são quantidades independentes das unidades usadas
Caracterização de amostras univariadas
Representação gráfica de estatísticas
‒ Diagrama extremos e quartis
Este tipo de representação gráfica sintetiza num só gráfico a localização, a
dispersão e o afastamento da simetria de um conjunto de dados
Caracterização de amostras univariadas
Representação gráfica de estatísticas
‒ caixa‐de‐bigodes
outliers
AI AS
Amplitude interquartil ‐ –
Barreira inferior = . ∗ Barreira superior = . ∗
Valor adjacente inferior ≡ AI
o menor valor do conjunto de dados que é maior ou igual à barreira inferior
Valor adjacente superior ≡ AS
o maior valor do conjunto de dados que é menor ou igual à barreira superior
outlier ≡ valor do conjunto de dados “atípico”, que se afasta do padrão geral dos dados
Caracterização de amostras univariadas
Representação gráfica de estatísticas
‒ Caixa‐de‐bigodes permite comparar grupos
Caracterização de amostras univariadas
Dados agrupados:
Freq. relativa
Classes Freq. absoluta Freq. relativa
acumulada
]420,425] 3 0.03 0.03
]425,430] 6 0.06 0.09
]430,435] 6 0.06 0.15
]435,440] 16 0.16 0.31
]440,445] 20 0.2 0.51
]445,450] 24 0.24 0.75
]450,455] 19 0.19 0.94
]455,460] 5 0.05 0.99
]460,465] 1 0.01 1
Caracterização de amostras univariadas
Dados agrupados:
‒ Média agrupada:
‒ Seja ̅ ‐ ponto médio da classe então
̅ ̅
‒ Considera‐se que o facto da média agrupada estar próxima da média não
agrupada é um indicador de que o agrupamento usado é razoável.
‒ Se média agrupada for diferente da média simples pode ser um sinal de
que o agrupamento escolhido está a moderar a influência dos valores
extremos obtendo‐se uma melhor representação da estrutura global da
população subjacente à amostra.
‒ Variância agrupada
̅ ̅
Caracterização de amostras univariadas
Dados agrupados:
‒ Mediana agrupada
‒ A classe mediana é a primeira classe cuja frequência relativa acumulada
é superior ou igual a 0.5
.
∆
‐ limite inferior da classe mediana
∆ ‐ amplitude da classe mediana
‐ limite inferior da classe mediana
‐ limite superior da classe mediana
. .
. g
. .
Caracterização de amostras univariadas
Dados agrupados:
‒ Moda agrupada
∆
limite inferior da classe modal
∆ ‐ amplitude da classe modal
, ‐ distância entre a altura da
classe modal e a altura das classes
adjacentes (freq. abs. ou
freq. rel. (em % ou não))
. g
Caracterização de amostras univariadas
Estatísticas de forma – relacionadas com momentos amostrais
momento de ordem
Por exemplo, ̅
momento centrado de ordem
Por exemplo, ∑ ̅
se os dados se localizarem de forma simétrica em relação à média
amostral todos os momentos centrados de ordem ímpar serão
nulos
Caracterização de amostras univariadas
Que tipo de relações?
‒ Por exemplo, a relação entre o perímetro ( ) de uma circunferência e
o raio ( ) do círculo correspondente está perfeitamente definida por
uma expressão matemática:
Neste caso, temos uma relação determinística entre as duas variáveis.
O raio dum círculo determina univocamente o perímetro da
circunferência correspondente e o perímetro determina univocamente o
raio do círculo correspondente. Temos uma correspondência biunívoca
entre o raio e o perímetro.
Caracterização de amostras bivariadas
Que tipo de relações?
‒ Quando referimos as relações entre o peso e a altura de um homem
adulto ou entre as idades dos cônjuges na data do casamento vamos
ter relações mais imprecisas.
Neste caso, vamos ter meras relações estatísticas.
Pode suceder que para a mesma altura correspondam valores diferentes
de peso.
A altura não determina o peso, mas em média os indivíduos mais altos
são mais pesados. A idade do marido não determina a idade da mulher (e
inversamente), mas em média quanto mais idoso é o marido mais idosa é
a mulher.
As relações estatísticas tratam desta variação em média.
Dizemos que existe correlação entre duas variáveis quando estas estão
ligadas por uma relação estatística.
Como se mede a intensidade da correlação entre duas variáveis?
Caracterização de amostras bivariadas
Diagrama de dispersão
Exemplo: Alturas e pesos de 20 alunos (Pestana, D. e Velosa, S., 2010)
Caracterização de amostras bivariadas
Covariância amostral – permite avaliar a variação conjunta de
duas variáveis
cov , ̅
̅ ̅
cov , . m kg
̅ ̅
Caracterização de amostras bivariadas
Covariância amostral
‒ indicador da associação linear entre duas variáveis
cov , ̅
‒ Uma assosiação linear positiva traduz‐se numa covariância positiva
‒ Uma associação linear negativa traduz‐se numa covariância negativa
‒ A não associação linear entre as variáveis traduz‐se numa covariância
próxima de zero
Será que a covariância nos dá o grau de associação entre duas
variáveis?
‒ Não, porque a covariância depende das unidades.
Caracterização de amostras bivariadas
Exemplo: Alturas e pesos de 20 alunos (Pestana, D. e Velosa, S., 2010)
cov , cov ,
2.
cov ,
Facilmente se mostra que:
cov , ̅
Note que:
cov ,
A covariância também pode ser expressa:
cov , ̅ (porque ∑ ̅ )
ou
cov , (porque ∑ )
Caracterização de amostras bivariadas
Coeficiente de correlação amostral (
‒ Considerando as observações normalizadas, isto é,
∗ ̅ ∗
e
‒ definimos o coeficiente de correlação amostral da seguinte foma:
cov ∗ , ∗
‒ Ou seja,
cov ,
‒ Se a associação entre as variáveis for linear então o coeficiente de
correlação amostral é a medida que nos permite avaliar o grau de
associação entre as variáveis.
Caracterização de amostras bivariadas
Propriedades do coeficiente de correlação
1. tem sempre o mesmo sinal da covariância
2. (porque cov , )
4. O coeficiente de correlação é igual a 1 em valor absoluto se todos os
valores observados se encontram sobre uma recta de declive
positivo se , de declive negativo se
Caracterização de amostras bivariadas
Alguns exemplos de valores de
Caracterização de amostras bivariadas
Mais alguns exemplos de valores de
.
.
Caracterização de amostras bivariadas
Correlação mede associação não mede causalidade
‒ Afirmar que há correlação entre duas variáveis não nos permite dizer
existe uma relação causal entre elas
‒ Consideremos o seguinte exemplo (Murteira, B. et al (2010)):
‒ Existe uma forte correlação positiva entre o número anual de casos de
insolação e a colheita de trigo
Podemos ser levados a concluir que é a produção de trigo que causa
insolações ou que são as insolações que provocam boas colheitas de trigo
Nada mais errado, o que se verifica é que os verões quentes causam
insolações e boas colheitas de trigo
Estatística descritiva
Bibliografia
‒ Guimarães,R.C. e Cabral,J.S. (2007), Estatística, 2ª edição, Mc Graw
Hill
‒ Ross, S.M., Introduction to probability and statistics for engineers and
scientists, 3ª edição, Elsevier Academic Press
‒ Murteira, B., Ribeiro,C.S., Silva,J.A., Pimenta, C. (2010), Introdução à
Estatística, Escolar Editora
‒ Pestana, D.D. e Velosa, S.F. (2010), Introdução à Probabilidade e à
Estatística, 4ª edição, Fundação Calouste Gulbenkian.