Estat descritiva-FREQ

Área Departamental de Matemática
Estatística
Descritiva
Carla Maria Lopes da Silva Afonso dos Santos
2006/2007
Estatística descritiva
1. Introdução
A Estatística descritiva consiste na recolha, apresentação, análise e

interpretação de dados através da criação de instrumentos adequados.
Uma das primeiras fases da planificação de um estudo estatístico consiste na

definição exacta de quais os indivíduos (pessoas, animais ou objectos) que
interessa estudar. O conjunto de indivíduos ou objectos que apresentam uma ou
mais características em comum e sobre os quais recai o estudo designa-se por
População (ou Universo), podendo esta população ser finita ou infinita.
Cada um dos elementos da população sobre os quais recai o estudo designa-
se por unidade estatística.
Ao realizar um estudo estatístico, muitas vezes não é possível estudar toda a
população (recenseamento) por ela ser infinita, por falta de meios, por questões de
custo ou muito simplesmente por a sua observação ser destrutiva. Nestes casos o
estudo basear-se-à na observação de apenas uma pequena parte da população, a
amostra.
As técnicas de amostragem permitem aumentar a precisão dos resultados

sem aumentar os custos, conseguindo determinar a dimensão da amostra ideal
para determinada precisão pretendida (ou vice-versa).
Diferentes métodos de amostragem são utilizados dependendo do conhecimento ou
desconhecimento da população sobre a qual vai recair o estudo.
Amostragem aleatória simples: Dada uma população, uma amostra aleatória

simples é uma amostra em que qualquer elemento da população tem igual
probabilidade de ser seleccionado para pertencer à amostra.
Amostragem sistemática: Na prática o processo de seleccionar uma amostra

aleatória simples, principalmente se a dimensão da população for grande, é um
pouco trabalhoso. A alternativa é recorrer à amostragem sistemática, que consiste
em ordenar por algum critério a população, escolher um intervalo de selecção
I=N/n ( N= dimensão da população e n= dimensão da amostra), escolher
aleatoriamente uma unidade de entre as primeiras I e finalmente seleccionar as
unidades que distam, I, 2I , 3I ... unidades, da primeira escolhida.
Amostragem estratificada: Para se proceder à selecção de uma amostra

estratificada, divide-se a população em estratos (subpopulações) e de cada estrato
extrai-se aleatoriamente uma amostra. O conjunto de todas essas amostras
constitui a amostra pretendida.
Amostragem por “clusters” (conglomerados): Para se proceder a este tipo de

amostragem a população deve ser dividida em “clusters” (conglomerados de
elementos da população, representativos dessa mesma população). Seleccionados
aleatoriamente alguns “clusters”, a amostra é composta por todos os seus
elementos.
Quanto à forma como os dados são obtidos podemos classificar a recolha

como directa ou indirecta.
Os dados obtidos através de inquéritos, registos ou ficheiros, consideram-se
recolhidos de forma directa e são chamados dados primários. Aos dados
Carla Maria Lopes da Silva Afonso dos Santos 2

calculados a partir de dados primários, ou seja, através de recolha indirecta são

chamados dados secundários.
Se considerarmos a periodicidade com que é feita essa recolha, pode-se

classificar como contínua, periódica ou ocasional:
• contínua - realiza-se permanentemente
• periódica - feita em intervalos de tempo
• ocasional - realiza-se de modo esporádico
Ao estudar uma população (ou uma amostra de uma população) pretende-se

conhecer as suas características ou atributos para que posteriormente seja possível
tomar decisões com base nesse conhecimento (fazer comparações com outras
populações, fazer previsões para o futuro etc).
Se os dados resultantes das observações identificam alguma qualidade,
categoria ou característica, não susceptível de medida, assumindo várias
modalidade, dizem-se quantitativos
As várias modalidades registam-se numa escala nominal se a ordem das

modalidades não tem significado e numa escala ordinal se as modalidades têm
uma relação de ordem entre elas.
Se os dados resultantes das observações resultam de características

susceptíveis de serem medidas dizem-se qualitativos e apresentam diferentes
intensidades ou valores.
Para representar os diferentes valores que uma característica quantitativa

pode tomar, utilizam-se variáveis que se representam por letras maiúsculas (X , Y ,
Z). Assim poderemos falar de variáveis discretas, se tomam um número finito ou
infinito numerável de valores, e contínuas se poderem tomar uma infinidade de
valores dentro de um intervalo.
2. Técnicas básicas de tratamento de dados
Exemplo: Consideremos o seguinte conjunto de dados, que representam as idades

dos alunos de uma turma.
20 19 21 25 20 24 21 23 20 18
20 18 25 23 20 18 19 18 19 22

Tabela de frequências
idades contage Frequência Frequência Frequência Frequência

m absoluta absoluta relativa relativa
xi ni acumulada fi acumulada
nai fai
18 |||| 4 4 4/20=0,2 4/20=0,2
19 ||| 3 7 3/20=0,15 7/20= 0,35
20 |||| 5 12 5/20=0,25 12/20= 0,6
21 || 2 14 2/20=0,1 14/20= 0,7
22 | 1 15 1/20=0,05 15/20= 0,75
23 || 2 17 2/20=0,1 17/20= 0,85
24 | 1 18 1/20=0,05 18/20= 0,9
25 || 2 20 2/20=0,1 20/20= 1
No caso de o estudo recair sobre uma variável aleatória contínua (peso,

altura, temperatura etc.), devido à infinidade de valores que a variável pode
assumir é necessário agrupar esses valores em intervalos de classes1, de forma a
simplificar todos os procedimentos posteriores.
Para determinar o número de classes ( k ) existem diversos métodos. No
método apresentado por Velleman em 1976, k é o maior inteiro contido em 2 n.
Na fórmula de Sturges, o método mais utilizado,
 ln n 
k =1+  
 ln 2 
onde [ ] representa a parte inteira e ln o logaritmo de base e.
Nota: O número de classes não deve ser inferior a 4 nem superior a 14.
4 ≤ k ≤ 14
Depois de se determinar quantas classes se usarão segue-se a construção
das classes2, que consiste na determinação da amplitude de cada classe e dos seus
limites. Para tal deve-se obedecer a algumas regras básicas:
• nenhuma classe deverá ter frequência nula
• as classes devem ter , sempre que possível, amplitudes iguais
• os pontos médios das classes deverão ser valores de fácil cálculo (ponto
médio da classe ou centro da classe é a semi-soma do limite superior e
inferior da classe)
• evitar classes abertas
1
Também no caso de variáveis aleatórias discretas que apresentem uma grande diversidade
de valores é aconselhável a “criação” de classes.
2
Para simplificar a construção das classes poderemos começar pelo centro da classe central,
no caso de k ser impar, ou no extremo superior da (k+1)/2 ésima classe, se k for par.

• os limites das classes devem ser definidos de modo a que cada valor da
variável pertença a uma e uma só classe. Consideraremos classes
fechadas à esquerda e abertas à direita, isto é, o limite inferior do
intervalo pertence à classe mas o limite superior não.
A amplitude de cada classe (ai) será calculada dividindo a amplitude total

dos dados em estudo (R=xmax-xmin) pelo número de classes pretendidas:
R
ai =
k
Exemplo : Consideremos as alturas (em cm) de 20 indivíduos
151 157 158 156 160 176 150 149 162 153
163 170 172 171 164 173 166 165 160 158
n=20
k = 1 +[ log 20/log2] = 5
ai = 5,4 ≈ 6 .
[148,154[ [154,160[ [160,166[ [166,172[ [172,178[
Adaptando o procedimento descrito anteriormente para variáveis discretas,

constroi-se a tabela de frequências para variáveis contínuas.
A grande diferença consiste em contar quantos elementos da população
“caem” dentro de cada classe, atendendo aos valores da variável estatística.
Exercício: As classificações obtidas pelos alunos de Turismo, no ano lectivo de

99/00, à cadeira de Métodos Estatísticos foram os seguintes:
11,5 6,8 7,5 12,6 9,6 10,1 13,5 7,9 10,3 8,6
14,7 13,1 10,5 10,7 8,8 10,0 10,9 13,2 9,7 11,8
15,2 8,0 9,8 11,1 9,1 9,9 12,1 13,9 10,8 10,2
7,3 14,2 10,6 13,3 12,0 8,2 11,2 10,4 12,8 12,3
Construa uma tabela de frequências, distribuindo convenientemente os dados por

classes.

Gráfico de barras:
Sectograma ou gráfico circular
A representação gráfica de distribuições de frequências de variáveis

contínuas é obtida por meio de um diagrama de áreas, o histograma. Este gráfico
é formado por uma sucessão de rectângulos adjacentes tendo cada um por base
um intervalo de classe e por altura a respectiva frequência absoluta (ou relativa).
F HISTOGRAMA
R
E
Q 7
A 6
B 5
S
O 4
L 3
U
T 2
A 1
S
0
148 154 160 166 172 178
IDADES

2.2. Medidas de localização
2.2.1. Medidas de tendência central
A média, x ,é das medidas de tendência central, a mais usada.

n
∑x i =1
i
x =
n
k
∑n x
i =1
i i
x=
n
onde: k é o número de valores que a variável pode tomar
ni é a frequência absoluta do valor xi da variável.
∑n c
i =1
i i
x=
n
onde: ci é o centro (ou ponto médio) da classe i.
Para dados simples, após ordenar os n dados, a mediana é:
n +1
• o valor que se encontra na posição (se n é impar)
2
n n
• a semi-soma dos valores nas posições e + 1 ( se n é par).
2 2
Para dados agrupados em classes

0 ,5 − f ai −1
Me = l i + ⋅ ai
fi Amplitude da classe mediana
Frequência relativa da classe mediana
Limite inferior da classe mediana
ou usando frequências absolutas:

n Frequência absoluta acumulada da classe anterior à classe

− n ai −1 mediana
Me = l i + 2 ⋅ ai
ni
Frequência absoluta da classe mediana
A moda, Mo, é definida como o valor da variável que mais se repete, ou

seja, o que tem maior frequência.
Para dados simples e dados agrupados discretos (não em classes) a
determinação da moda resume-se a encontrar o valor que se destaca dos outros
por apresentar maior frequência.
Para dados agrupados em classes
Acréscimo da frequência da classe modal relativamente à

frequência da classe imediatamente anterior
∆1 Amplitude da classe modal
Mo = li + ⋅ ai
∆1 + ∆ 2
Acréscimo da frequência da classe modal relativamente à
frequência da classe imediatamente posterior
Limite inferior da classe modal
Frequência absoluta da classe posterior à classe modal
Fi +1
Mo = li + ⋅ ai
Fi −1 + Fi +1
Frequência absoluta da classe anterior à classe modal
Em função do número de modas que apresentam, as distribuições podem

ser classificadas como unimodais (1 moda), bimodais (2 modas) ou
plurimodais (mais de 2 modas).

2.2.2. Medidas de tendência não central
As medidas de tendência não central chamam-se, em termos gerais, quantis

e dividem-se em três categorias, quartis, decis e percentis.
Os quartis são os valores da variável que dividem a distribuição de

frequências em quatro partes iguais. O primeiro quartil, Q1 , é o valor da variável (
o menor possível) tal que a percentagem de observações inferiores ou iguais a este
é 25%. O segundo quartil, Q2 , coincide com a mediana uma vez que é o valor da
variável ( o menor possível) tal que a percentagem de observações inferiores ou
iguais a este é 50%. O terceiro quartil, Q3 , é o valor da variável ( o menor
possível) tal que a percentagem de observações inferiores ou iguais a este é 75%.
Os decis (D1 , D2 , ... , D9 )são os valores da variável que dividem a

distribuição em dez partes iguais
Os percentis (P1 , P2 , ... , P99 )são os valores da variável que dividem a

distribuição em cem partes iguais
Para o cálculo destas medidas adapta-se, à percentagem pretendida, o

procedimento descrito para a mediana.
Exemplo : Consideremos a seguinte tabela de frequências:
Xi ni nai fi fai
[1 , 4[ 2 2 0,167 0,167
[4 , 7[ 3 5 0,250 0,417
[7 , 10[ 5 10 0,417 0,834
[10 , 12[ 2 12 0,167 1,001
Se pretender-mos, por exemplo, calcular o P35 (35º percentil) vem:
Frequência relativa acumulada da classe

anterior à classe que contém os 35%
0 ,35 − f ai −1
P35 = l i + ⋅ ai
fi Amplitude da classe que contém os 35%
Frequência relativa da classe que contém os 35%

Limite inferior da classe que contém os 35%
O 1º passo consiste em “descobrir” qual a classe que contém os

35%. Para tal recorre-se à coluna das frequências relativas
acumuladas e procura-se a classe que contém os 35%.
Facilmente se verifica que a classe em questão é a segunda ,
[4 , 7[ . Substituindo na formula acima os valores correspondentes
0 ,35 − 0,167
vem: P35 = 4 + × 3 = 6,196 .
0,25

Para descrever resumidamente a distribuição usa-se um esquema chamado

diagrama de extremos3 (box-plot)
0% 25% 50% 75% 100%
Mínimo Q1 Me=Q2 Q3 Máximo
2.3. Medidas de dispersão. Medidas de assimetria e achatamento.
2.3.1. Medidas de dispersão absoluta
As medidas de dispersão podem ser divididas em duas categorias, as

medidas de distância e as medidas que utilizam uma medida de localização como
termo de comparação.
As medidas de distância, que se apresentam na mesma unidade de medida
dos dados originais, são intervalo de variação e o intervalo inter-quartis.
O intervalo de variação4 (amplitude total), definido como a diferença entre

o maior e o menor valor da variável
R = xmax - xmin
tem a desvantagem de ter apenas em conta os valores extremos e, portanto não

ser sensível aos valores intermédios.
O intervalo inter-quartis definido como a diferença entre o 1º e o 3º

quartis
IQ = Q3 - Q1,
ao englobar 50% das observações centrais, tem a desvantagem de não considerar

os valores extremos.
3
Vulgarmente chamado caixa-de-bigodes.
4
Quando os dados estão agrupados em classes, R é a diferença entre o limite superior da última classe e o
limite inferior da primeira classe.

Uma vez que as medidas de dispersão anteriores não permitem, muitas

vezes, obter uma informação completa sobre a variabilidade, há a necessidade de
introduzir outro tipo de medidas de dispersão, que tenham em conta a posição de
todos os valores em relação a uma referência fixa.
As medidas que utilizam uma medida de localização como termo de

comparação são:
o desvio absoluto médio
Dados agrupados
Dados não agrupados
Discretos Contínuos
n k k
∑ x −x
i =1
i ∑n
i =1
i xi − x ∑ n c −x
i =1
i i
DM = DM = DM =
n n n
a variância (desvio médio quadrático) e o desvio padrão :
Variância Desvio padrão

n n
∑ (x ∑ (x
2
i − x) i − x)
2
Dados não agrupados
s2 = i =1
s= i =1
n n
k k
∑ ni (x i − x ) ∑ n (x
2 2
i i − x)
discretos
Dados s2 = i =1
s= i =1
agrupados n n
k k
∑ ni (ci − x ) ∑ n (c
2 2
i i − x)
contínuos
s2 = i =1
s= i =1
n n
2.3.2. Medidas de dispersão relativa
Quando se pretende comparar a dispersão entre dois ou mais conjuntos de

dados, mesmo venham expressos em unidades diferentes, usam-se medidas de
dispersão relativa5.
5
Só é possível usar estas medidas se as variáveis em estudo tomarem valores de um único
sinal (ou todos positivos ou todos negativos).

O coeficiente de dispersão
s
CD =
x
e o coeficiente de variação
s
CV = ⋅ 100 % ,
x
permitem a compreensão, em termos relativos, do grau de concentração em torno
da média .
Um coeficiente de variação superior a 50% indica uma grande dispersão

relativa e uma pequena representatividade da média como medida estatística.
2.3.3. Medidas de assimetria
A assimetria de uma distribuição de frequência é classificada em função da

posição relativa de média, moda e mediana e é tanto mais assimétrica quanto mais
afastadas estas medidas estiverem.
A distribuição diz-se simétrica se x = Me = Mo (isto é, se média, moda e
mediana coincidirem). Se x ≤ Me ≤ Mo a distribuição diz-se assimétrica negativa
(ou enviesada à direita) e se x ≥ Me ≥ Mo a distribuição diz-se assimétrica
positiva (ou enviesada à esquerda).
x
Me x Me Mo Mo Me x
Mo
Existem vários coeficientes que permitem medir o grau de assimetria. O

coeficiente mais usado é chamado primeiro coeficiente de Pearson:
x − Mo
g1 =
s

A classificação da assimetria faz-se em função do sinal do coeficiente. Se

g1 = 0 a distribuição é simétrica, se g1 > 0 a distribuição é assimétrica positiva
e se g1 < 0 a distribuição é assimétrica negativa.
Se não se dispuser da média e do desvio padrão, é possível calcular o grau

de assimetria utilizando apenas os valores dos quartis, através do segundo
coeficiente de Pearson (também chamado grau de Bowley):
g2 =
(Q3 − Q2 ) − (Q2 − Q1 ) = Q3 − 2Q2 + Q1 =
Q3 − 2 M e + Q1
(Q3 − Q2 ) + (Q2 − Q1 ) Q3 − Q1 Q3 − Q1
É também possível calcular um coeficiente de dispersão através do cálculo

de momentos, o coeficiente de Fisher:
m3 ∑ n (x
i =1
i i
k
− x)
q3 = onde mk = .
m2 n
2.3.4. Medidas de achatamento ou curtose
As medidas de achatamento (ou curtose) dão uma indicação da intensidade

das frequências na vizinhança dos valores centrais.
A classificação de qualquer distribuição de frequência faz-se através do grau
de curtose:
Q3 − Q1
K=
2(P90 − P10 )
por comparação com a distribuição Normal cujo grau de curtose é 0,263. Assim se
K=0,263 a distribuição é mesocúrtica, se K<0,263 a distribuição é leptocúrtica e se
K>0,263 a distribuição é platicúrtica.

Exercício: Considere os resultados finais de Matemática de 20 alunos de uma

Universidade:
9 14 12 8 14 12 16 16 8 14
11 12 14 11 11 18 14 18 15 15
Determine as frequências absolutas e relativas (simples e acumuladas)
a. Calcule a amplitude total da amostra
b. Represente graficamente as frequências absolutas e relativas
c. Calcule a média, a moda e a mediana.
d. Determine e interprete P75 e P90
e. Calcule a variância e o desvio padrão
f. Calcule os coeficientes de dispersão e de variação
g. Calcule o grau de assimetria de Pearson. Que conclui sobre a simetria da

amostra?
h. Calcule o coeficiente percentílico de curtose e classifique a distribuição

quanto ao achatamento.
Exercício: Considere a seguinte distribuição de frequências, correspondentes ao

número de defeitos detectados nas peças de tecido
produzidas no último trimestre, na Fábrica Nacional de
Tecidos:
Classes [ 5 ; 15 [ [ 15 ; 25 [ [ 25 ; 35 [ [ 35 ; 45 [ [ 45 ; 55 [ [ 55 ; 65 [
Frequências
4 8 14 20 11 3
absolutas
a. Qual a população e a variável em estudo?
b. Calcule a média de defeitos por peça de tecido?
c. Quantas peças de tecido apresentaram no máximo 20 defeitos?
d. Calcule a moda e a mediana e interprete os valores obtidos.
e. Calcule o coeficiente de variação.
f. Classifique a simetria da distribuição através do cálculo do coeficiente de

Pearson .
g. Calcule e interprete o coeficiente percentílico de curtose.

Estat descritiva-FREQ

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estat descritiva-FREQ

Uploaded by

Copyright:

Available Formats

Área Departamental de Matemática

Carla Maria Lopes da Silva Afonso dos Santos

A Estatística descritiva consiste na recolha, apresentação, análise e

Uma das primeiras fases da planificação de um estudo estatístico consiste na

As técnicas de amostragem permitem aumentar a precisão dos resultados

Amostragem aleatória simples: Dada uma população, uma amostra aleatória

Amostragem sistemática: Na prática o processo de seleccionar uma amostra

Amostragem estratificada: Para se proceder à selecção de uma amostra

Amostragem por “clusters” (conglomerados): Para se proceder a este tipo de

Quanto à forma como os dados são obtidos podemos classificar a recolha

Carla Maria Lopes da Silva Afonso dos Santos 2

calculados a partir de dados primários, ou seja, através de recolha indirecta são

Se considerarmos a periodicidade com que é feita essa recolha, pode-se

• contínua - realiza-se permanentemente

• periódica - feita em intervalos de tempo

• ocasional - realiza-se de modo esporádico

Ao estudar uma população (ou uma amostra de uma população) pretende-se

As várias modalidades registam-se numa escala nominal se a ordem das

Se os dados resultantes das observações resultam de características

Para representar os diferentes valores que uma característica quantitativa

2. Técnicas básicas de tratamento de dados

Exemplo: Consideremos o seguinte conjunto de dados, que representam as idades

Carla Maria Lopes da Silva Afonso dos Santos 3

idades contage Frequência Frequência Frequência Frequência

No caso de o estudo recair sobre uma variável aleatória contínua (peso,

• nenhuma classe deverá ter frequência nula

• as classes devem ter , sempre que possível, amplitudes iguais

• evitar classes abertas

Carla Maria Lopes da Silva Afonso dos Santos 4

A amplitude de cada classe (ai) será calculada dividindo a amplitude total

Exemplo : Consideremos as alturas (em cm) de 20 indivíduos

[148,154[ [154,160[ [160,166[ [166,172[ [172,178[

Adaptando o procedimento descrito anteriormente para variáveis discretas,

Exercício: As classificações obtidas pelos alunos de Turismo, no ano lectivo de

Construa uma tabela de frequências, distribuindo convenientemente os dados por

Carla Maria Lopes da Silva Afonso dos Santos 5

Sectograma ou gráfico circular

A representação gráfica de distribuições de frequências de variáveis

Carla Maria Lopes da Silva Afonso dos Santos 6

2.2. Medidas de localização

2.2.1. Medidas de tendência central

A média, x ,é das medidas de tendência central, a mais usada.

Para dados simples, após ordenar os n dados, a mediana é:

Para dados agrupados em classes

Limite inferior da classe mediana

ou usando frequências absolutas:

Carla Maria Lopes da Silva Afonso dos Santos 7

n Frequência absoluta acumulada da classe anterior à classe

A moda, Mo, é definida como o valor da variável que mais se repete, ou

Para dados agrupados em classes

Acréscimo da frequência da classe modal relativamente à

Frequência absoluta da classe posterior à classe modal

Frequência absoluta da classe anterior à classe modal

Em função do número de modas que apresentam, as distribuições podem

Carla Maria Lopes da Silva Afonso dos Santos 8

2.2.2. Medidas de tendência não central

As medidas de tendência não central chamam-se, em termos gerais, quantis

Os quartis são os valores da variável que dividem a distribuição de

Os decis (D1 , D2 , ... , D9 )são os valores da variável que dividem a

Os percentis (P1 , P2 , ... , P99 )são os valores da variável que dividem a

Para o cálculo destas medidas adapta-se, à percentagem pretendida, o

Exemplo : Consideremos a seguinte tabela de frequências:

Se pretender-mos, por exemplo, calcular o P35 (35º percentil) vem:

Frequência relativa acumulada da classe