You are on page 1of 14

Área Departamental de Matemática

Estatística

Descritiva

Carla Maria Lopes da Silva Afonso dos Santos

2006/2007
Estatística descritiva

1. Introdução

A Estatística descritiva consiste na recolha, apresentação, análise e


interpretação de dados através da criação de instrumentos adequados.

Uma das primeiras fases da planificação de um estudo estatístico consiste na


definição exacta de quais os indivíduos (pessoas, animais ou objectos) que
interessa estudar. O conjunto de indivíduos ou objectos que apresentam uma ou
mais características em comum e sobre os quais recai o estudo designa-se por
População (ou Universo), podendo esta população ser finita ou infinita.
Cada um dos elementos da população sobre os quais recai o estudo designa-
se por unidade estatística.
Ao realizar um estudo estatístico, muitas vezes não é possível estudar toda a
população (recenseamento) por ela ser infinita, por falta de meios, por questões de
custo ou muito simplesmente por a sua observação ser destrutiva. Nestes casos o
estudo basear-se-à na observação de apenas uma pequena parte da população, a
amostra.

As técnicas de amostragem permitem aumentar a precisão dos resultados


sem aumentar os custos, conseguindo determinar a dimensão da amostra ideal
para determinada precisão pretendida (ou vice-versa).
Diferentes métodos de amostragem são utilizados dependendo do conhecimento ou
desconhecimento da população sobre a qual vai recair o estudo.

Amostragem aleatória simples: Dada uma população, uma amostra aleatória


simples é uma amostra em que qualquer elemento da população tem igual
probabilidade de ser seleccionado para pertencer à amostra.

Amostragem sistemática: Na prática o processo de seleccionar uma amostra


aleatória simples, principalmente se a dimensão da população for grande, é um
pouco trabalhoso. A alternativa é recorrer à amostragem sistemática, que consiste
em ordenar por algum critério a população, escolher um intervalo de selecção
I=N/n ( N= dimensão da população e n= dimensão da amostra), escolher
aleatoriamente uma unidade de entre as primeiras I e finalmente seleccionar as
unidades que distam, I, 2I , 3I ... unidades, da primeira escolhida.

Amostragem estratificada: Para se proceder à selecção de uma amostra


estratificada, divide-se a população em estratos (subpopulações) e de cada estrato
extrai-se aleatoriamente uma amostra. O conjunto de todas essas amostras
constitui a amostra pretendida.

Amostragem por “clusters” (conglomerados): Para se proceder a este tipo de


amostragem a população deve ser dividida em “clusters” (conglomerados de
elementos da população, representativos dessa mesma população). Seleccionados
aleatoriamente alguns “clusters”, a amostra é composta por todos os seus
elementos.

Quanto à forma como os dados são obtidos podemos classificar a recolha


como directa ou indirecta.
Os dados obtidos através de inquéritos, registos ou ficheiros, consideram-se
recolhidos de forma directa e são chamados dados primários. Aos dados

Carla Maria Lopes da Silva Afonso dos Santos 2


Estatística descritiva

calculados a partir de dados primários, ou seja, através de recolha indirecta são


chamados dados secundários.

Se considerarmos a periodicidade com que é feita essa recolha, pode-se


classificar como contínua, periódica ou ocasional:

• contínua - realiza-se permanentemente

• periódica - feita em intervalos de tempo

• ocasional - realiza-se de modo esporádico

Ao estudar uma população (ou uma amostra de uma população) pretende-se


conhecer as suas características ou atributos para que posteriormente seja possível
tomar decisões com base nesse conhecimento (fazer comparações com outras
populações, fazer previsões para o futuro etc).
Se os dados resultantes das observações identificam alguma qualidade,
categoria ou característica, não susceptível de medida, assumindo várias
modalidade, dizem-se quantitativos

As várias modalidades registam-se numa escala nominal se a ordem das


modalidades não tem significado e numa escala ordinal se as modalidades têm
uma relação de ordem entre elas.

Se os dados resultantes das observações resultam de características


susceptíveis de serem medidas dizem-se qualitativos e apresentam diferentes
intensidades ou valores.

Para representar os diferentes valores que uma característica quantitativa


pode tomar, utilizam-se variáveis que se representam por letras maiúsculas (X , Y ,
Z). Assim poderemos falar de variáveis discretas, se tomam um número finito ou
infinito numerável de valores, e contínuas se poderem tomar uma infinidade de
valores dentro de um intervalo.

2. Técnicas básicas de tratamento de dados

Exemplo: Consideremos o seguinte conjunto de dados, que representam as idades


dos alunos de uma turma.

20 19 21 25 20 24 21 23 20 18

20 18 25 23 20 18 19 18 19 22

Carla Maria Lopes da Silva Afonso dos Santos 3


Estatística descritiva

Tabela de frequências

idades contage Frequência Frequência Frequência Frequência


m absoluta absoluta relativa relativa
xi ni acumulada fi acumulada
nai fai
18 |||| 4 4 4/20=0,2 4/20=0,2
19 ||| 3 7 3/20=0,15 7/20= 0,35
20 |||| 5 12 5/20=0,25 12/20= 0,6
21 || 2 14 2/20=0,1 14/20= 0,7
22 | 1 15 1/20=0,05 15/20= 0,75
23 || 2 17 2/20=0,1 17/20= 0,85
24 | 1 18 1/20=0,05 18/20= 0,9
25 || 2 20 2/20=0,1 20/20= 1

No caso de o estudo recair sobre uma variável aleatória contínua (peso,


altura, temperatura etc.), devido à infinidade de valores que a variável pode
assumir é necessário agrupar esses valores em intervalos de classes1, de forma a
simplificar todos os procedimentos posteriores.
Para determinar o número de classes ( k ) existem diversos métodos. No
método apresentado por Velleman em 1976, k é o maior inteiro contido em 2 n.
Na fórmula de Sturges, o método mais utilizado,

 ln n 
k =1+  
 ln 2 
onde [ ] representa a parte inteira e ln o logaritmo de base e.

Nota: O número de classes não deve ser inferior a 4 nem superior a 14.
4 ≤ k ≤ 14
Depois de se determinar quantas classes se usarão segue-se a construção
das classes2, que consiste na determinação da amplitude de cada classe e dos seus
limites. Para tal deve-se obedecer a algumas regras básicas:

• nenhuma classe deverá ter frequência nula

• as classes devem ter , sempre que possível, amplitudes iguais

• os pontos médios das classes deverão ser valores de fácil cálculo (ponto
médio da classe ou centro da classe é a semi-soma do limite superior e
inferior da classe)

• evitar classes abertas

1
Também no caso de variáveis aleatórias discretas que apresentem uma grande diversidade
de valores é aconselhável a “criação” de classes.
2
Para simplificar a construção das classes poderemos começar pelo centro da classe central,
no caso de k ser impar, ou no extremo superior da (k+1)/2 ésima classe, se k for par.

Carla Maria Lopes da Silva Afonso dos Santos 4


Estatística descritiva

• os limites das classes devem ser definidos de modo a que cada valor da
variável pertença a uma e uma só classe. Consideraremos classes
fechadas à esquerda e abertas à direita, isto é, o limite inferior do
intervalo pertence à classe mas o limite superior não.

A amplitude de cada classe (ai) será calculada dividindo a amplitude total


dos dados em estudo (R=xmax-xmin) pelo número de classes pretendidas:

R
ai =
k

Exemplo : Consideremos as alturas (em cm) de 20 indivíduos

151 157 158 156 160 176 150 149 162 153
163 170 172 171 164 173 166 165 160 158

n=20
k = 1 +[ log 20/log2] = 5

ai = 5,4 ≈ 6 .

[148,154[ [154,160[ [160,166[ [166,172[ [172,178[

Adaptando o procedimento descrito anteriormente para variáveis discretas,


constroi-se a tabela de frequências para variáveis contínuas.
A grande diferença consiste em contar quantos elementos da população
“caem” dentro de cada classe, atendendo aos valores da variável estatística.

Exercício: As classificações obtidas pelos alunos de Turismo, no ano lectivo de


99/00, à cadeira de Métodos Estatísticos foram os seguintes:

11,5 6,8 7,5 12,6 9,6 10,1 13,5 7,9 10,3 8,6

14,7 13,1 10,5 10,7 8,8 10,0 10,9 13,2 9,7 11,8

15,2 8,0 9,8 11,1 9,1 9,9 12,1 13,9 10,8 10,2

7,3 14,2 10,6 13,3 12,0 8,2 11,2 10,4 12,8 12,3

Construa uma tabela de frequências, distribuindo convenientemente os dados por


classes.

Carla Maria Lopes da Silva Afonso dos Santos 5


Estatística descritiva

Gráfico de barras:

Sectograma ou gráfico circular

A representação gráfica de distribuições de frequências de variáveis


contínuas é obtida por meio de um diagrama de áreas, o histograma. Este gráfico
é formado por uma sucessão de rectângulos adjacentes tendo cada um por base
um intervalo de classe e por altura a respectiva frequência absoluta (ou relativa).

F HISTOGRAMA
R
E
Q 7
A 6
B 5
S
O 4
L 3
U
T 2
A 1
S
0
148 154 160 166 172 178
IDADES

Carla Maria Lopes da Silva Afonso dos Santos 6


Estatística descritiva

2.2. Medidas de localização

2.2.1. Medidas de tendência central

A média, x ,é das medidas de tendência central, a mais usada.


n

∑x i =1
i
x =
n
k

∑n x
i =1
i i
x=
n
onde: k é o número de valores que a variável pode tomar
ni é a frequência absoluta do valor xi da variável.

∑n c
i =1
i i
x=
n
onde: ci é o centro (ou ponto médio) da classe i.

Para dados simples, após ordenar os n dados, a mediana é:

n +1
• o valor que se encontra na posição (se n é impar)
2
n n
• a semi-soma dos valores nas posições e + 1 ( se n é par).
2 2

Para dados agrupados em classes


0 ,5 − f ai −1
Me = l i + ⋅ ai
fi Amplitude da classe mediana
Frequência relativa da classe mediana

Limite inferior da classe mediana

ou usando frequências absolutas:

Carla Maria Lopes da Silva Afonso dos Santos 7


Estatística descritiva

n Frequência absoluta acumulada da classe anterior à classe


− n ai −1 mediana
Me = l i + 2 ⋅ ai
ni
Frequência absoluta da classe mediana

A moda, Mo, é definida como o valor da variável que mais se repete, ou


seja, o que tem maior frequência.
Para dados simples e dados agrupados discretos (não em classes) a
determinação da moda resume-se a encontrar o valor que se destaca dos outros
por apresentar maior frequência.

Para dados agrupados em classes

Acréscimo da frequência da classe modal relativamente à


frequência da classe imediatamente anterior
∆1 Amplitude da classe modal
Mo = li + ⋅ ai
∆1 + ∆ 2
Acréscimo da frequência da classe modal relativamente à
frequência da classe imediatamente posterior
Limite inferior da classe modal

Frequência absoluta da classe posterior à classe modal

Fi +1
Mo = li + ⋅ ai
Fi −1 + Fi +1

Frequência absoluta da classe anterior à classe modal

Em função do número de modas que apresentam, as distribuições podem


ser classificadas como unimodais (1 moda), bimodais (2 modas) ou
plurimodais (mais de 2 modas).

Carla Maria Lopes da Silva Afonso dos Santos 8


Estatística descritiva

2.2.2. Medidas de tendência não central

As medidas de tendência não central chamam-se, em termos gerais, quantis


e dividem-se em três categorias, quartis, decis e percentis.

Os quartis são os valores da variável que dividem a distribuição de


frequências em quatro partes iguais. O primeiro quartil, Q1 , é o valor da variável (
o menor possível) tal que a percentagem de observações inferiores ou iguais a este
é 25%. O segundo quartil, Q2 , coincide com a mediana uma vez que é o valor da
variável ( o menor possível) tal que a percentagem de observações inferiores ou
iguais a este é 50%. O terceiro quartil, Q3 , é o valor da variável ( o menor
possível) tal que a percentagem de observações inferiores ou iguais a este é 75%.

Os decis (D1 , D2 , ... , D9 )são os valores da variável que dividem a


distribuição em dez partes iguais

Os percentis (P1 , P2 , ... , P99 )são os valores da variável que dividem a


distribuição em cem partes iguais

Para o cálculo destas medidas adapta-se, à percentagem pretendida, o


procedimento descrito para a mediana.

Exemplo : Consideremos a seguinte tabela de frequências:

Xi ni nai fi fai
[1 , 4[ 2 2 0,167 0,167
[4 , 7[ 3 5 0,250 0,417
[7 , 10[ 5 10 0,417 0,834
[10 , 12[ 2 12 0,167 1,001

Se pretender-mos, por exemplo, calcular o P35 (35º percentil) vem:

Frequência relativa acumulada da classe


anterior à classe que contém os 35%
0 ,35 − f ai −1
P35 = l i + ⋅ ai
fi Amplitude da classe que contém os 35%

Frequência relativa da classe que contém os 35%


Limite inferior da classe que contém os 35%

O 1º passo consiste em “descobrir” qual a classe que contém os


35%. Para tal recorre-se à coluna das frequências relativas
acumuladas e procura-se a classe que contém os 35%.
Facilmente se verifica que a classe em questão é a segunda ,
[4 , 7[ . Substituindo na formula acima os valores correspondentes
0 ,35 − 0,167
vem: P35 = 4 + × 3 = 6,196 .
0,25

Carla Maria Lopes da Silva Afonso dos Santos 9


Estatística descritiva

Para descrever resumidamente a distribuição usa-se um esquema chamado


diagrama de extremos3 (box-plot)

0% 25% 50% 75% 100%

Mínimo Q1 Me=Q2 Q3 Máximo

2.3. Medidas de dispersão. Medidas de assimetria e achatamento.

2.3.1. Medidas de dispersão absoluta

As medidas de dispersão podem ser divididas em duas categorias, as


medidas de distância e as medidas que utilizam uma medida de localização como
termo de comparação.
As medidas de distância, que se apresentam na mesma unidade de medida
dos dados originais, são intervalo de variação e o intervalo inter-quartis.

O intervalo de variação4 (amplitude total), definido como a diferença entre


o maior e o menor valor da variável

R = xmax - xmin

tem a desvantagem de ter apenas em conta os valores extremos e, portanto não


ser sensível aos valores intermédios.

O intervalo inter-quartis definido como a diferença entre o 1º e o 3º


quartis

IQ = Q3 - Q1,

ao englobar 50% das observações centrais, tem a desvantagem de não considerar


os valores extremos.

3
Vulgarmente chamado caixa-de-bigodes.
4
Quando os dados estão agrupados em classes, R é a diferença entre o limite superior da última classe e o
limite inferior da primeira classe.

Carla Maria Lopes da Silva Afonso dos Santos 10


Estatística descritiva

Uma vez que as medidas de dispersão anteriores não permitem, muitas


vezes, obter uma informação completa sobre a variabilidade, há a necessidade de
introduzir outro tipo de medidas de dispersão, que tenham em conta a posição de
todos os valores em relação a uma referência fixa.

As medidas que utilizam uma medida de localização como termo de


comparação são:

o desvio absoluto médio

Dados agrupados
Dados não agrupados
Discretos Contínuos
n k k

∑ x −x
i =1
i ∑n
i =1
i xi − x ∑ n c −x
i =1
i i
DM = DM = DM =
n n n

a variância (desvio médio quadrático) e o desvio padrão :

Variância Desvio padrão


n n
∑ (x ∑ (x
2
i − x) i − x)
2
Dados não agrupados
s2 = i =1
s= i =1
n n
k k

∑ ni (x i − x ) ∑ n (x
2 2
i i − x)
discretos
Dados s2 = i =1
s= i =1

agrupados n n
k k

∑ ni (ci − x ) ∑ n (c
2 2
i i − x)
contínuos
s2 = i =1
s= i =1

n n

2.3.2. Medidas de dispersão relativa

Quando se pretende comparar a dispersão entre dois ou mais conjuntos de


dados, mesmo venham expressos em unidades diferentes, usam-se medidas de
dispersão relativa5.

5
Só é possível usar estas medidas se as variáveis em estudo tomarem valores de um único
sinal (ou todos positivos ou todos negativos).

Carla Maria Lopes da Silva Afonso dos Santos 11


Estatística descritiva

O coeficiente de dispersão

s
CD =
x
e o coeficiente de variação

s
CV = ⋅ 100 % ,
x
permitem a compreensão, em termos relativos, do grau de concentração em torno
da média .

Um coeficiente de variação superior a 50% indica uma grande dispersão


relativa e uma pequena representatividade da média como medida estatística.

2.3.3. Medidas de assimetria

A assimetria de uma distribuição de frequência é classificada em função da


posição relativa de média, moda e mediana e é tanto mais assimétrica quanto mais
afastadas estas medidas estiverem.
A distribuição diz-se simétrica se x = Me = Mo (isto é, se média, moda e
mediana coincidirem). Se x ≤ Me ≤ Mo a distribuição diz-se assimétrica negativa
(ou enviesada à direita) e se x ≥ Me ≥ Mo a distribuição diz-se assimétrica
positiva (ou enviesada à esquerda).

x
Me x Me Mo Mo Me x
Mo

Existem vários coeficientes que permitem medir o grau de assimetria. O


coeficiente mais usado é chamado primeiro coeficiente de Pearson:

x − Mo
g1 =
s

Carla Maria Lopes da Silva Afonso dos Santos 12


Estatística descritiva

A classificação da assimetria faz-se em função do sinal do coeficiente. Se


g1 = 0 a distribuição é simétrica, se g1 > 0 a distribuição é assimétrica positiva
e se g1 < 0 a distribuição é assimétrica negativa.

Se não se dispuser da média e do desvio padrão, é possível calcular o grau


de assimetria utilizando apenas os valores dos quartis, através do segundo
coeficiente de Pearson (também chamado grau de Bowley):

g2 =
(Q3 − Q2 ) − (Q2 − Q1 ) = Q3 − 2Q2 + Q1 =
Q3 − 2 M e + Q1
(Q3 − Q2 ) + (Q2 − Q1 ) Q3 − Q1 Q3 − Q1

É também possível calcular um coeficiente de dispersão através do cálculo


de momentos, o coeficiente de Fisher:

m3 ∑ n (x
i =1
i i
k
− x)
q3 = onde mk = .
m2 n

2.3.4. Medidas de achatamento ou curtose

As medidas de achatamento (ou curtose) dão uma indicação da intensidade


das frequências na vizinhança dos valores centrais.
A classificação de qualquer distribuição de frequência faz-se através do grau
de curtose:
Q3 − Q1
K=
2(P90 − P10 )

por comparação com a distribuição Normal cujo grau de curtose é 0,263. Assim se
K=0,263 a distribuição é mesocúrtica, se K<0,263 a distribuição é leptocúrtica e se
K>0,263 a distribuição é platicúrtica.

Carla Maria Lopes da Silva Afonso dos Santos 13


Estatística descritiva

Exercício: Considere os resultados finais de Matemática de 20 alunos de uma


Universidade:

9 14 12 8 14 12 16 16 8 14

11 12 14 11 11 18 14 18 15 15

Determine as frequências absolutas e relativas (simples e acumuladas)

a. Calcule a amplitude total da amostra

b. Represente graficamente as frequências absolutas e relativas

c. Calcule a média, a moda e a mediana.

d. Determine e interprete P75 e P90

e. Calcule a variância e o desvio padrão

f. Calcule os coeficientes de dispersão e de variação

g. Calcule o grau de assimetria de Pearson. Que conclui sobre a simetria da


amostra?

h. Calcule o coeficiente percentílico de curtose e classifique a distribuição


quanto ao achatamento.

Exercício: Considere a seguinte distribuição de frequências, correspondentes ao


número de defeitos detectados nas peças de tecido
produzidas no último trimestre, na Fábrica Nacional de
Tecidos:

Classes [ 5 ; 15 [ [ 15 ; 25 [ [ 25 ; 35 [ [ 35 ; 45 [ [ 45 ; 55 [ [ 55 ; 65 [
Frequências
4 8 14 20 11 3
absolutas

a. Qual a população e a variável em estudo?

b. Calcule a média de defeitos por peça de tecido?

c. Quantas peças de tecido apresentaram no máximo 20 defeitos?

d. Calcule a moda e a mediana e interprete os valores obtidos.

e. Calcule o coeficiente de variação.

f. Classifique a simetria da distribuição através do cálculo do coeficiente de


Pearson .

g. Calcule e interprete o coeficiente percentílico de curtose.

Carla Maria Lopes da Silva Afonso dos Santos 14

You might also like