Professional Documents
Culture Documents
Projeto PAE
1 Introdução ......................................................................... 3
2 Sobre a Estatística ............................................................... 3
2.1 Um Pouco da História da Estatística.......................................................................... 3
2.2 Definição ........................................................................................................................... 3
2.3 Conceitos Importantes .................................................................................................. 3
População:.................................................................................................................................. 3
Amostra: ................................................................................................................................... 4
3 Distribuição de Freqüências ...................................................... 4
3.1 Metodologia para a Elaboração de uma Distribuição de Freqüências................. 5
4 Medidas de Posição ou Tendência Central ....................................... 7
4.1 Média ................................................................................................................................. 8
4.2 Mediana ............................................................................................................................. 9
4.3 Moda................................................................................................................................... 9
4.4 Ponto Médio.....................................................................................................................10
5 Medidas de Dispersão ou de Variabilidade ..................................... 10
5.1 Amplitude Total.............................................................................................................. 11
5.2 Desvio-Padrão ................................................................................................................. 11
5.3 Variância...........................................................................................................................14
6 Assimetria ........................................................................ 14
7 Curtose............................................................................ 15
8 Separatrizes ...................................................................... 16
9 Referências ....................................................................... 20
10 Exercício .......................................................................... 20
2 Sobre a Estatística
2.2 Definição
3 Distribuição de Freqüências
Tabela 1. Distribuição de
freqüências da temperatura média
diária do mês de dezembro de 2004
da estação do IAG.
Intervalos de Classe Freqüências
16.1 17.8 3
17.8 19.5 8
19.5 21.2 7
21.2 22.9 8
22.9 24.6 4
24.6 26.3 1
Figura 1. Histograma de freqüências.
Dados brutos: dados que ainda não foram numericamente organizados. São as
observações.
Freqüência absoluta: número de vezes que um valor aparece num conjunto de
dados.
Temperatura Freqüências
16,1 1
17,2 1
17,5 1
18 1
18,3 2
18,4 1
18,7 1
18,9 2
19,1 1
19,8 1
20 1
20,1 1
20,8 1
20,9 1
21,2 2
21,4 1
21,5 1
22 1
22,2 1
22,3 1
22,4 2
22,6 1
23 1
23,2 2
23,7 1
25,1 1
h=
[x
imáx
− (ximín − 1)]
(2)
k
h=
[25,1 − (16,1 − 1)]
6
h ≅ 1,7
x=
∑ xi (3)
n
x = 20,590 C
Média Harmônica: costuma ser usada como medida de tendência central para
conjuntos de dados que consistem em taxas de variação, como por exemplo
velocidades. Obtém-se a média harmônica dividindo-se o número n de valores pela
soma dos inversos de todos os valores. Portanto, é expressa como (Triola, 1998):
n
x=
1 (4)
∑x
i
31
x =
1 1 1 1
+ + ... + +
18,9 18,7 22,2 23,2
x = 20,360 C
x = 20,480 C
x=
∑x i
(5)
n
x = 20,710 C
4.2 Mediana
A mediana é o elemento que ocupa a posição central de uma série de dados. Para
encontrá-la os dados devem estar dispostos em ordem crescente ou decrescente. Se a
série tiver um número ímpar de dados o valor que estiver ocupando o meio da série
será a mediana. Se tiver um número par de dados deve-se extrair a média aritmética
dos dois valores centrais, uma vez que, o valor correspondente a mediana acha-se
entre eles.
A mediana dos dados fornecidos na tabela 1 corresponde a 20,9ºC.
4.3 Moda
A moda é o valor que ocorre com maior freqüência em uma série de dados. Pode
ser identificada apenas observando-se a série nos casos de dados não agrupados.
Quando a série possuir dois valores com a mesma freqüência máxima, cada um deles é
O ponto médio é o valor que está a meio caminho entre o maior e o menor valor
da série de dados. Para obtê-lo, somamos esses valores extremos e dividimos o
resultado por 2, como na expressão a seguir (Triola, 1998):
16,1 + 25,1
PM =
2
PM = 20,6º C
x =
∑x i 350
= = 70
n 5
y =
∑ yi = 350 = 70
n 5
z =
∑ zi = 350 = 70
n 5
Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70.
Entretanto, é fácil notar que o conjunto x é mais homogêneo que os conjuntos y
e z, já que todos os valores são iguais a média.
O conjunto y, por sua vez, é mais homogêneo que o conjunto z, pois há menor
diversificação entre cada um de seus valores e a média é representativa.
Chamando de dispersão ou de variabilidade a maior ou menor diversificação dos
valores de uma variável em torno de um valor de tendência central tomado como ponto
de comparação, podemos dizer que o conjunto x apresenta dispersão ou variabilidade
nula e que o conjunto y apresenta uma distribuição ou variabilidade menor que o
conjunto z.
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou
menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a
Estatística recorre às medidas de dispersão ou de variabilidade. Dessas medidas,
serão descritas a amplitude total, o desvio-padrão e a variância.
AT = 25,1 – 16,1 = 9º C
5.2 Desvio-Padrão
A amplitude total é uma medida instável, pois se deixa influenciar pelos valores
extremos, que são, na sua maioria, devidos ao acaso.
O desvio-padrão e a variância são medidas que fogem a essa falha, pois levam
em consideração a totalidade dos valores da variável em estudo, o que faz delas
s=
(xi − x )2 (8)
n −1
σ=
(xi − µ )2 (9)
N
∑ (x − x ) 2
Na figura abaixo foi plotada a média (20,6º C), a média acrescida de mais um
desvio-padrão e a média descontada de um desvio-padrão da série de dados de
temperatura média diária do mês de dezembro de 2004 da estação do IAG, com o
objetivo de mostrar que uma grande porcentagem (cerca de 68%) dos dados ficam
entre os limites da média somada e diminuída de um desvio-padrão.
s 2
=
∑ (x − x )
i
2
(10)
n −1
já a variância populacional é:
σ2 =
∑ (x − µ )
i
2
(11)
N
Σ(xi − x )
2
m2 = (12)
n
6 Assimetria
a)
b) c)
Figura 4. Representação
esquemática da assimetria.
x − Mo
A= (13)
s
3(x − Me )
A= (14)
s
Mas, a medida de assimetria mais utilizada é dada pelo terceiro momento (m3)
centrado na média, ou seja:
m3
A= (15)
s3
onde:
Σ (xi − x )
3
m3 = (16)
n
7 Curtose
a) b) c)
A curtose (C) é definida pelo quarto momento (m4) dividido pelo o desvio-padrão
da série elevado a quarta potência ( s 4 ):
m4
C= (17)
s4
Σ (xi − x )4
m4 =
n
A curtose é denominada mesocúrtica quando C=3, neste caso, tem-se uma curva
normal. Se C>3, a curva de freqüência é mais fechada que a curva normal, ou seja
possui um pico e recebe a denominação de leptocúrtica. Se C<3, a curva de freqüência
é mais achatada que a curva normal, sendo chamada de platicúrtica.
A curtose calculada para os dados da tabela 1 foi C = 2,2, portanto C<3 e a curva
de freqüência é mais achatada que a curva normal.
8 Separatrizes
Considere os dados:
104 5 43 123 58 63 12 71 32
i 1 2 3 4 5 6 7 8 9
y 5 12 32 43 58 63 71 104 123
1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10
Pi=i/(N+1)
0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
No caso, as ordens quantílicas obtidas foram 0,10 = 10%; 0,20 = 20%; 0,30 =
30%; 0,40 = 40%; 0,50 = 50%; 0,60 = 60%; 0,70 = 70%; 0,80 = 80% e 0,90 = 90%.
Segue-se que os yi correspondentes serão os decis, entre os quais está a mediana que
corresponde à ordem quantílica P = 0,50 = 50%.
Q(0,25)=[Q(0,20)+Q(0,30)]=(12+32)/2=22
Q(0,75)=[Q(0,70)+Q(0,80)]=(71+104)/2=87,5
O primeiro tercil está entre 30% e 40%, cujos quantis respectivos são 32 e 43,
portanto:
Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi]
Q(33,3%)=32+{[33,3-30]/40,0-30,0]}*[43-32]
=32+(3,3/10,0)*11
=32+0,33*11
=35,63
Dada a tabela:
Para se encontrar os quartis divide-se o N+1 por 4; para os decis divide-se N+1
por 10 e para os percentis divide-se o N+1 por 100.
Na tabela acima, o primeiro quartil é o valor da série ordenada cuja posição é
(N+1)/4 = 101/4 = 25,25 que corresponde a um valor de chuva entre 1.090 e 1.099 mm;
a mediana, o segundo quartil, é encontrada por 2(N+1)/4 = 202/4 = 50,5, ou seja, o
valor de chuva correspondente a 1.298 mm; o terceiro quartil é o 75º valor da série
ordenada, ou seja, 3(N+1)/4 = 75,75, sendo o valor de chuva entre 1.443 e 1.455 mm.
O primeiro decil corresponde a (N+1)/100 = 101/100 = 1,01, que corresponde a
um valor de chuva compreendido entre 680 e 689 mm. Por interpolação linear obtém-
se o valor exato do primeiro decil multiplicando-se 0,01 pela diferença entre os
valores da décima e nona observação e somando-se esse resultado ao valor da nona
observação. Assim:
680+0,01(689-680) = 680,1 mm
CRESPO, A. A., 1997. Estatística Fácil. 15º Ed., Saraiva, São Paulo, SP.
SILVA, N. P., 1998. Estatística Auto-Explicativa. Ed. Érica, São Paulo, SP.
TRIOLA, M. F., 1998. Introdução à Estatística. 7º Ed., LTC, Rio de Janeiro, RJ.
10 Exercício