You are on page 1of 16

18

Capítulo III – Medidas Estatísticas

III.1 – Medidas de Tendência Central

A apresentação de dados em tabelas e gráficos mostra a forma da distribuição.


As medidas de tendência central indicam o valor do ponto em torno do qual os dados se
distribuem. Neste curso, serão abordadas 4 medidas de tendência central:

• Média;
• Mediana;
• Moda;
• Ponto Médio.

III.1.1 – Média

A média aritmética, ou simplesmente média, é o somatório dos valores de todos


os dados, dividido pelo número de dados somados. Representa o valor provável de uma
variável sendo, por isso, chamada de Valor Esperado.
A média pode ser aplicada em 3 situações distintas:

• diretamente em um conjunto de dados;


• em um conjunto de dados organizados em grupamento simples;
• em um conjunto de dados agrupados em intervalo de classes.

III.1.1.1 – Média aplicada diretamente em um conjunto de dados

Dada uma sequência X de dados coletados, definida por:

X = {x1, x2, x3, ..., xn},

onde x é o valor do dado, n o número de dados e xn o n-ésimo termo. A média de X é


definida por:

∑x i
x1 + x2 + x3 + L + xn
x= i =1
=
n n

Observação:
n

∑x i
• A média de uma amostra (média amostral) é indicada por x , ou seja, x = i =1
n
N

∑x i
• A média de uma população (média populacional) é indicada por µ, ou seja, µ = i =1
N
19

Exemplo:

Dada a tabela abaixo, calcule a média dos dados:

Tabela 3.1 – Peso em gramas, em ratos machos da raça Wistar com 30 dias de idade.
50 62 70
86 60 64
66 77 58
55 82 74

III.1.1.2 – Média para dados organizados em grupamento simples

Considere uma tabela distribuição de frequências com a variável x assumindo os


valores x1, x2, ..., xk. Sejam f1, f2, ..., fk, as respectivas frequências de cada um dos
valores assumidos pela variável x, como na tabela 3.2

Tabela 3.2 – Distribuição de frequências por grupamento simples


( x) (f)
x1 f1
x2 f2
M M
xk fk

A média dos dados da tabela 3.2 é dada por:

∑x ⋅ f i i
x1 ⋅ f1 + x2 ⋅ f 2 + x3 ⋅ f 3 + ... + xk ⋅ f k
x= i =1
k
=
∑f
n
i
i =1

Para ilustrar o calculo da média, observe os dados apresentados na tabela 3.3,


organizados em agrupamentos simples:

Tabela 3.3 – Número de dentes danificados em pacientes de uma determinada clínica


odontológica
Nº de dentes danificados Nº de clientes
(x) (f)
0 9
1 5
2 6
3 7
4 9
5 5
6 4
7 3
8 2
20

A média é obtida multiplicando-se o número de dentes danificados pela


respectiva frequência. Somam-se os produtos e divide-se o resultado por n. Então, a
média é dada por:

0 ⋅ 9 + 1 ⋅ 5 + ... + 7 ⋅ 3 + 8 ⋅ 2 160
x= = = 3,2 dentes
9 + 5 + ... + 3 + 2 50

III.1.1.3 – Média para dados agrupados em intervalos de classes

Considere uma tabela distribuição de frequências com k classes. Sejam x1, x2, ...,
xk, os valores dos pontos médios de cada classe, e sejam f1, f2, ..., fk, as respectivas
frequências, como na tabela 3.4.

Tabela 3.4 – Distribuição de frequências por grupamento em intervalo de classes


Ponto médio Frequência
(x) (f)
x1 f1
x2 f2
M M
xk fk

A média dos dados da tabela 3.4 é dada por:

∑x ⋅ f i i
x1 ⋅ f1 + x2 ⋅ f 2 + x3 ⋅ f 3 + ... + xk ⋅ f k
x= i =1
k
=
∑f
n
i
i =1

Observe que a expressão acima é exatamente a mesma para o cálculo da média


de dados organizados em grupamentos simples.
Considere, por exemplo, os dados apresentados na tabela 3.5, organizados em
classes:

Tabela 3.5 – Nascidos vivos segundo peso ao nascer


Classe Ponto médio Frequência
(x) (f)
1,5 |⎯ 2,0 1,75 3
2,0 |⎯ 2,5 2,25 16
2,5 |⎯ 3,0 2,75 31
3,0 |⎯ 3,5 3,25 34
3,5 |⎯ 4,0 3,75 11
4,0 |⎯ 4,5 4,25 4
4,5 |⎯ 5,0 4,75 1

A média é obtida multiplicando-se o ponto médio de cada classe pela respectiva


frequência. Somam-se os produtos e divide-se o resultado por n. Então, a média é:
21

1,75 ⋅ 3 + 2,25 ⋅ 16 + ... + 4,25 ⋅ 4 + 4,75 ⋅ 1 300


x= = = 3,00
3 + 16 + ... + 4 + 1 100

III.1.2 – Mediana

A mediana de um conjunto de valores é o valor central desse conjunto quando os


valores estão dispostos em ordem crescente ou decrescente. Alguns autores representam
a mediana por M, Md ou Mx. Outros utilizam a notação ~ x para a mediana amostral e µ~
para mediana populacional. Entretanto, não há uma notação definida, de modo que o
uso desta ou daquela notação dever ser explicitada no momento de sua utilização.
Da mesma forma que a média, a mediana pode ser aplicada em 3 situações
distintas:

• diretamente em um conjunto de dados;


• em um conjunto de dados organizados em grupamento simples;
• em um conjunto de dados agrupados em intervalo de classes.

III.1.2.1 – Mediana aplicada diretamente em um conjunto de dados

Para calcular a mediana diretamente a um conjunto de dados é necessário,


primeiramente, dispor os valores em ordem (crescente ou decrescente) e, em seguida,
aplicar um dos dois procedimentos a seguir:

1. se o número de dados é impar, a mediana é o valor localizado exatamente no


meio da lista;
2. se o número de dados é par, a mediana é a média dos dois valores centrais.

Após a colocação dos dados em ordem, a posição da mediana é dada por:

n +1
PosiçãoMediana =
2

Exemplo:

x = {1, 2, 3, 4, 9}

y = {50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82, 86}

III.1.2.2 – Mediana para dados organizados em um grupamento simples

Suponhamos que desejássemos, por exemplo, calcular a mediana do conjunto de


dados apresentados na tabela 3.3. Os dados encontram-se devidamente organizados
nessa tabela. Neste caso,
22

n + 1 50 + 1 51
PosiçãoMediana = = = = 25,5
2 2 2

Portanto, a mediana encontra-se entre o 25º e 26º elemento. Para identificar a


mediana, precisaremos expandir a tabela 3.3 adicionando-se uma coluna para a
Frequência Acumulada (F):

Tabela 3.6 – Número de dentes danificados em pacientes de uma determinada clínica


odontológica
Nº de dentes Nº de Frequência
danificados clientes acumulada
(x) (f) (F)
0 9 9
1 5 14
2 6 20
3 7 27
4 9 36
5 5 41
6 4 45
7 3 48
8 2 50

Observando-se a frequência acumulada, os primeiros 20 valores assumidos por x são


0, 1 e 2. Os sete seguintes são 3, justamente no intervalo que contém o 25º e o 26º
valores, como mostrado abaixo:

Posição 1 a 9 Posição 10 a 14 Posição 15 a 20 Posição 21 a 27

0 0 0 0 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3

Mediana

Portanto, a mediana dessa amostra é dada por:

3+3
Md = =3
2

Outra maneira de se obter a mediana de dados organizados em grupamentos


simples é por meio da Frequência cumulativa relativa (Fr). Fazendo-se nova expansão
da tabela 3.3, tem-se:
23

Tabela 3.7 – Número de dentes danificados em pacientes de uma determinada clínica


odontológica
Nº de dentes Nº de Frequência Frequência acumulada
danificados clientes acumulada relativa em %
(x) (f) (F) (Fr)
0 9 9 18
1 5 14 28
2 6 20 40
3 7 27 54
4 9 36 72
5 5 41 82
6 4 45 90
7 3 48 96
8 2 50 100

Por esta tabela, observa-se que 40% dos valores assumidos pela variável x são 0,
1 ou 2. 54% dos valores assumidos pela variável x são iguais ou menores que 3.
Portanto, a mediana é 3.

III.1.2.3 – Mediana para dados agrupados em intervalos de classes

Neste caso, a mediana pode ser estimada por meio da seguinte expressão:

⎛n ⎞
⎜ − FIntervalo _ anterior ⎟
Md

Md = LimiteInferior
Md
+ Amplitude × ⎜ 2 ⎟
⎜ f Md ⎟
⎜ ⎟
⎝ ⎠
Onde:
Md = Mediana
Md
LimiteInferior = Limite inferior do intervalo que contem a mediana
Amplitude = amplitude da classe
n = número de amostras
Md
FIntervalo _ anterior = Frequência cumulativa no intervalo anterior ao que contém a mediana
fMd = Frequência absoluta no intervalo que contém a mediana

Como exemplo, considere os dados da tabela 3.8:

Tabela 3.8 – Idade em uma amostra de crianças da 1ª série de uma escola rural
Idade Ponto médio
f f i × xi F
(anos) (x)
5,5 |⎯ 6,5 1 6 6 1
6,5 |⎯ 7,5 20 7 140 21
7,5 |⎯ 8,5 7 8 56 28
8,5 |⎯ 9,5 2 9 18 30
TOTAL 30 220

Neste caso, a mediana está entre o 15º e o 16º valores, pois (n + 1)/2 = (30 + 1)/2
= 31/2 = 15,5. Esse valor se encontra no intervalo 6,5 |⎯ 7,5. Portanto,
24

⎛n ⎞ ⎛ 30 ⎞
⎜ − FIntervalo _ anterior ⎟ ⎜ −1⎟
Md

Md = LimiteInferior
Md
+ Amplitude × ⎜ 2 ⎟ = 6,5 + 1× ⎜ 2 ⎟ = 7,2 anos
⎜ f Md ⎟ ⎜ 20 ⎟
⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠

III.1.4 – Moda, Norma ou Modo

A moda de um conjunto de dados identifica o(s) valor(es) que ocorre(m) com


maior frequência. Se um único valor ocorre com maior frequência, o conjunto é dito
unimodal. Quando 2 valores ocorrem com a mesma frequência máxima, cada um deles
é uma moda e o conjunto é dito bimodal. Se mais de 2 valores ocorrem com a mesma
frequência máxima, cada um deles é uma moda e o conjunto é dito multimodal. Quando
nenhum valor é repetido, o conjunto não tem moda. Costuma-se denotar moda por Mo.

Exemplos:
x = {3, 4, 5, 7, 7, 7, 9, 9}
y = {1, 2, 3, 4, 5}
z = {1, 2, 2, 3, 4, 4, 5}

Tabela 3.9 – Indivíduos segundo o tipo de sangue


Tipo de sangue Frequência
O 547
A 441
B 123
AB 55

III.1.5 – Ponto médio

O ponto médio é o valor que está a meio caminho entre o valor máximo e o valor
mínimo de um conjunto de dados. Costuma-se denotar o ponto médio por PM e sua
expressão é dada por:

max( x ) + min( x )
PM ( x ) =
2

Exemplo:
Calcule o ponto médio do conjunto de dados apresentado na tabela 3.1
25

Resumindo:
26

III.2 – Medidas de dispersão

As medidas de dispersão mostram variações ou concentrações de dados em torno


de um valor central.

Exemplo:

Tabela 3.10 – Notas de quatro alunos em 5 provas


Aluno Notas Média
Antônio 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5

Todos os alunos obtiveram média igual a 5, mas a dispersão das notas em torno
da média não é a mesma para todos os alunos.

III.2.1 – Amplitude

Por definição, amplitude é a diferença entre o maior e o menor valor:

aAntonio =

aJoão =

aJosé =

aPedro =

A amplitude nem sempre capta as diferenças. No caso de Antônio, certamente


suas notas não variaram (a = 0). As notas de João variaram menos do que as notas de
José. Entretanto, a amplitude não mostra que as notas de Pedro variaram mais do que as
de José.
A amplitude não mede bem a dispersão dos dados porque em seus cálculos
utilizam-se apenas valores extremos e não todos os dados.

III.2.2 – Variância e desvio-padrão

Antes de se definir a variância e o desvio padrão, é necessário introduzir o


conceito de desvio em relação à média, cuja equação é dada por:

DM = x − x

Se a média de idade em uma família for 30 ( x = 30 ) e uma pessoa tiver 50 anos,


o desvio médio será dado por:
27

DM = x − x = 50 – 30 = 20 anos

Uma propriedade do desvio médio é que o somatório de todos os desvios de uma


amostra é sempre zero. Exemplo:

x = {0, 4, 6, 8, 7}

Isso ocorre porque o somatório dos valores positivos e negativos se anulam.


Então, não se pode estabelecer o grau de dispersão de uma amostra através da média dos
desvios. Para resolver este problema, o que se faz é utilizar a soma dos quadrados dos
desvios. Com isso, todo número negativo fica positivo.
Dispondo-se os dados da série anterior em uma tabela, tem-se:

Tabela 3.11 – Cálculo da soma dos quadrados dos desvios


Dados (xi) Desvios ( xi − x ) Quadrados dos desvios ( xi − x ) 2
0
4
6
8
7
x= 5 5

∑ ( xi − x ) =
i =1
∑(x
i =1
i − x )2 =

A soma dos quadrados, no entanto, não pode ser usada como uma medida de
dispersão, porque seu valor aumenta com o aumento no número de dados. Para isso,
utiliza-se a variância cuja expressão é dada por:

2
⎛ n ⎞
n
⎜ ∑ xi ⎟
xi − ⎝ i =1 ⎠
n

∑ ( xi − x ) 2
∑ 2

n
s 2 = i =1 ou s 2 = i =1 , para amostras
n −1 n − 1
2
⎛ N ⎞
⎜ ∑ xi ⎟
xi − ⎝ i=1 ⎠
N N

∑ ( xi − µ ) 2
∑ 2

N
σ 2 = i =1 ou σ 2 = i=1 , para população
N N

A segunda fórmula pode parecer mais difícil, porém, facilita o trabalho de


cálculo. Exemplo:

x = {0, 4, 6, 8, 7}
28

Tabela 3.12 – Cálculos intermediários para obtenção de s2.


x x2
0
4
6
8
7
5 5

∑ xi = xxxxxxxx
i =1
∑x
i =1
2
i = xxxxxxxxxx

No exemplo mostrado na tabela 3.10, tem-se:

Tabela 3.13 – Média e variância das notas de quatro alunos em 5 provas


Aluno Notas Média Variância
Antônio 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5

Uma desvantagem da variância é apresentar unidade de medida igual ao


quadrado da medida dos dados. Se os dados estão em metros (unidade de comprimento)
a variância fica em m2 (unidade de área). Para contornar esse problema, calcula-se a raiz
quadrada da variância, obtendo-se assim, o desvio-padrão, cujas equações são dadas
por:

2
⎛ n ⎞
n
⎜ ∑ xi ⎟
xi − ⎝ i =1 ⎠
n

∑(x i − x )2 ∑ 2

n
s= i =1
ou s = i =1 , para amostras
n −1 n −1
2
⎛ N ⎞
⎜ ∑ xi ⎟
xi − ⎝ i=1 ⎠
N N

∑ (x − µ) i
2
∑ 2

N
σ= i =1
ou σ 2 = i =1
, para população
N N

Observação:
Quando os dados se apresentam organizados em grupamentos simples ou em
intervalo de classes, o cálculo do desvio padrão é dado por:

2
⎛ n ⎞
n
⎜ ∑ f i ⋅ xi ⎟
f i ⋅ xi2 − ⎝ i=1 ⎠
n

∑f i ⋅ ( xi − x ) 2 ∑ n
s= i =1
ou s = i =1
para amostras
n −1 n −1
29

2
⎛ N ⎞
⎜ ∑ f i ⋅ xi ⎟
f i ⋅ xi2 − ⎝ i=1 ⎠
N N

∑ f i ⋅ ( xi − µ ) 2 ∑ N
σ= i =1
ou σ 2 = i =1
para população
N N

Lembrando que, no caso de intervalo de classes, xi corresponde ao ponto médio


da classe.

Por exemplo, considere os dados apresentados na tabela 3.5. Já sabemos que o


valor da média é de 3,0 anos. Para calcular o desvio-padrão, podemos fazer a expansão
dessa tabela como se segue abaixo:

Tabela 3.14 – Nascidos vivos segundo peso ao nascer


Ponto médio Frequência
Classe f i × xi xi2 f i × xi2
(x) (f)
1,5 |⎯ 2,0 1,75 3 5,25 3,0625 9,1875
2,0 |⎯ 2,5 2,25 16 36,00 5,0625 81,0000
2,5 |⎯ 3,0 2,75 31 85,25 7,5625 234,4375
3,0 |⎯ 3,5 3,25 34 110,50 10,5625 359,1250
3,5 |⎯ 4,0 3,75 11 41,25 14,0625 154,6875
4,0 |⎯ 4,5 4,25 4 17,00 18,0625 72,2500
4,5 |⎯ 5,0 4,75 1 4,75 22,5625 22,5625
TOTAL 100 300 80,9375 933,2500

O desvio-padrão é dado por:

2
⎛ n ⎞
⎜ ∑ f i ⋅ xi ⎟
f i ⋅ xi2 − ⎝ i =1 ⎠
n
(300) 2
∑ n
933,2500 −
100 = 32,25 = 0,34 = 0,58
s= i =1
=
n −1 100 − 1 99

III.2.3 – Coeficiente de variação

O coeficiente de variação é a razão ente o desvio padrão e a média multiplicada


por 100, ou seja,

s
CV = × 100
x

Exemplo:

Suponha 2 grupos de pessoas com as seguintes idades:

G1 = {3, 1, 5}
G2 = {55, 57, 53}
30

Dos dois grupos, temos:

x1 = 3 s1 = 2
x 2 = 55 s2 = 2

Apesar dos 2 grupos terem o mesmo desvio, a diferença de dois anos é muito
mais significativa para o primeiro grupo. Isso pode ser melhor constatado pelo
coeficiente de variação, onde:

CV1 = 66,66%

CV2 = 3,63%

Exemplo: a media e o desvio padrão para a espessura do endosperma de


sementes de milho e para seu pesos são dados por:

xespessura = 3,5 mm e sespessura = 1,29 mm


x peso = 0,020 g e speso = 0,009 g

O coeficiente de variação para cada variável é dado por:

sespessura 1,29
CVespessura = × 100 = = 37%
xespessura 3,5
s peso 0,009
CV peso = × 100 = = 45%
x peso 0,020

Por esses resultados, verifica-se que o peso das sementes é uma característica
mais variável do que a espessura do endosperma.
31

III.3 – Medidas de Posição

Os fractis são números que dividem um conjunto ordenado de dados em partes


iguais. Dentre os fractis destacam-se os quartis (que dividem um conjunto de dados em
quatro partes iguais), os decis (que dividem um conjunto de dados em dez partes iguais)
e os percentis (que dividem um conjunto de dados em cem partes iguais)

III.3.1 – Quartis

Os três quartis Q1, Q2 e Q3 dividem um conjunto de dados em quatro partes


iguais ou aproximadamente iguais da seguinte maneira:

número que delimita o primeiro ¼ dos dados.


Q1 1º Quartil
25% dos valores estão abaixo de Q1
número que delimita a primeira ½ dos dados (é a mediana do conjunto
Q2 2º Quartil
de dados). 50% dos valores estão abaixo de Q2
número que delimita o primeiro ¾ dos dados.
Q3 3º Quartil
75% dos valores estão abaixo de Q3

Exemplo:
A pontuação nos testes de 15 empregados envolvidos em um curso de treinamento está
disposta a seguir. Obtenha os primeiro, segundo e terceiro quartis da pontuação dos
testes.

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17

Solução:
Em primeiro lugar, deve-se ordenar o conjunto de dados e obter a mediana Q2. Uma vez
obtida Q2, pode-se dividir o conjunto de dados em duas metades. Os primeiro e terceiros
quartis são as medianas da metade inferior e superior do conjunto de dados

Metade Superior
64444744448
Metade Inferior 644444 7444448
5 7 9 10 11 13 14 15 16 17 18 18 20 21 27
- - -
Q1 Q2 Q3

Assim,
Q1 = 1º quartil = 10
Q2 = 2º quartil = 15 = mediana
Q3 = 3º quartil = 18

III.3.2 – Amplitude Interquartil

A amplitude interquartil (AIQ) de um conjunto de dados é a diferença entre o


primeiro e o terceiro quartis.

AIQ = Q3 – Q1
32

Da mesma forma que Q2, AIQ concentra 50% dos valores. Entretanto, tratam-se
dos valores centrais.
Quando se descreve um conjunto de dados com distribuição assimétrica, a
amplitude interquartil descreve melhor a variação do que a amplitude ou o desvio
padrão. Isso ocorre porque a amplitude interquartil não é afetada por valores extremos.

Exemplo:
Obtenha a amplitude interquartil da pontuação nos 15 testes dados no exemplo anterior.
O que você pode concluir a partir do resultado?

Solução:
Q1 = 10
Q3 = 18

AIQ = Q3 – Q1 = 18 – 10 = 8

Isso significa que as pontuações no teste na metade do conjunto de dados variam


no máximo em oito pontos.
Quando se descreve um conjunto de dados com distribuição assimétrica, a
amplitude interquartil descreve melhor a variação do que a amplitude ou o desvio
padrão. Isso ocorre porque a amplitude interquartil não é afetada por valores extremos.
Observe a tabela abaixo:

Tabela 3.15 – Valores de TGP (U/mL) observados em 95 recém-nascidos pré-maturos.


TGP f
0 |⎯ 10 42 n = 95
10 |⎯ 20 31
20 |⎯ 30 10 média = 20
30 |⎯ 40 4 mediana = 10
40 |⎯ 50 1
50 |⎯ 60 1 Desvio-padrão = 30,6
60 |⎯ 70 1 Q1 = 7; Q2 = 10; Q3 = 18
100 ou mais 5 Amplitude interquartil = 11
Total 95

A diferença entre a média e a mediana já é um indicador que os dados da tabela


3.15 são de uma distribuição assimétrica. O valor do desvio-padrão também é um
indicador de assimetria, pois é proporcionalmente muito alto em relação à média. Para
esse tipo de dado, mediana é a melhor medida de tendência central e a amplitude
interquartil a melhor medida da variabilidade.

De forma resumida, temos:

Fractil Resumo Símbolos


Quartis Divide o conjunto de dados em 4 partes iquais Q1, Q2, Q3
Decis Divide o conjunto de dados em 10 partes iquais D1, D2, D3, ..., D9
Percentis Divide o conjunto de dados em 100 partes iquais P1, P2, P3, ..., P99
33

III.3.3 – Escore padrão

O escore padrão, ou escore z, representa o número de desvios-padrão no qual


está um valor dado x a partir da média µ. O escore padrão pode ser obtido a partir de:

valor − média x−µ


z= =
desvio padrão σ

• Se z < 0, então x está abaixo da média


• Se z = 0, então x é igual à média
• Se z > 0, então x está acima da média

Exemplo:
Em uma estrada verificou-se que a velocidade média dos veículos é de 56 km/h com um
desvio-padrão de 4 km/h. Foram medidas as velocidades de 3 carros obtendo-se
respectivamente 62, 47 e 56 km/h. Obtenha o escore padrão de cada velocidade e tire
suas conclusões.

x−µ 62 − 56
• Para x = 62 km/h, z = = = 1,5
σ 4
x − µ 47 − 56
• Para x = 47 km/h, z = = = −2,25
σ 4
x − µ 56 − 56
• Para x = 56 km/h, z = = = 0,0
σ 4

A partir do escore padrão pode-se chegar às seguintes conclusões:


• A velocidade de 62 km/h está 1,5 desvios-padrão acima da média
• A velodicade de 47 km/h está 2,25 desvios-padrão abaixo da média
• A velocidade de 56 km/h é igual à média

You might also like