Professional Documents
Culture Documents
= =
=
+ + i i i i
i
p p p q f p q
n
i
x
p q
O p-quantil, 0<p<1, pode ser calculado como:
,
1 i i
i
i
p p
p p
f
=
+
Onde:
) ( ) 3 ( ) 2 ( ) 1 (
......
n
x x x x s s s s
Estatisticas de ordem
n
i 5 . 0
p
i
=
25
Exemplos
Ex(1): 15,5,3,8,10,2,7,11,12
=>n=9
=> ordenamos: 2<3<5<7<8<10<11<12<15
P1=1/18; p2=3/18; p3=5/18; p4=7/18; p5=1/2;
p6=11/18; p7=13/18; p8=15/18; p9=17/18
Posio Md : q(0.5)=8
Posio de Q1: q(0.25)=4,5
Posio de Q3: q(0.75)=11,25
26
Exemplo 2: Considere as notas de um teste de 3 grupos de alunos:
Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.
G1
0 10
0
10
0 10
5
G2
G3
5 5 x : Temos
3 3 1 3 3 1
= = = = = = Md Md Md x x
27
Medidas de Disperso
Finalidade: encontrar um valor que resuma a
variabilidade de um conjunto de dados
Amplitude (A): A=mx-min
Para os grupos anteriores, temos:
Grupo 1, A=4
Grupo 2, A=8
Grupo 3, A=0
28
Intervalo-Interquartil (d)
a diferena entre o terceiro quartil e o primeiro
quartil, ou seja,
d= Q3-Q1
Ex(1): 15,5,3,8,10,2,7,11,12
Q1=4,5 e Q3=11,25
d =Q3-Q1=4,9-2,05=2,85
Max,Min,Q1,Q3,Q2: importantes para se ter uma boa ideia da
forma dos dados (simetrica ou assimetrica) e construir box-plots
29
Varincia
( )
1 1
...
1
2
2 2 2
2
) ( ) ( ) (
2 1
+ + +
=
=
n
x x
n
S
n
i
i
x
x
x
x
x
x
n
Desvio padro S
Varincia = S : Padro Desvio
30
Clculo da varincia para o grupo 1:
G1:3, 4, 5, 6, 7: Vimos que:
5 , 2
4
10
1 5
) 5 7 ( ) 5 6 ( ) 5 5 ( ) 5 4 ( ) 5 3 (
2 2 2 2 2
2
= =
+ + + +
= S
5 = x
Desvio padro
58 , 1 5 , 2 = = S
0 0 : 3
16 , 3 10 : 2
58 , 1 5 , 2 : 1
2
2
2
= =
= =
= =
S S G
S S G
S S G
31
Coeficiente de Variao (CV)
uma medida de disperso relativa;
Elimina o efeito da magnitude dos dados;
Exprime a variabilidade em relao a mdia
% 100 =
X
S
CV
til Comparar duas ou mais variveis
32
Exemplo 4: Altura e peso de alunos
Concluso: Com relao as mdias, os alunos so,
aproximadamente, duas vezes mais dispersos quanto ao peso
do que quanto a altura
Mdia Desvio padro Coeficiente de
variao
Altura 1,143m 0,063m 5,5%
Peso 50Kg 6kg 12%
33
ORGANIZAO E REPRESENTAO DOS DADOS
Uma das formas de organizar e resumir a informao contida em
dados observados por meio de tabela de freqncias e grficos.
Tabela de freqncia: relaciona categorias (ou classes) de valores,
juntamente com contagem (ou freqncias) do nmero de valores que
se enquadram em cada categoria ou classe.
1. Variveis qualitativas: Podemos construir tabela de freqncia
que os quantificam por categoria de classificao e sua
representao grfica mediante grfico de barras, grfico setorial
ou em forma de pizza.
34
Exemplo 1: Considere ao varivel grau de Instruo dos dados da
tabela 1.(Varivel qualitativa)
:Frequncia absoluta da categoria i (nmero de indivduos
que pertencem categoria i
n
f
f
i
r
i
= : Frequncia relativa da categoria i
i
f
33,3%
% 100 * %
i i
r r
f f =
: Frequncia relativa percentual da categoria i
Grau de
instruo
1o Grau
2o Grau
Superior
total
Contagem
12
18
6
n=36
0,3333
0,5000
0,1667
1,0000
i
f
i
r
f %
i
r
f
50 %
16.7%
100%
Tabela de freqncia
35
Diagrama de barras para a varivel
grau de instruo
33,33%
50,00%
16,70%
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
1o Grau 2o Grau Superior
Representao grfica de variveis qualitativas
Grfico de Barras
Diagrama circular, de sectores ou em forma de pizza
36
1 o G r a u ( 3 3 . 3 % )
S u p e r i o r ( 1 6 . 7 % ) 2 o G r a u ( 5 0 . 0 % )
D i a g r a m a c i r c u l a r p a r a a v a r i a v e l g r a u d e i n s t r u o
Diagrama circular para a varivel grau de
instruo
1o Grau
33%
2o Grau
50%
Superior
17%
37
2. Organizao e representao de variveis quantitativas
2.1 Quantitativas discretos: Organizam-se mediante tabelas de
frequncias e a representao grfica mediante grfico de
barras
Exemplo: Considere a varivel nmero de filhos dos dados da tabela 1.
Tabela 2.1:Distribuio de freqncias de funcionrios da empresa,
segundo o nmero de filhos
i Nmero de
filhos
(X
i
)
Nmero de
funcionrios
(f
i
)
% de funcionrios
(f
ri
)
1 0 4 20%
2 1 5 25%
3 2 7 35%
4 3 3 15%
5 5 1 5%
total 20 100%
38
Representao grfica : Diagrama de Barras
0 1 2 3 4 5
5
1 5
2 5
3 5
N m e r o
d e f i l h o s
%
d
e
f
u
n
c
i
o
n
r
i
o
s
2 0 %
2 5 %
3 5 %
1 5 %
5 %
Observao 1: A partir da tabela 2.1 podemos recuperar as 20
observao da tabela 1.1, ou seja, aqui no temos perda de
informao dos dados originais.
Mo=2
39
Determinao das medidas de posio e medidas de disperso para
variveis quantitativas discretas agrupados em tabela de freqncias:
n
f X
n
f X f X f X
X
k
i
i i
k k
=
=
+ + +
=
1 2 2 1 1
Mdia:
Exemplo: Considere a tabela 2.1 e determine a mdia de filhos dos
funcionrios.
65 , 1
20
33
20
1 5 3 3 7 2 5 1 4 0
= =
+ + + +
= X
Mediana:
Dados ordenados:
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 =>
(20+1)/2=10,5 => Md = (2+2) /2=2
40
Varincia:
1
) (
1
) ( ) ( ) (
1
2
2
2
2
2 1
2
1 2
+ + +
=
=
n
f X X
n
f X X f X X f X X
S
k
i
i i
k k
0,858553
19
16,3125
19
) 65 , 1 5 ( ) 65 , 1 3 ( 3 ) 65 , 1 2 ( 7 ) 65 , 1 1 ( 5 ) 65 , 1 0 ( 4
2 2 2 2 2
2
= =
+ + + +
= S
Clculo da varincia para os dados da tabela 2.1
Desvio padro:
0,927 0,858553
2
= = = S S
41
2.2 Quantitativas continuas: Os seus valores podem ser qualquer
nmero real e ainda geralmente existe um grande nmero de
valores diferentes. Como proceder a construir uma tabela de
frequncia nestes casos?
A alternativa consiste em construir classes ou faixas de valores e
contar o nmero de ocorrncias em cada faixa
No caso da variavel salario podemos considerar as seguintes
faixas de valores: [4,0; 7,0); [7,0;10,0);......
NOTAO: 4,0|----7,0
42
2.2 Procedimento de construo de tabelas de freqncia para
variveis contnuas:
1. Escolha o nmero de intervalos de classe (k)
2. Identifique o menor valor (MIN) e o valor mximo (MAX) dos
dados.
3. Calcule a amplitude dos dados (A): A=MAX MIN
4. Calcule o comprimento de cada intervalo de classe (h):
5. Arredonde o valor de h de forma que seja obtido um nmero
conveniente.
6. Obtenha os limites de cada intervalo de classe.
k
A
h =
h LI
MIN
+ =
=
1 1
1
LS : superior Limite
LI : inferior Limite
: INTERVALO PRIMEIRO
43
h LI
LS
h LI
LS
INTERVALO SEGUNDO
k
k
+ =
=
+ =
=
k
1 k
2 2
1 2
LS : superior Limite
LI : inferior Limite
: INTERVALO SIMO - k
LS : superior Limite
LI : inferior Limite
:
7. Construa uma tabela de freqncias, constituda pelas seguintes
colunas:
Nmero de ordem de cada intervalo (i)
Limites de cada intervalo. Os intervalos so fechados
esquerda e aberta direita: NOTAO:|----
44
Ponto mdio (ou marca de classe) de cada intervalo de classe:
2
i i
LI LS
X
+
=
Contagem dos dados pertencentes a cada intervalo.
Freqncias absolutas de cada intervalo de classe.
Freqncias relativas de cada intervalo de classe.
Freqncias acumuladas absolutas de cada intervalo de classe.
Freqncias acumuladas relativa de cada intervalo de classe.
=
= + + + =
i
j
j i i
f f f f F
1
2 1
n
F
F ou f f f f F
i
r
i
j
r r r r r
i j i i
= = + + + =
=
;
1
2 1
45
Exemplo: Considere a varivel salrio da empresa comercializadora de
produtos de informtica.
Procedimento:
1. Considere k=5.
2. MIN=4; MAX=23,30.
3. A=MAX-MIN=23,30-4=19,30
4. h=19,3/5=3,86
5. h~3,9
6. Clculo dos limites de cada intervalo:
8 , 11 9 , 3 9 , 7 LS
9 , 7 LI
INTERVALO SEGUNDO
9 , 7 9 , 3 4 LS
4 LI
INTERVALO PRIMEIRO
2
2
1
1
= + =
=
= + =
=
Os demais limites dos intervalos foram gerados seguindo o
procedimento anterior.
46
Ponto mdio:
( ) ( )
9,85.....
2
8 , 11 9 , 7
; 95 , 5
2
9 , 7 4
1
=
+
= =
+
= X X
De forma similar obtm-se os outros pontos mdios.
i Intervalos
de classe
Ponto mdio
(X
i
)
Freqncia
Absoluta (f
i
)
Freqncia
Relativa ) (
i
r
f
Freqncia
Acumulada
Absoluta (F
i
)
Freqncia
Acumulada
Relativa ) (
i
r
F
1 4,0 |-- 7,9 5,95 10 0,277778 10 0,277778
2 7,9 |-- 11,8 9,85 12 0,333333 22 0,611111
3 11,8 |-- 15,7 13,75 7 0,194444 29 0,805556
4 15,7 |-- 19,6 17,65 6 0,166667 35 0,972222
5 19,6 |-- 23,5 21,55 1 0,027778 36 1
Total 36 1,000000
Tabela 2.2: Distribuio de freqncias da varivel salrio.
Nesta organizao de dados, temos perda de informao dos
dados originais
47
Representao grfica:
Histograma de freqncias relativas (em %) para a varivel salrio
4 . 0 7 . 9 1 1 . 8 1 5 . 7 1 9 . 6 2 3 . 5
0
1 0
2 0
3 0
S a l r i o
%
d
e
f
u
n
c
i
o
n
r
i
o
s
1 9 . 4 4 %
1 6 , 6 7 %
2 , 7 %
2 7 , 7 8 %
3 3 , 3 3 %
48
til para encontrar os percentis: Exemplo Q2 ou Md
4 . 0 7 . 9 1 1 . 8 1 5 . 7 1 9 . 6 2 3 . 5
0
1 0
2 0
3 0
S a l r i o
%
d
e
f
u
n
c
i
o
n
r
i
o
s
1 9 . 4 4 %
1 6 , 6 7 %
2 , 7 %
2 7 , 7 8 %
3 3 , 3 3 %
5 , 10
22 , 22
9 , 7
% 33 , 33
9 , 7 8 , 11
=
Md
Md
Md
22.22%
Assimtrica a direita
49
. Histograma usando densidade de frequncia (mais comum!)
rea=1
7,1%*3,9=27,6
50
Histograma de freqncia acumulada relativa (em %)
4.0 7.9 11.8 15.7 19.6 23.5
0
50
100
Salario
F
r
e
q
u
n
c
i
a
a
c
u
m
u
l
a
d
a
p
e
r
c
e
n
t
u
a
l
(
%
)
27,78%
61,11%
80,56%
97,22%
100%
61% dos empregados tem salrio
inferior a 12 salarios mnimos
19% possuim salrio superior a 16
salrios mnimos
51
4 00 56
5 25 73
6 26 66 86
7 39 44 59
8 12 46 74 95
9 13 35 77 80
10 53 76
11 06 59
12 00 79
13 23 60 85
14 69 71
15 99
16 22 61
17 26
18 75
19 40
20
21
22
23 30
Grfico de Ramo e Folhas: Varivel salrio
Valores concentrados entre 4 e 19
Leve assimetria na direo dos valores
grandes( assimtrica direita)
Destaque do valor 23.30
52
Medidas de posio e medidas de disperso para variveis
contnuas agrupadas em tabela de freqncias.
Mdia:
n
f X
n
f X f X f X
X
k
i
i i
k k
=
=
+ +
=
1
2 1
1
11,15
35
401,4
36
1 55 , 21 6 65 , 17 7 75 , 13 12 85 , 9 10 95 , 5
= =
+ + + +
= X
Este resultado difere do valor obtido anteriormente. Porque?
Se calculamos a mdia para dados no agrupados apresentadas
anteriormente resulta:
11,122
36
30 , 23 36 , 4 4
36
36 2 1
=
+ + +
=
+ + +
=
X X X
X
Exemplo: Considere a tabela 2.2
53
Moda (mo):
h
d d
d
LI mo
i
|
|
.
|
\
|
+
+ =
2 1
1
classe. de intervalo do o compriment :
modal. classe da inferior limite o :
)) (f absoluta frequncia maior tem que classe aquela ( modal Classe :
1 2
1 1
i
h
f f d
f f d
LI
i
i i
i i
i
+
=
=
Exemplo: Considere a tabela 2.2.
2 12
2
= > = j f f
j
J que, i =2, a classe modal
9,014 9 , 3
) 7 12 ( ) 10 12 (
10 12
9 , 7
2 1
1
2
=
|
|
.
|
\
|
+
+ =
|
|
.
|
\
|
+
+ = h
d d
d
LI mo
TDF
54
Mediana (Md)
h
f
F n
LI Md
i
i
i
|
|
.
|
\
|
+ =
1
5 , 0
classe. de intervalo do o compriment :
mediana. classe da absoluta frequncia :
mediana classe a anterior classe da absoluta acumulada frequncia a :
mediana. classe da inferior Limite :
dados) dos 50% o superou
TDF na dos coluna a onde classe de intervalo o ( mdiana classe a :
1
h
f
F
LI
F i
i
i-
i
i
Exemplo: Considere a tabela 2.2
2 / 22
2
n F > =
J que,
i =2, a classe mediana
8,55 9 , 3
12
10 18
9 , 7
5 , 0
1
1
2
=
|
.
|
\
|
+ =
|
|
.
|
\
|
+ = h
f
F n
LI Md
55
Varincia:
( )
1
2
1
=
n
X X f
S
k
i
i i
i Intervalos
de classe
X
i
f
i
( )
2
X X f
i i
1 4,0 |-- 7,9 5,95 10 270,40
2 7,9 |-- 11,8 9,85 12 20,28
3 11,8 |-- 15,7 13,75 7 47,32
4 15,7 |-- 19,6 17,65 6 253,50
5 19,6 |-- 23,5 21,55 1 108,16
Total 36 699,66
Exemplo: Considere a tabela 2.2. Vimos que
15 , 11 = X
( )
Padro) (Desvio 4,47105 S 19,99029
35
699,66
1 36
2
5
1
2
= = =
= i
i i
X X f
S
56
Esquema dos cinco nmeros
Extremos
Quartis
Mediana
x
(1)
x
(n)
Q1
Q3
Q2
n
Total Observaes
x
(1)
x
(n)
Q1
Q2
Q3
57
Boxplot
O BOXPLOT representa os dados atravs de um retngulo
construdo com os quartis e fornece informao sobre valores
extremos. (veja o esquema embaixo)
58
Exemplo de construo de um Boxplot. Com a finalidade de
aumentar o peso (em Kg) um regime alimentar foi aplicado em 12
pessoas. Os resultados (ordenados) foram:
-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.
Calculando as medidas temos:
Mediana (md ou Q2) = 5,6kg
1.quartil (Q1) = 3,3kg
3.quartil (Q3) = 6,25kg
d=intervalo interquartil = Q3-Q1 =2,95kg
Logo as linhas auxiliares correspondem aos pontos:
Q1-1,5d = -1,25kg
Q3+1,5d = 10,675kg
59
Exemplo: Considere os dados da tabela 1.1, o boxplot para varivel
salrio por educao e regio de procedncia dos funcionrios da
empresa.
11.2
Observao
exterior
(discrepante
ou atipica)
60
1 2 3
5
15
25
Grau de Instrucao
S
a
l
a
r
i
o
Boxplot de Salrio por educao
5 15 25
1
2
3
G
r
a
u
I
n
s
t
r
u
c
a
o
Salario
Boxplot de Salrio por educao
5 15 25
Interi or
Capi tal
Outro
R
e
g
i
o
d
e
P
r
o
c
e
d
n
c
i
a
Salario
Boxplot de Salrio por regio de procedncia