You are on page 1of 60

AULA1-AULA5

Estatstica Descritiva

Prof. Victor Hugo Lachos Davila

oO que a estatstica ?
Para muitos, a estatstica no passa de conjuntos
de tabelas de dados numricos. Os estatsticos so
pessoas que coletam esses dados.
A estatstica originou-se com a coleta e construo
de tabelas de dados para os governos
A situao evoluiu e esta coleta de dados
representa somente um dos aspectos da estatstica.

Definio de Estatstica

A estatstica um conjunto de tcnicas que permite,


de forma sistemtica, organizar, descrever, analisar
e interpretar dados oriundos de estudos ou
experimentos, realizados em qualquer rea do
conhecimento.

reas da Estatstica

1.- Estatstica Descritiva


2.- Probabilidade
3.- Inferncia estatstica

ESTATSTICA DESCRITIVA
A estatstica descritiva a etapa inicial da anlise
utilizada para descrever e resumir os dados. A
disponibilidade de uma grande quantidade de dados
e de mtodos computacionais muito eficientes
revigorou est rea da estatstica.

PROBABILIDADE
A teoria de probabilidades nos permite
descrever os fenmenos aleatrios, ou
seja, aqueles em que est presente a
incerteza.

INFERENCIA ESTATISTICA
E o estudo de tcnicas que possibilitam a
extrapolao, a um grande conjunto de
dados, das informaes e concluses
obtidas a partir da amostra.

Etapas da Analise
Estatstica

AMOSTRAGEM
Uma rea importante em muitas aplicaes Estatsticas a da Tecnologia de
Amostragem.
Exemplos de Aplicao:
Pesquisa de mercado,
Pesquisa de opinio,
Avaliao do processo de produo,
Praticamente em todo experimento.

Amostragem Aleatria
Cada elemento da populao tem a
mesma chance de ser escolhido.

Amostragem Estratificada
Classificar a populao em, ao
menos dois estratos e extrair uma
amostra de cada um.

Amostragem Sistemtica
Escolher cada elemento de ordem k.
10

Amostragem por Conglomerados


Dividir em sees a rea populacional,
selecionar aleatoriamente algumas dessas
sees e tomar todos os elementos das
mesmas.

Amostragem de Convenincia
Utilizar resultados de fcil acesso.

11

Exemplo 1
Numa pesquisa eleitoral, um instituto de pesquisa
procura, com base nos resultados de um
levantamento aplicado a uma amostra da
populao, prever o resultado da eleio.

12

Na eleio Presidencial
Os Institutos de Pesquisa de opinio
colhem periodicamente amostras de
eleitores para obter as estimativas de
inteno de voto da populao. As
estimativas so fornecidas com um valor e
uma margem de erro.
O quadro do Instituto Toledo &
Associados, a seguir refere-se inteno
de voto no 1 turno das eleies para o
governo em 2002.
13

Inteno de voto para presidente do Brasil-2002


Voto estimulado,em % do total de votos.A ultima pesquisa
ouviu 2.202 eleitores- Margem de erro de 2,09%

4 6 ,3 %
3 4 ,9 %

4 0 ,5 %

L u la (P T )

3 4 ,3 %

3 3 ,6 %
2 2 ,8 %

2 3 ,3 %

S e rr a ( P S D B )

1 7 ,6 %

1 3 ,8 %

C iro (P P S )
G a ro tin h o (P S B ) 1 2 ,6 %
M aio

1 3 ,8 %
1 2 ,1 %
9 ,0 %
1 0 ,5 %
Ju n i o

Ju l /A g o

1 4 ,8 %
1 1 ,3 %
S e t/O u t

Fonte:Pesquisa toledo& Associados.


14

Confronto no segundo turno.

Grfico de setores ou em forma de pizza

15

Tabela 1.1 Informao do estado civil, grau de instruo, nmero de filhos, idade e procedncia de 36
funcionrios sorteados ao acaso da empresa MB.(Bussab e Morettin)
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

Estado
Civil
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Casado
Casado

Grau de
Instruo
1 0 grau
1 0 grau
1 0 grau
2 0 grau
1 0 grau
1 0 grau
1 0 grau
1 0 grau
2 0 grau
2 0 grau
2 0 grau
1 0 grau
2 0 grau
1 0 grau
2 0 grau
2 0 grau
2 0 grau
1 0 grau
Superior
2 0 grau
2 0 grau
2 0 grau
1 0 grau
Superior
2 0 grau
2 0 grau
1 0 grau
2 0 grau
2 0 grau
2 0 grau
Superior
2 0 grau
Superior
Superior
2 0 grau
Superior

No de
filhos
1
2
0
1
2
3
0
1
2
1
0
2
2
0
5
2
1
3
2
3

Salrio (X
Sal. M in)
4,00
4,56
5,25
5,73
6,26
6,66
6,86
7,39
7,59
7,44
8,12
8,46
8,74
8,95
9,13
9,35
9,77
9,80
10,53
10,76
11,06
11,59
12,00
12,79
13,23
13,60
13,85
14,69
14,71
15,99
16,22
16,61
17,26
18,75
19,40
23,30

Idade
Regio de
anos m eses procedncia
26 03
Interior
32 10
Capital
36 05
Capital
20 10
Outro
40 07
Outro
28 00
Interior
41 00
Interior
43 04
Capital
34 10
Capital
23 06
Outro
33 06
Interior
27 11
Capital
37 05
Outro
44 02
Outro
30 05
Interior
38 08
Outro
31 07
Capital
39 07
Outro
25 08
Interior
37 04
Interior
30 09
Outro
34 02
Capital
41 00
Outro
26 01
Outro
32 05
Interior
35 00
Outro
46 07
Outro
29 08
Interior
40 06
Interior
35 10
Capital
31 05
Outro
36 04
Interior
43 07
Capital
33 07
Capital
48 11
Capital
42 02
Interior

16

17

Varivel
Qualquer caracterstica associada a uma populao
Classificao de variveis

Qualitativa
Quantitativa

{
{

Nominal
Ordinal
Contnua

Discreta

sexo, cor dos olhos

Classe social, grau de instruo


Peso, altura,salario

Nmero de filhos, numero de


carros

18

Medidas Resumo
Variveis Quantitativas
MEDIDAS DE POSIO: Moda, Mdia, Mediana, Percents,
Quartis.

MEDIDAS DE DISPERSO: Amplitude, Intervalo-Interquartil,


Varincia, Desvio Padro, Coeficiente de Variao.

19

Medidas de Posio
Moda(mo): o valor (ou atributo) que
ocorre com maior freqncia.Moda
Ex: 4,5,4,6,5,8,4,4
Mo = 4

Variavel
qualitativa

20

Mdia
n

x =

+ ... +

x
i=1

Ex:2,5,3,7,8
Mdia = [(2+5+3+7+8)/5]=5
21

Mediana

A mediana o valor da varivel que ocupa a


posio central de um conjunto de n dados
ordenados.
Posio da mediana: (n+1)/2
Ex: 2,5,3,7,8
Dados ordenados: 2,3,5,7,8 => (5+1)/2=3
=> Md = 5

Ex: 3,5,2,1,8,6
Dados
ordenados:1,2,3,5,6,8
=>
(6+1)/2=3,5 => Md=(3+5)/2=4
22

Percentis
O percentil de ordem px100 (0<p<1), em um
conjunto de dados de tamanho n, o valor da
varivel que ocupa a posio px(n+1) do conjunto
de dados ordenados.
O percentil de ordem p (ou p-quantil) deixa
px100% das observaes abaixo dele na amostra
ordenada.
Casos Particulares:

Percentil 50=mediana, segundo quartil(md,Q2,q(0,5))

Percentil 25= primeiro quartil (Q1), q(0,25)


Percentil 75= terceiro quartil (Q3) , q(0,75)

23

O p-quantil, 0<p<1, pode ser calculado como:

i 0 .5
x (i) ,
se p = p i =
, i = 1,..., n
n
q ( p ) = (1 - f i ) q ( p i ) + f i q ( p i + 1 ), se p i < p < p i + 1
x (1) ,
se p < p 1
x

(n),

se p > p

Onde:

p pi
i 0.5
f i=
, pi =
p i+1 p i
n

Estatisticas de ordem

x ( 1 ) x ( 2 ) x ( 3 ) ......

x (n)
24

Exemplos
Ex(1): 15,5,3,8,10,2,7,11,12
=>n=9
=> ordenamos: 2<3<5<7<8<10<11<12<15
P1=1/18; p2=3/18; p3=5/18; p4=7/18; p5=1/2;
p6=11/18; p7=13/18; p8=15/18; p9=17/18
Posio Md : q(0.5)=8
Posio de Q1: q(0.25)=4,5
Posio de Q3: q(0.75)=11,25

25

Exemplo 2: Considere as notas de um teste de 3 grupos de alunos:


Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.

G1
G2

G3

10
10

10
5

Temos : x 1 = x 3 = x 3 = 5

Md 1 = Md 3 = Md 3 = 5
26

Medidas de Disperso
Finalidade: encontrar um valor que resuma a
variabilidade de um conjunto de dados
Amplitude (A): A=mx-min
Para os grupos anteriores, temos:
Grupo 1, A=4
Grupo 2, A=8
Grupo 3, A=0
27

Intervalo-Interquartil (d)
a diferena entre o terceiro quartil e o primeiro
quartil, ou seja,
d= Q3-Q1

Ex(1): 15,5,3,8,10,2,7,11,12
Q1=4,5
e Q3=11,25
d =Q3-Q1=4,9-2,05=2,85
Max,Min,Q1,Q3,Q2: importantes para se ter uma boa ideia da
forma dos dados (simetrica ou assimetrica) e construir box-plots
28

Varincia
n

+ (x x) + ...+ (x x)

(
x
)
x
1
2
n
=
=
2

n 1

2
(
)
x
x

i
i=1

n 1

Desvio padro S

Desvio Padro : S = Varincia

29

Clculo da varincia para o grupo 1:

G1:3, 4, 5, 6, 7: Vimos que:

x =5

2
2
2
2
2
(
3
5
)
(
4
5
)
(
5
5
)
(
6
5
)
(
7
5
)

10
= =2,5
S2 =
51
4

Desvio padro

S=

2,5 = 1,58

= 2 ,5

S = 1,58

G2 :S

= 10

S = 3,16

G3 :S

=0

S =0

G1 : S

30

Coeficiente de Variao (CV)


) uma medida de disperso relativa;
) Elimina o efeito da magnitude dos dados;
) Exprime a variabilidade em relao a mdia
) til Comparar duas ou mais variveis

S
CV =
100 %
X

31

Exemplo 4: Altura e peso de alunos


Mdia

Desvio padro

Coeficiente de
variao

Altura
Peso

1,143m
50Kg

0,063m

5,5%

6kg

12%

Concluso: Com relao as mdias, os alunos so,


aproximadamente, duas vezes mais dispersos quanto ao peso
do que quanto a altura

32

ORGANIZAO E REPRESENTAO DOS DADOS


Uma das formas de organizar e resumir a informao contida em
dados observados por meio de tabela de freqncias e grficos.

Tabela de freqncia: relaciona categorias (ou classes) de valores,

juntamente com contagem (ou freqncias) do nmero de valores que


se enquadram em cada categoria ou classe.

1. Variveis qualitativas: Podemos construir tabela de freqncia


que os quantificam por categoria de classificao e sua
representao grfica mediante grfico de barras, grfico setorial
ou em forma de pizza.

33

Exemplo 1: Considere ao varivel grau de Instruo dos dados da


tabela 1.(Varivel qualitativa)
Grau
de
instruo

fi

f ri

1o Grau

12

0,3333

33,3%

2o Grau

18

0,5000

50 %

Superior

0,1667

16.7%

n=36

1,0000

100%

total

fi
f ri

Tabela de freqncia
Contagem

f ri %

:Frequncia absoluta da categoria i (nmero de indivduos


que pertencem categoria i
fi
=
: Frequncia relativa da categoria i
n

f ri % = f ri *100% : Frequncia relativa percentual da categoria i


34

Representao grfica de variveis qualitativas


Grfico de Barras
Diagrama circular, de sectores ou em forma de pizza
Diagrama de barras para a varivel
grau de instruo
60,00%
50,00%
50,00%
40,00%
33,33%
30,00%
20,00%

16,70%

10,00%
0,00%
1o Grau

2o Grau

Superior

35

Diagrama circular para a variavel grau de instruo

1oGrau (33.3%)

Diagrama circular para a varivel grau de


instruo
Superior
17%

2oGrau (50.0%)

1o Grau
33%

Superior (16.7%)

2o Grau
50%

36

2. Organizao e representao de variveis quantitativas


2.1 Quantitativas discretos: Organizam-se mediante tabelas de
frequncias e a representao grfica mediante grfico de
barras
Exemplo: Considere a varivel nmero de filhos dos dados da tabela 1.
Tabela 2.1:Distribuio de freqncias de funcionrios da empresa,
segundo o nmero de filhos
i

1
2
3
4
5

Nmero de
filhos
(Xi )
0
1
2
3
5
total

Nmero de
funcionrios
(fi )
4
5
7
3
1
20

% de funcionrios
(fri)
20%
25%
35%
15%
5%
100%
37

Observao 1: A partir da tabela 2.1 podemos recuperar as 20


observao da tabela 1.1, ou seja, aqui no temos perda de
informao dos dados originais.
Representao grfica : Diagrama de Barras

%de funcionrios

Mo=2

35%

35

25%

25
20%

15%
15
5%
5
0

Nmero
de filhos
38

Determinao das medidas de posio e medidas de disperso para


variveis quantitativas discretas agrupados em tabela de freqncias:
k

Mdia:

X 1 f1 + X 2 f 2 + L + X k f k
X =
=
n

fi

i =1

Exemplo: Considere a tabela 2.1 e determine a mdia de filhos dos


funcionrios.

X =

0 4 + 1 5 + 2 7 + 3 3 + 5 1 33
=
= 1,65
20
20

Mediana:
Dados ordenados:
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 =>
(20+1)/2=10,5

=> Md = (2+2) /2=2

39

Varincia:
k

( X 1 X ) 2 f1 + ( X 2 X ) 2 f 2 + L + ( X k X ) 2 f k
2
S =
=
n 1

(X i X )2 fi

i =1

n 1

Clculo da varincia para os dados da tabela 2.1


2
2
2
2
2
4
(
0

1
,
65
)
+
5
(
1

1
,
65
)
+
7
(
2

1
,
65
)
+
3
(
3

1
,
65
)
+
(
5

1
,
65
)
S2 =
19
16,3125
=
= 0,858553
19

Desvio padro:

S=

S 2 = 0,858553 = 0,927

40

2.2 Quantitativas continuas: Os seus valores podem ser qualquer


nmero real e ainda geralmente existe um grande nmero de
valores diferentes. Como proceder a construir uma tabela de
frequncia nestes casos?

A alternativa consiste em construir classes ou faixas de valores e


contar o nmero de ocorrncias em cada faixa

No caso da variavel salario podemos considerar as seguintes


faixas de valores: [4,0; 7,0); [7,0;10,0);......
NOTAO: 4,0|----7,0

41

2.2 Procedimento de construo de tabelas de freqncia para


variveis contnuas:
1. Escolha o nmero de intervalos de classe (k)
2. Identifique o menor valor (MIN) e o valor mximo (MAX) dos
dados.
3. Calcule a amplitude dos dados (A): A=MAX MIN
4. Calcule o comprimento de cada intervalo de classe (h): h = A
k
5. Arredonde o valor de h de forma que seja obtido um nmero
conveniente.
6. Obtenha os limites de cada intervalo de classe.
PRIMEIRO

INTERVALO

Limite

inferior

Limite

superior

: LI

: LS

= MIN
1

= LI

+ h

42

SEGUNDO

INTERVALO

Limite

inferior

Limite

superior

k - SIMO

: LI

: LS

= LS
2

= LI

INTERVALO

Limite

inferior

Limite

superior

: LI

: LS

= LS
k

+ h

= LI

k 1
k

+ h

7. Construa uma tabela de freqncias, constituda pelas seguintes


colunas:
Nmero de ordem de cada intervalo (i)
Limites de cada intervalo. Os intervalos so fechados
esquerda e aberta direita: NOTAO:|----

43

Ponto mdio (ou marca de classe) de cada intervalo de classe:

LSi + LI i
=
2

Contagem dos dados pertencentes a cada intervalo.


Freqncias absolutas de cada intervalo de classe.
Freqncias relativas de cada intervalo de classe.
Freqncias acumuladas absolutas de cada intervalo de classe.

Fi = f1 + f 2 + L + f i =

j =1

Freqncias acumuladas relativa de cada intervalo de classe.

Fri = f r1 + f r2 + L+ f ri =

j =1

Fi
f rj ; ou Fri =
n
44

Exemplo: Considere a varivel salrio da empresa comercializadora de


produtos de informtica.
Procedimento:
1. Considere k=5.
2. MIN=4; MAX=23,30.
3. A=MAX-MIN=23,30-4=19,30
4. h=19,3/5=3,86
5. h3,9
6. Clculo dos limites de cada intervalo:
PRIMEIRO
LI 1 = 4
LS

= 4 + 3 ,9 = 7 ,9

SEGUNDO
LI 2 = 7 , 9
LS

INTERVALO

INTERVALO

= 7 , 9 + 3 , 9 = 11 , 8

Os demais limites dos


procedimento anterior.

intervalos

foram

gerados

seguindo

o
45

Ponto mdio:X

(
4 + 7,9)
=
= 5,95;
2

(
7,9 + 11,8)
=
= 9,85.....
2

De forma similar obtm-se os outros pontos mdios.


Tabela 2.2: Distribuio de freqncias da varivel salrio.
i

Intervalos
de classe

1
2
3
4
5

4,0 |-- 7,9


7,9 |-- 11,8
11,8 |-- 15,7
15,7 |-- 19,6
19,6 |-- 23,5
Total

Ponto mdio Freqncia Freqncia


Absoluta (fi) Relativa ( f ri )
(Xi)

Freqncia
Acumulada
Absoluta (Fi)

Freqncia
Acumulada
Relativa ( Fri )

10
12
7
6
1
36

10
22
29
35
36

0,277778
0,611111
0,805556
0,972222
1

5,95
9,85
13,75
17,65
21,55

0,277778
0,333333
0,194444
0,166667
0,027778
1,000000

Nesta organizao de dados, temos perda de informao dos


dados originais

46

Representao grfica:
Histograma de freqncias relativas (em %) para a varivel salrio

33,33%

%de funcionrios

30

27,78%

19.44%

20

16,67%

10
2,7%
0
4.0

7.9

11.8

15.7

19.6

23.5

Salrio

47

til para encontrar os percentis: Exemplo Q2 ou Md

11 ,8 7 ,9 Md 7 ,9
=
Md = 10 ,5
33 ,33 %
22 , 22
22.22%
Assimtrica a direita

33,33%

%de funcionrios

30

27,78%

19.44%

20

16,67%

10
2,7%
0
4.0

7.9

Md

11.8

15.7

19.6

23.5

Salrio

48

. Histograma usando densidade de frequncia (mais comum!)

rea=1

7,1%*3,9=27,6

49

Histograma de freqncia acumulada relativa (em %)

Frequncia acumulada percentual (%)

61% dos empregados tem salrio


inferior a 12 salarios mnimos
97,22%

100

100%

80,56%
61,11%
50
27,78%

0
4.0

7.9

19% possuim salrio superior a 16


salrios mnimos

11.8

15.7

19.6

23.5

Salario

50

Grfico de Ramo e Folhas: Varivel salrio


4

00 56

25 73

26 66 86

39 44 59

12 46 74 95

13 35 77 80

10

53 76

11

06 59

12

00 79

13

23 60 85

14

69 71

15

99

16

22 61

17

26

18

75

19

40

Valores

concentrados entre 4 e 19

Leve assimetria na direo dos valores


grandes( assimtrica direita)
Destaque do valor 23.30

20
21
22
23

30

51

Medidas de posio e medidas de disperso para variveis


contnuas agrupadas em tabela de freqncias.
k

Mdia:
X =

X f1 + X

f2 + L X
n

fk

X i f i

i =1

Exemplo: Considere a tabela 2.2


5 , 95 10 + 9 ,85 12 + 13 , 75 7 + 17 , 65 6 + 21 , 55 1
36
401,4
=
= 11,15
35

X =

Se calculamos a mdia para dados no agrupados apresentadas


anteriormente resulta:
X =

X1 + X

+L + X
36

36

4 + 4 , 36 + L + 23 , 30
= 11,122
36

Este resultado difere do valor obtido anteriormente. Porque?


52

Moda (mo):

d1
h
mo = LIi +
d1 + d 2

i : Classe modal ( aquela classe que tem maior frequncia absoluta (f i ))


LI i : o limite inferior da classe modal.
d 1 = f i f i 1
d 2 = f i f i +1
h : comprimento do intervalo de classe.
Exemplo: Considere a tabela 2.2.
J que, f 2 = 12 > f j j 2

TDF

i =2, a classe modal

d1

12 10
h = 7,9 +
3,9 = 9,014
mo = LI 2 +
(12 10) + (12 7)
d1 + d 2

53

Mediana (Md)

0,5n Fi 1
h
Md = LI i +
fi

i : a classe mdiana ( o intervalo de classe onde a coluna dos Fi na TDF


superou o 50% dos dados)
LI i : Limite inferior da classe mediana.
Fi-1 : a frequncia acumulada absoluta da classe anterior a classe mediana
f i : frequncia absoluta da classe mediana.
h : compriment o do intervalo de classe.
Exemplo: Considere a tabela 2.2
J que,

F 2 = 22 > n / 2

i =2, a classe mediana

0,5n F1
18 10
h = 7,9 +
Md = LI 2 +
3,9 = 8,55
f
12

54

f (X

Varincia:

S2 =

i =1

n 1

Exemplo: Considere a tabela 2.2. Vimos que


i

Intervalos
de classe
4,0 |-- 7,9
7,9 |-- 11,8
11,8 |-- 15,7
15,7 |-- 19,6
19,6 |-- 23,5
Total

1
2
3
4
5

f (X

S2 =

Xi

fi

f i X i X

5,95
9,85
13,75
17,65
21,55

10
12
7
6
1
36

270,40
20,28
47,32
253,50
108,16
699,66

X = 11 ,15

i =1

36 1

699,66
= 19,99029
35

S = 4,47105 (Desvio Padro)

55

Esquema dos cinco nmeros

x(1)

Q1

Q2

Q3

x(n)

Total Observaes
Mediana

Q2

Quartis

Q1

Q3

Extremos

x(1)

x(n)

56

Boxplot
O BOXPLOT representa os dados atravs de um retngulo
construdo com os quartis e fornece informao sobre valores
extremos. (veja o esquema embaixo)

57

Exemplo de construo de um Boxplot. Com a finalidade de


aumentar o peso (em Kg) um regime alimentar foi aplicado em 12
pessoas. Os resultados (ordenados) foram:
-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.
Calculando as medidas temos:
Mediana (md ou Q2) = 5,6kg
1.quartil (Q1) = 3,3kg
3.quartil (Q3) = 6,25kg
d=intervalo interquartil = Q3-Q1 =2,95kg
Logo as linhas auxiliares correspondem aos pontos:
Q1-1,5d = -1,25kg
Q3+1,5d = 10,675kg

58

11.2
Observao
exterior
(discrepante
ou atipica)

Exemplo: Considere os dados da tabela 1.1, o boxplot para varivel


salrio por educao e regio de procedncia dos funcionrios da
empresa.

59

Boxplot de Salrio por educao

Boxplot de Salrio por educao

25

Grau Instrucao

15

5
1

Grau de Instrucao

15

25

Salario

B o x p lo t d e S a l r i o p o r r e g i o d e p r o c e d n c i a

Regio de Procedncia

Salario

O u t ro

C a p i ta l

I n t e ri o r

15

25

S a la r io

60

You might also like