You are on page 1of 48

Estatstica Descritiva (III)

Os dados podem ser resumidos construindo-se


uma tabela de distribuio de freqncias, que
quantifica a freqncia das distintas categorias.
Variveis qualitativas no arquivo PULSE
Ran
Smokes
Sex
Activity
Variveis Qualitativas
Variveis qualitativas no arquivo PULSE

MTB > Tally 'Sex' 'Smokes' 'Activity';
SUBC> Counts;
SUBC> Percents.
Summary Statistics for Discrete Variables

Sex Count Percent Smokes Count Percent
1 57 61,96 1 28 30,43
2 35 38,04 2 64 69,57
N= 92 N= 92

Activity Count Percent
0 1 1,09
1 9 9,78
2 61 66,30
3 21 22,83
N= 92
Tabelas de Contingncia



Relacionamento entre
variveis qualitativas

Podemos tambm construir tabelas de freqncias
conjuntas (tabelas de contingncia), relacionando
duas variveis qualitativas.
Exemplo 1: H indcios de associao entre Sexo e
Hbito de fumar?

Como concluir?
Sexo Fuma No Fuma Total
Masculino 20 37 57
Feminino 8 27 35
Total 28 64 92
Hbito de Fumar
Qual o significado dos valores desta tabela?
MTB > Table 'Sex' 'Smokes';
SUBC> Counts.

Rows: Sex Columns: Smokes

1 2 All

1 20 37 57
2 8 27 35
All 28 64 92

Verificar associao atravs da:
- porcentagem segundo as colunas, ou
- porcentagem segundo as linhas.
Como concluir?
Sexo Fuma No Fuma Total
Masculino 71,43% 57,81% 61,96%
Feminino 28,57% 42,19% 38,04%
Total 100% 100% 100%
Hbito de Fumar
Qual o significado dos valores desta tabela?
MTB > Table 'Sex' 'Smokes';
SUBC> ColPercents.
(RowPercents/TotPercents)

Rows: Sex Columns: Smokes

1 2 All

1 71,43 57,81 61,96
2 28,57 42,19 38,04
All 100,00 100,00 100,00


MTB > Table 'Sex' 'Smokes';
SUBC> Counts;
SUBC> RowPercents.

Rows: Sex Columns: Smokes
1 2 All
1 20 37 57
35,09 64,91 100,00
2 8 27 35
22,86 77,14 100,00
All 28 64 92
30,43 69,57 100,00
Cell Contents Count - % of Row
Exemplo 2: Dentre os que correram, qual a
porcentagem de mulheres?
MTB > Table 'Ran' 'Sex';
SUBC> Counts;
SUBC> RowPercents.

Rows: Ran Columns: Sex
1 2 All
1 24 11 35
68,57 31,43 100,00
2 33 24 57
57,89 42,11 100,00
All 57 35 92
61,96 38,04 100,00

Resposta: 31,43%
Grfico de setores
Grfico de barras
Variveis Qualitativas
Grficos
Consiste de um crculo dividido em tantos
setores quantas forem as categorias da
varivel.
A rea de cada setor proporcional
freqncia da categoria.
Grfico de setores
Arquivo PULSE Grfico de setores para a
varivel Ran
1 (35; 38,0%)
2 (57; 62,0%)
Pie Chart of Ran
MTB > %Pie c3.
Arquivo PULSE - Grfico de setores para a
varivel Activity
Sobre um eixo, so representados retngulos,
um para cada categoria da varivel.
A altura do retngulo proporcional
freqncia da categoria.
Grfico de barras
2 1
60
50
40
30
20
10
0
Ran
C
o
u
n
t

o
f

R
a
n
Arquivo PULSE - Grfico de barras para a
varivel RAN
MTB > Chart C3
Arquivo PULSE Grfico de barras para
a varivel Activity
MTB > Chart C8
3 2 1 0
60
50
40
30
20
10
0
Activity
C
o
u
n
t

o
f

A
c
t
i
v
i
t
y
Correlao e Regresso



Relacionamento entre
variveis quantitativas

Exemplos:

Idade e altura das crianas
Tempo de prtica de esportes e ritmo cardaco
Tempo de estudo e nota na prova
Taxa de desemprego e taxa de criminalidade
Expectativa de vida e taxa de analfabetismo
Objetivo
Estudar a relao entre duas variveis quantitativas.
a) Quantificando a fora dessa relao: correlao

b) Explicitando a forma dessa relao: regresso
Representao grfica de duas variveis quantitativas:
Diagrama de disperso
Investigaremos a presena ou ausncia de
relao linear sob dois pontos de vista:
Exemplo 1: Nota da prova e tempo de estudo
X : tempo de estudo (em horas)
Y : nota da prova

10 5 0
9,5
8,5
7,5
6,5
5,5
4,5
3,5
Tempo
N
o
t
a
Diagrama de Disperso
No MINITAB
C1:valores de X
C2:valores de Y
MTB > plot C2*C1
Tempo(X) Nota(Y)
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
Pares de observaes (X
i
, Y
i
) para cada estudante
Coeficiente de correlao linear
uma medida que avalia o quanto a nuvem de pontos
no diagrama de disperso aproxima-se de uma reta.
,
Y X
n
i
i i
S S n
Y Y X X
r
) 1 (
) )( (
1

=
O coeficiente de correlao linear de Pearson dado por:
sendo que,
so as mdias amostrais de X e Y, respectivamente,
S
X
e S
Y
so os desvios padro amostrais de X e Y, respectivamente.
Y X e
Frmula alternativa:
Y X
n
i
i i
S S n
Y X n Y X
r
) 1 (
1

=
No exemplo:
Tempo (X) Nota (Y)
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
25,5 28,0 41,2
25,53
5,76
5,89
1,71
2,31
)
-
X - (X )
-
Y - (Y
6 5 1 5 ,
-
Y ,
-
X = =
2,34 S 5,47
4
21,9

4
(3,7) ... (-1,1)
S
4,42 S 19,55
4
78,2

4
(6,9) ... (-2,1)
S
y
2 2
2
y
x
2 2
2
x
= = =
+ +
=
= = =
+ +
=
0,9959
2,34 . 4,42 . 4
41,2
r
Ento,
= =
0 0
3,7 6,9
-1,6 -3,6
-1,9 -3,1
0,9 1,9
-1,1 -2,1
)
-
X - (X )
-
Y - (Y
No MINITAB temos:

MTB > corr C1 C2

Pearson correlation of Tempo and Nota = 0,996

Propriedade: -1 s r s 1
Casos particulares:

r = 1 correlao linear positiva e perfeita
r = -1 correlao linear negativa e perfeita
r = 0 inexistncia de correlao linear
r = 1, correlao linear positiva e perfeita
r = -1, correlao linear negativa e perfeita
r 0
~
50 40 30 20 10
40
30
20
10
X
Y
r 1
~
r -1
~
Exemplo 2: criminalidade e analfabetismo
Considere as duas variveis observadas em 50
estados norte-americanos.

Y: taxa de criminalidade
X: taxa de analfabetismo

Diagrama de disperso
Podemos notar que, conforme aumenta a taxa de
analfabetismo (X), a taxa de criminalidade (Y) tende
a aumentar. Nota-se tambm uma tendncia linear.
Clculo da correlao
Correlao entre X e Y:
702 , 0
17 , 110
39 , 77
609 , 0 692 , 3 49
17 , 1 38 , 7 50 12 , 509
) 1 (
1
= =


=

=

=
r
S S n
Y X n Y X
r
Y X
n
i
i i
(mdia de X) e S
X
= 0,609 (desvio padro de X)
X =1,17
_
E X
i
Y
i
= 509,12

Y = 7,38
(mdia de Y) e S
Y
= 3,692 (desvio padro de Y)
_
Exemplo 3: Expectativa de vida e analfabetismo
Considere as duas variveis observadas em 50
estados norte-americanos.

Y: expectativa de vida
X: taxa de analfabetismo

Diagrama de disperso
Podemos notar que, conforme aumenta a taxa de
analfabetismo (X), a expectativa de vida (Y) tende
a diminuir. Nota-se tambm uma tendncia linear.
Clculo da correlao
Y = 70,88
_
(mdia de Y) e S
Y
= 1,342 (desvio padro de Y)
(mdia de X) e S
X
= 0,609 (desvio padro de X)
X = 1,17
_
E X
i
Y
i
= 4122,8

Correlao entre X e Y:
59 , 0
047 , 40
68 , 23
609 , 0 342 , 1 49
17 , 1 88 , 70 50 8 , 4122
) 1 (
1
=

=


=

=

=
r
S S n
Y X n Y X
r
Y X
n
i
i i
Regresso Linear
OBJETIVO: Encontrar uma reta que represente bem a
tendncia observada nos dados.
Por exemplo:
Reta ajustada:

O que so a e b?
Interpretao de b:
a: intercepto
b: inclinao
Para cada aumento de uma unidade em X, temos
um aumento mdio de b unidades em Y.
bX a Y

Reta ajustada
(mtodo de mnimos quadrados)
Os coeficientes a e b so calculados da seguinte maneira:
2
1
) 1 (
X
n
i
i i
S n
Y X n Y X
b

=
=
X b Y a =
Pelo MINITAB,

em que C1: varivel Y
C2: varivel X

utilizando comando:
MTB > regress C1 1 C2
ou pelo menu:
<stat> <regression> <regression>

e escolher <response> e <predictors> da planilha.

No Exemplo 2,
a reta ajustada :
Para um aumento de uma unidade na taxa do
analfabetismo (X), a taxa de criminalidade (Y)
aumenta, em mdia, 4,257 unidades.
Interpretao de b:
X Y 257 , 4 397 , 2

+ =
Y : valor predito para a taxa de criminalidade
X : taxa de analfabetismo
^
Graficamente, temos
Como desenhar a reta no grfico?
Escolha dois pontos:
X = 0,5:
y = 2,397+4,257x0,5 = 4,5255 (0,5;4,53)
X = 1,5:
y = 2,397+4,257x1,5 = 8,7825 (1,5;8,78)

^
^
No Exemplo 3,
a reta ajustada :
Interpretao de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a expectativa de vida (Y)
diminui, em mdia, 1,296 anos.
X Y 296 , 1 395 , 72

=
Y : valor predito para a expectativa de vida
X : taxa de analfabetismo
^
Graficamente, temos
Exemplo 4: Consumo de cerveja e temperatura
Y: consumo de cerveja dirio por mil habitantes, em litros.
X: temperatura mxima (em C).
As variveis foram observadas em nove localidades
com as mesmas caractersticas demogrficas e scio-
econmicas.

Dados:
Localidade Temperatura Consumo
(X) (Y)
1 16 290
2 31 374
3 38 393
4 39 425
5 37 406
6 36 370
7 36 365
8 22 320
9 10 269
40 30 20 10
400
350
300
Temperatura
C
o
n
s
u
m
o
Diagrama de disperso
A correlao amostral entre X e Y r = 0,962.
A reta ajustada :
Qual o consumo previsto para uma temperatura de 25C?
Qual a interpretao de b?
Aumentando-se um grau de
temperatura (X), o consumo
de cerveja (Y) aumenta, em
mdia, 4,74 litros por mil
habitantes.
litros 335,87 4,7425 217,37 Y
^
= + =
X Y 74 , 4 37 , 217

+ =

You might also like