You are on page 1of 14

1

Notas para Aula 2


Professores Carlos Antonio Costa Ribeiro e Nelson do Valle Silva
Associao: tabela de contingncia, correlao, e regresso.

No captulo anterior apresentamos as caractersticas das variveis qualitativas (escalas
nominais e ordinais) e quantitativas (escarlas de intervalo e de razo).
Neste captulo partimos para a anlise da relao ou associao entre duas variveis. A
primeira coisa a fazer quando analisamos a relao entre duas variveis definir qual delas a
varivel resposta ou dependente e qual delas a varivel explicativa ou independente. A
varivel resposta ou dependente a varivel que queremos comparar. Quando a varivel
explicativa ou independente categrica ela define os grupos entre os quais queremos
comparar os valores da varivel resposta. Quando a varivel explicativa quantitativa, ela
define a mudana em diferentes valores numricos a ser comparada em relao aos valores
para a varivel resposta (melhorar essa frase).
O principal objetivo da anlise de dados com duas variveis investigar se h ou no
associao entre as duas e descrever a natureza desta associao. Uma associao existe entre
duas variveis se um valor particular de uma varivel tem mais chance de ocorrer quando
valores especficos da outra varivel ocorrem. Quando h uma associao a probabilidade de
um valor particular para uma varivel depende do valor da outra varivel. (incluir um exemplo
aqui).

Quando investigamos a relao entre duas variveis em situaes de pesquisa h trs tipos de
caso:
1) As duas variveis so categricas. Por exemplo, sexo (homem ou mulher) e entrada na
universidade (entrou ou no entrou). Neste caso, como veremos abaixo, os dados so
apresentados em tabelas de contingncia e a associao analisada a partir da
comparao de propores condicionais.
2) Uma varivel quantitativa e a outra qualitativa. Por exemplo, a relao entre renda
e sexo. Neste caso podemos comparar as distribuies de renda para homens e as
para mulheres usando as medidas de tendncia central (mdia, mediana e etc) e de
disperso (varincia, desvio padro) apresentadas no captulo anterior (tambm
veremos um outro mtodo, chamado Anova, para este tipo de anlise no captulo xx).
3) Ambas as variveis so quantitativas. Neste caso, analisamos como o valor da varivel
dependente ou de resposta tende a mudar na medida em que o valor da varivel
independente ou explicativa muda.

1) Associao entre duas variveis categricas
2

A relao entre duas variveis categricas apresentada em uma tabela de contingncia. As
linhas da tabela listam as categorias para uma varivel e as colunas as categorias para a outra
varivel. Cada entrada na tabela apresenta o nmero de observaes na amostra para cada
combinao particular de categorias das duas variveis categricas. Geralmente a varivel
independente fica nas linha e a varivel dependente fica nas colunas.

Tabela 1 - Diplomados em letras e engenharia, 1960.

Letras Engenharia

Total
Homens 48 480

528
Mulheres 100 6

106

Total 148 486

634

A proporo de pessoas com diploma de engenharia (480+6)/(528+106) = 0,77

Tabela - Proporo condicional de diplomas por sexo

Letras Engenharia

Total n
Homens 0,09 0,91

1 528
Mulheres 0,94 0,06 1 106




Essas propores so chamadas de propores condicionais porque sua elaborao
condicional ao (em nosso exemplo) sexo. Restringindo nossa associao ao tipo de diploma
(engenharia ou letras).
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Letras Engenharia
Homens
Mulheres
3

Verificando se h associao
Ao elaborar uma tabela de contingncia determine se uma das variveis pode ser a varivel
resposta. Se houver uma relao clara entre explicao e resposta, essa relao deve definir
em que direo calculamos as propores condicionais.
Em nosso caso h claramente uma associao entre sexo e diploma no Brasil em 1960. No
haveria associao se a proporo com diploma de engenharia fosse a mesma para homens e
mulheres. Dessa forma diramos que haveria independncia entre sexo e tipo de diploma. Por
exemplo:

Tabela - Independncia, caso hipottico

Letras Engenharia

Total n
Homens 0,30 0,70

1,0 528
Mulheres 0,30 0,70 1,0 106



2) Associao entre varivel quantitativa e qualitativa
Comparar mdias e varincias de duas variveis. Por exemplo, renda e sexo. Fazer
esquema na aula.








0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Letras Engenharia
Homens
Mulheres
4

3) Associao entre duas variveis quantitativas

3.1) Regresso linear por mnimos quadrados


Y
i
= A + BX

incluindo o termo de erro:

Y
i
= A + BX + E
i
(equao 1)


= Y
i
+ E
i


Esta idia pode ser visualizada na figura abaixo:

Peso declarado por peso medido
0
10
20
30
40
50
60
70
80
90
0 10 20 30 40 50 60 70 80 90
peso declarado
p
e
s
o

m
e
d
i
d
o
5



A figura acima revela que:




o resduo (Ei) pode ser positivo ou negativo (acima ou abaixo da linha). Uma linha que
se ajusta bem aos dados faz com que os resduos sejam pequenos.

O somatrio de todos os erros em torno de uma linha
ajustada aos dados ser zero porque os valores negativos e positivos se anualaro
entre si.
) (

i i i i BX A Y Y Y E i + = =
6

0
1
=

=
n
i
i E
Na realidade qualquer linha
produz o valor zero dos resduos
__ __
X B A Y i + =
Se substrairmos a equao 2 da 1 temos:
(equao 2)
i i i
i
i
E X X B Y Y + = ) (
__

Ento somando todas as observaes temos que:
0 0 0 ) ( ) (
__ __
1
= =

=
b X X B Y Y
i
i
n
i
i
H duas alternativas:
(1) Encontrar A e B para minimizar os valores
absolutos dos resduos,
(2) ou, encontrar A e B para minimizar o quadrado
dos resduos.
i
E

2
i
E

(equao 3)

7

Os quadrados so mais faceis de manipular
matematicamente usaremos do que valores
absolutos, e so utilizados mais frequentemente.
Mas a regresso por least absolute values (LAV)
tambm pode ser til na medida em que mais
resistente a outlying observations.
A regresso por mnimos quadrados minimiza a
soma dos resduos ao quadrado considerando todas
as observaes, ou seja, procuramos valores de A e
B que mnimizem:
2
1
2
) ( ) , (
i i
n
i
i
BX A Y E B A S = =

=

Os coeficientes da regresso por mnimos quadrados
podem ser obtidos da seguinte forma:
___ __
X B Y A =
( )



|
.
|

\
|

|
.
|

\
|

|
.
|

\
|

=

=
2
___
__ ___
2
2
X X
Y Y X X
X X n
Y X Y X n
B
i
i i
i i
i i i i

8

Os dados sobre peso declarado e medido
apresentados no primeiro scatter plot desta aula
podem ser usados para exemplificar o calculo dos
coeficientes da regresso:
n = 101
23 , 57
101
5780
__
= = Y
74 , 56
101
5731
__
= = X
4435
__ ___
=
|
.
|

\
|

|
.
|

\
|

Y Y X X
i i
4539
2
___
=
|
.
|

\
|

X X
i
9771 , 0
4539
4435
= = B
789 , 1 74 , 56 9771 , 0 23 , 57 = = A

A regresso por mnimos quadrados para estes dados
sobre peso medido e declarado :
declarado peso medido peso _ 9771 , 0 79 , 1 _ + =
B = 0,977 significa que um aumento de 1 kg no peso
declarado est associado em mdia um aumento de
0,97 kg no peso medido.
A inteseo A o valor ajustado de Y quando X = 0.

9

Erro padro dos erros:
Alm de calcular a linha dos mnimos quadrados
importante saber qual a proximidade da linha em
relao aos pontos. Para tanto, podem ser utilizas a
varincia dos erros e erro padro dos erros:
2
2
2

=

n
E
S
i
E
2
2

=

n
E
S
i
E

Correlao simples:
O coeficiente de correlao uma medida relativa do
ajuste:
Em que medida nossa predio de Y melhora quando
baseamos esta predio na relao linear entre Y e
X?
Uma medida relativa exige um ponto de
comparao:
Em que medida Y pode ser previsto se X no for
considerado?

10

No levar em considerao X (varivel
independente) implica em estimar a equao:
' '
E A Y
i
+ =
Os valores ajustados so constantes (no mudam).
Para ajustar esta constante tambm podemos empregar
o mtodo dos mnimos quadrados para diminuir os erros.
( )
2
' 2 '
) (

= = A Y E A S
i i
O valor de A que minimiza essa soma dos quadrados
simplesmente a mdia da varivel dependente
__
Y

.
Y
X
i
(X
i
, Y
i
)
X
i BX A Yi + =

__
Y
i Y Y
i

__
Y Y
i

__ ^
Y Y
i











11

3.2 Calculando o coeficiente de determinao (R
2
)

Tendo em vista que a variao de Y deve-se tanto ao efeito de X quando ao erro aleatrio,
podemos partir a soma total dos quadrados em uma distribuio de escores entre um
componente sistemtico e outro aleatrio.
Inicialmente crie um desvio subtraindo a mdia

do valor observado Y
i
. Em seguida
adicione e diminua o valor predito pela regresso linear (

) deste desvio, produzindo assim a


seguinte identidade:
(

) (

) (

)
Assim, cada observao tem dois componentes:
1.

revela a discrepncia entre um valor observado e o valor predito correspondente;


essa discrepncia o termo de erro (e
i
).
2.

indica a poro do escore da observao que se deve a regresso linar entre Y e


X.

Elevando ao quadrado ambos os lados da identidade acima somando para todos os N da
amostra observada obtem-se a soma dos quadrados da regresso e a soma dos erros ao
quadrado. Se mexermos um pouco nestes termos, temos que:
(


A esquerda temos a soma total dos quadrados, ou SQ
total
. Os dois termos a esquerda
representam a soma dos quadrados da regresso e a soma dos quadrados dos erros.
SQ
total
= SQ
regresso
+ SQ
erro

3.2.1 O coeficiente de determinao
O coeficiente de determinao da regresso indica a proporo da variao todal de Y
que determinada pela relao linear com X. Seu smbolo R
2
YX
(ou R ao quadrado) que
obtido pela seguinte formula:

12


Ou


Assim, o R-quadrado igual a 1 menos a razo entre a soma do quadrado dos erros e a
soma total dos quadrados. Elevar ao quadrado implica em restringir a variao de R
2
YX
ao
intervalo entre 0 e 1. Quando SQ
erro
for zero R
2
YX
= 1, ou seja, toda variao em Y
explicada pela varivel dependente. Quando SQ
erro
= SQ
total
(ou seja, toda variao se deve
ao erro) R
2
YX
= 0. Uma vez que SQ
regresso
= SQ
total
SQ
erro
, h uma quarta formula para R-
quadrado:



Uma formula simples de ser calculada para a relao bi variada a que faz a razo
entre o quadrado da covarincia dividido pelo produto das duas varincias:


13

.
Y
X
i
(X
i
, Y
i
)
X
i BX A Yi + =

__
Y
i Y Y
i

__
Y Y
i

__ ^
Y Y
i



3.2.2 O coeficiente de correlao:
A raiz quadrada de R
2
YX
, que resume a relao linear entre duas variveis continuas,
chamada de Coeficiente de Correlao de Pearsons (em homenagem ao estatstico Karl
Pearsons). Sua formula :



O coeficiente de correlao til porque ele mostra a direo da relao entre X e Y.
Um valor positivo ou negativo atribudo a r
YX
para indicar a direo da covarincia. Este
sinal deve ser igual ao sinal do coeficiente da regresso (b
YX
). O coeficiente de correlao
de Pearsons simtrico como mostra a formula abaixo:
14

)(

) ( )




4) Precaues na anlise da associao

a) Extrapolao: predizer valores de y para valores de x fora da abrangncia dos
dados

b) Cuidado com pontos influentes (outliers):

c) Correlao no sinnimo causa (causalidade):
Exemplo crime e educao (agresti)
Nmero de afogados e consumo de sorvete na Australia (agresti)

d) Paradoxo de Simpson

e) O efeito de variveis escondidas (no mensuradas) na associao
Sempre h essa possibilidade

f) Variveis que confundem o efeito (duas independentes associadas)

You might also like