You are on page 1of 32

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)


Dalson Britto Figueiredo Filho Universidade Federal de Pernambuco (UFPE) Jos Alexandre da Silva Jnior Universidade Federal de Pernambuco (UFPE)

Resumo: Existe relao entre X e Y? Essa uma pergunta recorrente no cotidiano de qualquer pesquisador. O objetivo desse trabalho discutir o conceito de correlao de Pearson (r) a partir de uma lgica intuitiva. Isso porque muitas vezes os livros de Estatstica e/ou Econometria apresentam esse conceito adotando uma abordagem mais tcnica, o que dificulta a compreenso. O texto apresenta as principais propriedades do coeficiente de correlao de Pearson (r), suas respectivas aplicaes e limites a partir de uma abordagem descritiva. Em termos substantivos, espera-se facilitar a compreenso desse conceito nas cincias sociais em geral e na cincia poltica em particular.

Esse artigo o primeiro resultado do Projeto Political Science Quotation Database desenvolvido conjuntamente pelos autores. Alm disso, esse trabalho se beneficiou dos comentrios dos participantes do V Seminrio de Cincia Poltica e Relaes Internacionais da UFPE. Em especial, gostaramos de agradecer a Giuseppe Lobo (UFMG) pelo apoio logstico, a Natalia Leito pela leitura atenta de diferentes verses anteriores e ao parecerista annimo da Revista Poltica Hoje por importantes sugestes. Assumimos total responsabilidade pelos erros remanescentes. Esse trabalho financiado por duas principais fontes: CAPES e CNPQ. Ambos os autores so doutorandos em Cincia Poltica pela Universidade Federal de Pernambuco (UFPE). Revista Poltica Hoje, Vol. 18, n. 1, 2009

115

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

1. Introduo Existe relao entre X e Y? Essa uma pergunta recorrente na vida de qualquer pesquisador. Por exemplo, ao afirmar que a taxa de suicdio entre protestantes maior do que entre catlicos, Durkheim sugere uma correlao entre denominao religiosa e propenso ao autocdio. Da mesma forma, ao postular que o sistema eleitoral majoritrio tende a produzir sistemas bipartidrios, a Lei de Duverger sugere a existncia de uma correlao entre o tipo de regra eleitoral (majoritria ou proporcional) e a quantidade de partidos. Mas o que significa dizer que duas variveis esto correlacionadas?1 Essa a questo de pesquisa que norteia esse trabalho. Uma motivao adicional que orienta esse artigo a hostilidade em relao aos mtodos quantitativos e estatstica [na cincia social brasileira] (Soares, 2005: 27). Um rpido passeio nos textos de Werneck Vianna et al (1988), Valle e Silva (1999) e Santos e Coutinho (2000) corrobora esse diagnstico. Isso porque os dados levantados por esse autores apontam para uma mesma direo: a utilizao de tcnicas bsicas de estatstica descritiva e inferencial ainda bastante limitada na Cincias Sociais brasileira. De forma mais preocupante, essa anlise se mantm consistente independente do tipo de produo (artigo, dissertaes ou teses). O resultado prtico disso o enfraquecimento metodolgico generalizado, o que por sua vez, influencia negativamente a capacidade das cincias sociais explicarem os fenmenos que elas se propem.
1

Esse um debate polmico na Estatstica. Para o leitor interessado em aprofundar seus conhecimentos na rea ver Aldrich (1995), Andres, Tejedor e Mato (1995), Blyht (1994), Carroll (1961), Devlin, Gnanadesikan e Kettering (1975), Kronmal (1993), Muddapur (1988), Niles (1921), OBrien (1979), Pearson, Fisher e Inman (1994), Rodgers e Nicewander (1988), Schield (1995) e Stigler (1989). Para uma aplicao prtica utilizando o SPSS ver Pallant (2007). Para uma aplicao prtica utilizando o STATA ver Pollock (2006).

116

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

Consideramos que o mtodo funciona como a lente que o pesquisador utiliza para auxiliar a teoria no sentido de interpretar e explicar os fenmenos de seu interesse2. Para King, Keohane e Verba (1994), a substncia da cincia primordialmente os mtodos e as tcnicas (King, Keohane e Verba, 1994: 09). Collier, Seawright e Munck (2004) defendem que a credibilidade dos mtodos empregados deve ser um critrio central para avaliar os resultados de pesquisa (Collier, Seawright e Munck, 2004: 23). Dessa forma, partindo do pressuposto de que o mtodo um componente central do conhecimento cientfico, esse artigo tem dois principais objetivos: (1) discutir o conceito de correlao de Pearson (r) a partir de uma lgica intuitiva. Isso porque muitas vezes os livros de Estatstica e/ou Econometria apresentam esse conceito adotando uma abordagem mais tcnica, o que dificulta a compreenso (Field, 2005); (2) chamar a ateno dos pesquisadores para as aplicaes e os limites dessa medida na formulao dos seus desenhos de pesquisa. Para tanto, o artigo est dividido em cinco sees. A primeira define o conceito e apresenta as principais propriedades do coeficiente de correlao de Pearson (r)3. A segunda seo demonstra, passo a passo, como essa medida calculada. O objetivo oferecer ao leitor a lgica intuitiva do processo. A terceira parte apresenta alguns cuidados bsicos que os pesquisadores devem tomar durante a utilizao dessa estatstica na anlise de seus dados. A quarta seo oferece um exemplo prtico da aplicao e dos limites dessa medida. Por fim, a quinta parte sumariza as concluses desse artigo.
2

Para se aprofundar nesse debate sugerimos o seguinte: Almond (1990), Collier, Seawright e Munck (2004), Geddes (2003), Gerring (2001), King, Keohane e Verba (1994), Marsh e Stoker (2002) e Van Evera (1997). 3 Como nosso principal objetivo pedaggico, procuramos minimizar a formalizao algbrica dos conceitos. Para o leitor interessado em um maior grau de detalhamento tcnico sugerimos conferir a bibliografia citada. Revista Poltica Hoje, Vol. 18, n. 1, 2009

117

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

1.1 Definio e Propriedades O coeficiente de correlao de Pearson no tem esse nome por acaso. comum atribuir exclusivamente a Karl Pearson o

desenvolvimento dessa estatstica, no entanto, como bem lembrou Stanton (2001), a origem desse coeficiente remonta o trabalho conjunto de Karl Pearson e Francis Galton (Stanton, 2001: 01). Garson (2009) afirma que correlao uma medida de associao bivariada (fora) do grau de relacionamento entre duas variveis. Para Moore (2007), A correlao mensura a direo e o grau da relao linear entre duas variveis quantitativas (Moore, 2007: 100/101). Em uma frase: o coeficiente de correlao de Pearson (r) uma medida de associao linear entre variveis. Sua frmula a seguinte:

1 xi X yi Y ( )( ) n 1 sx sy

Dois conceitos so chaves para entend-la: associao e linearidade. Afinal, o que significa dizer que duas variveis esto associadas? Em termos estatsticos, duas variveis se associam quando elas guardam semelhanas na distribuio dos seus escores. Mais precisamente, elas podem se associar a partir da distribuio das freqncias ou pelo compartilhamento de varincia. No caso da correlao de Pearson (r) vale esse ltimo parmetro, ou seja, ele uma medida da varincia compartilhada entre duas variveis. Por outro lado, o modelo linear supe que o aumento ou decremento de uma unidade na

118

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

varivel X gera o mesmo impacto em Y4. Em termos grficos, por relao linear entende-se que a melhor forma de ilustrar o padro de relacionamento entre duas variveis atravs de uma linha reta. Portanto, a correlao de Pearson (r) exige um compartilhamento de varincia e que essa variao seja distribuda linearmente5.

1.2 Como interpretar? O coeficiente de correlao Pearson (r) varia de -1 a 1. O sinal indica direo positiva ou negativa do relacionamento e o valor sugere a fora da relao entre as variveis. Uma correlao perfeita (-1 ou 1) indica que o escore de uma varivel pode ser determinado exatamente ao se saber o escore da outra. No outro oposto, uma correlao de valor zero indica que no h relao linear entre as variveis6. Todavia, como valores extremos (0 ou 1) dificilmente so encontrados na prtica importante discutir como os pesquisadores podem interpretar a magnitude dos coeficientes. Para Cohen (1988), valores entre 0,10 e 0,29 podem ser considerados pequenos; escores entre 0,30 e 0,49 podem ser considerados como mdios; e valores entre 0,50 e 1 podem ser interpretados como grandes. Dancey e Reidy (2005) apontam para uma classificao ligeiramente diferente: r = 0,10 at 0,30 (fraco); r = 0,40 at 0,6 (moderado); r = 0,70 at 1 (forte). Seja como for,

O modelo linear esta baseado na funo linear, um caso particular da funo afim, que tem domnio de (f: ) definida por f(x) = ax para todo x a R onde a 0. 5 Uma associao entre duas variveis pode ser descrito por outros modelos, como por exemplo, o quadrtico: f: definida f(x) = ax+b+c, onde existem nmeros reais, a, b, c com a 0 para todo x R.
6

Para acompanhar o debate ver Aldrich (1995), Haig (2007) e Kozak (2009). Revista Poltica Hoje, Vol. 18, n. 1, 2009

119

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

o certo que quanto mais perto de 1 (independente do sinal) maior o grau de dependncia estatstica linear entre as variveis. No outro oposto, quanto mais prximo de zero, menor a fora dessa relao. O grfico de disperso abaixo apresenta um exemplo de uma relao linear entre duas variveis hipotticas X e Y.
Grfico 01 - Correlao linear entre X e Y

Como pode ser observado, h uma correlao linear positiva entre X e Y. Detalhadamente, isso implica que quando um escore est acima da mdia de X espera-se que ele tambm esteja acima da mdia de Y (as linhas pontilhadas representam as mdias das respectivas variveis, sendo 9,20 para X e 13,5 para Y). Por exemplo, ao se considerar o tringulo preto, observa-se que ele est acima da mdia em ambas as variveis (17; 26). No outro oposto, ao saber que o crculo azul est abaixo da mdia de X, observa-se que ele tambm est abaixo da mdia de Y (5; 7). Em quase todas as oportunidades que X assumiu um valor acima da mdia Y tambm o fez. Da mesma forma, quase todas as vezes que X ficou abaixo da mdia Y tambm ficou. A nica exceo fica por conta da cruz
120
Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

vermelha j que essa observao est acima da mdia em X, mas ficou abaixo do termo mdio em Y (13;12). Se ela fosse excluda da anlise chegaramos a um coeficiente de valor igual a 1, ou seja, haveria uma compartilhamento de 100% da varincia entre X e Y.

1.3 Propriedades: efeitos e desvios

Uma vez definido o conceito e fornecida a sua interpretao importante entender algumas de suas propriedades. Baseado em Moore e McCabe (2004), destacamos as propriedades do coeficiente e as condies que precisam ser satisfeitas para realizar a anlise de correlao de Pearson (r). Portanto, as observaes so as seguintes: 1) O coeficiente de correlao de Pearson no diferencia entre variveis independentes e variveis dependentes. Dessa forma, o valor da correlao entre X e Y o mesmo entre Y e X. Schield (1995) lembra que a correlao no se aplica a distino de causalidades simples ou recursiva. Ou seja, por ela dificilmente pode-se afirmar quem varia em funo de quem. Simplesmente pode-se dizer que h semelhanas entre a distribuio dos escores das variveis7. 2) O valor da correlao no muda ao se alterar a unidade de mensurao das variveis. Por ser tratar de uma medida padronizada, o valor da correlao entre quilos e litros ser o mesmo caso o pesquisador utilize toneladas e mililitros8. Padronizao torna possvel a comparao entre diferentes
7

Correlao no deve ser confundida com relao de causa e efeito (causalidade). Para uma anlise mais detalhada ver Asher (1983), Blalock (1971), Holland (1986) e Rubin (1974). 8 Para uma discusso mais detalhada ver Carroll (1961). Revista Poltica Hoje, Vol. 18, n. 1, 2009

121

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

variveis no que diz respeito a sua magnitude e disperso. Para tanto, deve-se subtrair cada observao (X) pela mdia

() e dividir o resultado pelo desvio padro ()9. A mdia

ser

zero

com

desvio

padro

assumindo

valor

1.

Algebricamente,

3) O coeficiente tem um carter adimensional, ou seja, ele desprovido de unidade fsica que o defina. No faz sentido interpretar uma correlao de 0,3 como sendo 30%, por exemplo. Alm disso, ele no se refere proporo. Logo, uma correlao de 0,4 no pode ser interpretada como representando o dobro de uma correlao de 0,2 (Chen e Popovic, 2002: 09); Para alm das propriedades do coeficiente, algumas condies precisam ser satisfeitas: 4) A correlao exige que as variveis sejam quantitativas (contnuas ou discretas). No faz sentido utilizar a correlao

O desvio padro uma medida de disperso dos valores em torno da mdia. Quanto maior o seu valor, maior o grau de heterogeneidade dos casos vis--vis o valor da mdia. Quanto menor, mais homognea a distribuio dos casos em torno do termo mdio.

122

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

de Pearson (r) para dados categricos j que impossvel calcular o desvio padro da varivel sexo, por exemplo 10. 5) Os valores observados precisam estar normalmente distribudos11. Dessa forma, assume-se que:

N (, )

Esse pressuposto especialmente importante em amostras pequenas (N<40). Isso porque, a partir do Teorema do Limite Central, sabe-se que na medida em que o nmero de observaes aumenta, a distribuio das mdias amostrais se aproxima da curva normal, independente do formato da distribuio dos dados na populao. 6) Faz-se necessrio uma anlise de outliers, o coeficiente de correlao fortemente afetado pela presena deles. A presena de outliers pode comprometer fortemente as estimativas dos pesquisadores, levando inclusive a cometer erros do tipo I ou do tipo II. 7) Faz-se necessria a independncia das observaes, ou seja, a ocorrncia de uma observao X1 no influencia a
10

Para dados categricos deve-se utilizar a correlao de Kendalls tau-b ou Spearman. Para uma abordagem prtica ver Pallant (2007). Para uma discusso mais aprofundada ver Tabachnick e Fidell (2007). 11 Existem diferentes testes para estimar a normalidade da distribuio dos dados. Por exemplo, no teste de Kolmogorov-Smirnov um resultado no significativo (p>0,05) indica normalidade. Outros testes de normalidade incluem Anderson-Darling, Cramervon Mises e Shapiro-Wilk. Graficamente, a normalidade pode ser observada a partir de histogramas e Q-Q plots. Agradecemos ao parecerista annimo por nos lembrar desse detalhe. Revista Poltica Hoje, Vol. 18, n. 1, 2009

123

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

ocorrncia de outra observao X2. Segundo Schield (1995), a violao desta orientao implica risco de assumir correlaes esprias. Em termos mais tcnicos, o pesquisador pode enfrentar o problema de lurking ou counfouding variables. Para Osborne e Waters (2002), a violao desses pressupostos pode comprometer os resultados, levando o pesquisador a cometer os erros do tipo I ou tipo II (Osborne e Waters, 2002: 01). O erro do tipo I consiste em concluir que a hiptese nula falsa quando ela verdadeira. Logo, no existe relao entre as variveis (Ho verdadeira), mas o pesquisador argumenta que X e Y so estatisticamente dependentes. Ou seja, ele no poderia ter rejeitado a hiptese nula. O erro do tipo II consiste em concluir que a hiptese nula verdadeira quando ela falsa. Logo, existe relao entre X e Y (Ho falsa), mas o pesquisador defende que as variveis so estatisticamente independentes. Ou seja, ele deveria ter rejeitado a hiptese nula12.

1.4 Calculando o coeficiente de correlao de Pearson (r)

Uma vez apresentada a sua definio e compreendida as suas propriedades o prximo passo entender como o coeficiente de correlao calculado. Suponha que um pesquisador esteja interessado

12

Em estatstica a hiptese nula (Ho) descreve o comportamento esperado de um determinado conjunto de dados. No teste de hiptese, o pesquisador procura estimar em que medida as evidncias coletadas permitem rejeitar a hiptese nula em funo da hiptese alternativa Ha (em geral a hiptese de pesquisa) ou no. Por exemplo, suponha que a Ho: =10. A hiptese alternativa (Ha) pode assumir que: Ha >10; Ha <10 (teste unicaldal) ou Ha 10 (teste bicaudal).

124

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

em analisar a relao entre duas variveis X e Y. A tabela abaixo ilustra esses dados13.

Tabela 01 - Variveis X e Y ID 1 2 3 4 5 Mdia X 29 40 54 55 72 50 Y 0,49 1,59 1,69 1,82 3,10 1,738

A primeira coluna (ID) registra a identificao de cada observao. O primeiro passo para estimar o coeficiente de correlao de Pearson padronizar as observaes, ou seja,

Zx X 1 X Sx
onde X1 representa o valor da observao 01 (29), X representa a mdia (50) e Sx indica o valor do desvio padro (16,32). O mesmo deve ser feito para Y. Depois disso, o pesquisador deve somar o produto cruzado dos valores padronizados de X e Y (Zx * Zy). A tabela abaixo ilustra esse procedimento.

13

Esses dados foram retirados de Moore (2007). Revista Poltica Hoje, Vol. 18, n. 1, 2009

125

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Tabela 02 - Variveis padronizadas (Zx e Zy) ID 1 2 3 4 5 Zx -1,286 -0,613 0,245 0,306 1,348 Zy -1,345 -0,160 -0,052 0,008 1,46 Zx * 1,730 0,098 -0,013 0,027 1,978

A terceira coluna ilustra os produtos de Zx * Zy. A soma dos produtos (1,730 + 0,098 + -0,013 + 0,027 + 1,978) resulta em 3,821. Para finalizar o clculo deve-se aplicar a frmula14:

1 xi X yi Y ( )( ) n 1 sx sy

O resultado encontrado de = 0,955. Ou seja, existe uma correlao forte e positiva entre X e Y15. O grfico abaixo ilustra esses dados.

14

Rodgers e Nicewander (1988) apresentam 13 diferentes frmulas para estimar o coeficiente de correlao. 15 Na prtica, o pesquisador no precisa se preocupar em calcular essa medida j que os diferentes pacotes estatsticos fazem isso de forma rpida e eficiente. No entanto, consideramos importante entender a rationale do procedimento. Para uma excelente introduo ao coeficiente de correlao ver Chen e Popovic (2002). Para um site bastante informativo ver http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm.

126

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

Grfico 02 Correlao entre X e Y

Quando X est acima da mdia espera-se que Y tambm esteja (as linhas pontilhadas representam as mdias das respectivas variveis, sendo 50 para X e 1,738 para Y). A nica exceo fica por conta da observao 02 (cruz vermelha) na medida em que ela est acima da mdia de Y (1,59), mas abaixo da mdia em X (40). Se ela fosse excluda da anlise chegaramos a um coeficiente de valor igual a 1. E o que aconteceria se uma observao assumisse um valor muito distante da mdia? O que acontece com o coeficiente de correlao de Pearson (r) quando existe um outlier na amostra? Essas questes sero abordadas na prxima seo.

1.5 Cuidados bsicos: outliers e lurking variables O coeficiente de correlao de Pearson (r) fortemente influenciado pela mdia da distribuio. Por esse motivo, um dos pressupostos centrais para que essa medida seja adequadamente utilizada de que as observaes obedeam a uma distribuio normal. Existem
Revista Poltica Hoje, Vol. 18, n. 1, 2009

127

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

testes disponveis para averiguar em que medida as observaes esto normalmente distribudas, sendo o teste de Kolmogorov-Smirnov e a observao grfica dos dados um dos procedimentos mais comumente utilizados. No caso do teste, um resultado no significativo (p>0,05) indica normalidade. Caso o p valor assuma valores abaixo desse patamar (p<0,05), isso um indicativo de que o pressuposto da normalidade foi violado. Em relao anlise grfica, comum a utilizao de histogramas e Q-Q plots para analisar o formato da distribuio. Em relao ao histograma, o pesquisador deve observar em que medida a distribuio dos seus dados se aproxima da curva normal. A presena de outliers tende a distorcer o valor da mdia e, por conseqncia, o valor do coeficiente de correlao. Dessa forma, a presena de outliers pode comprometer fortemente as estimativas dos pesquisadores, levando inclusive a cometer erros do tipo I ou do tipo II. Para ilustrar esse efeito esse trabalho replicar os dados apresentados por Anscombe (1973). A tabela abaixo ilustra essas informaes.
Tabela 03 - Dados de Anscombe (1973) Observao 1 2 3 4 5 6 7 8 9 10 11 X1-3 10 8 13 9 11 14 6 4 12 7 5 Y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 Y2 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74 Y3 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 X4 8 8 8 8 8 8 8 19 8 8 8 Y4 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89

128

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

As variveis (X e Y) esto agrupadas em quatro pares. So eles: (X1 e Y1), (X2 e Y2), (X3 e Y3) e (X4 e Y4). O coeficiente de correlao de Pearson (r) para cada par de variveis o mesmo: 0,816, sugerindo uma relao positiva e forte entre os respectivos pares de variveis. Os grficos abaixo replicam parte desses dados (X3 e Y3) e (X4 e Y4).
Grfico 03 - Correlao X3 e Y3 - Anscombe (1973)

No caso acima, a cruz vermelha representa um outlier em Y. Caso essa observao fosse eliminada da anlise, no entanto, continuaria existindo uma correlao positiva e linear entre as variveis, sendo a diferena a sua magnitude. Logo, a presena desse outlier subestimou a verdadeira relao entre X3 e Y3.

Revista Poltica Hoje, Vol. 18, n. 1, 2009

129

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Grfico 04 - Correlao entre X4 e Y4 - Anscombe (1973)

No caso acima, o coeficiente de correlao de Pearson (r) tambm de 0,816. No entanto, o padro de relacionamento entre as variveis bastante diferente do observado no grfico 03. Logo, ao se considerar apenas o valor dessa estatstica o pesquisador pode chegar concluso de que existe uma relao positiva entre X4 e Y4 quando na verdade tudo isso no passa de iluso. Para a maior parte das observaes, no h variao no valor da varivel X4. No entanto, em uma observao houve grande variao o que distorce o padro de associao entre X4 e Y4. Em termos mais tcnicos, a presena do outlier distorceu o padro encontrado nos dados, qual seja: independncia estatstica das observaes. A lio deixada por Anscombe (1973) bastante clara: nem sempre os resultados obtidos atravs das tabelas de correlao so informativos a respeito do padro de relacionamento entre as variveis de

130

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

interesse do pesquisador16. Ou seja, uma inspeo grfica mais detalhada dos dados na fase inicial da anlise pode evitar muita dor de cabea na hora de realizar inferncias17. O ltimo tpico concernente ao coeficiente de correlao de Pearson (r) diz respeito ao problema das lurking ou counfouding variables j que elas podem produzir correlaes esprias18. Por exemplo, ao se estimar a relao entre o nmero leitos hospitalares e a taxa de mortalidade de um determinado estado, o pesquisador pode chegar concluso de que quanto mais camas, maior a taxa de mortalidade. A varivel omitida, nesse caso, o nmero de pessoas internadas. Para os propsitos desse artigo, ser utilizado como exemplo a relao entre gofar e engordar. Isso porque existe a crena de que beb que gofa muito, ganha peso mais rpido19. A figura abaixo ilustra essa relao.

16

Para outros exemplos nesse sentido ver Magnusson e Mouro (2003). Agradecemos ao parecerista annimo por essa observao pontual. 17 importante lembrar que muitas vezes um outlier pode representar simplesmente um erro de digitao. 18 Ver Tufte (1976). O livro pode ser eletronicamente acessado a partir do seguinte endereo: http://www.edwardtufte.com/tufte/ 19 Essa relao tem sido tradicionalmente utilizada pelo professor Jorge Alexandre no curso intensivo de Metodologia Quantitativa (MQ) em Cincias Sociais da UFMG. Por consider-lo um excelente exemplo optamos por utiliz-lo. De acordo com o Houaiss, o termo gulodice proveniente da alterao da palavra gulosice e remonta ao sculo XV. No nordeste brasileiro a palavra gulodice usualmente utilizada para designar pessoas que comem de forma excessiva. Revista Poltica Hoje, Vol. 18, n. 1, 2009

131

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Figura 01 - correlao entre gofar e engordar

A correlao observada entre gofar e engordar pode ser explicada na medida em que elas tm a mesma causa: gulodice. Ou seja, essa ltima varivel estava agindo como lurking variable. Ao se controlar pelo efeito da gulodice, a correlao entre as variveis desaparece. Dessa forma, os pesquisadores, antes de apresentar suas concluses, devem analisar cuidadosamente os seus dados e investigar em que medida uma correlao entre suas variveis de interesse pode estar sendo afetada pela presena de lurking variables.

Exemplo prtico: Reapresentao e Conservao na Cmara dos Deputados Para ilustrar a aplicao do coeficiente de correlao de Pearson (r) com um exemplo mais prximo da Cincia Poltica, optamos por utilizar alguns dados eleitorais (LEEX, 2009). Em particular, estamos interessados em duas principais variveis: (1) Taxa de Reapresentao (Diviso do nmero de candidatos que se reapresentaram pelo total); (2) Taxa de Conservao (Diviso do nmero de reeleitos pelo total de
132
Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

candidatos que se reapresentaram, ou seja, reeleitos + derrotados). A tabela abaixo ilustra a correlao entre essas duas variveis no perodo 1945-2006.

Tabela 04 - Correlao entre Reapresentao e Conservao Perodo 1945-2006 R 0,047 p valor 0,861 n 16

Como pode ser observado, o coeficiente de correlao de Pearson (r) entre a taxa de reapresentao e a taxa de conservao de 0,047 (p=0,861). Logo, o pesquisador chegaria concluso de que no existe relao linear entre as variveis, ou seja, as variveis so estatisticamente independentes. Alm disso, o escore do p valor no permite inferir que os valores encontrados para a amostra podem ser generalizados para a populao20. O grfico abaixo ilustra esses dados.

20

Um dos objetivos centrais da estatstica fazer inferncias vlidas para a populao a partir de dados amostrais. nesse sentido que a significncia estatstica, assim como o intervalo de confiana, uma medida de incerteza a respeito de uma determinada estimao. Para Moore (2007), a probabilidade, estimada assumindo que Ho verdadeira, de que a estatstica assumiria um valor extremo ou maior do que foi de fato observado chamado de p valor (Moore, 2007: 368). O p valor apresenta a probabilidade dos valores encontrados a partir de dados amostrais serem representativos dos parmetros populacionais, dado que a hiptese nula verdadeira. Quanto menor o seu valor, maior a confiana do pesquisador em rejeitar a hiptese nula. No outro oposto, valores altos do p indicam que a hiptese nula no pode ser rejeitada. Em cincias sociais, comum adotar trs diferentes patamares para analisar o p valor: 0,1 (significativo no nvel de 10%); 0,05 (significativo no nvel de 5%) e 0,01 (significativo no nvel de 1%). Para uma discusso sobre o assunto ver Blalock (1967), Carver (1978, 1993), Daniel (1998), McLean e Ernest (1998) e Sawilowsky (2003). Revista Poltica Hoje, Vol. 18, n. 1, 2009

133

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Grfico 05 Reapresentao e Conservao (1945-2006)

Ao se analisar o grfico de disperso, no entanto, observa-se que a eleio de 1966 se comporta como um outlier (cruz vermelha), distorcendo o padro de associao entre as variveis. Uma forma de testar essa afirmao remover esse caso da anlise e realizar um novo teste de correlao. Com efeito, caso essa observao seja excluda da anlise, o nvel de associao entre as variveis assume o valor de 0,447 (p=0,095). Logo, o pesquisador chegaria concluso de que existe relao linear positiva entre as variveis (valor moderado), ou seja, elas so estatisticamente dependentes. Ao se considerar apenas o perodo ps-abertura, ou seja, somente as eleies ocorridas entre 1990 e 2006, observa-se uma correlao negativa entre as taxas de reapresentao e conservao (-0,205; p=0,741). Logo, o pesquisador seria levado a acreditar que algo aconteceu e, por esse motivo, o padro de relacionamento entre as variveis no s mudou de
134
Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

magnitude, mas tambm mudou de direo. O grfico abaixo ilustra esses dados.
Grfico 06 Reapresentao e Conservao (1990-2006)

Aqui emergem dois padres interessantes. Em primeiro lugar, ao se excluir o ano de 1990 de amostra, o coeficiente de correlao de Pearson (r) passa de -0,205 (p=0,741) para -0,926 (p=0,074) (mesma direo

mas diferente magnitude). Logo, o pesquisador chegaria concluso de que existe relao linear negativa entre as variveis (valor alto), ou seja, elas so estatisticamente dependentes. Mas como explicar esse fenmeno? Como explicar que cada vez mais os incumbents21 se recandidatam e no levam? Teoricamente orientado, o pesquisador argumenta que uma possvel resposta pode ser especulada via competio eleitoral. Tecnicamente, uma forma de testar essa hiptese atravs de uma correlao parcial entre as taxas de reapresentao e conservao, tendo como varivel de controle a competio eleitoral. De acordo com
21

Incumbent um termo utilizado para designar os polticos que j ocupam um cargo na Cmara dos Deputados. Revista Poltica Hoje, Vol. 18, n. 1, 2009

135

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Pallant (2007), a correlao parcial permite controlar em um teste bivariado por uma varivel adicional. Atravs desse controle, possvel estimar mais acuradamente o grau de associao entre as variveis de interesse22. A tabela abaixo sintetiza esses dados.

Tabela 05 - Correlao entre Reapresentao e Conservao controlada pelo ndice de Competitividade Eleitoral Sem controle Perodo 1990-2006 R -0,205 p valor 0,741 n 5 R 0,668 Com controle p valor 0,332 Gl 2

Os dados indicam que, controlando pela competio poltica, o grau de associao entre as variveis aumenta e muda de direo, passando de -0,205 para 0,668 (p=0,332). Ou seja, a associao negativa que antes se observava no se sustenta se a competio eleitoral for considerada. Isso porque a reapresentao influencia positivamente a concorrncia, ao permitir a disputa entre incumbents. Na correlao parcial (com controle), esse efeito includo no modelo, fazendo com que as taxas de reapresentao e conservao se correlacionem positivamente. Diante desses resultados, o pesquisador postula os seus achados: a taxa de representao est positivamente correlacionada com a taxa de reeleio e com o ndice de competitividade eleitoral. Este ltimo, por sua vez, est negativamente correlacionado com a taxa de reeleio. O segundo padro emerge ao se excluir o ano de 2006 da amostra j que o coeficiente de correlao de Pearson (r) passa de -0,205 para 0,790 (diferente magnitude e diferente direo). Ou seja, ao excluir uma observao o pesquisador chegaria mesma concluso caso tivesse
22

Ver apndice para mais detalhes. Revista Poltica Hoje, Vol. 18, n. 1, 2009

136

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

optado por inserir o controle em sua anlise. Em outras palavras, seja por um motivo teoricamente orientado (incluso do controle), seja pela excluso de uma das observaes 1990 ou 2006 (motivo aleatrio falta de dados, por exemplo), o pesquisador poderia chegar ao mesmo resultado ou a uma concluso diametralmente oposta. Para Geddes (2003), relaes que parecem existir entre causas e efeitos em amostras pequenas selecionadas a partir da varivel dependente podem desaparecer e mesmo mudar de direo quando mais casos que contemplam a amplitude da variao na varivel dependente so examinados (Geddes, 2003:129). A tabela a seguir apresenta as diferentes concluses possveis a partir da anlise desses dados:

Tabela 06 - Sntese dos resultados encontrados Perodo de anlise 1945-2006 1945-2006 Valor do coeficiente (r) 0,047 0,447 Observao metodolgica Foram analisados todos os anos (sem controle) Por ser um outlier, o ano de 1966 foi excludo da amostra Foram analisadas apenas as eleies mais recentes (ps-abertura) Incluso do ndice de competitividade eleitoral como controle Excluso do ano de 1990 (outlier) ou falta de dados Excluso do ano de 2006 (outlier) ou falta de dados Concluso

As variveis so estatisticamente independentes. As variveis esto positivamente correlacionadas (valor moderado). As variveis esto negativamente correlacionadas (valor fraco). As variveis esto positivamente correlacionadas (valor moderado). As variveis esto negativamente relacionadas (valor alto). As variveis esto positivamente relacionadas (valor alto).

1990-2006

-0,205

1990-2006

0,668

1994-2006

-0,926

1990-2002

0,790

Afinal, qual a verdadeiro padro de correlao entre as taxas de reapresentao e de conservao? Dado o nmero reduzido de casos,
Revista Poltica Hoje, Vol. 18, n. 1, 2009

137

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

qualquer resposta tende a ser tentativa e as inferncias devem ser interpretadas com bastante cautela. Isso porque estatsticas extradas de amostras pequenas tendem a ser no representativas dos parmetros populacionais 23. Em termos metodolgicos, uma possvel sada para responder essa questo seria aumentar o nmero de casos (King, Keohane e Verba, 1994). Para tanto o pesquisador poderia sugerir analisar em que medida o padro de correlao entre essas variveis para a Cmara dos Deputados se mantm constante para as assemblias estaduais. Reportam-se os seguintes resultados:

Tabela 07 Correlao entre Reapresentao e Conservao (Assemblias estaduais) Sem controle Perodo 1990-2006 R -0,199 p valor 0,021 n 134

Ou seja, os dados sugerem que tambm no nvel estadual existe uma correlao negativa entre as taxas de reapresentao e conservao (-0,199; p =0,021). Alm disso, o pesquisador reporta que esse padro consistente ao se desagregar os dados por ano: -0,028 em 1990; -0,552 em 1994; -0,184 em 1998; -0,096 em 2002 e -0,294 em 2006. A primeira vista, esses resultados poderiam ser utilizados para corroborar a teoria do pesquisador de que na ausncia de controle pelo ndice de competio eleitoral, as taxas de reapresentao e reeleio esto negativamente associadas. Todavia, esses resultados no podem ser comparados j que foram extrados de amostras diferentes. Isso porque a diferena da
23

Ver o trabalho seminal de Fisher (1921). Para um trabalho sobre as diferentes contribuies de Fisher ver Anderson (1996).

138

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

magnitude entre correlaes extradas de amostras diferentes podem variar simplesmente porque a varincia diferente e no porque o padro de relacionamento entre as variveis mais ou menos consistente (Achen, 1977: 807). Em sntese, esses dados sugerem alguns cuidados ao se utilizar o coeficiente de correlao de Pearson (r): (1) O coeficiente de correlao de Pearson (r) deve ser acompanhado por anlises grficas (grficos de disperso). Apenas depois disso o pesquisador deve utilizar o coeficiente de correlao de Pearson (r) para medir o grau e a direo da associao entre as suas variveis de interesse; (2) Alm disso, o pesquisador deve se certificar de que os pressupostos esto sendo respeitados (nvel de mensurao das variveis, linearidade da relao, normalidade da distribuio, etc.); (3) Inferncias realizadas a partir de uma quantidade reduzida de observaes devem ser interpretadas com bastante cautela. Isso porque amostras pequenas no fornecem estimativas confiveis dos parmetros populacionais; (4) A presena de outliers e/ou de variveis omitidas compromete fortemente a confiabilidade dos resultados encontrados. Dessa forma, o pesquisador deve verificar em que medida o seu banco de dados foi devidamente construdo e cleaning; (5) Correlaes no podem ser comparadas entre diferentes amostras j que elas podem diferir porque apresentam varincias diferentes, mesmo que o padro de relacionamento entre as variveis seja consistente (Achen, 1977: 807). Dessa forma, no se deve utilizar coeficientes de amostras diferentes como um indicativo de

Revista Poltica Hoje, Vol. 18, n. 1, 2009

139

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

existncia de uma relao mais geral entre as variveis (para isso devem ser utilizados os coeficientes no padronizados).

2. Concluso Por um lado, estima-se que o coeficiente de correlao de Pearson e suas derivaes so escolhidos em 95% dos casos para descrever o padro de relacionamento entre variveis ou para fazer inferncias vlidas para a populao a partir de dados amostrais (Chen e Popovic, 2002: 09). Por outro, Carroll (1961) afirma que o coeficiente de correlao geralmente utilizado de forma inapropriada (Carroll, 1961: 01) Mas o que significa dizer que duas variveis esto correlacionadas? O principal objetivo desse artigo pedaggico. Procuramos apresentar as principais propriedades do coeficiente de correlao de Pearson (r), suas respectivas aplicaes e limites a partir de uma abordagem descritiva. Alm disso, queremos chamar a ateno dos pesquisadores para as aplicaes e os limites dessa medida na formulao dos seus desenhos de pesquisa. Concordamos fortemente com a afirmao de que no a estatstica que determina se relaes causais podem ser ou no alcanadas (Chen e Popovic, 2002: 07). No entanto, acreditamos tambm que o que distingue o conhecimento cientfico de outras formas de conhecimento exatamente a utilizao sistemtica e rigorosa do mtodo. Nesse sentido, compreender melhor o significado do coeficiente de correlao de Pearson (r) um passo fundamental para lidar com os problemas enfrentados pelos cientistas sociais em geral e pelos cientistas polticos, em particular. Dessa forma, independente do que ser servido, fil (explicao) ou picanha (interpretao), preciso que o chef tenha habilidade suficiente para preparar esses pratos, caso contrrio, corre-se o risco de oferecer um guizado de fil ou ensopado de picanha.
140
Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

Esperamos contribuir para tornar essa receita menos tortuosa. Afinal, existe uma correlao positiva entre interpretao e explicao.

Apndice

Desvio padro

1 ( xi X ) 2 n 1

Mdia

x1 x 2 ... xn 1 xi
n n

Padronizao

Correlao

1 xi X yi Y ( )( ) n 1 sx sy

Revista Poltica Hoje, Vol. 18, n. 1, 2009

141

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Correlao parcial

Referncias Bibliogrficas ACHEN, Christopher H. (1977), Measuring Representation: Perils of the Correlation Coefficient. American Journal of Political Science, 21, 4: 805-815. ALDRICH, John H. (1995), Correlations Genuine and Spurious in Pearson and Yule. Statistical Science, 10, 4: 364-376. ALMOND, Gabriel. (1990), A Discipline Divided: Schools and Sects in Political Science. Newbury Park, Calif.: Sage Publications. ANDERSON, Theodore W. (1996), R. A. Fisher and Multivariate Analysis. Statistical Science, 11, 1: 20-34. ANDRES, Martin I.; TEJEDOR, Herranz & MATO, A. Silva. (1995), The Wilcoxon, Spearman, Fisher, $\chi^2$-, Student and Pearson Tests and $2 \times 2$ Tables. Journal of the Royal Statistical Society, 44, 4: 441-450. ANSCOMBE, Frank J. (1973), "Graphs in Statistical Analysis". The American Statistician, 27: 17-21. ASHER, Hebert. (1983), Causal Modeling. London, Sage. BLALOCK, Hubert. (1967), Causal Inferences, Closed Populations, and Measures of Association. The American Political Science Review, 61, 1: 130-136. BLALOCK, Hubert. (1971), Causal Models in the Social Sciences, Chicago: Aldine-Atherton. BLYTH, Stephen. (1994), Karl Pearson and the Correlation Curve. International Statistical Review, 62, 3: 393-403. CARROLL, John B. (1961), The Nature of the Data, or How to Choose a Correlation Coefficient. Psychometrika, 26: 347-372. CARVER, Ronald P. (1978), The case against statistical significance
142
Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

testing. Harvard Educational Review, 48, 378- 399. CARVER, Ronald P. (1993), The case against statistical significance testing, revisited. Journal of Experimental Education, 61, 287292. CHEN, Peter Y. & POPOVIC, Paula M. (2002), Correlation. London, Sage. COHEN, Jacob. (1988), Statistical power analysis for the behavioral sciences. Hillsdale, NJ, Erlbaum. COLLIER, David; SEAWRIGHT, Jason & MUNCK, Gerardo L. (2004), Sources of Leverage in Causal Inference: Toward an Alternative View of Methodology, in H. Brady & D. Collier (eds), Rethinking Social Inquiry: Diverse Tools, Shared Standards, Lanham, MD, Rowman and Littlefield. DANCEY, Christine & REIDY, John. (2006), Estatstica Sem Matemtica para Psicologia: Usando SPSS para Windows. Porto Alegre, Artmed. DANIEL, Larry G. (1998), Statistical Significance Testing: A Historical Overview of Misuse and Misinterpretation with Implications for the Editorial Policies of Educational Journals. Research in the Schools, 5, 2: 23-32. DEVLIN, Susan J.; GNANADESIKAN, Ramanathan & KETTENRING, Jon R. (1975), Robust Estimation and Outlier Detection with Correlation Coefficients. Biometrika. 62, 3: 531-545. FIELD, Andy (2005). Discovering Statistics Using SPSS. London, Sage. FISHER, Ronald A. (1921), On the probable error of a coefficient of correlation deduced from a small sample. Metron, 1: 3-32. FRIEDRICH, Robert. (1982), In Defense of Multiplicative Terms in Multiple Regression Equations. American Journal of Political Science, 26: 797-833. GARSON, G. David. (2009), Statnotes: Topics in Multivariate Analysis. Disponvel em: http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm GEDDES, Barbara. (2003), Paradigms and Sand Castles: Theory Building and Research Design in Comparative Politics. Ann Arbor: University of Michigan Press. GERRING, John. (2001), Social Science Methodology: A Criterial Framework. Cambridge: Cambridge University Press. HAIG, Brian D. (2007), Spurious correlation, in N. J. Salkind (ed.), Encyclopedia of Measurement and Statistics, Thousand Oaks, Sage.

Revista Poltica Hoje, Vol. 18, n. 1, 2009

143

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

HAIR Jr., Joseph F.; ANDERSON, Ralph E.; TATHAM, Ronald T. & BLACK, Willian C. (2005), Anlise Multivariada de Dados. Porto Alegre, Bookman. HOLLAND, Paul. W. (1986), Statistics and Causal Inference. Journal of American Statistical Association, 81, 396: 945-960. KENNEDY, Peter. (2009), A Guide to Econometrics. Boston: MIT Press. KING, Garry. (2001), How not to lie with statistics: avoiding common mistakes in quantitative political science. Disponvel em: http://gking.harvard.edu/# KING, Garry.; KEOHANE, Robert. & VERBA, Sidney. (1994), Designing social inquiry: scientific inference in qualitative research. Princeton: Princeton University Press. KLECKA, William R. (1980), Discriminant Analysis. Beverly Hills, Sage. KOZAK, Marcin. (2009), What is strong correlation?. Teaching Statistics, 31: 85-86. KRONMAL, Richard A. (1993), Spurious Correlation and the Fallacy of the Ratio Standard Revisited. Journal of the Royal Statistical Society, 156, 3: 379-392. LEEX (2009). Almanaque de dados eleitoriais. Disponvel em: http://www.ucam.edu.br/leex/ MAGNUSSON, William E. & MOURO, Guilherme. (2003), Estatstica sem Matemtica. Londrina, Editora Planta. McLEAN, James E. & ERNEST, James M. (1998), The Role of Statistical Significance Testing In Educational Research. Research in the Schools, 5, 2: 15-22. MOORE, David S. & McCABE, George. (2004), Introduction to the practice of statistics. New York, Freeman. MOORE, David S. (2007), The Basic Practice of Statistics. New York, Freeman. MUDDAPUR, M. V. (1988), A Simple Test for Correlation Coefficient in a Bivariate Normal Distribution. The Indian Journal of Statistics, 50, 1: 60-68. NILES, Henry E. (1921), Correlation, Causation and Wrights theory of Path Coefficients. Genetics, 7: 258. O'BRIEN, Robert M. (1979), The Use of Pearson's with Ordinal Data. American Sociological Review, 44, 5: 851-857. OSBORNE, Jason & WATERS, Elaine. (2002), Four assumptions of multiple regression that researchers should always test. Practical Assessment, Research & Evaluation, 8, 2. Disponvel em: http://PAREonline.net/getvn.asp?v=8&n=2
144
Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

PALLANT, Julie. (2007), SPSS Survival Manual. Open University Press. PEARSON, Karl. (1892), The grammar of science. London, J. M. Dent and Company. PEARSON, Karl; FISHER, Ronald & INMAN, Henry F. (1994), Karl Pearson and R. A. Fisher on Statistical Tests: A 1935 Exchange from Nature. The American Statistician, 48,1: 2-11. PEDHAZUR, Elazar J. (1997), Multiple Regression in Behavioral Research. Orlando, Harcourt Brace. POLLOCK III, Philip H. (2006), A Stata Companion to Political Analysis. Washington, DC: CQ Press. RODGERS, Joseph Lee & NICEWANDER, W. Alan. (1988), Thirteen Ways to Look at the Correlation Coefficient. The American Statistician, 42,1: 59-66. RUBIN, D.B. (1974), Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies, Journal of Educational Psychology, 66, 688-701. RUMMEL, Rudolph J. (1976), Understanding Correlation. Disponvel em: http://www.hawaii.edu/powerkills/UC.HTM SANTOS, Maria Helena & COUTINHO, Marcelo. (2000), Poltica comparada: estado das artes e perspectivas no Brasil. BIB, 54: 3146. SAWILOWSKY, Shlomo S. (2003), Deconstructing Arguments From The Case Against Hypothesis Testing. Journal of Modern Applied Statistical Methods, 2, 2: 467-474. SCHIELD, Milo. (1995), Correlation, Determination And Causality In Introductory Statistics. American Statistical Association, Section on Statistical Education. SOARES, Glucio (2005), O calcanhar metodolgico da cincia poltica no Brasil. Sociologia, 48: 27-52. STANTON, Jeffrey M. (2001), Galton, Pearson, and the peas: A brief history of linear regression for statistics instructors. Journal of Statistical Education, 9,3. Disponvel em: http://www.amstat.org/publications/JSE/v9n3/stanton.html STIGLER, Stephen. (1989), Francis Galton's Account of the Invention of Correlation. Statistical Science, 4, 2: 73-79. STOKER, Getry & MARSH, David. (2002), "Introduction", in D. Marsh & G. Stoker (eds.), Theory and Methods in Political Science, Palgrave, Macmillan. TABACHNICK, Barbara & FIDELL, Linda. (2007), Using multivariate analysis. Needham Heights, Allyn & Bacon. TUFTE, Edward. (1976), Data Analysis for Politics and Policy.
Revista Poltica Hoje, Vol. 18, n. 1, 2009

145

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

Englewood Cliffs, Prentice-Hall. VALLE E SILVA, Nelson (1999), Relatrio de Consultoria sobre Melhoria do Treinamento em Cincia Social Quantitativa e Aplicada no Brasil. Rio de Janeiro, Laboratrio Nacional de Computao Cientfica. VAN EVERA, Stephen. (1997), Guide to Methods for Students of Political Science. Ithaca, Cornell University Press. WERNECK VIANNA, Luiz et al (1998). Doutores e teses em cincias sociais. Dados, 41, 3: 453-515.

146

Revista Poltica Hoje, Vol. 18, n. 1, 2009