Biometria - Regressão e Correlação

http://www.cultura.ufpa.br/dicas/biome/bioreg.htm

Sumário 1a. Estatí Regressão e Correlação 1b. Popul (Leitura complementar ao capítulo 7) 1c. Coord 1d. Escal Sumário: 1e. Tabel Coeficiente de associação 1f. Gráfic Coeficiente de correlação linear de Pearson 1g. G.- C Definições 1h. G.- C Existe Correlação? 1i. G.- Re Proporcionalidade: Direta e inversa 1j. Amost Regressão múltipla Reta de regressão 1k. Est. D 2a. Proba 2b. Newto Testes - H Definições 3. Qui Qu Diz-se que existe correlação entre duas ou mais variáveis quando as alterações sofridas por uma delas são acompanhadas por 4. Dist. N modificações nas outras. Ou seja, no caso de duas variáveis x e y os aumentos (ou diminuições) em x correspondem a 5. Média aumentos (ou diminuições) em y. 6. Variânc 7. Regres Assim, a correlação revela se existe uma relação funcional entre uma variável e as restantes. Exercício Exercício Note-se que a palavra regressão em Estatística corresponde à palavra função em Matemática. Ou seja, enquanto o Exercício matemático diz que y é função de x, o estatístico fala em regressão de y sobre x. Exercício Exercício Exercício Reta de regressão Exercício Exercício Uma função muito interessante é a que representa a linha reta, cuja expressão matemática é Exercício Planilhas y = a + bx em que y = variável dependente x = variável independente a = constante = intercepto (ponto em que a reta corta o eixo dos y) b = constante = coeficiente de regressão sendo que o intercepto a pode ser calculado a partir de: a= – b.

Biometria Para visualizar corretamente configurar a tela para 1024 x 768 pixels

Ressalte-se que necessariamente o ponto determinado pela média das variáveis está contido na reta. A melhor reta que descreve a regressão (Se desejar mais detalhes sobre como criar gráficos de retas, clique aqui). Supondo uma amostra em que um caráter métrico tenha a seguinte distribuição de idades e larguras de um órgão: Idade (x) 1 2 3 4 5 6 7 8 Largura (y) 30 40 50 60 70 80 90 100

Em que: total de larguras = 520 total de idades = 36 média de larguras = 65 média de idades = 4,5 Supondo a = 20 e b = 10

1 de 8

15/5/2011 11:36

Evidentemente. Assim. atribui-se 2 valores de x próximos aos extremos dos dados. verifica-se que a aumentos na variável Idade ( x ) correspondem aumentos na variável Largura do órgão ( y ). largura: y = 65 + 10 (8 . usa-se esses valores na equação: y= Portanto.4. Nesse caso. uma correlação será negativa quando a aumentos na variável x corresponderem diminuições na variável y. Alternativa: a reta de regressão em y não é paralela ao eixo dos x. Nula: a reta de regressão em y é paralela ao eixo dos x . largura: y = 65 + 10 (1 . (No Calc veja como criar gráficos clicando aqui. calcula-se b e o erro de b. testando as seguintes hipóteses: . pode ser calculado a partir de várias fórmulas: 2 de 8 15/5/2011 11:36 .y) – n. para a idade x = 1 ano. H.br/dicas/biome/bioreg.5) = 30 para a idade x = 8 anos. Assim sendo. Essa é uma correlação positiva. H. que passa pelos pontos médios dos valores de x e y é a melhor reta que descreve a regressão.htm Quando se deseja desenhar uma reta . Paralelamente.(x . Nesse caso.) Proporcionalidade: Direta e Inversa Quando se observa o coeficiente de regressão b e o sentido da reta pode-se concluir se existe correlação entre as variáveis e qual é o sentido da correlação. Existe correlação? Para se decidir sobre a existência de correlação e o sentido da variação da reta de regressão. b. pode-se usar o mesmo processo em gráficos feitos em programas computacionais. percebe-se que quando a reta de regressão em y é paralela ao eixo dos x ( b = 0 ) não há correlação. Depois.ufpa. O coeficiente de regressão.Biometria . Evidentemente. ou seja. quando há correlação. para facilitar. para que exista correlação é necessário que a reta corte o eixo dos x em algum ponto ( b 0 ). Depois efetua-se um teste t.) Essa reta. Portanto.5) = 100 E chega-se ao seguinte gráfico: + b.Regressão e Correlação http://www. Como calcular Recordando que as somatórias de quadrados (SQ) e de produtos (SP) são calculadas por: SQx = SQy = x2 – [( x)2 / n] y2 – [( y)2 / n] SP = (x.4. isto é. as variáveis estudadas variam em sentidos opostos. elas têm o mesmo sentido de variação.cultura. a reta de regressão em y não é paralela ao eixo dos x. .

sendo: t = b / sb Para encontrar o t crítico. Os caracteres variam em sentidos opostos. b > 0 As variáveis variam no mesmo sentido correlação negativa t 0. se b < 0 a correlação é negativa.htm b= [(x – ) (y – ou )] / 2 (x – )2 2 b = ( (x. Sendo t Sendo t 0) t > tc t é significativo b é significativamente diferente de 0 (a reta não é paralela ao eixo dos x) tc 0. calcula-se t. se b > 0 a correlação é positiva.78 2 y 14350 11560 2790 310 x /n SQx s 2 x y /n SQy s 2 y 3 de 8 15/5/2011 11:36 .SP) / [SQx (n – 2)]} Para se testar a significância de b. .y) – n. para testar se pode ser considerado ou não como significativamente diferente de zero. ausência de correlação t = 0. e obedece-se o seguinte critério: t < tc t não é significativo b não é significativamente diferente de 0 (a reta é paralela ao eixo dos x) Portanto: 1. qualquer b Não há sentido de variação correlação positiva t 0. b < 0 As variáveis variam em sentidos opostos Exemplo: Os seguintes dados foram obtidos amostrando dimensões do mesmo órgão de 10 indivíduos.br/dicas/biome/bioreg.Biometria .ufpa. Se t não for significativo os caracteres não estão correlacionados: ( t = 0) Se t for significativo os caracteres estão correlacionados: ( t 2.2. .Regressão e Correlação http://www. Os caracteres variam no mesmo sentido. comprimento largura que geraram os seguintes valores: x 2 x y 40 25 25 15 65 50 75 65 65 50 40 25 50 40 40 40 15 15 25 15 440 44 y 2 340 34 n (x. ou seja. ) / ou x – [( x) /n] b = SP / SQx O erro de b também pode ser calculado de maneiras diferentes: sb = raiz (syx / SQy) ou sb = raiz {(SQy – b.y) n. 0. consulta-se a tabela de t.cultura. SP SP 2 10 17950 14960 2990 8940100 x 2 22850 19360 3490 387. com GL = n .

= _____________ tc = _____________ P = 0. ou seja.ufpa. x.( x) ( y) / raiz [n. ) / [( n .( x / y) 2 2 2 2 Observando as duas últimas fórmulas rapidamente percebe-se que se não houver correlação entre x e y.) .44) = 65.86 / 0. a reta será _____________ (paralela . então b = 0 e a reta será paralela ao eixo dos x. (Veja como clicando aqui).86. Como b é _____________ (igual a .L.8 e para x = 80.b. y] raiz ( b.SP / SQy ) b. (x.0 Com esses valores crie o melhor gráfico que representa esses dados. y .86 2990) / [3490 (10 -2)] = 0.inversamente) proporcionais.95 pos forte +1 pos perfeita Para testar a significância usamos um teste t. y = 34 + 0.n. ou seja são ______________________ (diretamente . 3.negativo).10 neg fraca 0 ausência 0. e substitui-se em y = para x = 10.htm Exercício: Confira os cálculos abaixo e complete as seguintes frases: 1.menor) que tc ( tc = _____________ ). a correlação pode ser: -1 neg perfeita -0.556.não há) correlação entre as variáveis x e y. Qual a reta de regressão que melhor se ajusta aos dados da amostra? Atribui-se 2 valores extremos de x. Qual o sentido da variação desses caracteres? A correlação é _____________ (positiva .(x .09 t = b / sb = 0. .y) .( x) ] [ n.y) .não é) significativo. Como t é _____________ (maior .10 pos fraca 0. _________ (há .( y) ] ( (x.(80 . Estabelecemos as hipóteses: 4 de 8 15/5/2011 11:36 .diferente de) zero. o comprimento e a largura desse órgão variam _____________ (no mesmo sentido .Regressão e Correlação http://www.em sentidos postos). portanto.não paralela) ao eixo dos x e _____________ (ascendente .br/dicas/biome/bioreg.44) = 4. 2. se r = 0. x .descendente). Para facilitar os cálculos utilize uma planilha especial: Regressão e Correlação Copie a planilha comprimida em formato livre ods + b.(10 . O coeficiente r varia entre -1 e +1.95 neg forte -0. já que b é _____________ (positivo .SP) / [SQx (n -2)] = raiz (2790 .09 = 9.negativo). Portanto.001 Resposta: Sendo t = ____________ sua probabilidade é _____________ .Biometria .1).86 sb = raiz (SQy . conclui-se que t _____________ (é . Portanto. Existe correlação entre os caracteres da amostra? Porque? b = SP / SQx = 2990 / 3490 = 0. Consulta-se a tabela de t Sendo que: G. pois b ( _____________ ) é _____________ (positivo .cultura.0.50 pos moderada +0.negativa) .50 neg moderada -0. y = 34 + 0. Por exemplo: Coeficiente de correlação linear de Pearson ( r ) Pode ser obtido a partir de diferentes fórmulas: r= r= r= r= n .86.

r2 )] 2 t = [+ 0. raiz [(N . quanto mais próximo da unidade for o coeficiente de Determinação. 66 / raiz [ 7 . t = 2. com GL = n-2. SQy = 2790 Estima-se r = raiz ( b. 720 .( y)2 ] r = 7 . y2 .(73)2 ] [ 7 .96 Portanto.Biometria . H.r2 )] Coeficiente de determinação O coeficiente de determinação é simbolizado por r e indica quanto da variação total é comum aos elementos que constituem os pares analisados. Alternativa: Há correlação entre as variáveis x e y. a qualidade da regressão é indicada por este coeficiente. Assim. Qual é o valor do coeficiente de correlação entre esses dados? Qual é o seu significado? x 12 10 6 16 8 9 12 x = 73 x2 144 100 36 256 64 81 144 x2 = 825 y 12 8 6 11 10 8 11 y = 66 y2 144 64 36 121 100 64 121 y2 = 650 x. pode-se dizer que apenas 8% da variância da regressão não depende das variáveis estudadas.86.y) = 720 r = N . Exemplo 1: Supondo que numa certa amostra tivessem sido obtidos os seguintes valores: b = 0.Regressão e Correlação http://www.0. 650 .(66)2 ] r = + 0.73 . com GL = 5 e a = 5%. SP = 2990.2) / (1 . r = raiz ( 0.754.ufpa. por meio da seguinte fórmula: t = r .cultura. isto é.2) / (1 .0. 825 . x2 . r2 = Variação explicada de Y / Variação total de Y 2 È importante notar que r2 varia entre 0 (zero) e 1 (um).92 = 0. raiz[(7-2)] / (1 .br/dicas/biome/bioreg. ou seja 8% Assim. raiz [(N .2990 / 2790).( x) ( y) /raiz [ N. xy .08.htm .571 5 de 8 15/5/2011 11:36 . Estabelecemos as hipóteses: e t = r . Evidentemente.( x)2 ] [ N. Nula: Não há correlação entre as variáveis x e y. Exemplo 2: Dados obtidos de 7 pares de pai-filho.86. . tanto maior será a validade da regressão.754 Para testar a significância usamos um teste t. portanto. ou seja. amostrando o número de anos de escola cursados pelo pai (x) e o número de anos de escola cursados pelo filho (y). H.581 Verificando a tabela de t.y 144 80 36 176 80 72 132 (x.92 1 .SP / SQy ). t5 = 2.754 )]. r = 0. r2 = 0. Calcula-se t.

c e d.3115 e o valor máximo é 0.0.15% da variância da regressão depende de outras variáveis.2960 = 0.bc) / (ad + bc) O desvio padrão de Q é obtido por: s = (1 . não estudadas aqui. pois nesse sexo há maior freqüência dessa forma.3635 .5224 ) / 2 . o valor mínimo é 0.7333 Como o valor calculado de Q (0..5685 e 1 . 2 Regressão múltipla Quando se quer investigar se uma variável está correlacionada concomitantemente a várias outras. Monta-se uma tabela 2 x 2 e designa-se as células pelas letras a. Quételet (1796-1874).s = 0. raiz (1/a + 1/b + 1/c +1/d) s = (1 .htm Conclui-se que como t calculado é maior que tc. a c Obtém-se o coeficiente de associação Q por meio de: Q = (ad . estando o sexo masculino associado à forma maligna.(40 x 32) / (60 x 68) + (40 x 32) Q = ( 4080 . admitindo-se que o número de anos de escola cursados pelo pai está positivamente correlacionado ( r = + 0.5224 ) se encontra entre esses 2 valores ( 0.0250 + 0. pode-se rejeitar a hipótese nula ( r = 0 ) e aceitar a hipótese alternativa em que r 0. Coeficiente de associação Para verificar se dois caracteres qualitativos são interdependentes pode-se: . e aplica-se aos dados a seguinte fórmula: y = a + b1x1 + b2x2 + b3x3 + b4x4+ .Q2 ) / 2 .empregar um teste de .Biometria . 43. 2 Como r = 0. considera-se a primeira como variável dependente e as outras como variáveis independentes.bc) / (ad + bc) = (60 x 68) .3635 .1076 Portanto. + bnxn em que: y = é a estimativa da variável dependente 6 de 8 15/5/2011 11:36 .01470) s = 0.. ficando a-d e b-c nas diagonais. pode-se dizer que nessa amostra.calcular o coeficiente de associação.1076 O intervalo de confiança de 95% de Q é obtido por: Q ± t.cultura. Assim. Lambert A. J.3115 e 0. b.s Exemplo: Supondo que a distribuição de 200 pacientes adultos (92 homens e 108 mulheres) segundo as formas maligna e benigna de uma doença foi: Forma / Sexo Maligna Benigna Total Homens 60 a 32 c 92 Mulheres 40 b 68 d 108 Total 100 100 200 b d Q = (ad . conclui-se que existe associação entre o sexo e as formas da doença.85% da variância do número de anos de escola cursados pelo filho.4315. Yule propôs esse coeficiente e o chamou de Q . o número de anos de escola cursados pelo pai explica 56.1280 ) / ( 4080 + 1280 ) = 2800 / 5360 Q = 0.Q2 ) / 2 raiz (1/a + 1/b + 1/c +1/d) O intervalo de confiança de 95% de Q é obtido por: Q ± t.3635 .5685 = 0.96 x 0.0876 = 0.ufpa. raiz 0.0167 + 0. para homenagear um pioneiro da Estatística.754 ) ao número de anos de escola cursados pelo filho nesta amostra.7333 ).0312 + 0.5224 O desvio padrão de Q é obtido por: s = (1 . raiz (1/60 + 1/40 + 1/32 +1/68) s = 0.0. raiz (0. 0.5224 ± 1.Regressão e Correlação http://www.br/dicas/biome/bioreg.

depois desse ordenamento se faz a análise de regressão simples da variável dependente sobre a independente que apresentou o maior valor de bSP.1750 0. Portanto.340).793 -0.0374 0.05 > 0.719 -2.ufpa. Quantidade do medicamento no sangue.0586 -0.0115 0.cultura.Biometria .número de variáveis = 36 -1 . valor do hematócrito.90 > 0.60 7 de 8 15/5/2011 11:36 .131 P > 0.0520 0.80 > 0.0990 0.95) elas interferirão nos cálculos de regressão múltipla.80 x1 x2 x3 x4 x5 x6 x7 x8 nível de albumina -0. Se forem encontradas 2 ou mais variáveis nessa condição deve-se escolher apenas uma delas para o processamento da análise de regressão múltipla. Matematicamente se chega à formula do coeficiente de determinação r . Qtdd do medicamento no sangue após 6 hs de ingestão x5 x4 x3 x7 x2 valor do hematócrito anos de sulfonoterapia duração da doença nível de globulinas peso corporal r2 Acréscimo b sb t(27) P 2 2 0.0079 0.br/dicas/biome/bioreg.2317) dessa variável é significativamente diferente de zero (pois t(27) = -2.0894 0.05 < 0. que mede o componente da regressão que decorre da variação concomitante das variáveis estudadas.340 1. que determina uma probabilidade menor que 0.0468 0.40 > 0.081 -0.05 > 0. Sabe-se que se houver duas ou mais variáveis com coeficientes de correlação muito altos (r igual ou superior a 0. anos de sulfonoterapia. Regressão múltipla escalonada É um modelo de regressão que permite selecionar as variáveis independentes por ordem decrescente de intensidade de correlação com a variável dependente.0695 sb 0.246 0.0317 0.0318 0.inicia-se a análise de regressão múltipla introduzindo as outras variáveis independentes pela ordem de grandeza decrescente do valor de bSP. nível de globulinas e nível de albumina (variáveis independentes).8 = 27 Conclui-se que o nível sangüíneo desse medicamento. Finalmente.793 -0.0990 0.05.340 0.2317 0. após 6 hs de ingestão idade peso corporal duração da doença anos de sulfonoterapia valor do hematócrito taxa de hemoglobina nível de globulinas b -0. é necessário realizar tal análise em computadores. Nessa análise se ordena as variáveis independentes de acordo com o valor de bSP. pois entre todos os coeficientes de regressão calculados somente o b (-0. verifica-se se o acréscimo de r é significativo ou não por meio de um teste t : t = (b / sb) A tabela que se segue mostra o resultado da análise de regressão múltipla escalonada aplicada aos mesmos dados que foram usados para a tabela anterior. peso corporal.40 > 0.-0.1383 -0.388 0. duração da doença.002 0. Um cuidado a ser tomado antes de se realizar uma análise de regressão múltipla é calcular os coeficientes de correlação de todas as variáveis tomadas aos pares.80 > 0.0145 0.0542 0.0141 -0.0601 que GL = N -1 .0115 -0.3155 0. aqui nos preocupamos com a interpretação de resultados de análise de regressão múltipla. (Como já foi visto.3133 0.0145 -0. Assim.246 1.3472 0.0876 0. valor do hematócrito. Exemplo Em uma amostra de 36 hansenianos de sexo masculino tentou-se verificar se a quantidade de um certo medicamento presente no sangue 6 hs após a sua ingestão (variável dependente) está correlacionada com idade.00005 0. E.20 > 0.0468 0. taxa de hemoglobina.0374 -2. após 6 hs de ingestão depende apenas da variável x5.0520 0.388 < 0.719 0.2317 0.3613 --------.Regressão e Correlação http://www.60 > 0.0022 -0.0695 0.05 > 0.htm x = variável independente a = constante = intercepto múltiplo b = constante = coeficientes de regressão A análise de regressão múltipla é trabalhosa pois envolve a construção e multiplicação de matrizes tanto maiores quanto maior for o número de variáveis independentes analisadas. Ao final.0894 -0. a expressão 1 r2 indica o quanto da variância não depende dessas variáveis em estudo).0876 t(27) -1.

cultura.Regressão e Correlação http://www. clique aqui para saber mais).0586 0.3615 0.br/dicas/biome/bioreg. Copiar aqui Depois.htm x8 x6 x1 nível de albumina taxa de hemoglobina idade 0.Biometria .081 > 0. clique em"Salvar destino como" (ou algo semelhante ) Escolha o local onde salvar e clique em OK. Cole o endereço no campo de texto. Se desejar colaborar clique aqui. está disponível sob FDL (Free Documentation Licence).0601 0. estando em permanente construção.0542 -0.br/dicas/biome/bioreg. Preencha o endereço do destinatário. (Se não der certo.cultura.ufpa.00005 0. Agradeço antecipadamente. Última alteração: 4 nov 2009 8 de 8 15/5/2011 11:36 . Abra uma nova mensagem.002 -1.90 > 0.3517 0.0002 0.0265 -0.0079 0.0318 0. destinado prioritariamente aos alunos de Fátima Conti.htm Acesse a página do seu provedor. Sugestões e comentários são bem vindos.20 Copie esse texto em formato pdf clicando no link ao lado com o botão direito do mouse.0002 -0. pretende auxiliar quem se interessa por Bioestatística. Deseja enviar essa página? Se você usa um programa de correio eletrônico devidamente configurado para um e-mail pop3. clique em "Enviar página" (abaixo) para abrir o programa. Enviar página Se você usa webmail copie o endereço abaixo http://www. E pode acrescentar o que quiser. Preencha o endereço do destinatário da mensagem. E também pode acrescentar o que quiser.ufpa.131 0.3882 0.80 > 0. Este "site".

Sign up to vote on this title
UsefulNot useful