You are on page 1of 15

Rumos e Desafios das Cincias Biolgicas em Mato Grosso (30/11/2009 a 03/12/2009)

Mini-curso Introduo Bioestatstica: Linguagem R


Mestrando Tiago Domingos Programa de Ps-Graduao em Ecologia e Conservao da Biodiversidade

Esta apostila possui o objetivo de apresentar conceitos bsicos de bioestatstica para aplicao em pesquisas, e principalmente, apresentar a linguagem e ensinar a utilizao bsica do programa estatstico R, um ambiente computacional gratuito criado para a realizao de anlises estatsticas. Sendo a inteno principal deste minicurso, apresentar e ensinar o uso desta ferramenta estatstica utilizada por pesquisadores do mundo todo, este minicurso se voltar para a sua aplicao para a bioestatstica, pesquisas de biologia e ecologia. O minicurso ser terico-prtico, abrangendo desde conceitos bsicos de bioestatstica (mdia,moda,varincia,desvio padro) utilizao do programa para realizao de tcnicas estatsticas bsicas ( teste-t, anlise de varincia, regresses lineares) e criao de grficos para apresentao de resultados de pesquisas.

Bioestatstica a Estatstica aplicada s cincias mdicas e biolgicas, e possui sua importncia por se tratar de uma ferramenta utilizada na tomada de decises, que muitas vezes podem provocar conseqncias irreversveis na natureza ou sade de uma pessoa.

1.Noes e Conceitos Bsicos de Estatstica e Testes Estatsticos

1.1 Variveis Em pesquisas mdicas ou biolgicas, coletam-se dados de pessoas, animais, experimentos e de fenmenos fsicos e qumicos. Os pesquisadores coletam e anotam estas informaes porque esto interessados nas relaes ou distribuio dos dados, que so referncias de variveis, ou seja, as caractersticas do objeto de estudo que variam entre as unidades amostrais e que so de interesse do pesquisador. As variveis podem ser classificadas em qualitativas e quantitativas. As variveis qualitativas so aquelas onde os dados so distribudos em categorias, como por exemplo sexo ou cor; enquanto as variveis quantitativas so aquelas expressas por nmeros, sejam em intervalos discretos como a varivel idade ou uma varivel contnua como tamanho.

1.2 Organizao dos Dados A organizao de dados de carter crucial para a anlise de dados, e conseqentemente, interpretaes e concluses de qualquer pesquisa. Portanto, todos os dados devem seguir o mesmo padro de organizao, desde o nmero de amostras at a tabulao. Para permitir a utilizao de todos os dados coletados, necessrio que todas as variveis sejam analisadas em todas as unidades amostrais. Por exemplo, em um estudo que deseja saber se existe relao entre caractersticas fsico-qumicas da gua em lagos de diferentes regies do mundo, todas as variveis medidas em um lago de uma regio, devem ser medidas em todos os outros lagos. Uma tabela de dados que permite anlises de maneira mais rpida e eficiente, possui as variveis como colunas, e as amostras como linhas. A maioria dos programas computacionais que realizam anlises estatsticas assume esta distribuio dos dados, portanto, organizar os dados desta maneira necessrio para no provocar falsos resultados.

1.3 Apresentao de Dados em Grficos Grficos bem feitos transmitem uma grande quantidade de informao de forma direta, proporcionando aos leitores uma viso geral dos dados e destacando suas principais propriedades, padres e caractersticas que seriam difceis de se perceber ao se ler uma tabela, principalmente em pesquisas com centenas ou milhares de amostras. O tipo de grfico a ser utilizado para demonstrar seus resultados depende de quais tipos de variveis sero apresentadas nos grficos, e qual a sua relao. Apesar disso, certas caractersticas so imprescindveis para a apresentao de um bom grfico:

- Os ttulos, legendas e outras informaes (em tabelas ou grficos) precisam ser feitos de maneira que eles sejam explicativos por si s; - Os totais de linhas e colunas devem ser apresentados quando for adequado; - Cdigos e abreviaturas devem ser indicadas em notas de rodap; - As unidades de medidas das variveis devem ser apresentadas nos eixos das variveis; - O resultado dos testes estatsticos aplicados sobre as variveis apresentadas deve acompanhar, sempre que interessante em uma apresentao visual. Grficos precisam ser planejados levando em considerao uma srie de fatores, de maneira que passem informaes detalhadas e concisas, sem apresentar uma imagem carregada, cheia de ttulos e cores, para que o observador possam entender o recado passado sem complicaes.

1.4 Anlises preliminares de dados Dados quantitativos, apresentados em tabelas e grficos, podem ser analisados de maneiras preliminares testes estatsticos, com medidas descritivas como mdia, moda, varincia, desvio padro. Mdia a mdia aritmtica calculada pela soma dos valores de uma observao dividida pelo nmero de observaes. A mdia aritmtica d o centro de gravidade do conjunto de dados. Para entender isso, imagine que o eixo de uma varivel so os braos de uma balana, e que cada observao da varivel tem o mesmo peso. As observaes esto distribudas ao longo desse eixo de acordo com o seu valor observado, e para que a balana fique equilibrada necessrio um ponto de apoio em um determinado ponto. Este ponto a mdia aritmtica, e nem sempre est no meio do eixo, entre todas as variveis. Moda o valor que ocorre em maior freqncia em uma srie de dados. Varincia uma medida de disperso dos dados. Todos os dados de uma varivel se distribuem em torno da mdia desta varivel, e o grau de disperso de um conjunto de dados pode ser medido pelos desvios em relao mdia. O desvio em relao mdia a diferena entre o valor de uma observao e a mdia do conjunto. Por exemplo, se a mdia de idade numa famlia for 30 anos, a pessoa que tiver 43 anos tem um desvio em relao mdia de 13 anos. A varincia de uma srie de dados calculada pela soma dos quadrados de todos os desvios dividida pelo nmero de desvios menos um, sendo indicada por s :

Desvio padro outra medida de disperso de dados, porm mais utilizada do que a varincia. Isso se deve ao fato da varincia possuir a desvantagem de apresentar unidade de medida igual ao quadrado da unidade de medida dos dados. Por exemplo, se os dados esto em metros, a varincia fica em metros ao quadrado. J o desvio

padro, tem a mesma unidade de medida dos dados. Ele definido como a raiz quadrada da varincia, com sinal positivo. O desvio padro representado por s. 1.5 Testes de comparao de mdias Entre os testes estatsticos mais simples, esto os testes de comparao de mdias. Estes so testes que comparam sries de dados, de acordo com suas mdias e variao dos dados em torno da mdia, e retornam a possibilidade destes dados apresentarem ou no o mesmo padro de distribuio. Em algumas pesquisas, necessrio comparar duas populaes, como para saber se determinada caracterstica biolgica varia de acordo com o sexo dos indivduos, ou local de origem. Da mesma maneira, as vezes necessrio comparar condies experimentais. Por exemplo, para saber se um certo tratamento tem efeito, organizam-se dois grupos: aqueles que recebem o tratamento (grupo tratado) e aqueles que no recebem o tratamento (grupo controle). O efeito do tratamento dado pela comparao de variveis entre os dois grupos. Quando a pesquisa envolve apenas a comparao de dois grupos ou populaes, aplica-se o teste t, e quando envolve a comparao de mais de dois grupos ou populaes, aplica-se a Anlise de Varincia (ANOVA). Ambos os testes levam em considerao os valores das mdias da varivel analisada, assim como a variao dos dados em torno da mdia, para calcular uma estatstica e, a partir do valor calculado com os dados reais, realizar uma comparao com estatsticas calculadas com valores aleatrios e enfim, determinar a probabilidade da diferena entre as mdias ser real, ou dada ao acaso. 1.6 Correlao A maioria das pesquisas no se preocupa apenas com a descrio de uma varivel biolgica ou ambiental, mas se interessa em estudar o comportamento de duas ou mais variveis juntas, na tentativas de responder perguntas como Quanto a varivel X muda quando a varivel Y muda?. O comportamento conjunto de duas variveis quantitativas pode ser observado atravs de um grfico denominado diagrama de disperso, onde se apresenta uma das variveis no eixo das abscissas, e outra no eixo das ordenadas, colocando-se os valores das variveis sobre os respectivos eixos e marcando pontos para os pares de valores ; e tal comportamento pode ser medido atravs do coeficiente de correlao. Se as variveis X e Y crescem no mesmo sentido, isto , se quando X cresce, Y tambm cresce, diz-se que as duas variveis tm correlao positiva. J quando as variveis crescem em sentidos contrrios, isto , se quando X cresce, Y decresce, diz-se que as duas variveis tm correlao negativa. 1.7 Coeficiente de correlao Existem vrias maneiras de se calcular um coeficiente de correlao, mas todos so medidas para o grau de correlao entre duas variveis. Uma destas maneiras atravs do coeficiente de correlao de Pearson, que se representa por r e definido pela frmula:

onde X e Y so as variveis, e todos os valores resultantes esto entre -1 e 1. Quando r = 1 , as duas variveis possuem correlao perfeita, crescendo na mesma proporo. Quando r = -1, as variveis possuem uma correlao negativa perfeita, onde uma decresce na mesma proporo que a outra cresce. E quando r = 0, as variveis no possuem dependncia linear entre si. No entanto, esta ausncia de correlao linear ainda pode ser explorada atravs de outros meios no-lineares.

1.8 Regresso Determinadas pesquisas buscam saber como certas variveis respondem alteraes de outras variveis, como saber o efeito do aumento de temperatura sobre o nmero de espcies em determinado local, ou o efeito da dosagem de antibiticos sobre o nmero de clulas infecciosas em um organismo. Quando se estuda a variao de uma varivel Y em funo de uma varivel X, dizse que Y a varivel dependente e que X a varivel explanatria. Por exemplo, se um pediatra deseja saber como o peso das crianas varia em funo da idade, ento o peso a varivel dependente e idade a varivel explanatria. Um grfico de regresso construdo da mesma maneira que um grfico de correlao, no entanto, os pontos devem ser conectados por linhas, ou deve haver a presena da reta de regresso. A reta de regresso uma linha que demonstra o sentido e intensidade do efeito da varivel explanatria sobre a dependente. Para ajustar uma regresso linear simples (isto , a equao da reta) preciso obter os coeficientes linear e angular da reta. O coeficiente angular que d a inclinao da reta - representado por b e obtido atravs da frmula :

e o coeficiente linear, que a ordenada do ponto em que a reta corta o eixo da varivel dependente, representado por a e obtido atravs da frmula , ou seja, a igual a mdia da varivel Y menos b vezes a mdia da varivel X. Assim, constri-se a reta da regresso e a traa-se sobre o grfico da regresso.

2. Ambiente Computacional R : Linguagem, Funes e Aplicao

2.1. O que o R? R uma linguagem e ambiente para estatstica computacional e criao de grficos. um projeto do grupo GNU, que se volta para a criao de programas computacionais gratuitos. O R disponibiliza uma ampla variedade de tcnicas grficas e estatsticas (modelagem linear e no linear, testes estatsticos clssicos, anlises srietemporais, agrupamentos...), e uma plataforma altamente extensvel. Em curtos termos, o R um programa que vem crescendo nos ltimos anos, sendo criado para disponibilizar aos pesquisadores de todas as reas da cincia, uma alternativa gratuita para que eles possam realizar suas anlises estatsticas. Adicionalmente, qualquer pessoa pode criar e disponibilizar novas ferramentas para serem utilizadas dentro do ambiente computacional criado pelo R, fazendo com que seu uso e sua disseminao em todo o mundo cresam, estimulados pelos prprios usurios. 2.1.1. Onde achar e como usar o R? O site www.r-project.org o portal oficial do programa (em ingls). Nele, voc encontra o programa para download, pode enviar e receber mensagens em grupos de discusses sobre o programa, encontrar apostilas, manuais e dicas para realizar determinadas tarefas no programa, assim como se comunicar com os criadores do programa e at contribuir com atualizaes ou pacotes de funes estatsticas que voc criar. O download do programa e sua utilizao so totalmente gratuitos e permanecero gratuitos. Para utiliz-lo em seu computador, baixa realizar o download, e execut-lo. Por se tratar de uma iniciativa recente (criado em 2004), o programa se encontra sempre em desenvolvimento, ainda no possuindo uma interface do tipo aponte e clique como a maioria dos programas estatsticos disponveis no mercado. No entanto, seu uso atravs de comandos de texto possui um sistema de lgica que facilita o aprendizado em poucas horas.

2.2. Linguagem R A linguagem do programa R pede que seu usurio digite o comando ou funo que deseja realizar, e dentro de parnteses, qual o objeto que ir sofrear a ao do comando ou funo. Assim, o padro geral da linguagem R funo(objeto que ir sofrer a ao da funo). Conseqentemente, necessria a criao de objetos para que apliquemos as funes do programa, seguindo uma linguagem matemtica. Os objetos podem ser de vrios tipos, como uma seqncia de nmeros , uma matriz de dados, ou mesmo apenas uma coluna de uma matriz de dados. Os objetos podem ser criados na prpria interface do programa, ou importados de arquivos como uma tabela de dados do Excel. A partir do momento que o objeto est dentro do ambiente R, pode-se realizar inmeras funes matemticas e estatsticas.

Por exemplo, se eu quiser saber o valor mdio de uma seqncia de dados numricos, eu devo utilizar a funo mean , que me retorna o valor da mdia aritmtica do objeto selecionado como alvo para a funo. Ex: Existem 5 pessoas na sala e eu gostaria de saber a idade mdia delas. As idades so 17,24,36,20,18. O objeto poder ser criado atravs do seguinte comando: idades<c(17,24,36,20,18). Assim, criado um objeto chamado de idades e que a seqncia de valores das idades. Agora, para calcular a mdia aritmtica dos valores, basta utilizar o comando mean , e seguir a linguagem do programa. Ao se digitar o comando mean(idades), se obtm como resposta o valor da idade mdia das pessoas. 2.2.1. Criao de tabelas Sabemos que em uma pesquisa normal no se tem to poucos dados, portanto tal mtodo de criao de objetos seria muito demorado. No entanto, existe a possibilidade de se criar uma matriz de dados, e selecionar as variveis desejadas. Uma maneira criar a matriz com uma srie de comandos, e outra importar uma matriz criada no Excel. Para criar a matriz o comando matrix ou data.frame. O comando matrix suporta apenas informaes de nmeros, enquanto data.frame suporta informaes de nmeros e letras, portanto seu uso mais do que obrigatrio quando se possui dados categricos. Vamos criar uma matriz de dados com 2 colunas e 3 linhas, com as colunas sendo as variveis idade e altura , enquanto as linhas sero as rplicas. Sendo as idades 17,24 e 36, e as alturas 1,60, 1,74 e 1,79 , o comando de criao dessa matriz : exemplo2<- data.frame(idade=c(17,24,36), altura=c(1.60,1.74,1.79)) . Agora, ao se digitar exemplo2 , o programa retornar a matriz de dados criada. Esta matriz pode ser ento alterada, e novas colunas e linhas criadas com a utilizao do comando fix . Digite fix(exemplo2) e uma janela semelhante ao Excel surgir dando liberdade de alterao da matriz. Quando da criao de uma nova coluna, escolha se a varivel ser categrica(qualitativa) ou quantitativa, ao clicar no topo da nova coluna, digitar seu nome e escolher character ou numeric , respectivamente. OBS: necessrio dar um nome ao objeto toda vez que for cri-lo, para utiliz-lo em funes do programa. Este nome no deve ser igual a um objeto j criado, ou ir substitu-lo. Sugere-se a utilizao de nomes curtos para evitar erros na utilizao de futuras funes. Ainda assim, este mtodo facilita a tabulao de dados para a aplicao de anlises estatsticas. Porm, caso os dados j estejam tabulados no Excel, ou outro programa, possvel a importao da matriz, atravs do comando read.csv , que l o arquivo salvo em alguma pasta de seu computador, e cria um objeto no ambiente R. Antes da utilizao do comando, no entanto, so necessrias duas coisas. I Salvar o arquivo em formato .csv (separado por vrgulas) , que facilmente feito ao abrir o arquivo no Excel e utilizar a opo salvar como para escolher o formato CSV. II Escolher a pasta onde o programa deve procurar o arquivo. Isto feito na janela do programa R, ao se clicar em Arquivo , e em seguida Mudar dir. Surgir uma

pequena janela onde voc dever especificar a pasta onde o R buscar arquivos sempre que voc utilizar comandos read . Feito isto, basta utilizar o comando read.csv , com os argumentos sep= ;, e dec= , aps a indicao do nome do arquivo. Assim o programa ir ler o arquivo, separar as colunas e considerar vrgula ( , ) como decimal, se assim estiver digitado no Excel. Caso voc esteja utilizando pontos para separar os valores decimais, no utilize o segundo argumento. Ex: Voc tem um arquivo de Excel com seus dados de monografia (mono.xls), e quer importar seus dados para o R. Inicialmente salve o arquivo em CSV, sendo este agora mono.csv. O comando para a importao : exemplo3<-read.csv(mono.csv, sep= ; , dec= ,). Quando voc digitar exemplo3, sua matriz aparecer como no Excel. 2.2.2. Seleo de dados na matriz Com sua matriz criada, agora voc pode aplicar funes diferentes s que voc aplicaria uma srie de dados. Voc pode executar funes matemticas em toda a matriz, ou realizar operaes entre as variveis ou at em s uma varivel da matriz. Para realizar uma seleo de dados da matriz, utiliza-se $. Por exemplo, imaginemos que voc tem uma matriz cujo nome monografia, e nela voc tem as variveis espcies, abundncia e tamanho. Voc deseja ver a mdia do tamanho das espcies, no entanto, se utilizar o comando mean(monografia) o programa retornar uma mensagem de erro. E ele est correto, pois monografia possui trs sries de dados. Para especificar que voc quer saber a mdia do tamanho dos dados de monografia, voc deve realizar uma seleo de dados, ao digitar mean(monografia$tamanho). Veja isto acontecer ao digitar os comandos seguintes:
monografia<-data.frame(espcies=c("A", "B", "A", "B" , "A"), tamanho=c(10,20,12,23,9))

monografia mean(monografia$tamanho) mean(monografia$tamanho[monografia$espcies=="B"]) Ao digitar o terceiro comando, o R ir lhe retornar 14.8 , que o valor do tamanho mdio das espcies. No entanto, ao digitar o quarto comando, o programa retornar o valor do tamanho mdio das espcies B apenas. Isto aconteceu devido utilizao da troca de tamanho por tamanho[monografia$espcies=="B"] , que fez com que o R deixasse de ler todos os valores de tamanho , para ler os valores de tamanho QUANDO a varivel espcies igual B .

2.3. Criao de grficos Apesar da aparncia inicial do R, este programa possui capacidades grficas acima da maioria dos programas estatsticos. Este tpico se dedicar completamente como fazer, e embelezar seus grficos no R, com cores, smbolos , ttulos e legendas. Para mostrar que muita coisa capaz de ser feita nesse ambiente computacional, existem trs comandos de demonstrao das capacidades grficas. O comando demo(graphics) , que apresenta diversos tipos de grficos sendo criados em tempo real no R ; o comando demo(image) , que apresenta o espectro de cores disponveis atravs de

alguns grficos; e o comando demo (persp), que apresenta exemplos de perspectivas 3D possveis de serem geradas pelo R. Para todos os exemplos a seguir, utilizaremos os arquivos-exemplo disponibilizados.

2.3.1. Exemplos de grficos Histograma criado atravs do comando hist. Ex: passaros<-read.csv("passaros.csv",sep=";",dec=",") hist(passaros$ct) O objeto criado com o primeiro comando uma tabela de dados morfomtricos de pssaros, como comprimento alar, comprimento total, tamanho da cabea e etc. O resultado destes dois comandos ser um histograma com os valores do comprimento total de pssaros medidos. O eixo y ter a medida da freqncia de ocorrncia das classes de tamanho definidas pelo eixo x. Grfico de Pizza- criado atravs do comando pie. Ex: con<-read.csv("concurso.csv",sep=";",dec=",") con pie(con$candidatos) O grfico criado apresenta a porcentagem de candidatos a um concurso fictcio. No entanto, grficos como o de pizza permitem mais configuraes como legenda das fatias, tamanho da pizza, e outros mais. Para dar as legendas das fatias, utilize o argumento labels dentro do comando pie. Voc pode digitar uma srie de nomes, ou escolher uma srie j criada, como a primeira coluna da matriz: pie(con$candidatos,labels=con$cargos) Quando o nome da legenda muito grande, este pode ser cortado. Para resolver isto, basta diminuir o raio da pizza, com o comando radius, com valores entre 1 e -1. pie(con$candidatos,radius=0.7,labels=con$cargo) pie(con$candidatos,radius=0.5,labels=con$cargo) pie(con$candidatos,radius=1,labels=con$cargo)

Comando geral de grficos - plot

Caso voc no esteja procurando um grfico especfico, ou no saiba o comando para o grfico. Sempre existe a possibilidade de utilizar o comando plot. Este um comando que escolhe automaticamente um tipo de grfico dependendo do tipo de dados que voc escolher. Exemplo: Dados qualitativos X dados quantitativos -> plot(passaros$espcie,passaros$ct)

Este comando utilizar nossa primeira matriz de exemplos. A primeira varivel escolhida , espcie, ficar no eixo X , enquanto que a segunda ficar no eixo Y do grfico. Como resultado, o R escolher o grfico mais adequado, apresentando um grfico do tipo boxplot. Este grfico tambm pode ser feito atravs do comando boxplot. Dados quantitativos X dados quantitativos -> plot(con$candidatos,con$viajantes) Como os dados so todos quantitativos, o grfico gerado um grfico de disperso. Tambm gerado com o comando plot.xy.

2.3.2. Configurao do grfico Para criar um grfico mais personalizado, voc tem a disposio uma srie de argumentos para configur-lo, como os utilizados anteriormente no grfico de pizza. Para saber quais so as suas opes, utilize o comando de ajuda do R. Ele apresenta uma janela para cada comando, com uma descrio do seu funcionamento, todos os argumentos que voc pode utilizar, e exemplos no final. Por exemplo, para saber como configurar um grfico de pizza, digite ?pie, e a janela de ajuda para este grfico aparecer. Tambm possvel ?plot, ?boxplot, ?hist, e para qualquer funo matemtica ou estatstica como ?mean ou ?t.test. A seguir apresento uma pequena lista de comandos e resultados; col -> modifica a cor dos pontos de um grfico, ou das barras; ex: plot(passaros$espcie,passaros$ct,col=2) plot(passaros$alar,passaros$ct,col=2) plot(passaros$alar,passaros$ct,col=4) pch-> modifica o smbolo dos pontos de um grfico; ex: plot(con$candidatos,con$viajantes,pch=10) plot(con$candidatos,con$viajantes,pch=19) plot(con$candidatos,con$viajantes,pch=2) xlab e ylab -> modificam as legendas dos eixos X e Y. ex: plot(con$candidatos,con$viajantes,xlab="Candidatos ao concurso pblico (por cargo)",ylab="Candidados de outros estados") cex e cex.lab -> modificam o tamanho dos pontos e das legendas

Todos os comandos podem ser utilizados no mesmo grfico, e em qualquer seqncia ou combinao. Ex: plot(con$candidatos,con$viajantes,pch=19,col=3,cex=1.3,cex.lab=1.2,xlab="Candidato s ao concurso pblico (por cargo)",ylab="Candidatos de outros estados")

2.4. Estatstica Descritiva no R Para obter resultados de estatsticas simples como somatrio de uma coluna, mdia, varincia,desvio padro, mediana, e outros, existem comandos simples. Veja: Mdia-> mean(con$viajantes) Mediana-> median(con$viajantes) Somatrio-> sum(con$viajantes) Varincia-> var(con$viajantes) Desvio padro-> sd(con$viajantes) O comando summary, como em summary(con$viajantes) , apresenta um pequeno resumo de caractersticas da varivel, como valor mnimo , mximo e mediana. Todos estes comandos podem ser utilizados dentro de outros comandos ou em frmulas estatsticas, como por exemplo, quando houver necessidade de criar um grfico com valores mdios ou uma anlise estatstica com os valores totais das variveis.

2.5. Testes de hiptese (Varivel quantitativa X Varivel qualitativa) A seguir, ser descrito como realizar os dois testes estatsticos mais comuns, quando se faz experimentos ou se deseja comparar populaes ou efeitos de alguma varivel categrica, o teste T de Student, e a Anlise de Varincia simples. 2.5.1 Teste t de Student. O teste t de Student pode ser realizado no R atravs do comando t.test, que possibilita a realizao do teste e de suas variantes, como o teste t pareado. Digite ?t.test para ver como utilizar suas variantes. Como todo teste estatstico, durante seu clculo, diversos parmetros so calculados, e por isso preciso que os resultados sejam salvos em um objeto. Portanto, para realizar um teste t entre duas populaes (A e B), o padro seria resultados<-t.test(dadosA,dadosB) . Ex: Suponhamos que uma empresa farmacutica est testando um novo remdio, e selecionou 20 pessoas para testar o produto. Metade foi submetida ao tratamento com o novo remdio, e os outros 10 tomaram placebos (comprimidos vazios). Como resultados, foi medido o nmero de dias para que a pessoa deixasse de apresentar os sintomas da doena para qual o remdio foi feito. Assim, os resultados foram: Grupo A -> 2,4,5,3,1,6,4,3,2,4.; Grupo B -> 5,6,4,9,10,7,8,6,7,6. Ento, para saber se a diferena entre o tempo de recuperao da doena se deu devido efeito do remdio, ou ao acaso, necessrio um teste de hiptese. A hiptese 1 (h1) de que existe realmente diferena no tempo de resposta entre os grupos, e a hiptese nula de que no existe diferena. O teste t analisa a mdia dos grupos, e a variao, e retorna a possibilidade da hiptese nula estar correta. Pesquisadores de cincias biolgicas aceitam um intervalo de confiana de 5% , ou seja, aceitam a hiptese nula se ela tiver chance de estar correta em uma proporo

de 1/20. J pesquisadores da rea mdica e farmacutica aceitam um intervalo de confiana de 1%, assumindo o erro de apenas 1/100. Com estes dados, podemos realizar o teste de hiptese no R: matriz<-data.frame(grupoa=c(2,4,5,3,1,6,4,3,2,4),grupob=c(5,6,4,9,10,7,8,7,6,8)) boxplot(matriz$grupoa,matriz$grupob, names=c("Grupo A","Grupo B")) teste<-t.test(grupoa,grupob) teste Ao digitar teste, que o objeto onde foram salvos os resultados do teste t, uma pequena lista de informaes aparecer, como o valor da estatstica t, o nmero de graus de liberdade (df), a probabilidade da hiptese nula estar correta (p-value), as mdias dos valores dos grupos, e outras informaes. Agora basta analisar o grfico e os resultados, e tomar a deciso. O tratamento foi eficiente ou no? 2.5.2. Anlise de Varincia (ANOVA) O comando para realizao de anlises de varincia simples possui duas fases. Uma primeira que envolve o calculo das relaes entre as variveis segundo um modelo linear , atravs do comando lm; e uma segunda fase que envolve a extrao do resultado da anlise de varincia das relaes calculadas no comando anterior, e para isso utilizado o comando anova. Outra diferena, a maneira a qual a matriz deve estar formatada. Novamente sero analisadas duas colunas de dados, porm uma ser com os valores da varivel quantitativa, e a outra com a caracterstica da varivel qualitativa. Exemplo: Um bilogo quer saber se existe diferena no nmero de acidentes ofdicos causados por jararacas, cascavis e cobras-corais em Cuiab/MT. Para isso ele fez um levantamento do nmero de casos de acidentes por ano nos ltimos 5 anos, por cada espcie. Ao invs de montar uma matriz com uma coluna de dados para cada espcie, apenas duas so necessrias. Seus resultados foram: Cascavis = 23,15,22,16,18 ; Jararacas = 19,24,20,19,22 ; e Cobras-corais = 20,18,22,19,17. As duas variveis nesse estudo so Nmero de Acidentes e Espcie Causadora. Assim, pode-se montar uma tabela no Excel e import-la, ou criar um objeto por meio de comandos como feito anteriormente. Agora, vamos criar no Excel uma tabela, com duas colunas. Use como nome das colunas Acidentes e ! Espcie.Coloque o nmero de acidentes ao lado da espcie causadora daquele nmero de acidentes. Salve o arquivo com o nome de serpentes e no formato CSV. E vamos importar para o ambiente do R e analisar primariamente: serp<-read.csv("serpentes.csv",sep=";",dec=",") plot(serp$Espcie,serp$Acidentes) Com este grfico, podemos ver que a mdia de acidentes por ano diferente para cada espcie. No entanto, a variao de alguma grande, e esta diferena pode ter se dado ao acaso. Para saber se a diferena possui significado estatstico, realizaremos o teste. A primeira etapa usar o comando lm, que assume que as

variveis quantitativas crescem linearmente, e no de maneira exponencial ou outra qualquer. serptest<-lm(serp$Acidentes~serp$Espcie) Note que criamos o objeto serptest, onde esto salvos vrios resultados, e este caso a varivel X (explicativa) foi digitada aps a varivel Y (resposta), com um ~ entre elas. Agora, para observar os resultados da Anlise de Varincia, e saber a probabilidade da hiptese nula estar correta, basta usar o comando anova ou summary: anova(serptest) summary(serptest) Novamente temos vrias informaes retornadas. Entre elas esto os graus de liberdade (df), a soma dos quadrados (Sum Sq), mdia dos quadrados (Mean Sq), o valor da estatstica F calculada (F value), e a probabilidade da hiptese nula estar correta (Pr(>F)). Agora, observe o valor da probabilidade e diga: Existe diferena no nmero de acidentes causados pelas diferentes espcies? 2.6. Anlises de Correlao e Regresso Linear Simples (Varivel Quantitativa X Varivel Quantitativa ) Para os exerccios a seguir, utilizaremos matrizes de dados diponibilizadas em formato csv, portanto, o primeiro comando sempre ser de importao de dados. 2.6.1. Coeficiente de Correlao de Pearson Agora, trabalharemos apenas com dados quantitativos. Imaginemos um caso no qual se deseja saber se existe correlao entre as variveis. No primeiro caso, a Organizao das Naes Unidas deseja saber se existe correlao entre a mortalidade infantil e o produto interno bruto: paises<-read.csv("pases.csv",sep=";",dec=",") plot(log(paises$PIB),log(paises$MortInfantil)) Observando o grfico podemos ver que parece existir uma correlao negativa, porm precisamos calcular o coeficiente da correlao para saber se ela realmente existe, e sua intensidade. O comando para isto cor.test , e permite calcular os coeficientes de correlao de Pearson (padro), Spearman e Kendall: correlao.pearson<-cor.test(log(paises$PIB),log(paises$MortInfantil)) correlao.pearson O resultado apresentado no ultimo comando um resumo que apresenta a probabilidade de existir correlao (p-value) e o valor da correlao no final (sample estimates: cor). O resultado foi o esperado no? As crianas dos pases desenvolvidos vivem mais?

Para calcular os coeficientes de correlao de Spearman e Kendall, basta adicionar o argumento method, na funo: correlao.spearman cor.test(log(paises$PIB),log(paises$MortInfantil),method="spearman") correlao.kendall cor.test(log(paises$PIB),log(paises$MortInfantil),method="kendall")

2.6.2. Regresso Linear Simples Novamente trabalharemos apenas com variveis quantitativas, no entanto, neste caso temos uma varivel dependente e uma independente, que ser utilizada para tentar explicar a variao da outra varivel. Ou seja, agora queremos saber se uma varivel contnua possui efeito sobre outra varivel contnua, semelhante ao teste t e ANOVA onde queramos saber se uma varivel categrica possua efeito sobre uma varivel contnua. Para realizar regresses lineares utilizamos o comando lm , que exige que escrevamos a varivel dependente antes da independente, seguindo o padro lm(dependente~independente). Regresses so utilizadas quando se deseja saber coisas como o efeito do tempo ou da distncia sobre uma varivel. Por exemplo, um mdico que deseja saber se o tempo de durao de uma operao, afeta as chances dela ser bem sucedida; ou um eclogo que deseja saber se o nmero de espcies de aves variam de acordo com a distncia de um corpo dgua na savana africana. Imaginemos o segundo caso: O bilogo colocou rede de captura de aves distncias contnuas a partir de um corpo dgua, e contou o nmero de espcies de aves que caiam em cada rede. Assim, as suas duas variveis so Distncia do corpo dguae Nmero de Espcies: aves<-read.csv("aves.csv",sep=";",dec=",") plot(aves$distncia,aves$riqueza) Agora, para calcular os indces necessrios para construir a reta da regresso, basta utilizar o comando lm e o comando abline para colocar a reta no grfico aberto: reg.aves<-lm(aves$riqueza~aves$distncia) summary(reg.aves) reg.aves abline(reg.aves) abline(reg.aves,lwd=2,col=2) (obs: lwd altera a espessura da linha, e col, a cor.) O comando summary retornar muitas informaes, mas voc deve prestar ateno na probabilidade da hiptese nula estar correta (no haver efeito de uma varivel sobre a outra), e nos valores de R ( Adjusted R-Squared) , que indica a intensidade do efeito. Ao se digitar apenas o nome do objeto (reg.aves no caso), o

programa retornar os valores dos coeficientes linear e angular , respectivamente, e que sero utilizados pelo comando abline para a criao da reta da regresso. Ento, a distncia do corpo dgua mais prximo influencia no nmero de espcies de aves no local?

Bibliografia recomendada e utilizada para a criao desta apostila: Vieira, Sonia. 1991. Introduo Bioestatstica. Segunda Edio. www.r-project.org
www.cran.r-project.org

Obrigado pela ateno, e sucesso em suas futuras pesquisas!!!