You are on page 1of 21
Estatisticas Descritivas: Medidas de Posicao e Dispersao Os dados sao a esséncia das investigagdes cientificas, porém raramente mostra- mos todos os que coletamos. Ao invés disso, resumimos nossos dados utilizando estatisticas descritivas. Bidlogos e estatisticos distinguem entre duas formas de estatisticas descritivas: medidas de posigao e medidas de dispersao. As medidas de posigao ilustram onde a maioria dos dados se encontra; essas medidas incluem as médias, medianas e modas. Por outro lado, medidas de dispersio descrevem 0 quanto os dados so varidveis; essas medidas incluem o desvio-padrao amostral, a variancia e o erro-padrao, Apresentaremos as estatisticas descritivas mais comuns e ilustraremos como elas surgem diretamente da Lei dos Grandes Numeros, um dos mais importantes teoremas da probabilidade. De agora em diante, adotaremos a notagao estatistica padrdo quando descre- vermos varidveis aleatorias e quantidades estatisticas ou estimadores. Varidveis aleat6rias serao designadas como Y, em que cada observagao individual ¢ inde- xada com um subscrito, Y,, © subscrito i indica a i-ésima observacao. O tamanho da amostra sera denotado por n, de forma que o i pode assumir qualquer valor entre 1 en. A média aritmética ¢ escrita como Y. Parametros desconhecidos (ou populacao estatistica) de distribuigdes, como valores esperados e variancias, serao escritos com letras gregas (como [L para o valor esperado, 6° para a variaincia es- perada e 6 para 0 desvio-padrao esperado), enquanto os estimadores estatisticos desses parametros (com base em dados reais) serdo escritos com letras em italico (como ¥ para a média aritmética, s* para a variancia da amostra e s para 0 desvio- -padrao amostral). Neste Capitulo usaremos como exemplo os dados ilustrados na Figura 2.6, as, medidas simuladas do comprimento do espinho tibial de 50 aranhas Linyphiidae. Esses dados, colocados em ordem ascendente, sao ilustrados na Tabela 3.1. 76 Nicholas J. Gotelli e Aaron M. Ellison TABELA 3.1 Medidas, em ordem crescente, dos espinhos tibiais de 50 aranhas Linyphiidae (em milimetros) 0,155 0,207 0,219 0,228 0,241 0,249 0,263 0,276 0,292 0,307 0,184 0,208 0,219 0,228 0,243 :0,250 0,268 «0,277: «0,292 0,308 0,199 0,212 0,221 0,229 0,247 0,251 0,270 0,280 0,296 0,328 0,202 0,212 0,223 0,235 0,247 (0,253 0,274 0,286 0,301 0,329 0,206 0,215 0,226 0,238 0,248 0,258 0,275 0,289 0,306 0,368, Este conjunto de dados simulados € utilizado ao longo deste Capitulo para ilustrar medidas de estatisticas descritivas e distribuigio de probabilidades. Embora dados brutos deste tipo formem as bases de todos 0s calculos na estatisica,raramente sao publicados, pois eles s20 muito extensos e dificeis de compreender. Estatisticas descrtivas, se usadas de maneira adequada, comunicam e descrevem com concis4o os padres nos dados brutos sem enumerar cada observagao individual. MEDIDAS DE POSICAO Amédia aritmética Existem diversas formas de descrever um conjunto de dados. A mais familiar € a média aritmética das observagdes, que é calculada pela soma das observacées, (Y), dividida pelo numero de observacées (11) e é denotada por ¥: Os n x (3.1) Para os dados da Tabela 3.1 ¥ = 0,253. A Equacdo 3.1 parece similar, mas nao é equivalente a Equacao 2.6, que foi utilizada no Capitulo 2 para calcular 0 valor esperado de uma varivel aleatéria discreta: eo= Dp, onde 0s Y, sao 0s valores que a varivel aleatéria pode ter, e os p, 40 suas pro- babilidades, Para uma varidvel continua na qual cada Y, ocorre apenas uma vez, com p,= /1, as Equagdes 3.1 ¢ 2.6 dao resultados idénticos. Por exemplo, deixe que comprimento do espinho seja um conjunto constituido pelas 50 observacdes da Tabela 3.1: Comprimento do espinho = (0,155, 0,184, ..., 0,329, 0,368}. Se cada elemento (ou evento) dentro do comprimento do espintho & independente dos outros, entao a probabilidade p, de qualquer uma dessas 50 ob- servaces independentes é 1/50. Usando a Equagao 2.6, podemos calcular 0 valor esperado do comprimento do espinho como: ar) = Dvn Principios de Estatistica em Ecologia_77 onde Y; é 0 i-ésimo elemento e p, = 1/50. Esta soma: agora é equivalente a Equacao 3.1, usada para calcular a média aritmética de nobservacdes de uma varivel aleatéria Y. aot ae Dex, i epi Para calcular o valor esperado de comprimento do espinho, usamos a férmula para o valor esperado de uma variavel aleat6ria discreta (Equagao 2.6). Contu- do, os dados da Tabela 3.1 representam observagées de uma varidvel aleatéria continua normal. Tudo que sabemos sobre o valor esperado dessa varidvel é que ele tem algum valor verdadeiro subjacente, que denotamos como f. O valor da média calculado para o comprimento do espinho tem alguma relacao com o valor desconhecido de U2 Se trés condigoes forem satisfeitas, a média aritmética das observagdes em nossa amostra é um estimador imparcial de 1. Essas trés condigdes sao: 1. As observagées sao feitas em individuos escolhidos de maneira aleatoria. 2. As observagdes na amostra sao independentes umas das outras. 3. As observacoes sio realizadas em uma populagao maior, que pode ser descrita por uma variavel aleatoria normal. 0 fato de que a ¥ de uma amostra aproxima a tt da populagao, da qual foi retirada, é um caso especial do segundo teorema fundamental da probabilidade, a Lei dos Grandes Nuimeros.' Eis uma descrigio da Lei dos Grandes Nuimeros. Considere um conjunto in- finito de amostras aleatorias de tamanho n, tiradas de uma varidvel aleatéria Y. Assim, Y, € uma amostra de Y com um dado, {y,}. Entao, Y, € uma amostra de ta- manho 2, {y» y,}setc. A Lei dos Grandes Niimeros estabelece que, conforme o ta- manho amostral 1 aumenta, a média aritmética de Y, (Equagao 3.1) aproxima-se do valor esperado de Y, E(Y). Em notacao matematica, escrevemos: A versio moderna (ou “poderosa”) da Lei dos Grande Nuimeros foi provada pelo matemitico russo Andrei Kolmogorov (1903-1987), que também estu- dou os processos de Markoy como aqueles utilizados na modetna computa- fr fo de andlises bayesianas (ver Capitulo 5) e mecanica de fluidos. Andre Kolmogorov 78 Nicholas J. Gotelli e Aaron M. Ellison = EY) (3.2) Em palavras, dizemos que conforme n se torna muito grande, a média aritmé- tica das ¥, é igual a E(Y) (ver Figura 3.1). Em nosso exemplo, os comprimentos do espinho tibial de todos os indivi- duos de aranhas Linyphiidae em uma populacao podem ser descritos como uma varidvel aleatéria normal com valor esperado = jt. Nao podemos medir todos os (muitos) espinhos, mas sim um subconjunto deles; a Tabela 3.1 traz 1” = 50 dessas medidas. Se cada espinho foi medido em uma aranha individual, se cada aranha foi escolhida aleatoriamente para ser medida e se nao hé nenhum viés em nos- sas medidas, entdo o valor esperado de cada observacao deve ser 0 mesmo (pois cles fazem parte da mesma populagao, infinitamente grande, de aranhas). A Lei dos Grandes Ntimeros diz que 0 comprimento médio dos espinhos de nossas 50 medidas se aproxima do valor esperado do comprimento dos espinhos em toda a populacao. Por isso, podemos estimar o valor esperado [1 desconhecido com a média aritmética de nossas observacdes. Como mostra a Figura 3.1, a estimativa da verdadeira média da populacao torna-se mais confidvel conforme acumula- mos mais dados. Outras médias A média aritmética nao é a tinica medida de posi¢ao de um conjunto de dados. Em alguns casos, ir produzir respostas inesperadas. Por exemplo, suponha que uma populagio de veado-mula* (Odocoileus hemionus) aumenta 10% em tama- nho em um ano e 20% no préximo ano. Qual é a taxa de crescimento médio da populagao a cada ano?” A resposta nao € 15%! Voce pode ver esta diferenga trabalhando com alguns ntimeros. Suponha que o tamanho inicial da populagao € de 1.000 veados. Apés um ano, seu ta- ‘Nesta andlise, usamos a taxa finita de crescimento, 2, como parimetro do crescimento popuilacio- nal, Trata-se de um multiplicador que opera no tamanho populacional a cada ano, como N,,, = AN, Assim, se a populacdo cresce 10% a cada ano, 4 = 1,10, ou se a populacio decresce 5% a cada ano, & = 0,95. Uma medida similar & taxa de crescimento populacional & taxa de crescimento instantaneo, r,na qual as unidades sao individuos/(individuos x tempo). Matematicamente, A = ¢' er=In(A). Ver Gotelli 2001") para mais detalhes. *N. de. Oveado-mula (Odocoileus hemionus) é um veado norte-americano. Ble € encontrado em todo 0 oeste da América do Norte, desde o sul de Yukon, no Alasca, até a baixa california e o norte do México, **N, deT. Este livro jé estd na 4" edicao, publicada em 2008. A obra foi traduzida para o portugués pela editora PLANTA, com o titulo de Ecologia Principios de Estatisticaem Ecologia 79 0s 04 03 02 O17 Média da populacao (0,253) —— Média amostral (a ultima é 0,256) 00 — Intervalo de confianca (o ultimo 6 0,243 a 0,269) 0 100 200 300 400 500 Tamanho amostral Figura 3.1 _ llustracao da Lei dos Grandes Numeros e a construcao de intervalos de confianga usan- do 0s dados dos espinhos tibiais de aranhas da Tabela 3.1. A média da populacdo (0,253) é indicada pela linha pontilhada. A média amostral para amostras de tamanhos crescentes (n) é indicada pela linha s6lida central e ilustra a 10s Grandes Numeros: conforme o tamanho amostral aumenta, a ‘média amostral se aproxima da verdadeira média da populacao. As linhas sélidas superior ea inferior ilustram o intervalo de confianca de 95% ao redor da média, A larqura do intervalo de confianca decresce conforme o tamanho amostral aumenta. Intervalos de confianca de 95% construidos dessa forma devem conter a verdadeira média da populacao. Note, contudo, que existem amostras (entre as setas) para as quais 0 intervalo de confianca nao inclul a verdadeira média da populacao. As cur- vas foram construidas usando algoritmos e cédigos do S-Plus publicados por Blume e Royal (2003). manho (N,) sera de (1,10) x 1.000 = 1.100. Apés 0 segundo ano, o tamanho populacional (N,) sera (1,20) x 1.100 = 1.320. Contudo, se a taxa de crescimento médio por ano for de 15%, 0 tamanho populacional sera de (1,15) x 1.000 = 1.150 apés um ano e (1,15) X 1.150 = 1,322,50 aps dois anos, Esses mimeros slo préximos, mas nao idénticos; apés mais alguns anos, os resultados irdo di- vergir substancialmente. AMEDIA GEOMETRICA No Capitulo 2, apresentamos a distribuigao log-normal: se Y € uma varidvel aleatéria com distribuigao log-normal, entao a variavel aleatéria Z = In(Y) é uma varidvel aleatéria normal. Se calcularmos a média aritmética de Z, ig ae (3.3) qual é 0 valor expresso em unidades de ¥? Primeiro, reconhega que se Z = In(¥), entao Y= e', onde ¢ 6a base do logaritmo natural e é igual a ~2,71828.... Assim, 0 80 Nicholas J. Gotelli e Aaron M. Ellison valor de Z em unidades de Y é e. Essa média de transformagao reversa é chama- da de média geométrica e é escrita como MG, A forma mais simples para calcular a média geométrica é tirar o antilog da média aritmética: Sin) (3.4) GMy Uma boa caracteristica é que a soma dos logaritmos de um conjunto de nu- meros se iguala ao de seus produtos: In(Y,) + In(¥,) + ... = In(¥,Y...Y,). Portan- to, outra forma de calcular a média geométrica ¢ tirar a n-ésima raiz do produto das observacoes: GMy =Y,Y,...Y, (3.5) Da mesma forma que temos um simbolo especial para adicionar uma série de mimeros: também temos um simbolo especial para a multiplicagao de uma série de ntimeros: Tliaixnx xy, cS Assim, também podemos escrever a formula da média geométrica como: fi, qu GMy = ‘Vamos ver se a média geométrica da taxa de crescimento populacional faz um, trabalho melhor na predigdo da taxa de crescimento médio que a média aritmé- tica faz. Primeiro, se expressarmos as taxas de crescimento populacional como multiplicadores, as taxas de crescimento anual de 10% e de 20% se tornam 1,10 € 1,20, ¢ 0 logaritmo natural desses dois valores é In(1,10) = 0,09531 e In(1,20) = 0,18232. A média aritmética desses dois valores é 0,138815. O cilculo reverso nos da a média geométrica de MG, = e**" = 1,14891, que é um pouco menor que a média aritmética de 1,20. Agora podemos calcular a taxa de crescimento populacional ao longo de dois anos, usando a taxa de crescimento da média geométrica. No primeiro ano, a po- pulacao poderia crescer para (1,14891) x (1.000) = 1148,91; no segundo ano, para (1,14891) x (1.148,91) = 1.319,99, Esta € a mesma resposta que obtemos com um crescimento de 10% no primeiro ano e de 20% no segundo ano [(1,10) x (1.000) X (1,20)] = 1.320. Os valores iriam se igualar perfeitamente se as taxas de cresci- Principios de Estatisticaem Ecologia 81 mento nao tivessem sido arredondadas. Note, também, que, apesar de o tamanho populacional ser sempre uma varidvel de ntimeros inteiros (0,91 veado pode ser visto somente em uma floresta tedrica), nds a tratamos como uma varidvel conti- nua para ilustrar esses calculos. Por que a MG, nos dé a resposta correta? A razao é que o crescimento da po- pulacao é um processo multiplicativo. Note que: Na ),( Ni) 2 (32 }4f™ N, No Ni No Contudo, ntimeros que sto multiplicados em uma escala aritmética podem ser adicionados em uma logaritmica, Assim eae) MEpiA HARMONICA Um segundo tipo de média pode ser calculado de forma si- milar, usando a transformacao do inverso (1/Y). O inverso da média aritmética dos inversos de um conjunto de observagdes é chamado de média harménica:* - no Para os dados dos espinhos da Tabela 3.1, MGy=0,249 ¢ Hy = 0,246. Ambas as médias so menores que a aritmética (0,253); em geral, essas médias sao ordena- das como ¥ > GMy > H,- Contudo, se as observagses sao iguais (Y, = ¥, = Y, Y,), as trés médias so idénticas (¥ = GMy A; (3.6) ° A média harmonica é usada em biologia da conservagio e gené- tica de populagées para calcular o tamanho populacional efetivo, que é 0 equivalente a uma populagao com acasalamentos comple- tamente ao acaso. Se 0 tamanho populacional efetivo € pequeno (< 50), mudangas ao acaso na frequéncia dos alelos, devido a deriva genética, 20 potencialmente importantes. Se 0 tamanho popula ional muda de um ano para o outro, a média harménica dé o ta- ‘manho populacional efetivo. Por exemplo, imagine que uma popu- lacao estavel de 100 lontras marinhas passa por um severo gargalo e ¢ reduzida para um tamanho populacional de 12 em um tinico ano. Assim, os tamanhos da populagao so 100, 100, 12, 10, 100, 100, 100, 100, 100, 100 e 100. A média aritmética ¢ 91,2, mas a média harmonica é somente 57,6, sendo considerado o tamanho populacional efetivo no qual a deriva genética pode ser importante. ‘A média harménica néo somente é menor que a aritmética, como também ¢ especialmente sen- sivel a valores extremos, que so pequenos. Nos séculos XVIII e XTX, as lontras marinhas da costa do Pacifico da América do Norte passaram por um severo gargalo populacional quando foram cextensivamente cagadas. Apesar de as populagées de lontras marinhas terem se recuperado em tamanho, ainda exibem pouca diversidade genética. (Larson et al, 2002.) (Fotografia de Warren Worthington, http://soundwaves.usgs.gov/2002/07/.) 82 Nicholas J. Gotelli e Aaron M. Ellison. Outras medidas de posicao: a mediana ea moda Ecélogos ¢ cientistas da drea ambiental em geral usam outras duas medidas de posi- ao, a mediana e a moda, para descrever conjuntos de dados. A mediana ¢ definida como o valor em um conjunto de observacdes ordenadas que tenha um mimero igual ao de observag6es acima e abaixo dele. Em outras palavras, a mediana divide um conjunto de dados em duas metades com 0 mesmo ntimero de observagdes em cada uma. Para um nimero impar de observagdes, a mediana é apenas o valor central. Assim, se considerassemos apenas as 49 primeiras observacées dos dados de compri mento do espinho, a mediana seria a 25" observagao (0,248). Porém, com um ntime- ro par de observages, a mediana é definida como 0 ponto central entre (1n/2)-ésima e [(n/2)+1]-ésima observacio. Se consideréssemos todas as 50 observagbes da Tabela 3.1,a mediana seria a média entre a 25" e a 26" observagGes, ou 0,2485. Moda = \237 Mediana ti 12 Média = 0,253, 10 Frequéncia 0,150 0,175 0,200 0,225 0,250 0,275 0,300 0,325 0,350 0,375 Comprimento do espinho tibial (mm) Figura 3.2 _Histograma dos dados dos espinhos tibiais da Tabela 3.1 (n = 50) ilustrando a média aritmética, a mediana e a moda. A média é a expectativa dos dados, calculada como a média arit- ‘mética das medidas continuas, A mediana é 0 ponto central do conjunto de observacbes ordenad Metade de todas as observacées é maior que a mediana e a outra metade € menor. A moda é a ‘observacao mais frequente.

You might also like