You are on page 1of 100

Noes de Bioestatstica

Luis Guillermo Coca Velarde, D.Sc. Departamento de Estatstica E-mail: guilleco@terra.com.br guille@est.u.br

ndice
Prefcio 1 Conceitos iniciais 1.1 Planejamento de uma pesquisa . . . . . . . . . . . . 1.1.1 Estudos observacionais e experimentais . . . 1.1.2 Estudos prospectivos e retrospectivos . . . . 1.1.3 Estudos longitudinais e de corte transversal 1.1.4 Estudos de caso-controle e coorte . . . . . . 1.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . 1.3 Tipos de dados . . . . . . . . . . . . . . . . . . . . 1.3.1 Dados categricos . . . . . . . . . . . . . . . 1.3.2 Dados numricos . . . . . . . . . . . . . . . 1.3.3 Outros tipos de dados . . . . . . . . . . . . 1.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . 2 Organizao de dados 2.1 Distribuio de freqncias . . . . . . . . . . . . . 2.1.1 Distribuio de freqncias no-agrupadas 2.1.2 Distribuio de freqncias agrupadas . . . 2.2 Representao grca de dados . . . . . . . . . . 2.2.1 Grcos de setores . . . . . . . . . . . . . 2.2.2 Grcos de barras e colunas . . . . . . . . 2.2.3 Grcos de disperso . . . . . . . . . . . . 2.2.4 Grco de sries de tempo . . . . . . . . . 2.2.5 Histograma . . . . . . . . . . . . . . . . . 2.2.6 Polgono de freqncias . . . . . . . . . . . 2.2.7 Tipos de distribuies . . . . . . . . . . . 2.3 Medidas de posio . . . . . . . . . . . . . . . . . 2.3.1 Mdia aritmtica (X) . . . . . . . . . . . . 2.3.2 Mediana (Me) . . . . . . . . . . . . . . . . 2.3.3 Percentil . . . . . . . . . . . . . . . . . . . 2.4 Medidas de variao . . . . . . . . . . . . . . . . 2.4.1 Coeciente de variao . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6 7 7 7 8 8 8 9 9 10 10 11 12 12 13 13 17 17 18 21 21 21 21 21 26 26 29 30 31 33

2.4.2 Coeciente de assimetria . . . . . . . . . . . . . . . . . 33 2.4.3 Boxplot ou diagrama de caixas . . . . . . . . . . . . . 33 2.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3 Elementos de probabilidades e suas distribuies 3.1 Probabilidades . . . . . . . . . . . . . . . . . . . 3.1.1 Denies de probabilidade . . . . . . . . 3.1.2 Probabilidade condicional . . . . . . . . . 3.1.3 Teorema de Bayes . . . . . . . . . . . . . . 3.2 Algumas aplicaes das probabilidades . . . . . . 3.2.1 Comparao de riscos e risco relativo . . . 3.2.2 Epidemiologia . . . . . . . . . . . . . . . . 3.2.3 Teste de diagnstico . . . . . . . . . . . . 3.3 Distribuies de probabilidades . . . . . . . . . . 3.3.1 Distribuio Binomial . . . . . . . . . . . 3.3.2 Distribuio Poisson . . . . . . . . . . . . 3.3.3 Distribuio Exponencial . . . . . . . . . . 3.3.4 Distribuio Normal . . . . . . . . . . . . 3.4 Distribuies amostrais . . . . . . . . . . . . . . . 3.4.1 Distribuio t de Student . . . . . . . . . . 3.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . 4 Inferncia estatstica 4.1 Intervalos de conana . . . . . . . . . . . . . . 4.2 Exerccios . . . . . . . . . . . . . . . . . . . . . 4.3 Teste de hiptese . . . . . . . . . . . . . . . . . 4.3.1 Valor p . . . . . . . . . . . . . . . . . . . 4.3.2 Erros Tipo I e II . . . . . . . . . . . . . 4.3.3 Procedimento geral de teste de hiptese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 41 42 43 44 44 45 45 47 47 47 48 48 50 51 51 55 56 56 60 61 61 61 65 65 66 67 68 69 70 70 70

5 Comparao de grupos: dados contnuos 5.1 Teste para a mdia de um nico grupo de observaes . . . . 5.1.1 Teste do sinal e teste de Wilcoxon . . . . . . . . . . . 5.2 Teste para as mdias de dois grupos de observaes pareadas 5.3 Teste para as mdias de dois grupos independentes . . . . . 5.3.1 Teste de Mann-Whitney . . . . . . . . . . . . . . . . 5.4 Comparao de mais de duas mdias independentes . . . . . 5.5 Testes de normalidade . . . . . . . . . . . . . . . . . . . . . 5.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 Comparao de grupos: dados categricos 77 6.1 Uma nica proporo . . . . . . . . . . . . . . . . . . . . . . . 77 6.2 Propores em dois grupos independentes . . . . . . . . . . . . 78 6.3 Duas propores em amostras pareadas . . . . . . . . . . . . . 79 2

6.4 Teste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 A Respostas selecionadas B Distribuio Normal padro N(0; 1) C Distribuio t-Student D Distribuio 2 88 91 94 97

Prefcio
A utilizao da Estatstica pelas diversas reas Biomdicas tem crescido de forma signicativa nos ltimos anos ao ponto de ter dado origem ao termo Bioestatstica. Assim, toda pesquisa cientca nessa rea apresenta o clculo de uma mdia, um grco, o resultado de um teste ou outra ferramenta estatstica adequada para o problema especco. A prpria Estatstica tem se desenvolvido a passos agigantados ao ponto de muitos dos recentes avanos ainda no serem conhecidos pelos prossionais da rea Biomdica, o que sugere a necessidade de uma interao constante com os estatsticos. A interao mencionada anteriormente exige uma compreenso dos conceitos bsicos da Bioestatstica de forma a facilitar a troca de informao com os estatsticos, o que resultar num melhor planejamento da pesquisa e uma melhor utilizao dos dados coletados. O presente trabalho nasceu a partir das anotaes de aula das disciplinas Estatstica I e Estatstica Aplicada s Cincias Mdicas com a inteno de apresentar as ferramentas bsicas da Bioestatstica aos alunos dos cursos de graduao e ps-graduao em reas das Cincias Biomdicas da Universidade Federal Fluminense, especicamente para os alunos da Faculdade de Nutrio e para os alunos do Curso de Ps-Graduao em Cincias Mdicas. O primeiro captulo apresenta as idias bsicas envolvidas numa pesquisa como populao, tipo de estudo, dados, entre outros. A seguir so apresentadas as ferramentas usadas para o resumo inicial dos dados. Posteriormente, so mostrados os elementos bsicos da teoria de probabilidades, incluindo algumas aplicaes. Finalmente, os trs ltimos captulos tratam da inferncia estatstica, apresentando os conceitos bsicos e os testes mais usados. necessrio mencionar que a inteno deste trabalho no entrar nos detalhes da teoria Estatstica envolvida por trs das ferramentas apresentadas, contudo, no podemos esquecer que ela indispensvel para que as decises baseadas em resultados estatsticos sejam as mais conveis possveis. Vrias pessoas contriburam para a elaborao deste texto. Os alunos a quem eu dei aulas desde 1998 na UFF sempre solicitaram este tipo de auxilio e por isto serviram como motivao. Diversos monitores, alunos do curso de Nutrio, trabalharam comigo e ajudaram a criar ou compilar os exemplos e exerccios desta apostila. Em especial, as monitoras Cristine e Mari 4

ajudaram a preparar a lista de respostas dos exerccios. Devo agradecer de forma muito especial minha querida esposa Luciana por ter revisado o texto e admitir que, se existir algum erro, por causa da minha teimosia, ou simplesmente, passou... O Autor

Captulo 1 Conceitos iniciais


Diariamente, os meios de comunicao apresentam informaes estatsticas provenientes de pesquisas cientcas, porm, diversos graus de conabilidade devem ser atribudos a essas estatsticas, j que existem diversos fatores que no so includos nos relatrios lidos pela populao. A palavra pesquisa tem uma conotao poderosa, cando implcita a conabilidade dos resultados apresentados por ela. Sendo assim, poucas pessoas que no esto envolvidas com a pesquisa esto interessadas com os detalhes dela, importando-se apenas com os resultados nais. Por outro lado, pode se assumir que possvel replicar qualquer pesquisa em igualdade de condies, questionando se os resultados obtidos seriam os mesmos em cada uma das replicaes. Pelo exposto anteriormente, toda pesquisa apresenta um ingrediente que foge do controle dos envolvidos e que pode ser chamado de incerteza. A anlise estatstica permite colocar limites a esta incerteza. Nas pesquisas em cincias biomdicas, geralmente so coletados dados de alguns indivduos para fazer armaes sobre grupos maiores, sem interesse particular nesses indivduos. Ento, a informao proveniente de amostras de indivduos utilizada para fazer inferncia sobre uma populao que contm esses mesmos indivduos. Dessa forma, os conceitos de amostra e populao esto ligados com a pesquisa que est sendo desenvolvida. Em algumas situaes, geralmente de interesse governamental, necessria a observao das caractersticas de interesse em todos os indivduos que formam uma populao. Isto constitui um censo. A Estatstica aparece nas diversas reas que um prossional da rea de Cincias da Vida pode atuar. Por exemplo, a distribuio Normal padro, que ser vista posteriormente, utilizada para determinar o estado nutricional de crianas. Os modelos de regresso so utilizados para avaliar e quanticar a inuncia de fatores socioeconmicos e biolgicos sobre algumas variveis de interesse como peso ao nascer, estado nutricional, nvel de albumina, entre outros. 6

De forma geral, uma populao um conjunto de indivduos que apresentam uma caracterstica de interesse. Uma amostra qualquer subconjunto de indivduos de uma populao. Para realizar uma pesquisa que leve a fazer armaes sobre a populao de interesse necessrio seguir os seguintes passos: 1. Planejamento e desenho 2. Execuo (coleta de dados) 3. Processamento de dados 4. Anlise de dados 5. Interpretao, apresentao e publicao de resultados O primeiro passo desta lista ser abordado supercialmente a seguir, assim como algumas ideias de amostragem e tipos de variveis.

1.1

Planejamento de uma pesquisa

necessrio apresentar as diversas formas que se pode realizar um trabalho cientco com a nalidade de obter os resultados apropriados ao interesse da pesquisa de forma adequada. Estes estudos sero apresentados de forma a mostrar suas principais caractersticas.

1.1.1

Estudos observacionais e experimentais

Em um estudo observacional, o pesquisador coleta a informao sobre os atributos ou faz as medies necessrias, mas no inuncia as unidades amostrais. Por exemplo, quando se pretende determinar o estado nutricional de uma certa populao. Em um estudo experimental, o pesquisador deliberadamente inuencia os indivduos e pesquisa o efeito da interveno. Estudos em que se pretende conhecer o efeito de uma nova dieta sobre a rapidez em aumentar os nveis de clcio so exemplos de estudos experimentais. De forma geral, inferncias mais fortes so obtidas de estudos experimentais porque estes pressupem um maior controle das unidades amostrais.

1.1.2

Estudos prospectivos e retrospectivos

Existe uma clara diferena entre estudos prospectivos e retrospectivos. Os estudos prospectivos so utilizados quando se pretende conhecer o efeito de algum fator, sendo os dados gerados a partir do incio do estudo. J os 7

estudos retrospectivos so utilizados quando se conhece o efeito de algum fator, sendo os dados referentes a eventos passados e obtidos de recursos j existentes como pronturios. Nos retrospectivos, geralmente j se conhece o efeito e quer se identicar qual foi a causa, o fator gerador do efeito estudado. O efeito de uma nova dieta precisaria ser estudado atravs de um estudo prospectivo, enquanto que os fatores que levam obesidade mrbida sero estudados mediante um estudo retrospectivo. No primeiro so recrutados voluntrios que iro fazer a dieta e no segundo so levantados os pronturios de sujeitos com obesidade mrbida para estudar seu histrico mdico.

1.1.3

Estudos longitudinais e de corte transversal

Estudos longitudinais so aqueles que estudam mudanas ao longo do tempo, possivelmente com relao a uma interveno ou caracterstica. Ensaios clnicos so exemplos de estudos longitudinais porque eles estudam o efeito de um fator, comparando medies efetuadas em, pelo menos, duas oportunidades. Estudos transversais so aqueles em que grupos de indivduos so observados uma nica vez, com a inteno de estudar a situao naquele instante em que so feitas as observaes.

1.1.4

Estudos de caso-controle e coorte

Estudo caso-controle uma forma de pesquisa que visa vericar se indivduos que foram selecionados porque tm uma caracterstica ou doena, chamados de casos, diferem signicativamente de um grupo de indivduos comparveis, mas que no possuem a caracterstica ou doena, os controles, em relao exposio a um dado fator de risco. Um exemplo deste tipo de estudo ocorre quando se avalia o efeito de um determinado composto qumico administrado em comprimidos sobre o nmero de cigarros fumados diariamente; para isto, necessrio um grupo de fumantes que receba o composto e outro grupo de fumantes que receba um placebo. No estudo de coorte se identica um grupo de indivduos de interesse e se faz um seguimento dos mesmos, at um certo momento, para estudar o seu desfecho. Este tipo de estudo pode levar muito tempo e, por este motivo, no aplicado no estudo de eventos raros.

1.2

Amostragem

A impossibilidade de observar todos os indivduos de uma populao justica o estudo de tcnicas de amostragem. Porm, uma amostra deve ser coletada de forma que reproduza as caractersticas da populao a qual foi obtida. Uma forma de garantir a representatividade de uma amostra selecionandoa de forma aleatria. 8

Dependendo das caractersticas da populo possvel identicar um esquema de amostragem para ela. Os esquemas mais adotados esto enumerados a seguir: 1. Amostragem simples aleatria 2. Amostragem estraticada 3. Amostragem sistemtica 4. Amostragem por conglomerados Do ponto de vista estatstico, uma amostra deve estar constituda pelo maior nmero possvel de observaes. A teoria de amostragem dene procedimentos para calcular o tamanho de amostra necessrio para atingir um certo grau de preciso. Em muitas situaes este tamanho de amostra um valor que, sendo o ideal, est fora das possibilidades da pesquisa devido a diversos fatores como tempo ou dinheiro; assim, necessrio desenvolver um estudo especco que leve em considerao a teoria estatstica e as possibilidades reais da pesquisa.

1.3

Tipos de dados

Para qualquer estudo e sob qualquer esquema de amostragem, as informaes necessrias sero obtidas a partir de um conjunto de dados. Estes dados podem ser classicados em dois grandes grupos: categricos e numricos, e a natureza deles leva escolha certa de mtodos estatsticos de anlise.

1.3.1

Dados categricos

Dados categricos ou qualitativos so aqueles cujos valores possveis so categorias ou caractersticas no-numricas. Estes dados podem ser divididos em ordinais ou nominais dependendo da existncia ou no de uma ordem entre os valores possveis. Como exemplo de dados ordinais, tem-se o estgio de uma doena e de dados nominais o sexo de um indivduo e o tipo sangneo. Duas categorias Este tipo de dados categricos geralmente refere-se presena ou ausncia de algum atributo ou caracterstica. Tambm recebem os nomes de variveis sim/no, binrias, dicotmicas ou 0-1. So exemplos: sexo (homem/mulher), gravidez (sim/no), estado civil (casado/solteiro), tabagismo (fumante/nofumante), entre outros. Estas variveis binrias geralmente so classicadas como nominais. 9

1.3.2

Dados numricos

Tambm chamados de quantitativos assumem valores numricos, podendo ser discretos ou contnuos. Dados discretos Resultam de contagens de eventos. Exemplo: nmero de lhos, nmero de batimentos cardacos por minuto. Dados contnuos Estes dados so obtidos de algum tipo de medio: altura, peso, presso arterial, temperatura corporal.

1.3.3

Outros tipos de dados

Ranks ou postos Ocasionalmente, os dados representam a posio relativa dos membros de um grupo com relao a algum ranking. A posio de um indivduo neste ranking chamado de posto. Porcentagens necessrio ter cuidado quando os dados com os quais se trabalha so porcentagens observadas. Notar que, para uma presso arterial sistlica (PAS) inicial de 150 mmHg, um aumento de 20% signica que a PAS vai para 180 mmHg e uma diminuio subseqente de 20% leva a PAS para 144 mmHg. Escores So usados quando no possvel fazer medies diretas. Em sua forma mais simples, estes sistemas numricos classicam uma caracterstica em diversas categorias segundo a opinio de um indivduo. Por exemplo a dor de um ferimento pode ser classicada como leve, moderada ou severa, podendo ser designado um valor numrico a cada categoria. Deve ser notado que estas escalas so subjetivas. Dados censurados Uma observao chamada censurada se no pode ser medida de forma precisa, mas sabe-se que est alm, ou aqum, de um limite. Por exemplo, em alguns experimentos existe um perodo xo de acompanhamento, sendo a varivel de interesse o tempo para aparecer um sintoma ou desaparecer alguma

10

condio especca. Quando se excede o tempo mximo de acompanhamento se obtm um dado censurado, pois este tem valor que est acima daquele tempo mximo, porm, no se conhece o seu valor preciso.

1.4

Exerccios

1. Apresente uma situao em que seja necessrio o uso de um estudo de corte transversal. 2. D um exemplo em que seja necessrio o uso da amostragem estraticada. 3. Classique os seguintes dados: (a) Estado nutricional de crianas de 5 a 10 anos de idade. (b) Tempo para atingir uma perda de peso de 5%. (c) Nmero de horas de estudo para uma prova de estatstica. (d) Nveis de calorias consumidos diariamente. (e) Ocorrncia de hipertenso pr-natal em grvidas com mais de 35 anos (sim e no so possveis respostas para a varivel). (f) Perda de peso de maratonistas, em quilos. 4. de interesse estudar o tempo que uma pessoa, diagnosticada com doena grave, consegue sobreviver com o uso de uma determinada droga experimental. Qual o tipo de estudo necessrio para esta situao? Descreva o experimento a ser realizado. 5. Oitenta crianas matriculadas em uma escola municipal de Niteri participaram de um estudo sobre fatores associados obesidade infantil. Foram aferidas a altura e a massa corporal, foi perguntada a idade e os responsveis preencheram um questionrio contendo informao sobre a famlia e fatores socioeconmicos. Qual foi o tipo de estudo realizado na pesquisa? 6. Descreva uma situao em que podem aparecer dados censurados, denindo a varivel que apresenta estes dados e as condies para tal.

11

Captulo 2 Organizao de dados


Quando se estuda uma varivel, o primeiro interesse do pesquisador conhecer a distribuio dessa varivel atravs das possveis realizaes (valores) da mesma. O objetivo por trs disto obter informao que no poderia ser observada atravs da inspeo visual dos dados. Porm, a informao fornecida pelos dados pode ser apresentada de vrias formas: usando tabelas, grcos ou, inclusive, medidas representativas de dados ou variveis. Em resumo, os dados precisam ser organizados.

2.1

Distribuio de freqncias

Os dados brutos podem no ser prticos para responder a questes de interesse, ento, necessrio resumi-los e para isto se faz necessrio denir alguns conceitos: Freqncia absoluta o nmero de vezes que uma determinada caracterstica ou valor numrico observada. Freqncia relativa a proporo, do total, em que observada uma determinada caracterstica. Sob determinadas condies, as frequncias relativas podem ser usadas para estimar quantidades importantes como por exemplo, em epidemiologia, a prevalncia, incidncia, coecientes de mortalidade e natalidade; em testes clnicos de diagnstico se tem sensibilidade, especicidade, valor preditivo positivo e valor preditivo negativo. Este conceito est associado com a denio clssica de probabilidade. Freqncia acumulada: para um determinado valor numrico ou dado ordinal, a soma das freqncias dos valores menores ou iguais ao referido valor. Dados este conceitos, possvel resumir um conjunto de dados atravs das tabelas de distribuies de frequncias. 12

2.1.1

Distribuio de freqncias no-agrupadas

Este tipo de distribuio utilizada quando o nmero de valores possveis da varivel em estudo reduzido. Serve para representar variveis categricas e, em alguns casos, numricas. A disribuio de freqncias no-agrupadas representada em uma tabela que contm, pelo menos duas colunas: 1. Listagem de todos os possveis valores da varivel. 2. Freqncias associadas aos valores da varivel em estudo. Exemplo: Em uma escola do municpio de Niteri, foram avaliadas 145 crianas com idade entre 6 e 10 anos, calculando-se o estado nutricional segundo os critrios da OMS. Para estas crianas, as tabelas de distribuio de freqncias das variveis estado nutricional e idade aparecem a seguir: Categoria Baixo peso Normal Sobrepeso Obeso Idade 6 7 8 9 10 f 11 27 16 19 26 99 f 11 105 25 4 145 F 11 38 54 73 99 fr 0,08 0,72 0,17 0,03 1,00 Fr 0,11 0,38 0,54 0,73 1,00

fr 0,11 0,27 0,16 0,19 0,27 1,00

Onde f a freqncia absoluta, f r a freqncia relativa, F a freqncia absoluta acumulada e F r a freqncia relativa acumulada.

2.1.2

Distribuio de freqncias agrupadas

A distribuio de freqncias agrupadas utilizada para variveis numricas contnuas, ou quando existem muitos valores possveis para uma varivel discreta. O procedimento de construo da tabela simples mas tedioso tendo como idia bsica criar intervalos, ou classes, para a varivel em estudo e calcular as freqncias para esses intervalos. Os dados de idade de vtimas fatais em acidentes de trnsito na Inglaterra na dcada de 70, que aparecem nas tabelas 2.1 e 2.2, sero usados como exemplo. Nestes dados fcil

13

1,7 0,5 0,2 36,0 34,5 5,2 8,2 7,1 50,7 34,5 31,8 5,8 13,4 40,1 49,6 10,7 12,1 13,1 51,5 30,8 15,0 12,5 16,0 16,0 44,0 17,0 17,0 17,0 18,6 37,7 19,0 18,7 18,6 18,4

3,6 4,0 58,6 42,6 59,0 8,5 8,2 53,2 49,8 39,9 37,8 5,8 42,9 53,4 27,3 12,6 14,7 51,7 31,6 46,6 13,0 16,0 16,0 46,6 67,4 17,0 17,0 19,6 55,3 73,0 19,5 18,6 18,0 33,3

3,5 2,2 26,5 58,9 2,3 7,1 7,7 29,9 42,8 8,7 48,8 5,5 26,9 38,1 14,6 14,4 10,7 28,7 30,4 10,9 12,0 16,0 16,0 35,0 17,0 17,0 17,0 19,4 27,6 18,9 19,1 18,5 18,6 40,7

1,0 35,2 56,0 40,2 0,3 7,0 56,2 55,0 45,3 8,3 35,8 44,8 44,1 36,1 14,2 10,2 56,4 39,2 58,7 10,9 14,7 16,0 25,3 79,1 17,0 17,0 17,0 34,4 75,4 19,2 19,5 19,2 46,3 63,0

2,5 28,2 42,1 3,2 3,2 6,2 40,1 28,5 5,6 8,4 32,7 42,2 56,0 12,3 12,1 10,7 49,5 45,5 12,9 13,0 10,7 16,0 34,6 16,0 17,0 17,0 17,0 53,9 18,5 20,0 18,3 19,3 30,2 19,9

30,5 33,6 42,1 1,4 5,1 38,6 36,0 34,8 8,9 6,2 7,9 46,5 25,3 13,8 13,6 50,0 37,6 57,9 13,6 10,9 14,6 33,1 32,4 16,0 17,0 17,0 46,1 77,8 18,4 19,5 20,0 49,0 65,3 19,8

36,7 46,6 2,5 0,8 6,5 48,0 30,8 8,5 8,6 5,4 6,2 36,8 12,1 13,4 14,1 48,6 28,2 10,3 10,6 10,1 10,2 49,2 16,0 17,0 17,0 17,0 35,5 18,6 19,0 18,7 19,7 45,0 19,3 19,8

57,2 51,7 2,6 3,4 29,8 53,2 30,6 8,6 5,4 55,6 6,5 55,0 13,1 13,6 53,3 34,1 50,3 14,6 14,4 12,7 51,0 58,9 16,0 17,0 17,0 43,8 68,2 19,4 18,0 19,2 33,4 69,7 18,1 18,8

38,2 1,8 0,3 2,5 45,1 44,9 5,3 8,4 7,9 30,3 7,1 5,4 13,8 12,4 47,9 50,1 14,6 13,7 14,7 10,7 39,8 16,0 16,0 17,0 17,0 49,0 17,0 19,2 19,0 20,0 53,0 18,3 19,7 19,8

53,7 0,7 2,7 48,5 44,0 45,2 7,4 5,1 53,6 34,4 6,4 6,2 10,7 45,3 35,6 38,2 11,1 11,0 35,9 51,6 39,1 16,0 16,0 17,0 58,9 63,7 17,0 19,0 19,4 53,6 63,8 19,9 19,2 19,0

0,7 1,8 1,5 56,3 55,5 7,7 6,0 7,3 43,3 43,9 6,5 7,1 10,2 46,0 51,9 14,5 10,4 14,8 27,9 46,3 12,2 16,0 16,0 17,0 39,6 17,0 17,0 18,6 18,1 29,7 19,1 18,5 18,4 19,4

3,6 1,9 27,3 45,8 26,4 8,3 5,6 46,8 38,7 37,9 8,3 5,5 39,8 41,0 31,8 12,9 10,4 57,2 43,4 25,9 12,2 16,0 16,0 33,9 75,2 17,0 17,0 20,0 33,3 70,3 18,2 19,8 19,9 47,2

Tabela 2.1: Idades de vtimas de acidentes de trnsito na Inglaterra

14

19,5 22,2 20,0 22,5 25,5 21,9 22,9 23,3 22,0 61,7 23,7 23,3 22,2 21,2 63,3 23,9 20,6 22,1 22,8 78,3 25,2 29,6 56,6 41,7 62,3 38,0 33,7 40,4 39,0 74,3 37,5 37,9 29,7 27,1

18,3 20,3 22,8 33,1 70,3 22,6 21,0 22,4 70,9 65,2 22,8 22,0 23,5 63,2 74,8 22,8 21,4 23,2 65,4 61,5 28,5 52,4 30,7 63,8 76,2 41,5 43,8 54,8 63,5 76,5 39,8 58,5 42,4 70,1

18,8 23,6 23,2 53,6 23,9 20,2 23,2 21,5 74,5 21,2 23,2 23,3 20,1 65,5 23,8 22,9 23,1 23,8 68,4 58,7 36,0 35,4 27,7 60,3 34,2 44,7 31,0 43,6 65,9 38,0 55,5 51,1 26,6 75,3

19,5 20,0 32,0 58,9 21,3 20,6 22,1 69,7 79,6 21,3 22,3 23,3 65,1 69,9 20,3 21,6 23,6 58,2 61,6 41,2 31,5 28,2 72,6 65,8 27,7 35,3 43,3 77,3 66,0 27,1 31,5 37,0 71,7 75,7

19,7 20,5 49,0 21,7 22,5 22,5 21,5 61,3 23,2 23,6 20,6 21,0 75,7 21,2 23,1 20,3 23,6 26,5 20,8 36,8 55,7 52,8 67,5 57,5 53,1 41,3 53,6 65,0 36,9 58,3 51,9 45,6 64,4 45,6

18,1 30,7 53,2 22,7 21,3 21,6 40,7 67,2 21,1 23,5 21,8 78,1 71,8 22,7 23,3 22,9 53,9 35,6 58,6 43,4 35,4 75,7 63,4 57,5 54,2 46,3 66,4 75,8 37,3 27,2 45,4 75,0 69,9 51,9

21,2 33,8 20,0 22,3 21,2 20,4 35,3 20,2 23,6 22,3 22,0 70,4 22,1 20,4 20,0 21,3 43,9 22,1 44,1 53,7 41,8 64,2 43,0 34,4 54,6 25,1 64,7 48,9 40,8 41,3 50,8 65,2 35,3 41,8

49,4 37,3 23,2 23,2 22,3 38,0 70,5 21,9 23,9 20,5 69,3 66,1 20,4 20,3 21,8 42,3 32,4 21,5 29,0 45,7 78,7 66,9 44,3 34,0 33,3 69,5 75,3 43,3 41,8 38,0 63,5 44,6 45,8 29,5

55,1 22,6 20,7 23,6 20,1 33,5 23,3 24,0 21,5 23,5 60,8 21,8 23,2 20,4 23,6 58,3 21,4 23,6 44,3 26,9 72,6 54,0 57,0 29,5 53,6 78,2 42,1 34,7 51,0 39,9 75,2 54,7 49,6 36,0

34,7 24,0 20,9 23,1 38,8 71,8 21,4 20,9 22,9 62,8 74,3 21,6 21,9 23,7 62,3 54,8 22,8 20,9 42,5 73,7 70,6 34,4 47,9 36,6 62,1 73,2 56,2 48,6 33,0 63,1 25,2 46,7 46,5 35,1

23,1 22,3 22,0 23,9 48,2 23,9 22,5 22,2 23,3 64,7 22,6 21,5 21,5 21,1 63,8 22,5 20,6 23,2 40,9 72,3 40,0 42,8 34,6 40,3 70,2 52,1 38,6 43,4 49,6 70,1 52,5 33,9 40,4 78,2

21,8 21,4 20,1 53,9 63,2 23,7 22,3 22,2 63,0 76,7 20,4 23,5 20,3 79,3 78,8 20,3 20,9 20,8 71,7 70,8 42,2 32,1 54,8 65,9 66,1 48,1 30,0 27,8 71,2 60,8 40,5 51,2 55,6

Tabela 2.2: Idades de vtimas de acidentes de trnsito na Inglaterra

15

perceber a diculdade de apontar qualquer caracterstica geral da situao em estudo devido ao grande volume de nmeros existentes. Uma considerao importante para a elaborao de tabelas de distribuio de freqncias agrupadas sobre o tamanho de cada intervalo. Nesse sentido existem duas alternativas, a primeira que consiste em considerar intervalos do mesmo tamanho ou a segunda que dene tamanhos diferentes para os intervalos, dependendo de diversos fatores associados ao problema especco. Intervalos de tamanhos iguais A primeira alternativa na construo de tabelas de distribuio de freqncias sempre considerar intervalos de tamanho igual. Neste caso, ser fcil calcular a freqncia relativa de cada intervalo como sendo a diviso da freqncia absoluta pelo tamanho da amostra. A tabela de distribuio de freqncias para os dados citados anteriormente aparece a seguir: Idade f fr F F r X0 0`8 61 0,07 61 0,07 4 8`16 71 0,09 132 0,16 12 16`24 264 0,32 396 0,48 20 24`32 54 0,07 450 0,55 28 32`40 83 0,10 533 0,65 36 40`48 83 0,10 616 0,75 44 48`56 72 0,09 688 0,84 52 56`64 48 0,06 736 0,90 60 64`72 45 0,06 781 0,96 68 72`80 34 0,04 815 1,00 76 815 1,00 Nesta tabela, h uma coluna contendo a marca de classe (X 0 ) que o ponto central de cada intervalo e que ser usada, posteriormente, para calcular a mdia. Tamanhos de intervalos diferentes Existe informao adicional quando se trabalha com alguns problemas da rea biomdica e esta informao pode ser til para construir intervalos de tamanhos diferentes. Por exemplo, quando se trabalha com idades e desenvolvimento de massa corporal sabe-se que existem algumas faixas etrias com caractersticas importantes e outras em que no existe grande desenvolvimento. Isto poderia levar a denir intervalos de tamanho menor em que se espera maior e mais rpido desenvolvimento e intervalos de maior tamanho em que existe relativa estabilidade nesse desenvolvimento. Desta forma, ser possvel observar as mudanas nas faixas de interesse. 16

Para os dados de idade de vtimas fatais em acidentes de trnsito na Inglaterra, um rgo de controle de acidentes deniu algumas faixas etrias que so usadas na tabela a seguir. Idade f f r1 f r2 0`5 28 0,03 0,04 5`10 46 0,06 0,06 10`16 58 0,07 0,09 16 20 0,02 0,13 17 31 0,04 0,19 18`20 64 0,08 0,20 20`25 149 0,18 0,19 25`60 316 0,39 0,06 60+ 103 0,13 0,04 815 1,00 1,00 Nesta tabela aparece uma coluna chamada f r1 que resulta da diviso da freqncia absoluta de cada intervalo pelo tamanho de amostra. Porm esta conta no a freqncia relativa de cada intervalo, precisando ainda ser corrigida usando um fator associado ao tamanho de cada intervalo; depois desta correo obtm-se a coluna f r2 que contm os verdadeiros valores de freqncia relativa de cada intervalo. A expresso matemtica que permite obter os valores de f r2 dada por: f r2 = f
Pf

= f r1

onde o tamanho do intervalo e N o tamanho da amostra.

Pf

2.2

Representao grca de dados

Existe a necessidade de obter informao relevante a partir de um grande volume de dados provenientes de um processo de amostragem. Esta informao pode ser visualizada de forma mais fcil atravs da utilizao de grcos que representem o conjunto de dados coletados. A seguir, so apresentados os principais tipos de grcos estatsticos.

2.2.1

Grcos de setores

Esse tipo de grcos, popularmente conhecidos como grcos de pizza ou bolo, podem ser utilizados para representar dados categricos ou inclusive 17

alguns dados numricos em que existem poucos valores possveis. Para a elaborao destes grcos sero construdos setores de uma circunferncia cujo ngulo, a partir do centro, ser proporcional ao nmero de indivduos com uma particular caracterstica, isto , proporcional com a freqncia. As tabelas 2.3, 2.4 e 2.5 geram exemplos de grcos de setores em trs situaes diferentes, apresentados nas Figuras 2.1, 2.2 e 2.3.

Origem dos alunos Frequncia Urbana 240 Suburbana 1400 Rural 360 Tabela 2.3: Distribuio da origem de estudantes de uma escola pblica

Classicao Normal Sobrepeso Obeso

Nmero de crianas 84 9 6

Tabela 2.4: Distribuio da avaliao nutricional de um grupo de crianas usando o ndice peso para altura

Classicao Nmero de jovens Baixo peso 11 Normal 105 Sobrepeso 25 Obeso 4 Tabela 2.5: Distribuio da avaliao nutricional de um grupo de jovens

2.2.2

Grcos de barras e colunas

Este tipo de grcos utilizado para representar dados numricos discretos e, em alguns casos, dados categricos. Nele, num dos eixos coordenados so representadas as frequncias e no outro os valores da varivel. So construidas colunas ou barras para cada valor da varivel com uma altura proporcional com a frequncia. No existe diferena entre o grco de barras e o de colunas a no ser pela troca de variveis nos eixos coordenados, como aparece no grco de colunas da gura 2.4 e no de barras da gura 2.5.

18

Origem de 2000 estudantes

18%

12% Urbana Suburbana Rural 70%

Figura~2.1: Grco de setores da origem de estudantes de uma escola pblica.

ndice P/A para crianas

Obesidade 6% Sobrepeso 9%

Normal 85%

Figura~2.2: Grco de setores da avaliao nutricional de um grupo de crianas, usando o ndice peso para altura.

19

IMC dos jovens


Obesidade 3% Sobrepeso 17% Baixo peso 8%

Normal 72%

Figura~2.3: Grco de setores da avaliao nutricional de um grupo de jovens.

Figura~2.4: Nmero de lhos para os 20 empregados de uma empresa.

20

2.2.3

Grcos de disperso

Os grcos de disperso so utilizados para representar as relaes existentes entre duas variveis numricas e para tal utilizam um grco em que cada eixo representa uma varivel. Um exemplo pode ser visto no grco da gura 2.6. Cada par de dados de um indivduo gera um ponto no grco, de forma que, ao observar a nuvem de pontos gerados, tem-se uma ideia da relao entre as variveis representadas.

2.2.4

Grco de sries de tempo

Este tipo de grcos um caso especial dos grcos de disperso que apresentam a evoluo de uma varivel de interesse ao longo do tempo. Assim, no eixo vertical so representados os valores da varivel em estudo e no eixo horizontal as unidades de tempo em que so observados os correspondentes valores. Exemplos so apresentados nos grcos das guras 2.7 e 2.8.

2.2.5

Histograma

O histograma um grco de barras para variveis numricas contnuas organizadas em tabelas de distribuio de freqncias que considera, no eixo vertical, as freqncias relativas. Podem ser considerados os dados de uma tabela de distribuio de freqncias com intervalos de tamanhos iguais, como no histograma da gura 2.9 obtido a partir da tabela da seo 2.1.2 . Para os mesmos dados que originaram a tabela anteriormente citada, devem ser tomados cuidados quando os tamanhos de intervalo so diferentes. Neste caso, a freqncia relativa deve ser proporcional rea de cada barra. Quando no se toma este cuidado, os histogramas podem reetir situaes irreais como no histograma da gura 2.10. O histograma corrigido para os mesmos dados aparece na gura 2.11.

2.2.6

Polgono de freqncias

O polgono de freqncias resulta da unio dos pontos centrais no topo de cada barra do histograma. A gura 2.12 apresenta o polgono de freqncias obtido a partir do histograma da gura 2.9. A gura 2.13 apresenta o polgono de freqncias obtido a partir do histograma da gura 2.11.

2.2.7

Tipos de distribuies

O formato do histograma ou do polgono de freqncias pode fornecer algumas caractersticas gerais da amostra coletada. Distribuies platicrticas so obtidas de dados com grande variabilidade, enquanto as distribuies

21

ndice P/A para crianas

Obesidade

Sobrepeso

Normal

84

20

40

60

80

100

Figura~2.5: ndice Peso/Altura de 99 crianas com idade entre 7 e 10 anos.

Figura~2.6: Idade e porcentagem de gordura para 18 adultos normais.

22

Figura~2.7: cido rico antes, durante e depois da gravidez.

Figura~2.8: Ganhos acumulados mdios de peso (Kg) para gestantes do Inst. de Puericultura e Pediatria Martago Gesteira.

23

Figura~2.9: Distribuio dos acidentes em estradas por idades na Inglaterra. Intervalos de tamanhos iguais.

Figura~2.10: Distribuio dos acidentes em estradas por idades na Inglaterra. Intervalos de tamanhos diferentes. Grco errado.

24

Figura~2.11: Distribuio dos acidentes em estradas por idades na Inglaterra. Intervalos de tamanhos diferentes. Grco correto.

Figura~2.12:

25

lepticrticas tm uma variabilidade pequena, sendo muito concentradas em torno de um valor central. Isto mostrado no grco da gura 2.14. Distribuies com assimetria direita so aquelas que apresentam observaes de valores altos com freqncia pequena. Distribuies com assimetria esquerda apresentam observaes de valores mnimos com freqncia pequena. Estas duas distribuies aparecem no grco da gura 2.15.

2.3

Medidas de posio

A anlise inicial dos dados, alm de construir tabelas e grcos, consiste tambm no clculo de valores, ou estatsticas, que ajudam na produo de uma viso geral dos dados. Nesta seo, sero apresentadas as medidas de posio, tambm chamadas medidas de tendncia central, que procuram denir um valor que represente os dados. Para tal, sero usados, como exemplo, os dados de 25 pacientes com brose cstica que aparecem na tabela seguinte: Idade PImax (anos) (cm H2 O) 7 80 7 85 8 110 8 95 8 95 9 100 11 45 12 95 12 130 Idade PImax (anos) (cm H2 O) 13 75 13 80 14 70 14 80 15 100 16 120 17 110 17 125 17 75 Idade PImax (anos) (cm H2 O) 17 100 19 40 19 75 20 110 23 150 23 75 23 95

2.3.1

Mdia aritmtica (X)

Esta estatstica muito usada e fornece uma ideia geral dos valores de uma amostra. Para o clculo da mdia necessrio conhecer todos os valores dos dados da amostra, por este motivo ela uma medida de posio que afetada pela presena de valores discrepantes dentro da amostra. Seu clculo amplamente conhecido quando se dispe de todos os valores e dado a seguir: Dados completos A mdia calculada pela soma dos valores dos dados, dividida pelo tamanho da amostra. A seguinte frmula resume esta denio: X=
Pn
i=1

Xi

26

Figura~2.13: Polgono de freqncias dos acidentes, por idades, em estradas da Inglaterra.

Figura~2.14: Distribuio platicrtica, em vermelho, e lepticrtica, em preto.

27

Para os dados de PImax tem-se: X = 2315 80 + 85 + . . . + 95 = 25 25 = 92, 6 cm H2 O.

Para as idades dos mesmos pacientes tem-se: X = = = = = Dados resumidos Para dados contnuos resumidos em tabelas de distribuio de freqncias, o exerccio anterior com as idades dos 25 pacientes fornece uma pista de como calcular a mdia atravs da seguinte formula: X=
P

7 + 7 + 8 + 8 + 8 + 9 + . . . + 23 + 23 + 23 25 2 7 + 3 8 + 1 9 + . . . + 3 23 25 2 3 1 3 7+ 8+ 9 + ... + 23 25 25 25 25 362 25 14, 48 anos

fi Xi0 X = f ri Xi0 n

onde Xi0 a marca de classe do i-simo intervalo, fi a freqncia absoluta do i-simo intervalo e f ri a freqncia relativa do i-simo intervalo. Exemplo: Calcular a idade mdia das vtimas fatais em acidentes de estrada na Inglaterra, usando a tabela da seo 2.1.2. X = 61 4 + 71 12 + . . . + 34 76 815 26796 = 32, 88 anos = 815 = 0, 07 4 + 0, 09 12 + . . . + 0, 04 76 = 32, 88 anos

Comparando esta mdia com a mdia dos dados completos que X = 33, 02 anos, observa-se uma discrepncia que resulta da aproximao de cada um dos valores originais pela marca de classe do intervalo. Pode-se armar que a mdia calculada usando dados resumidos em tabelas de distribuio de frequncias uma aproximao da verdadeira mdia dos mesmos.

28

2.3.2

Mediana (Me)

A mediana a observao que ocupa a posio central, depois que os dados so ordenados em forma crescente ou decrescente. Esta medida de posio no afetada por valores discrepantes na amostra j que depende do nmero de elementos da amostra e no dos seus valores. Dados completos Quando os dados originais esto disponveis e arrumados em forma crescente ou decrescente uma rpida inspeco dos dados permite achar o valor da mediana. Existem duas situaes, quando o tamanho da amostra um nmero mpar e quando este par, como pode ser visto nos seguintes exemplos. Exemplo: Para os dados de funo pulmonar de 25 pacientes com brose cstica a mediana o valor que ocupa a dcima terceira posio. Posio 1 2 3 PImax 40 45 70 4 75 5 75 6 75 7 75 8 80 9 80 10 80 11 85 12 95 13 95

Posio 14 15 16 17 18 19 20 21 22 23 24 25 PImax 95 95 100 100 100 110 110 110 120 125 130 150

Me = X(25+1)/2 = 95 cm H2 O Exemplo: Considerando os dez pacientes mais jovens do exemplo anterior, a mediana ocupa um ponto intermedirio entre a quinta e a sexta observao. Posio 1 2 3 4 5 6 7 8 9 10 PImax 40 45 70 75 75 75 75 80 80 80

Me =

X10/2 + X10/2+1 2 75 + 75 = = 75 cm H2 O 2

Pelos exemplos pode-se armar que a mediana satisfaz X( n+1 ) 2 n impar n par

Me =

X( n ) +X( n +1) 2 2
2

29

Dados resumidos Quando os dados esto representados numa tabela de distribuio de frequncias agrupadas, aproxima-se o valor da mediana usando relaes geomtricas no histograma. Assim, Me = Li + 0, 5 F rant f rMe

sendo Li o limite inferior do intervalo que contm a mediana, o tamanho do intervalo, F rant a freqncia relativa acumulada do intervalo anterior ao da mediana e f rMe a freqncia relativa do intervalo da mediana. Exemplo: Para os dados resumidos referentes a idades em acidentes de estrada na Inglaterra da seo 2.1.2 tem-se: Me = 24 + 8 0, 5 0, 48 0, 07 = 26, 29 anos.

Comparando com a mediana calculada com os dados completos, que Me = 26, 89, pode se vericar uma discrepncia devida a que a alternativa que usa os dados resumidos uma aproximao. Em ambos casos conclui-se que metade das pessoas que sofreram acidentes de estrada tinham idades que no excediam o valor calculado para a mediana.

2.3.3

Percentil

Os percentis dividem o conjunto de dados ordenados de forma semelhante mediana. Por exemplo, o percentil 10% divide o conjunto de dados em duas partes, 10% com valores inferiores a esse percentil e 90% com valores maiores. De forma geral os percentis podem ser estimados pela frmula: P = Li + F rant f r

que semelhante da mediana. Exemplo: Calcular o percentil 10% para a idade de acidentes de estrada na Inglaterra da seo 2.1.2. P0,10 = 8 + 8 0, 10 0, 07 0, 09 = 10, 7 anos.

Este ltimo valor aproxima o percentil 10% calculado com os dados completos, P0,10 = 10, 6 anos.

30

Primeiro quartil O primeiro quartil a observao que divide o conjunto de dados ordenados em duas partes, 25% dos dados com valores menores a este quartil e 75% com valores superiores. Exemplo: Para as idades de acidentes em estradas na Inglaterra da seo 2.1.2: P0,25 = 16 + 8 0, 25 0, 16 0, 32 = 18, 25 anos.

O primeiro quartil calculado com os dados completos P0,25 = 18, 63 anos. Terceiro quartil O terceiro quartil a observao que divide o conjunto de dados ordenados em duas partes, 75% dos dados com valores menores a este quartil e 25% com valores superiores. Exemplo: Para as idades de acidentes em estradas na Inglaterra da seo 2.1.2: P0,75 = 48 + 8 = 48 anos. O terceiro quartil calculado com os dados completos P0,75 = 46, 75 anos. 0, 75 0, 75 0, 09

2.4

Medidas de variao

As medidas de posio so, na maioria dos casos, insucientes para descrever um conjunto de dados, fornecendo uma idia geral da posio dos valores da amostra, porm, no possvel saber se todos os dados esto concentrados ou dispersos em torno da medida de posio usada. Na tabela seguinte so apresentados 5 conjuntos de dados representados por grupos A, B, C, D e E. Grupo Grupo Grupo Grupo Grupo A 3 B 1 C 5 D 3 E 3,5 4 5 3 5 5 5 5 5 5 6,5 6 7 5 7 7 9 5

Tanto a mdia quanto a mediana para todos os grupos igual a 5, o que poderia levar falsa idia de que estes grupos so iguais caso se usasse s a medida de posio. Existem diversas formas de quanticar a variabilidade ou 31

disperso de um conjunto de dados. Todas estas formas usam uma medida de posio como referncia e medem a proximidade ou afastamento dos dados com relao medida de posio usada. De todas as medidas de variabilidade existentes, as mais conhecidas e usadas so a varincia (S 2 ) e o desvio padro (S ) que so denidas pelas seguintes frmulas: 1 X S2 = (Xi X)2 n1 S = S2 Exemplo: Calcular a varincia e o desvio padro da presso inspiratria esttica mxima dos 25 pacientes com brose cstica anteriormente apresentados. O desenvolvimento matemtico aparece na seguinte tabela, lembrando que X = 92, 6: Paciente PImax(cm H2 O) 1 80 2 85 3 110 4 95 5 95 6 100 7 45 8 95 9 130 10 75 11 80 12 70 13 80 14 100 15 120 16 110 17 125 18 75 19 100 20 40 21 75 22 110 23 150 24 75 25 95 Xi X -12,6 -7,6 17,4 2,4 2,4 7,4 -47,6 2,4 37,4 -17,6 -12,6 -22,6 -12,6 7,4 27,4 17,4 32,4 -17,6 7,4 -52,6 -17,6 17,4 57,4 -17,6 2,4 P (Xi X)2 S2 S

Xi X 158,76 57,76 302,76 5,76 5,76 54,76 2265,76 5,76 1398,76 309,76 158,76 510,76 158,76 54,76 750,76 302,76 1049,76 309,76 54,76 2766,76 309,76 302,76 3294,76 309,76 5,76 14906,00 621,08 24,92

32

2.4.1

Coeciente de variao

Tanto a varincia quanto o desvio padro so medidas de variao que esto expressadas em funo das mesmas unidades de medio da varivel original, sendo necessrio um conhecimento aprofundado do contexto do problema para uma melhor interpretao. De forma alternativa pode ser calculado o coeciente de variao, CV (X), usando a seguinte relao: CV (X) = S 100% X

que serve como uma alternativa adimensional s medidas de variabilidade apresentadas. Costuma ser usado o critrio arbitrrio de considerar uma variao aceitvel quando este coeciente no superior a 100%. O inconveniente deste coeciente que ele afetado pelo valor da mdia, diminuindo seu valor conforme esta aumenta, mesmo com variabilidade constante.

2.4.2

Coeciente de assimetria
X Mo , S

O coeciente de assimetria calculado pela relao: Coef.Assim. =

onde Mo a moda, denida como a observao de maior frequncia. Um valor negativo deste coeciente caracteriza uma distribuio com assimetria esquerda, como visto na gura 2.16. O valor positivo obtido para distribuies com assimetria direita, representada na gura 2.17. Um coeciente igual a zero signica que a distribuio dos dados simtrica, o que pode ser visto na gura 2.18.

2.4.3

Boxplot ou diagrama de caixas

O boxplot um grco alternativo ao histograma de freqncias. Ele contm informao adicional que inclui a mediana, primeiro e terceiro quartis, valores discrepantes, variabilidade e simetria entre outros. O grco da gura 2.19 mostra o boxplot para os dados referentes presso inspiratria esttica mxima de 25 pacientes com brose cstica.

2.5

Exerccios

1. Uma pesquisa com moradores da cidade de Niteri indagou sobre o nmero de refeies realizadas em casa. Foram entrevistadas 30 pessoas obtendo-se os seguintes nmeros: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3. 33

Figura~2.15: Distribuio com assimetria a direita, em preto, e distribuio com assimetria a esquerda, em vermelho.

Figura~2.16: Coef.Assim. < 0, assimetria a esquerda

34

Figura~2.17: Coef.Assim. > 0, assimetria a direita

Figura~2.18: Coef.Assim. = 0, simetria

35

(a) Sabendo que os dados so quantitativos discretos, organize uma tabela de distribuio de freqncias. (b) Faa uma representao grca dos dados. 2. Os dados abaixo so as idades em que 30 indivduos comearam o tratamento de uma certa insucincia. 23 30 28 26 28 26 30 35 27 21 31 29 26 26 24 23 28 31 36 25 24 28 31 28 29 24 31 21 22 32

Construa uma tabela de distribuio de freqncias considerando 6 classes. Construa um grco adequado para os dados. 3. Os nveis de um determinado hormnio que indica clinicamente um estado de alto estresse, obtidos para 60 funcionrios do Hospital Antnio Pedro, esto relacionados a seguir: 1.84 1.50 1.58 1.72 1.57 1.41 1.60 1.71 1.69 1.64 1.52 1.64 1.72 1.77 1.60 1.67 1.82 1.61 1.81 1.72 1.62 1.57 1.50 1.64 1.84 1.58 1.68 1.80 1.88 1.64 1.51 1.55 1.64 1.70 1.63 1.68 1.71 1.79 1.68 1.60 1.72 1.78 1.61 1.80 1.77 1.63 1.53 1.76 1.72 1.89 1.46 1.65 1.61 1.63 1.59 1.82 1.47 1.73 1.79 1.79

Construa a tabela de distribuio de frequncias usando 7 classes. 4. Complete a seguinte tabela de distribuio de frequncias mostrando os clculos necessrios para isto:

Intervalos Freq.Abs. Freq.Rel. Freq.Abs.Ac. Freq.Rel.Ac. X0 50.70-58.15 f1 1/3 10 F r1 54.425 1/10 13 13/30 61.875 58.15-65.60 f2 65.60-73.05 f3 f r3 21 7/10 69.325 73.05-80.50 f4 1/10 24 4/5 76.775 0 80.50-87.95 f5 f r5 F5 29/30 X5 87.95-95.40 f6 1/30 F6 1 91.675 F6 1

36

5. A capacidade pulmonar medida atravs do volume expiratrio forado (litros). Para 13 jovens os valores observados deste parmetro so: 2,3; 2,15; 3,5; 2,6; 2,75; 2,82; 4,05; 2,25; 2,68; 3,0; 4,02; 2,85; 3,38. Calcular o desvio padro destes dados. Calcular e interpretar a mediana. 6. Os seguintes dados se referem ao peso ao nascer de 3751275 bebs nascidos num determinado pas: Peso ao nascer Freqncia (gramas) relativa 0 ` 500 0,001 500 ` 1000 0,005 1000 ` 1500 0,006 1500 ` 2000 0,013 2000 ` 2500 0,043 2500 ` 3000 0,159 3000 ` 3500 0,367 3500 ` 4000 0,295 4000 ` 4500 0,092 4500 ` 5000 0,017 5000 ` 5500 0,002 (a) Classique a varivel de interesse. (b) Especique o tipo de estudo usado. (c) Calcule e interprete a mediana e a mdia dos dados. (d) Calcule o desvio padro. 7. Os nveis sricos de colesterol para 1067 homens, com idades entre 25 e 34 anos encontram-se na seguinte tabela: mg/100ml No homens 80 - 120 13 120 - 160 150 160 - 200 442 200 - 240 299 240 - 280 115 280 - 320 34 320 - 360 9 360 - 400 5 (a) Dena e classique a varivel de interesse. (b) Construa um grco adequado para os nveis sricos de colesterol. 37

(c) Calcule e interprete a mediana. 8. Pacientes do Hospital Antnio Pedro fora submetidos a um teste de esforo quanto ao nmero de quilmetros que conseguiram caminhar sem parar. Os dados esto apresentados a seguir: Quilmetros No de pacientes 0-4 438 4-8 206 8 - 12 125 12 - 16 22 16 - 20 9 (a) Qual a varivel em estudo? (b) Qual a distncia mdia caminhada pelos pacientes examinados? (c) Calcule e interprete o valor da mediana. (d) Calcule o desvio padro da distncia caminhada. 9. A seguinte tabela apresenta dados de 17 pacientes com um distrbio nutricional tratados com uma droga chamada SA. A dose de SA apresentada junto com os valores de um ndice (SI) que mede o nvel de atividade intestinal. Dose total de SA (mg) 360 1390 1135 410 360 560 1410 960 910 Dose total de SA (mg) 2950 1935 435 310 690 1260 1310 1410

SI 2,0 2,0 3,5 5,7 13,0 13,9 15,4 16,6 16,6

SI 22,3 47,0 65,0 >80,0 >80,0 >80,0 >80,0 >80,0

(a) Alguns valores de SI so apresentados como >80,0. Qual o nome dado a este tipo de observaes? (b) possvel calcular a mdia de SI? Explique e sugira, se for o caso, outra medida de posio para representar os dados de SI. (c) Calcule e interprete a mdia e a mediana da dose total de SA. 38

10. Um estudo foi conduzido para comparar o consumo energtico de mulheres adolescentes que sofriam de bulimia com mulheres adolescentes com composio corporal e nveis de atividade fsica similares, porm, sem o distrbio. A seguir so listados os valores de ingesto calrica diria, em quilocalorias por quilograma, para as amostras de adolescentes dos dois grupos. Consumo calrico Bulmica 15,9 18,9 25,1 16,0 19,6 25,2 16,5 21,5 25,6 17,0 21,6 28,0 17,6 22,9 28,7 18,1 23,6 29,2 18,4 24,1 30,9 18,9 24,5 30,6 dirio (kcal/kg) Saudvel 20,7 30,6 22,4 33,2 23,1 33,7 23,8 36,6 24,5 37,1 25,3 37,4 25,7 40,8

(a) Obtenha o consumo calrico mdio e mediano para cada grupo de adolescentes. (b) Calcule o desvio padro de cada grupo. (c) Um valor tpico de consumo calrico dirio maior para as adolescentes que sofrem de bulimia ou para as adolescentes saudveis? Que grupo tem maior variabilidade nas medidas?

39

Figura~2.19: Box-plot dos dados dos 25 pacientes com brose cstica

40

Captulo 3 Elementos de probabilidades e suas distribuies


3.1 Probabilidades

O estudo das probabilidades se faz necessrio em situaes em que se conhece os desfechos possveis de alguma situao, porm no se conhece qual deles ir acontecer; nas reas biomdicas isto acontece constantemente. Alguns conceitos precisam ser apresentados para facilitar a denio e entendimento das probabilidades. Um experimento aleatrio qualquer experimento em que possvel denir todos os resultados deste sem conhecer qual deles ser observado. O espao amostral o conjunto de todos os valores possveis de um experimento aleatrio. Um evento qualquer subconjunto de um espao amostral.

3.1.1

Denies de probabilidade

1. Denio clssica: A probabilidade de um evento a diviso do nmero de resultados favorveis pelo nmero de resultados possveis. 2. Denio frequentista: A probabilidade de um evento A, P (A), est dada por: m P (A) = n lim n onde m o nmero de vezes que observado A e n o nmero de repeties do experimento. 3. Denio subjetivista: A probabilidade de um evento A, P (A), a medida dada por algum sobre o grau de crena do acontecimento de A. Alguns resultados bsicos para dois eventos A e B so enumerados a seguir: 41

1. 0 P (A) 1. 2. Se o espao amostral denotado por , ento P () = 1. 3. P (A ^ B) = P (A) + P (B) P (A _ B). 4. Dois eventos so exclusivos se possuem interseo vazia. 5. Para dois eventos exclusivos, A e B, a probabilidade deles acontecerem simultaneamente nula. Isto P (A _ B) = 0. 6. Se um espao amostral est formado pelos eventos exclusivos A1 , ..., An ento P (A1 ) + + P (An ) = 1. 7. Seja A0 o evento complementar de A ento P (A0 ) = 1 P (A).

3.1.2

Probabilidade condicional

Em algumas situaes, o acontecimento de certos eventos inuencia outros atravs de suas probabilidades. Como por exemplo, a probabilidade de uma pessoa ser hipertensa varia segundo o estado nutricional dela. Os obesos tm maior probabilidade de hipertenso comparados com os eutrcos. Para dois eventos, A e B, a probabilidade condicional de A, dado B, denida pela relao: P (A B) P (A|B) = P (B) Exemplo: A tabela a seguir mostra a relao entre dois sintomas que costumam aparecer em pessoas com uma determinada doena. A amostra est formada por 266 pessoas com a doena. Sintoma A Sintoma B Sim No Total Sim 212 24 236 No 8 22 30 Total 220 46 266 A probabilidade de um paciente ter o sintoma A est dada por: P (A) = 220 = 0, 83 266

A probabilidade de um paciente, que tem o sintoma B, ter o sintoma A calculada como: P (A|B) =
212 266 236 266

212 = 0, 90 236

42

3.1.3

Teorema de Bayes

O teorema de Bayes permite rever a informao probabilstica sobre um determinado evento quando existe informao sobre outro evento relacionado ao de interesse. Assim ele pode ser usado para conhecer o risco de se ter uma determinada doena luz da informao fornecida pelo resultado de um determinado teste de diagnstico, tendo disponvel o risco populacional. O teorema de Bayes diz que, para dois eventos A e B, a probabilidade de A condicional a B dada por: P (A|B) = P (B|A)P (A) P (B) P (B|A)P (A) = P (B|A)P (A) + P (B|A0 )P (A0 )

A relao que aparece no denominador do Teorema de Bayes, P (B) = P (B|A)P (A) + P (B|A0 )P (A0 ) conhecida como Regra da Probabilidade Total e permite calcular a probabilidade incondicional de um evento. Exemplo: Um restaurante popular apresenta dois tipos de refeio: salada completa ou um prato a base de carne. Vinte por cento dos fregueses do sexo masculino preferem salada; trinta por cento das mulheres escolhem carne; setenta e cinco por cento dos fregueses so homens. Num certo dia o primeiro fregus a sair do restaurante escolheu a salada completa. Qual a probabilidade do fregus ser do sexo feminino? Denindo os eventos S: o fregus escolhe salada completa e H: o fregus do sexo masculino so obtidas as seguintes probabilidades: P (S|H) = 0, 2 P (S 0 |H 0 ) = 0, 3 P (H) = 0, 75 A probabilidade solicitada P (H 0 |S) que, atravs do Teorema de Bayes, ser: P (H 0 |S) = P (S|H 0 )P (H 0 ) P (S|H 0 )P (H 0 ) + P (S|H)P (H) 0, 7 0, 25 = 0, 7 0, 25 + 0, 2 0, 75 = 0, 54

Deve ser observado que este resultado mais do que o dobro da probabilidade inicial de um fregus ser do sexo feminino.

43

3.2
3.2.1

Algumas aplicaes das probabilidades


Comparao de riscos e risco relativo

O risco uma quanticao do grau de certeza de algum evento, geralmente um fator negativo ou nocivo para a sade. Portanto, pode ser visto como uma probabilidade. Em determinadas situaes o interesse est em comparar o risco de acontecer algum evento em dois grupos independentes. Em estudos prospectivos, grupos de indivduos com caractersticas diferentes so acompanhados para estudar a ocorrncia de um resultado particular. Nestes ensaios fcil calcular a proporo de indivduos com a caracterstica de interesse em cada grupo, e a razo destas duas propores uma medida comparativa dos riscos de um grupo contra o outro. Esta razo conhecida como risco relativo. De forma geral, a tabela 3.2.1 mostra o resultado de um estudo prospectivo: Grupo 1 Grupo 2 Total Presena da Sim a b a+b caracterstica No c d c+d Total a+c b+d n Tabela 3.1: Representao geral dos resultados de um estudo prospectivo Os riscos de aparecer a caracterstica de interesse em cada grupo so: a RiscoGrupo1 = a+c b RiscoGrupo2 = b+d e o risco relativo : a/(a + c) . RR = b/(b + d) Um valor de RR = 1 signicaria que o risco em ambos grupos igual. Exemplo: A tabela 3.2.1 mostra o resultado do estudo de 107 bebs com peso no nascimento inferior ao percentil 5% para seu tempo de gestao, segundo padres publicados. O retardo do crescimento dos bebs foi classicado como simtrico ou assimtrico segundo o resultado de um exame de ultrasom, e esta classicao mostrada em relao ao escore Apgar. Para bebs com classicao simtrico ou assimtrico, o risco de um escore Apgar menor a 7 : RiscoSim = 44 2 = 0, 13 16

Simtrico Assimtrico Total Apgar < 7 Sim 2 33 35 No 14 58 72 Total 16 91 107 Tabela 3.2: Relao entre o escore Apgar < 7 e classicao do retardo de crescimento fetal. RiscoAss = e o risco relativo: 33 = 0, 36 91

2/16 = 0, 345 33/91 o que signica que o risco de ter um escore Apgar menor a 7 no grupo simtrico aproximadamente 35% do risco no grupo assimtrico. RR =

3.2.2

Epidemiologia

As probabilidades so amplamente utilizadas em epidemiologia. Diversas taxas e indicadores so casos especiais de aplicaes das probabilidades, destacando-se a prevalncia e a incidncia. Prevalncia A prevalncia de uma doena a proporo, ou probabilidade, de uma doena numa determinada populao. Incidncia A incidncia de uma doena a proporo, ou probabilidade, de casos novos de uma doena em um determinado perodo. Para o grco 3.1, a prevalncia no perodo 0 a 18 est relacionada com os 10 casos existentes no mesmo, enquanto que a incidncia para o mesmo perodo proporcional aos 7 casos que comearam dentro dele. Em ambos casos considera-se como denominador o tamanho da populao exposta doena.

3.2.3

Teste de diagnstico

Diagnstico parte essencial na prtica clnica, e muitas pesquisas mdicas tm por objetivo melhorar os mtodos de diagnstico. A questo de interesse quo bom um particular teste de diagnstico pode ser. Isto pode ser avaliado estudando os conceitos de sensibilidade, especicidade, valor preditivo 45

positivo e valor preditivo negativo de um teste. Para formalizar as denies sero usados os eventos A: o paciente est doente e B: o paciente tem resultado positivo no teste de diagnstico. Sensibilidade A sensibilidade de um teste a proporo de resultados positivos identicados, entre todos os doentes. Em termos de probabilidades: Sensibilidade = P (B|A) Especicidade A especicidade de um teste a proporo de resultados negativos, entre os no doentes. Usando nomenclatura de probabilidades se tem: onde A0 indica o evento o paciente no est doente e B 0 o evento o paciente tem resultado negativo no teste. Valor preditivo positivo (VPP) O valor preditivo positivo de um teste a proporo dos pacientes que tm a doena entre os que apresentam resultado positivo no teste. Formalmente: V P P = P (A|B) Valor preditivo negativo (VPN) O valor preditivo negativo de um teste a proporo dos pacientes que no tm a doena entre os que apresentam resultado negativo no teste. Ou: V P N = P (A0 |B 0 ) Exemplo: Um novo teste clnico usado para diagnosticar uma doena. Os resultados do estudo de 344 indivduos esto resumidos na tabela 3.2.3. e para estes dados podem ser calculadas a sensibilidade, a especicidade, o VPP e o VPN: 231 = 0, 90 258 54 Especif icidade = = 0, 63 86 231 = 0, 88 V PP = 263 54 V PN = = 0, 67 81 Sensibilidade = 46 Especif icidade = P (B 0 |A0 )

Resultado Estado do indivduo do teste Doente No doente Total Positivo 231 32 263 Negativo 27 54 81 Total 258 86 344 Tabela 3.3: Resultados de um teste clnico segundo o estado real dos indivduos.

3.3

Distribuies de probabilidades

Como j foi dito, as probabilidades so teis quando uma varivel observada em um experimento aleatrio. O comportamento probabilstico desta varivel chamada de aleatria representado atravs da distribuio de probabilidades. Isto signica que seria necessrio achar a referida distribuio para cada problema/varivel em estudo, porm, algumas situaes padres podem ser identicadas, gerando os chamados modelos probabilsticos de variveis aleatrias. Os mais usados na rea biomdica sero apresentados nas seguintes subsees, porm, no ser usado nenhum formalismo que um estudo detalhado dos mesmos requer.

3.3.1

Distribuio Binomial

um modelo probabilstico usado para dados discretos. um dos modelos mais simples. Ele considera que um experimento tem dois possveis resultados que podem ser chamados de sucesso e fracasso. Para cada um destes resultados existe uma probabilidade associada de forma que a soma destas sempre ser igual a 1. O interesse neste modelo descrever o comportamento probabilstico do nmero de sucessos em n repeties do experimento. Por exemplo, se o interesse o fenmeno obesidade mrbida, atravs deste modelo binomial ser possvel descrever a varivel nmero de obesos mrbidos em uma populao e, atravs dele, estimar a prevalncia de obesidade mrbida como sendo a probabilidade de um indivduo dessa populao ser obeso mrbido.

3.3.2

Distribuio Poisson

Este modelo utilizado quando a varivel de estudo o nmero de ocorrncias de um evento em intervalos de medio xos. Para isto necessrio supor que os eventos de interesse ocorrem ao longo do tempo, ou espao, segundo uma taxa mdia xa. 47

Exemplos de variveis que podem ser modeladas com a distribuio Poisson so o nmero dirio de casos novos de cncer de mama, o nmero de clulas anormais numa rea xa de slides histolgicos, entre outras.

3.3.3

Distribuio Exponencial

A distribuio Exponencial est ligada distribuio Poisson. Enquanto que a Poisson estuda o nmero de ocorrncias em intervalos de medio xos, a Exponencial estuda o tamanho dos intervalos entre duas ocorrncias consecutivas. Dada a relao existente entre modelos Poisson e Exponencial os exemplos da Poisson sero adaptados: o tempo decorrido entre dois casos novos de cncer de mama, distncia entre duas clulas anormais em slides histolgicos.

3.3.4

Distribuio Normal

A distribuio Normal, tambm chamada Gaussiana, a mais usada devido s propriedades matemticas que a tornam a base de grande parte da teoria de inferncia. Ela muito usada quando a varivel de estudo apresenta valores concentrados em torno de um valor, como mostrado no polgono da gura 3.2. A distribuio Normal ca denida por dois parmetros, a mdia e a varincia 2 . O primeiro parmetro dene a posio da distribuio em torno do qual se encontram os demais valores e o segundo a disperso dos valores em torno da posio central. A distribuio Normal com mdia 0 e varincia 1 chamada distribuio Normal padro e as probabilidades acumuladas para esta distribuio encontramse em tabelas que aparecem num apndice. Um resultado terico permite converter/reduzir qualquer distribuio Normal para uma Normal padro, este resultado comumente chamado padronizao. Outro resultado terico permite usar a distribuio Normal padro desde que o tamanho de amostra seja sucientemente grande, independente da distribuio original dos dados. Para uma varivel com distribuio Normal fcil calcular qualquer probabilidade acumulda usando a padronizao. Como por exemplo, seja X a varivel que caracteriza a presso arterial sistlica, que tem mdia 120 e varincia 25. Achar a probabilidade de ter um paciente com no mximo 129 de PAS. 129 120 P (X 129) = P Z 25 = P (Z 1, 8) = P (Z 0) + P (0 Z 1, 8) = 0, 96407 48
!

Figura~3.1: Acompanhamento de pacientes com uma determinada doena. Os pacientes representados por linhas terminadas em crculos cheios so aqueles que tiveram alta da doena, os outros so observaes censuradas.

Figura~3.2: Polgono de freqncias de uma varivel com distribuio Normal de mdia 3

49

Sabe-se que P (Z 0) = 0, 5 pelas propriedades da distribuio Normal padro e pelas tabelas nos apndices temos que P (0 Z 1, 8) = 0, 46407. Achar tambm a probabilidade de encontrar um paciente com PAS menor ou igual a 111. 111 120 P (X 111) = P Z 25 = P (Z 1, 8) = P (Z 1, 8) = 1 P (Z 1, 8) = 0, 03593
!

3.4

Distribuies amostrais

Quando selecionada uma amostra a partir de uma populao de interesse no existe total certeza de que esta seja representativa, s se sabe que esta foi coletada sob critrios de aleatoriedade. A partir desta amostra pode ser calculada, por exemplo, a mdia amostral. Porm, se outras amostras so coletadas da mesma populao no existe a garantia de que as mdias calculadas com estas amostras sejam todas iguais primeira. Contudo, qualquer que seja a amostra, o objetivo us-la para fazer inferncia sobre os parmetros da populao, como representado no diagrama da gura 3.3. Na prtica s coletada uma amostra, por isso, antes de obter a mdia o seu valor uma varivel aleatria. Da mesma forma, outras estatsticas podem ser tratadas como variveis aleatrias. Sendo assim, uma distribuio amostral denida como a distribuio de probabilidades de uma estatstica. Alguns resultados teis sobre distribuies amostrais so apresentados a seguir. Para a mdia de uma amostra, se os dados originais tm distribuio Normal com mdia populacional e varincia 2 , ento a mdia da amostra ter distribuio Normal com a mesma mdia, , e varincia menor, 2 /n. Para a proporo de indivduos com uma caracterstica, se os dados tm distribuio Binomial/Bernoulli, ento para n sucientemente grande, a proporo de indivduos com a caracterstica de interesse na amostra, b p, tem distribuio que se aproxima da Normal quando n cresce, com mdia igual proporo da populao, p, e varincia igual a p(1p)/n. Estes resultados, entre outros, permitem a construo das ferramentas que sero apresentadas nos seguintes captulos.

50

3.4.1

Distribuio t de Student

A mdia de uma amostra tem uma distribuio similar, mas no igual Normal quando a varincia original desconhecida: a distribuio t de Student, que depende de um parmetro adicional chamado grau de liberdade. Valores de probabilidades acumuladas para esta distribuio so encontrados em tabelas nos apncides. Esta distribuio ser usada sempre que for necessrio fazer inferncia sobre mdias quando as varincias das populaes forem desconhecidas.

3.5

Exerccios

1. Considere dois eventos A e B, mutuamente exclusivos, com P (A) = 0, 3 e P (B) = 0, 5. Calcule: (a) P (A B) (c) P (A|B)

(b) P (A B) (d) P (A0 ) 2. Estuda-se a relao da presso arterial elevada e trs distrbios nutricionais, chamados de A, B e C. Uma amostra de 100 pessoas com os referidos distrbios forneceu os seguintes resultados: Presso arterial Distrbio A Distrbio B Distrbio C Normal 10 8 2 Elevada 15 45 20 Para este grupo de pessoas, calcular: (a) A probabilidade de uma pessoa com o distrbio B ter a presso elevada. (b) A probabilidade de uma pessoa ter o distrbio B e presso elevada. (c) A probabilidade de uma pessoa ter o distrbio A ou presso elevada. (d) A probabilidade de uma pessoa ter a presso normal. 3. A probabilidade de se ter uma determinada insucincia no sangue 0,05. Para detectar a referida insucincia usado um teste de diagnstico cuja sensibilidade 0,95 e especicidade 0,85. Calcular a probabilidade de uma pessoa no ter a insucincia se o teste deu positivo. 51

4. Dos indivduos de uma populao, 60% esto vacinados contra uma certa doena. Durante uma epidemia, sabe-se que 20% a contraiu e que dois de cada 100 indivduos esto vacinados e so doentes. Calcule a porcentagem de vacinados que cam doentes e o de vacinados entre os que esto doentes. 5. Os dados seguintes so tomados de um estudo que investiga o uso de um teste de diagnstico de um distrbio nutricional. Distrbio Teste Presente Ausente Total Positivo 77 96 173 Negativo 9 162 171 Total 86 258 344 (a) Qual a sensibilidade da tcnica de diagnstico neste estudo? (b) Qual o valor preditivo negativo? (c) Calcule a probabilidade de se ter um resultado positivo do teste e o distrbio estar ausente. (d) Calcule a probabilidade do teste fornecer um resultado positivo. 6. Trs candidatos disputam as eleies para o Governo do Estado. O candidato de direita tem 30% da preferncia eleitoral, o de centro tem 30% e o de esquerda 40%. Se eleito, a probabilidade de dar efetivamente prioridade para o programa de alimentao em escolas pblicas de 0,4; 0,6 e 0,9 para os candidatos de direita, centro e esquerda respectivamente. (a) Qual a probabilidade de no ser dada prioridade ao referido programa? (b) Se o programa teve prioridade, qual a probabilidade do candidato de direita ter vencido a eleio? 7. Em uma certa populao, 4% dos homens e 1% das mulheres apresentam um distrbio gstrico. Nessa populao, 60% das pessoas so mulheres. Uma pessoa escolhida ao acaso e descobre-se que apresenta o distrbio. Qual a probabilidade de que seja do sexo masculino? 8. Um laboratrio que fabrica um teste para o diagnstico de um certo distrbio gstrico sabe que a sensibilidade do referido teste 0,9 e a especicidade 0,85. Se a prevalncia do distrbio 0,15, calcule: (a) O valor preditivo positivo. 52

(b) A probabilidade do teste dar resultado positivo para o distrbio. 9. Apresente uma situao em que a varivel de interesse esteja associada com a distribuio binomial. Dena e classique esta varivel. 10. Os estudos epidemiolgicos indicam que 20% dos idosos sofrem de uma deteriorao neuropsicolgica. Sabe-se que a tomograa axial computadorizada (TAC) capaz de detectar esse transtorno em 80% dos que sofrem disso, mas que tambm resulta 3% de falso positivo entre pessoas com boa sade. Se for escolhido um idoso ao acaso, sendo o resultado do seu TAC positivo, qual a probabilidade de que ele realmente esteja enfermo? 11. Considere a distribuio normal padro com mdia 0 e desvio padro 1. (a) Qual a probabilidade de que um z -escore seja maior do que 2,60? (b) Qual a probabilidade de que o z -escore esteja entre -1,70 e 3,10? (c) Que valor de z -escore limita os 20% inferiores da distribuio? 12. Assumir que os nveis de albumina tm distribuio normal com mdia 3,5 mg/dL e desvio padro 0,25 mg/dL. Calcular a probabilidade de uma pessoa ser hipoalbumnica se para isto os nveis de albumina devem ser menores a 2,7 mg/dL. 13. A presso sangnea diastlica de mulheres entre 18 e 74 anos normalmente distribuda com mdia 77 mmHg e desvio padro 11,6 mmHg. (a) Qual a probabilidade de que uma mulher selecionada ao acaso tenha presso diastlica menor que 60 mmHg? (b) Qual a probabilidade que ela tenha presso entre 60 e 90? 14. Assumir que o ndice de massa corporal uma varivel com distribuio normal de mdia 22,5 kg/m2 e desvio padro 1,25 kg/m2 . Um adulto considerado com baixo peso se o IMC menor a 20 kg/m2 e considerado com sobrepeso se o IMC maior a 25. IMCs entre 20 e 25 caracterizam um adulto eutrco. Calcular a probabilidade de um adulto ser considerado: (a) com baixo peso, (b) eutrco.

53

Figura~3.3: Uma populao gera diversas amostras.

54

Captulo 4 Inferncia estatstica


O objetivo de uma pesquisa , sempre, fazer armaes sobre as caractersticas de uma populao, ou saber o efeito geral de algum fator sobre a referida caracterstica, de forma a poder tomar uma deciso vlida a toda a populao. Pelo exposto, seria sempre necessrio fazer um censo, o que difcil de fazer por muitos fatores. A inferncia estatstica fornece mecanismos que permitem, a partir de uma amostra aleatria, obter concluses vlidas para a populao. O estudo da inferncia est dividido em duas partes: 1. Estimao de parmetros. 2. Teste de hiptese. A primeira lida com a estimao de quantidades desconhecidas que esto relacionadas com a distribuio da varivel em estudo, chamadas de parmetros, a partir das quais possvel obter as caractersticas da populao como mdia, mediana ou varincia. A estimao pode ser pontual, quando um parmetro estimado atravs de uma estatstica que gera um nico valor, ou por intervalos, quando so calculados dois valores que formam um intervalo que, com certo grau de conana, contm o parmetro de interesse. A segunda parte complementa a estimao, permitindo testar, luz da evidncia amostral, alguma hiptese referente a um ou vrios parmetros populacionais. Quanto a estimao pontual de parmetros, seria necessrio o estudo profundo de diversos aspectos que no so tratados neste nvel para poder formalizar a teoria sobre o assunto. Porm, de forma objetiva, pode-se armar que o melhor estimador da mdia de uma populao, , a mdia amostral, X; um bom estimador da varincia populacional, 2 , a varincia amostral, S 2 ; para estimar a proporo de indivduos com uma caracterstica b na populao, p, podemos usar a proporo amostral, p. 55

4.1

Intervalos de conana

De forma geral, a estimao por intervalos utiliza um estimador pontual para o parmetro de interesse e a partir deste so gerados os limites inferior e superior do intervalo, diminuindo e somando do estimador pontual uma quantidade xa que comumente chamada de margem de erro. Quando a distribuio do estimador simtrica ento o intervalo de 100 (1 )% de conana tem a seguinte forma: Conf (Estim. k Des.P ad. P armetro Estim. + k Des.P ad.) a = 100 (1 )% Quando o parmetro de interesse a mdia, , da populao e os dados tm distribuio Normal ou o tamanho de amostra sucientemente grande, ento o intervalo de conana ser: S S Conf X k X + k n n
!

= 100 (1 )%

onde X e S so a mdia e o desvio padro amostrais, n o tamanho da amostra e o valor de k vem da distribuio t-Student com n 1 graus de liberdade. Caso o desvio padro da populao, , for conhecido, substitui-se S por este valor e k ser obtido da tabela da distribuio Normal padro. O clculo do intervalo de conana para a proporo de indivduos com uma caracterstica de interesse, p, exige que o tamanho da amostra seja grande para que a distribuio Normal sirva como uma boa aproximao da distribuio Binomial. Se n > 30, ento o intervalo de 100 (1 )% de conana est dado por:
b b b b p (1 p) p (1 p) b b Conf p k = 100 (1 )% pp+k n n s s

b sendo p a proporo amostral, n o tamanho da amostra e k um valor da distribuio Normal.

4.2

Exerccios

1. De experincias passadas sabe-se que o desvio padro da altura de crianas da 5a srie 5 cm. Colhendo uma amostra de 36 dessas crianas observou-se a mdia de 150 cm. Calcule um intervalo de 95% de conana para a altura mdia dessas crianas.

56

2. Uma amostra aleatria de 51 notas de uma disciplina acusa mdia de 7,5 e desvio padro de 1,0. Achar um intervalo de 95% de conana para estimar a mdia das notas. 3. Uma amostra de 10 medidas do dimetro da cintura acusa mdia 23,9 pol. e desvio padro 0,6 pol. Determine um intervalo de 99% de conana. 4. Um pesquisador est estudando a resistncia de um determinado material, usado na fabricao de embalagem para alimentos, sob determinadas condies. Ele sabe que essa varivel normalmente distribuda. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine um intervalo de 90% de conana para a resistncia mdia. 5. Num grupo de pacientes, o nvel de colesterol uma varivel aleatria com distribuio Normal, de mdia desconhecida e varincia 64 (mg/ml)2 . (a) Para uma amostra de 46 indivduos que forneceu nvel mdio de colesterol de 120 mg/ml, construa o intervalo de conana de 95%. (b) Se voc desejasse diminuir a amplitude do intervalo encontrado no item anterior quais seriam suas alternativas? 6. Uma amostra de 10000 itens de uma produo foi inspecionada e o nmero de defeitos por pea foi registrado na seguinte tabela: No defeitos 0 1 2 3 4 No itens 6000 3200 600 150 50 Chamando de p a proporo de itens defeituosos nessa produo, determinar um intervalo de 98% de conana para esse parmetro. 7. Uma amostra aleatria de 100 pessoas de certa regio d 55% como infectados por uma certa bactria. Determine um intervalo de 95% de conana para a proporo global de pessoas infectadas pela bactria. 8. De 1000 casos aleatoriamente selecionados de pacientes com sndrome de Down, 823 sobreviveram aos 30 anos de vida. Construir um intervalo de 95% de conana para a taxa de sobrevivncia correspondente. 9. Uma amostra de 30 dias do nmero de ocorrncias policiais em um certo bairro de uma grande cidade, apresentou os seguintes resultados: 7, 11, 8, 9, 10, 14, 6, 8, 8, 7, 8, 10, 10, 14, 12, 14, 12, 9, 11, 13, 13, 8, 6, 8, 13, 10, 14, 5, 14, e 10. x = 10, 07 e S = 2, 74. Fazendo as suposies devidas, construa um intervalo de conana para a proporo de dias violentos (com pelo menos 12 ocorrncias). = 0, 05. 57

10. Numa pesquisa sobre sedentarismo deseja-se estimar a porcentagem de indivduos sedentrios numa certa populao. Numa amostra de 380 indivduos, 193 so sedentrios. (a) Identique e estime pontualmente o parmetro de interesse. (b) Calcule e interprete um intervalo de 95% de conana para o parmetro do item anterior. 11. Quando oito pessoas sofreram um episdio no explicado de intoxicao de vitamina D que exigiu hospitalizao, foi sugerido que essas ocorrncias no usuais poderiam ser resultado de suplementao excessiva de leite. Os nveis de clcio e albumina no sangue no momento da internao no hospital so exibidos abaixo, junto com os desvios padres. Clcio (mmol/L) 3,142 0,5101 Albumina (g/L) 40,375 3,021

X S

(a) Quai so as suposies necessrias para o clculo de intervalos de conana para clcio e albumina? (b) Construa um intervalo de 95% de conana para o nvel mdio verdadeiro de clcio de indivduos que sofreram a intoxicao de vitamina D. (c) Calcule um intervalo de 95% de conana para o nvel mdio verdadeiro de albumina desse grupo. 12. Numa cidade brasileira foi conduzido um estudo para avaliar se qualquer informao que esteja disponvel no momento do nascimento poderia ser usada para identicar crianas com alto risco de obesidade. Em uma amostra aleatria de 45 pr-escolares com alto risco de obesidade, quatro tiveram mes com mais de 12 anos de escolaridade. Construa um intervalo de 90% de conana para a proporo populacional de crianas com alto risco de obesidade cujas mes tiveram mais de 12 anos de escolaridade. 13. As distribuies das presses arteriais sistlica e diastlica para mulheres entre 30 e 34 anos tm distribuies normais de mdias desconhecidas. No entanto, seus desvios padres so 11,8 mmHg e 9,1 mmHg respectivamente. Uma amostra aleatria de 10 mulheres selecionada dessa populao. 58

(a) A presso arterial sistlica para a amostra 130 mmHg. Calcule e interprete um intervalo de 95% de conana para a verdadeira presso arterial sistlica mdia. (b) A presso arterial diastlica mdia para a amostra de tamanho 10 84 mmHg. Encontre e interprete um intervalo de 90% de conana para a verdadeira presso arterial diastlica mdia.

59

4.3

Teste de hiptese

A maior parte das anlises estatsticas envolve comparaes entre tratamentos ou procedimentos, ou entre grupos de indivduos. Existe tambm a comparao de uma caracterstica de um grupo com um valor numrico terico. Neste ltimo caso, o valor numrico correspondente comparao de interesse chamado de efeito, porm, quando a comparao entre dois grupos este efeito, ou diferena de efeitos, pode ser 0, o que signica que no existem diferenas entre os grupos comparados. Pode se denir uma hiptese, chamada de hiptese nula, H0 , que estabelece que o efeito zero. Adicionalmente, tem-se uma hiptese alternativa, H1 , que pode ser a de que o efeito de interesse no zero. A denio destas duas hipteses, que so complementares, importante j que elas determinaro os critrios para a tomada de deciso. Todo o procedimento de teste de hiptese est baseado na suposio de que a hiptese nula verdadeira. Se isto verdade ento espera-se que os dados conrmem a referida hiptese. Caso contrrio, o critrio de deciso previamente denido levar rejeio da hiptese nula o que implica na aceitao da hiptese alternativa. Se o parmetro de interesse for representado como e o efeito como 0 ento possvel denir uma dentre as 3 opes de hipteses: 1. H0 : = 0 contra H1 : 6= 0 2. H0 : 0 contra H1 : < 0 3. H0 : 0 contra H1 : > 0 No primeiro caso, a hiptese alternativa bilateral, observar que caso a hiptese nula for rejeitada, a hiptese alternativa leva a valores maiores ou menores a 0 . Nos outros dois casos, existe s uma alternativa, o verdadeiro valor do parmetro menor a 0 , hiptese alternativa unilateral esquerda, ou maior a 0 , hiptese alternativa unilateral direita. A denio das hipteses nula e alternativa demanda cuidado especial devido s conseqncias da deciso nal. recomendvel que esta denio seja feita previamente coleta dos dados. Uma vez denidas as hipteses necessrio um critrio para decidir qual das duas a verdadeira. Este critrio deve usar a informao amostral. Nas cincias biomdicas costume usar o valor p como um critrio de deciso, podendo ser calculado para qualquer teste. De forma alternativa ao valor p, pode ser denido um procedimento baseado na existncia de dois tipos de erros, um dos quais xado num valor arbitrrio levando denio de um critrio para decidir sobre a verdade da hiptese nula. Ambas alternativas so apresentadas a seguir. 60

4.3.1

Valor p

Tendo estabelecido as hipteses, avalia-se a probabilidade de obter os dados observados se a hiptese nula for verdadeira. Esta probabilidade chamada de valor p e calculada a partir de uma estatstica que funo dos dados e depende do parmetro em estudo e do teste usado. O critrio adotado para tomar uma deciso baseado ( uso do valor p o seguinte: no Resultado estatisticamente signicativo. valor p < 0, 05 = Rejeitar H0 valor p > 0, 05 =
(

Resultado estatisticamente no-signicativo. Aceitar H0

valor p = 0, 05 = No podemos concluir nada. Um resultado estatisticamente signicativo deve ser interpretado como a rejeio da hiptese nula.

4.3.2

Erros Tipo I e II

Depois de completado o procedimento de teste de hiptese, que leva a uma deciso sobre a hiptese nula, no existe total certeza sobre se foi tomada a deciso correta. Podem ser observados dois tipos de erro descritos na seguinte tabela: Aceitar H0 Rejeitar H0 H0 verdadeira XXX Erro Tipo I H0 falsa Erro Tipo II XXX O erro tipo I aparece quando se rejeita uma hiptese nula que verdadeira e o erro tipo II quando se aceita uma hiptese falsa. A probabilidade de cometer erro tipo I chamada de nvel de signicncia e representada por , enquanto que a probabilidade de cometer erro tipo II. Por outro lado, o poder do teste denido como a probabilidade de rejeitar uma hiptese falsa, representado por e pode ser comprovado que igual a 1 .

4.3.3

Procedimento geral de teste de hiptese

Uma forma alternativa ao valor p para a tomada de deciso sobre uma hiptese dada pelo procedimento geral que apresenta a seguinte seqncia de passos: 1. Identicar os parmetros de interesse e denir H0 e H1 mediante uma das trs alternativas apresentadas anteriormente. 2. Fixar o valor do nvel de signicncia, que est associado com o tamanho da regio crtica. costume usar os valores 0,01 ou 0,05. 61

Daqui em diante ser adotado o nvel de 0,05 sempre que no for denido qualquer outro valor. 3. Denir a estatstica de teste, Wcal . Para a maioria dos casos estudados aqui, ela ser denida em distribuies centradas no valor 0. 4. Denir o critrio de rejeio de H0 . Para isto, necessrio levar em considerao a hiptese alternativa. Se H1 unilateral esquerda, ento a regio crtica est representada na gura 4.1 e o critrio aceitar H0 se a estatstica de teste, Wcal , satisfazer a relao Wcal W.

Se H1 unilateral direita, ento a regio crtica est representada na gura 4.2 e o critrio aceitar H0 se a estatstica de teste, Wcal , satisfazer a relao Wcal W. Se H1 bilateral, ento a regio crtica est representada na gura 4.3 e o critrio aceitar H0 se a estatstica de teste, Wcal , satisfazer a relao W/2 Wcal W/2 .

5. Efetuar os clculos necessrios. 6. Tomar uma deciso sobre H0 .

62

Figura~4.1: Regio crtica para uma hiptese alternativa unilateral esquerda.

Figura~4.2: Regio crtica para uma hiptese alternativa unilateral direita.

63

Figura~4.3: Regio crtica para uma hiptese alternativa bilateral.

64

Captulo 5 Comparao de grupos: dados contnuos


5.1 Teste para a mdia de um nico grupo de observaes

A hiptese nula arma que os dados foram coletados de uma populao com distribuio Normal de mdia hipottica k e varincia desconhecida 2 . De forma geral, as hipteses so: H0 : >< k H1 : <> k Sendo assim, a estatstica de teste para denir o critrio de rejeio e para o clculo do valor p : xk tcal = t(n 1) S/ n que ser confrontada com um valor da distribuio t-Student com n1 graus de liberdade. Se a varincia da populao, 2 , for conhecida substitui-se S por 2 e usa-se a distribuio Normal padro no lugar da t-Student. Exemplo: Dispe-se do consumo dirio de energia de 11 mulheres saudveis e se pretende avaliar se elas esto consumindo, em mdia, o valor recomendado de 7725 kJ.

65

Mulher Consumo dirio (kJ.) 1 5260 2 5470 3 5640 4 6180 5 6390 6 6515 7 6805 8 7515 9 7515 10 8230 11 8770 Mdia 6753,6 Des.Pad. 1142,1 As hipteses a testar so: H0 : = 7725 H1 : 6= 7725 onde representa o consumo mdio dirio de energia. Assumindo que os dados tm distribuio Normal pode ser denido o critrio de aceitar a hiptese nula se 2, 2281 tcal 2, 2281. O clculo da estatstica de teste : tcal = 6753, 6 7725 = 2, 821 1142, 1/ 11

que ca fora da regio de aceitao e gera um valor p igual a 0,02 para a hiptese bilateral. Tanto a estatstica de teste quanto o valor p levam rejeio da hiptese nula, concluindo-se que o consumo mdio das mulheres em estudo signicativamente diferente do recomendado.

5.1.1

Teste do sinal e teste de Wilcoxon

Se no existe diferena em mdia entre os valores amostrais e o valor hipottico deve ser esperado que o nmero de observaes acima e abaixo desse valor seja igual. Esta idia usada pelo teste do sinal. O teste mencionado anteriormente s leva em conta se uma observao est acima ou abaixo de um valor hipottico, sem levar em considerao a distncia entre cada valor observado e o valor hipottico. Isto corrigido pelo teste de Wilcoxon. Ambos testes, o do sinal e de Wilcoxon, so testes no-paramtricos porque no fazem suposio alguma sobre a distribuio dos dados e so 66

utilizados quando necessrio testar uma mdia e os dados no apresentam distribuio Normal. De forma geral, estes testes so mais ecientes quando usados em pequenas amostras.

5.2

Teste para as mdias de dois grupos de observaes pareadas

A hiptese bsica que ambos grupos de observaes tm nvel mdio semelhante. Assume-se, tambm, que os dados tm distribuio Normal, porm ambos grupos no so independentes. Para dados pareados o interesse est na diferena mdia entre observaes. Estes dados pareados geralmente aparecem quando so realizadas duas medies nos mesmos indivduos, medies estas que so feitas em dois instantes diferentes ou por dois meios diferentes. As hipteses so: H0 : 1 >< 2 H1 : 1 <> 2 onde 1 e 2 so as mdias populacionais dos grupos 1 e 2. A estatstica de teste ser: t= d t(n 1) Sd / n

onde d a diferena mdia e Sd o desvio padro das diferenas. Exemplo: A tabela a seguir mostra o consumo energtico pr e psmenstrual de 11 mulheres. Consumo dirio (kJ) Mulher Pr-menstrual Ps-menstrual Diferena 1 5260 3910 1350 2 5470 4220 1250 3 5640 3885 1755 4 6180 5160 1020 5 6390 5645 745 6 6515 4680 1835 7 6805 5265 1540 8 7515 5975 1540 9 7515 6790 725 10 8230 6900 1330 11 8770 7335 1435 Mdia 6753,6 5433,2 1320,5 Des.Pad. 1142,1 1216,8 366,7 67

Deseja-se provar que o consumo pr-menstrual maior. As hipteses de interesse so: H0 : pr = ps e o H1 : pr > ps . e o onde pr e ps so os consumos mdios pr e ps-menstrual. A hiptese de e o interesse para o exemplo a alternativa e, assumindo normalidade dos dados, dene-se o critrio de aceitar a hiptese nula se tcal 1, 8125. A estatstica de teste calculada : 1320, 5 0 = 11, 94 tcal = 366, 7/ 11 O que leva a rejeitar a hiptese nula, concluindo-se que o consumo prmenstrual signicativamente maior. O valor p igual a 0,0000002.

5.3

Teste para as mdias de dois grupos independentes

Provavelmente as anlises estatsticas mais comuns consideram a comparao de dois grupos de observaes independentes. O interesse est na diferena mdia entre grupos, porm, a variabilidade de cada grupo considerada importante. Aqui, o teste assume que os dois grupos de observaes so obtidos de populaes com distribuio Normal e com varincias semelhantes, caso esta ltima suposio no for verdadeira tero que ser feitos ajustes na estatstica de teste. As hipteses so: H0 : 1 >< 2 H1 : 1 <> 2 onde 1 e 2 so as mdias populacionais dos grupos 1 e 2. A estatstica de teste est denida como: tcal = Sx1 x2 = x1 x2 t(n1 + n2 2) Sx1 x2

2 2 (n1 1)S1 + (n2 1)S2 1 1 + n1 + n2 2 n1 n2

Exemplo: As porcentagens de alfa 2 globulina de 13 pessoas com baixo peso e 9 obesas aparecem na tabela a seguir. Comparar o nvel mdio desta protena em ambos os grupos.

68

Baixo-peso Obeso n1 = 13 n2 = 9 6,13 8,79 7,05 9,19 7,48 9,21 7,48 9,68 7,53 9,69 7,58 9,97 7,90 11,51 8,08 11,85 8,09 12,79 8,11 8,40 10,15 10,88 Mdia 8,066 10,298 Des.Pad. 1,238 1,398 As hipteses do problema so: H0 : BP = Obeso H1 : BP 6= Obeso . onde BP e Obeso so as porcentagens mdias de alfa 2 globulina entre os indivduos com baixo peso e obesos respectivamente. Fazendo as suposies de normalidade necessrias tem-se que o critrio de deciso sobre a hiptese nula aceitar H0 se 2, 0860 tcal 2, 0860. O clculo da estatstica resulta em: tcal = r
121,2382 +81,3982 13+92

8, 066 10, 298

1 13

1 9

= 3, 95

O valor p 0, 0001 e, assim como pelo critrio denido para a estatstica tcal , rejeita-se a hiptese de que a porcentagem mdia de alfa 2 globulina semelhante entre indivduos com baixo peso e obesos.

5.3.1

Teste de Mann-Whitney

Este teste anlogo ao apresentado, porm utilizado para comparar duas mdias independentes quando os dados no tm distribuio Normal. Ele similar ao teste Wilcoxon.

69

5.4

Comparao de mais de duas mdias independentes

Uma alternativa para poder comparar mais de duas mdias realizar tantos testes t quanto pares de mdias sejam possveis, porm, existem vrios mtodos que fazem uma comparao simultnea das mdias, entre outros tem-se Newman-Keuls, Duncan, Sche, Kruskal-Wallis, cada um com caractersticas especcas. Uma alternativa paramtrica usar a anlise de varincia (ANOVA), que de forma geral permite estudar e identicar a signicncia do efeito de diversos fatores sobre uma varivel resposta.

5.5

Testes de normalidade

Os testes desenvolvidos anteriormente supem que os dados seguem uma distribuio Normal, portanto necessrio testar se esta suposio verdadeira antes de aplic-los. Alguns testes que tm por objetivo vericar se os dados seguem uma determinada distribuio, que pode ser a Normal, so: teste 2 , teste de Kolmogorov-Smirnov, teste da divergncia de Kullback-Liebler, entre outros.

5.6

Exerccios

1. Para decidir se os habitantes de uma ilha so descendentes da civilizao A ou B, ir se proceder da seguinte forma: selecionar uma amostra de 100 moradores adultos da ilha, e determinar a altura mdia deles; se essa altura mdia for superior a 176 cm, ser armado que so descendentes de B; caso contrrio, so descendentes de A. Os parmetros das alturas das duas civilizaes so: A: = 175 e = 10 B: = 177 e = 10 Dena o erro tipo I e o erro tipo II em funo do contexto do problema. 2. Fazendo o teste H0 : = 1150 ( = 150) H1 : = 1200 ( = 200) e n = 100, estabeleceu-se o critrio de rejeitar H0 se X 1170. Assumindo normalidade dos dados qual a probabilidade de rejeitar H0 70

quando verdadeira? Qual a probabilidade de aceitar H0 quando falsa? Para resolver este exerccio, levar em considerao que se se coleta uma amostra aleatria de tamanho n de uma populao que tem distribuio normal de mdia e varincia 2 , ento a mdia amostral X tem distribuio tambm normal com a mesma mdia e varincia igual a 2 /n. 3. O atual tempo de travessia com catamars entre Niteri e Rio de Janeiro considerado uma varivel aleatria com distribuio Normal de mdia 10 minutos e desvio padro 3 minutos. Uma nova embarcao vai entrar em operao e descona-se que ser mais lenta que as anteriores, isto , haver aumento no tempo mdio de travessia. (a) Especique as hiptese em discusso. (b) Interprete os erros tipo I e tipo II segundo o problema em estudo. (c) Para uma amostra de 20 tempos de travessia com a nova embarcao, obtenha a regio crtica como funo da mdia amostral considerando um nvel de signicncia de 0,05, usando o resultado terico apresentado na questo anterior. (d) Calcule se a nova embarcao demora, em mdia, 2 minutos a mais que os catamars para completar a travessia. 4. Um pesquisador deseja estudar o efeito de certa substncia no tempo de reao de seres vivos a um certo tipo de estmulo. Um experimento desenvolvido em 10 cobaias, que so inoculadas com a substncia e submetidas a um estmulo eltrico, com seus tempos de reao (em segundos) anotados. O tempo mdio foi 9,1 segundos. Admite-se que o tempo de reao segue, em geral, o modelo Normal com mdia 8 e desvio padro 2 segundos. O pesquisador descona, entretanto, que o tempo mdio sofre uma alterao por inuncia da substncia. Neste caso, as hipteses de interesse so: H0 : as cobaias apresentam tempo de reao padro; H1 : as cobaias tm o tempo de reao alterado. (a) Determine a regio crtica, em funo da mdia amostral, para = 0, 06. (b) Calcular para a mdia igual a 9,0 segundos como valor da hiptese alternativa. 5. O tempo mdio, por funcionrio, para executar uma tarefa num restaurante, tem sido 100 minutos, com desvio padro de 15 minutos. Introduziuse uma modicao para diminuir esse tempo, e, aps certo perodo sorteou-se uma amostra de 16 funcionrios, medindo-se o tempo de execuo de cada um. O tempo mdio da amostra foi 85 minutos, e 71

o desvio padro foi 12 minutos. Estes resultados trazem evidncias estatsticas da melhora desejada? Conclua para = 0, 05. 6. Assumir que o nvel mnimo de referncia de creatinina em adultos 0,5 mg/dL. Acredita-se que numa certa populao esses nveis sejam inferiores, o que caracteriza decincia de creatinina. Para testar isto coletada uma amostra de 46 pessoas que fornecem nvel mdio de 0,46 mg/dL com desvio padro 0,02 mg/dL. Assuma que os nveis de creatinina tm distribuio normal para testar a hiptese anterior usando um nvel de 0,01. 7. Um estudo foi desenvolvido para avaliar o salrio de estagirios em reas de Nutrio numa cidade brasileira. Foram sorteados e entrevistados 200 estagirios. Admita que o desvio padro dessa varivel na cidade de 0,8 salrios mnimos. Teste, para =0,05, se a mdia igual a 3 salrios mnimos, ou menor, se a amostra forneceu mdia de 2,5 salrios mnimos. 8. O tempo mdio para completar uma prova de inferncia estatstica no semestre anterior foi uma hora e trinta minutos com desvio padro de vinte minutos. Uma turma de 45 alunos deste semestre fez a mesma prova e obteve mdia de uma hora e sete minutos com desvio padro de 20,56 minutos. Assumindo que o tempo para completar a prova tem distribuio Normal, prove se a turma deste semestre signicativamente mais rpida. =0,01. 9. A distribuio da presso arterial diastlica para a populao de mulheres com um determinado distrbio alimentar tem mdia desconhecida e desvio padro igual a 9,1 mmHg. Pode ser til para os mdicos saber se a mdia desta populao igual presso diastlica mdia da populao geral de mulheres, que 74,4 mmHg. (a) Quais so as hipteses nula e alternativa apropriadas? (b) Uma amostra de 10 mulheres com o referido distrbio tem mdia 84 mmHg. De posse dessa informao, conduza um teste ao nvel 0,05 para as hipteses do item anterior. Que concluso voc extrai dos resultados do teste? (c) Sua concluso teria sido diferente se voc tivesse escolhido = 0, 01 em vez de 0,05? 10. A porcentagem anual mdia da receita municipal empregada em alimentao escolar em pequenos municpios de um Estado tem sido 8% (admita que esse ndice se comporte segundo um modelo Normal). O

72

governo pretende melhorar esse ndice e, para isso, ofereceu alguns incentivos. Para vericar a eccia dessa atitude, sorteou 10 cidades e observou as porcentagens investidas no ltimo ano. Os resultados foram (em porcentagem) x = 10, 6 e S = 2, 41. Os dados trazem evidncia de melhoria, ao nvel de = 0, 05? Caso altere a mdia, d um intervalo de 95% de conana para a nova mdia. 11. O tempo que as pessoas gastam no site orkut.com segue uma distribuio Normal. Existem suspeitas de que os alunos de cincias humanas cam conectados no referido site mais tempo do que os alunos de cincias biomdicas. Para testar esta hiptese foi feito um estudo de corte transversal que forneceu os seguintes resultados para o tempo semanal, em horas, gasto no site: No alunos X S Humanas 36 12,5 3,0 Biomdicas 31 10,1 1,2 (a) Estimar o tempo mdio semanal gasto no site pelos alunos da sua rea usando um intervalo de 98% de conana. (b) Testar, para =0,025, a hiptese levantada sobre o tempo mdio semanal nos alunos das duas reas assumindo que as varincias dos dois grupos so semelhantes. 12. Para determinar como uma dose experimental de anestesia afeta homens e mulheres, uma amostra de 15 homens e 17 mulheres foi selecionada aleatoriamente em uma clnica odontolgica e seus tempos de reao (em minutos) registrados. As seguintes estatsticas resumem os dados: Homens Mulheres Mdia 4,8 4,4 Desvio padro 0,8 0,9 Usando = 0, 05, teste se existe diferena signicativa entre os tempos de reao de homens e mulheres. 13. Um nutricionista est interessado em saber se h diferena entre os nveis de uma certa protena do sangue em dois grupos tnicos diferentes. Ele escolhe aleatoriamente 18 indivduos e compara os nveis da referida protena na amostra de 10 indivduos do grupo tnico A e 8 do grupo B. A seguinte tabela fornece os resultados medidos em mol/litro. Com esses dados, testar a hiptese de que no h diferena entre os grupos tnicos no que diz respeito aos nveis da protena estudada. Quais so as suposies necessrias para realizar o teste? 73

Grupo A Grupo B Mdia 4,3 5,0 Desvio padro 1,49 1,69 14. Oito pacientes com diabete tm medido o nvel de glucose no plasma (mmol/l) antes e uma hora depois da administrao oral de 100g. de glucose, com os seguintes resultados: Glucose no plasma (mmol/l) Paciente Antes Depois Mudana 1 4,67 5,44 -0,77 2 4,97 10,11 -5,14 3 5,11 8,49 -3,38 4 5,17 6,61 -1,44 5 5,33 10,67 -5,34 6 6,22 5,67 0,55 7 6,50 5,78 0,72 8 7,00 9,89 -2,89 Mdia 5,62 7,83 -2,211 D. Padro 0,838 2,204 2,362 Existem evidncias signicativas de aumento da glucose? 15. Num exame de leitura em uma escola de ensino fundamental, a nota mdia de 32 meninos foi 72, com desvio padro de 8, e a nota mdia de 36 meninas foi 75, com desvio padro de 6. Teste a hiptese de que as meninas acusam melhor rendimento na leitura do que os meninos, ao nvel de signicncia de 0,05. 16. Para vericar a importncia de uma determinada campanha de propaganda nas vendas de certo produto de uma marca de laticnios foram registradas as vendas semanais antes e depois da referida campanha. Estas vendas aparecem na tabela a seguir. Qual seria sua concluso sobre a ecincia da campanha? Assumir que as vendas tm distribuio Normal e usar = 0, 05. Loja Antes Depois 1 13 16 2 18 24 3 14 18 4 16 14 5 19 26 6 12 17 7 22 29 74

17. O nmero de horas extras trabalhadas por 20 funcionrios de um frigorco, antes e depois de implantada uma campanha de incentivos, aparece na tabela a seguir. Diga se a mencionada campanha que otorgava aumento do pagamento das horas extras, conseguiu resultados signicativos. Assuma que as horas extras tm distribuio Normal e utilize um nvel de signicncia de 0,05. Antes Depois Antes Depois 0.4 0.4 11 0.6 12.2 0.4 0.5 12 0.7 1.1 0.4 0.5 13 0.7 1.2 0.4 0.9 14 0.8 0.8 0.5 0.5 15 0.9 1.2 0.5 0.5 16 0.9 1.9 0.5 0.5 17 1.0 0.9 0.5 0.5 18 1.0 2.0 0.5 0.5 19 1.6 8.1 0.6 0.6 20 2.0 3.7

1 2 3 4 5 6 7 8 9 10

18. Nove indivduos do sexo masculino, sadios, com idade mdia de 21 anos participaram voluntariamente de uma pesquisa cujo objetivo era vericar se a alcalose respiratria, induzida por hiperventilao voluntria, aumenta a capacidade fsica avaliada pelo tempo de corrida de 800 metros. Neste estudo, os nove indivduos participaram da corrida de 800 metros em dois momentos: um deles em condies normais (sem hiperventilao) e no outro aps a hiperventilao voluntria. Os dados em segundos esto apresentados a seguir: Hiperventilao Com Sem Diferena 154,3 153,8 0,5 10,2 9,9 4,0

X S

(a) Expresse em termos estatsticos as hipteses de interesse a serem testadas. (b) Teste as hipteses estabelecidas anteriormente ao nvel de signicncia de 0,05. Apresente suas concluses. 19. Deseja-se comparar a qualidade de um alimento industrializado por dois processos diferentes. Um dos itens avaliados o comprimento, em centmetros, do referido produto. Com os dados da seguinte tabela voc concluiria que os dois processos so semelhantes quanto ao comprimento? 75

n X S

Processo A Processo B 21 16 21,15 21,12 0,203 0,221

20. Um estudo foi conduzido para determinar se a fumaa de cigarro de uma gestante tem efeito no contedo mineral sseo da criana por ela gerada. Uma amostra de 77 recm-nascidos cujas mes fumaram durante a gravidez tem um contedo mineral mdio sseo de 0,098 g/cm e desvio padro 0,026 g/cm; uma amostra de 161 bebs cujas mes no fumavam tem mdia 0,095 g/cm e desvio padro 0,025 g/cm. Assumir que os dados tm distribuio normal e as varincias das populaes originais sejam semelhantes. (a) Estabelea as hipteses nula e alternativa para o teste correspondente. (b) Conduza o teste das hipteses do item anterior ao nvel de signicncia 0,05. O que se conclui?

76

Captulo 6 Comparao de grupos: dados categricos


Em uma amostra de indivduos, o nmero deles que apresenta uma determinada caracterstica chamado de freqncia, mas esta quantidade tambm pode ser estudada como uma proporo. Assim, inferncia sobre dados categricos pode ser tratada como inferncia sobre propores.

6.1

Uma nica proporo

O caso mais simples a se considerar quando tem-se um nico grupo de indivduos, e observa-se que uma certa proporo apresenta uma caracterstica particular. O que pode ser dito sobre a proporo com essa caracterstica na populao? Para responder a isto so denidas as hipteses: H0 : p >< p0 H1 : p <> p0 onde p a proporo de indivduos com a caracterstica de interesse e p0 uma constante numrica adequada. usada uma estatstica proveniente da distribuio Normal: zcal = q
b p p0
p0 (1p0 ) n

N(0, 1)

desde que o tamanho de amostra seja sucientemente grande. Diversos autores consideram n 30. Exemplo: Supor que uma residente escolheu uma amostra de 215 mulheres entre as tratadas pela unidade onde ela trabalha, e achou 39 casos com histrico de asma. Ela deseja usar esta evidncia para testar a hiptese de

77

que a prevalncia de asma em mulheres de 15%. Assim, as hipteses so: H0 : p = 0, 15 H1 : p 6= 0, 15 onde p a proporo de mulheres com asma, aqui chamada de prevalncia. Neste problema, o critrio leva a aceitar H0 se 1, 96 zcal 1, 96. A estatstica de teste : zcal =
39 0, 15 215 q 0,150,85 215

= 1, 23

levando a aceitar a hiptese inicial de que a prevalncia de mulheres com asma de 15%. O valor p 0,22.

6.2

Propores em dois grupos independentes

Quando se deseja comparar a proporo de indivduos com uma caracterstica em duas populaes independentes, as hipteses tm a forma: H0 : p1 >< p2 H1 : p1 <> p2 e a estatstica usada nesta situao :
b b p1 p2 zcal = r 1 b b p (1 p) n1 + b p =

1 n2

N(0, 1)

r1 + r2 n1 + n2

sendo r1 e r2 o nmero de vezes que se observa a caracterstica de interesse b b nas amostras dos grupos 1 e 2, p1 e p2 as propores observadas nas amostras 1 e 2. Exemplo: Os dados vm de um ensaio clnico que compara a estimulao por infra-vermelho (IRS) com um placebo (estimulao eltrica transcutnea simulada) na dor causada por osteoartrose cervical, sem identicao, pelo paciente, do tratamento recebido. Participaram do ensaio 250 pacientes. Dos 120 pacientes no grupo IRS, 90 deles relataram melhora na dor, comparado com os 40 dentre os 130 que receberam o placebo. Testar se existem diferenas atribudas estimulao. As hipteses so: H0 : pIRS = pP lacebo H1 : pIRS > pP lacebo 78

onde pIRS e pP lacebo so as propores de pacientes que relataram melhora na dor nos grupos IRL e placebo. A hiptese nula ser aceitada se zcal 1, 64. A estatstica de teste :
90 40 130 120 zcal = r 1 0, 52 0, 48 120 +

1 130

com a qual rejeta-se a hiptese nula, concluindo que a proporo de pacientes que relatam melhora na dor signicativamente maior no grupo IRL. O valor p igual a 0,014.

b sendo p =

90 + 40 = 0, 52 120 + 130

= 2, 21

6.3

Duas propores em amostras pareadas

Neste caso o interesse continua sendo a comparao de duas propores, de forma que as hipteses so: H0 : p1 >< p2 H1 : p1 <> p2 Porm, para comparar duas propores para dados pareados necessrio obter informao adicional que pode ser resumida no seguinte quadro: Caracterstica observada Nmero de Amostra 1 Amostra 2 pares Sim Sim a Sim No b No Sim c No No d A estatstica de teste est denida como: bc zcal = b+c onde b o nmero de vezes que foi observada a caracterstica na amostra 1 e no foi observada na amostra 2 e c o nmero de vezes que no foi observada a caracterstica na amostra 1 e foi observada na amostra 2. Exemplo: Em um estudo para avaliar dois reagentes para um exame clnico que detecta uma toxina foram coletadas amostras de sangue de 105 pessoas portadoras da referida toxina. Cada amostra subdividida em duas e cada uma destas recebe um nico reagente, anotando se houve ou no reao positiva. Os resultados aparecem a seguir: 79

Reagente 1 Reagente 2 Positivo Negativo Positivo 51 6 Negativo 15 33 Existem diferenas entre as propores de reaes positivas para os dois reagentes? As hipteses so: H0 : p1 = p2 H1 : p1 6= p2 onde p1 e p2 so as propores de reaes positivas para os reagentes 1 e 2 respectivamente. Estas propores so tambm conhecidas como sensibilidades. O critrio aceitar a hiptese nula se 1, 96 zcal 1, 96. A estatstica de teste 15 6 z= = 1, 964 15 + 6 que leva a rejeitar a hiptese nula, resultando num valor p de 0,0495.

6.4

Teste 2

Este teste tem diversos usos, o mais comum para comprovar a relao existente entre dois fatores em tabelas de duas entradas. Em uma tabela 2 k (k > 2) ele permite comparar as propores de indivduos com uma caracterstica de interesse nos k grupos denidos na tabela; caso a hiptese nula de igualdade das propores for aceita conclui-se que a caracterstica de interesse no est relacionada com o fator que determinou os k grupos, o que implica que eles so independentes. Este teste utiliza a distribuio 2 . As hipteses possveis so: H0 : p1 = p2 = = pk H1 : pelo menos uma proporo diferente ou, de forma geral para uma tabela l k, H0 : Os fatores que determinam linhas e colunas so independentes H1 : Existe alguma relao entre os fatores. Como exemplo desta utilizao do teste 2 , ser estudada a relao entre o estado civil e o consumo de cafena em 3888 homens cujos resultados aparecem a seguir: 80

Consumo de cafena (mg/dia) Estado civil 0 1-150 151-300 >300 Total Casado 652 1537 598 242 3029 Divorciado, separado 36 46 38 21 141 ou vivo Solteiro 218 327 106 67 718 Total 906 1910 742 330 3888 necessrio calcular as freqncias esperadas para cada um dos valores na tabela. Para os casados sem consumo dirio de cafena esta freqncia calculada como: 3029 906 = 705, 8 3888 para obter a seguinte tabela de freqncias esperadas: Consumo esperado de cafena (mg/dia) Estado civil 0 1-150 151-300 >300 Total Casado 705,8 1488,0 578,1 257,1 3029 Divorciado, separado 32,9 69,3 26,9 12,0 141 ou vivo Solteiro 167,3 352,7 137,0 60,9 718 Total 906 1910 742 330 3888 Com estas duas tabelas calculada a estatstica de teste que, de forma geral, : 2 = cal
X

(Observado Esperado)2 2 ((r 1) (c 1)) Esperado

onde Observado o valor realmente observado obtido da primeira tabela e Esperado o correspondente valor de freqncia esperada, r o nmero de linhas na tabela e c o nmero de colunas. Para o exemplo, o critrio de deciso de aceitar a hiptese nula de independncia entre estado civil e consumo de cafena se 2 12, 5916. cal Com 2 = 51, 61 que, com 6 graus de liberdade gera um valor p igual cal a 0,000000002, conclui-se que existem evidncias da relao entre o estado civil e o consumo de cafena.

6.5

Exerccios

1. Deseja-se provar a hiptese de que a proporo de hipertensos menor entre os pacientes em uso de um novo medicamento, chamado Redutopril, comparados com os que usam o medicamento lder do mercado chamado Hiperpril. Em funo do problema apresentado dena: 81

(a) As hipteses nula e alternativa. (b) Erros tipo I e II. 2. Testes exaustivos realizados por uma indstria de fabricao de fornos para padarias indicam que seu forno de microondas tem probabilidade 0,1 de apresentar a primeira falha antes de 900 horas de uso. Um novo mtodo de produo est sendo implantado e os engenheiros garantem que a probabilidade acima indicada deve diminuir. Com o objetivo de vericar essa armao, escolheu-se aleatoriamente 100 aparelhos para realizar testes acelerados e os resultados indicaram que 8 deles tiveram sua primeira falha antes de 900 horas. Formule as hipteses adequadas e verique se os engenheiros tm razo, considerando um nvel de signicncia de 0,05. 3. Os produtores de um programa de culinria na TV pretendem modiclo se for assistido regularmente por menos de um quarto dos telespectadores. Uma pesquisa encomendada a uma empresa especializada entrevistou 400 famlias e adotou o critrio de rejeitar a hiptese nula de no-alterao do programa caso a proporo amostral de famlias telespectadoras seja menor a 0,2. Sabendo que, para n sucientemente b grande, tem-se que p N(p, p(1 p)/n). (a) Calcular o nvel de signicncia do teste. (b) Calcular o poder da prova se, na verdade, a proporo igual a 0,15.

4. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das unidades fabricadas apresentam defeito. Para conrmar sua acusao ele usou uma amostra de tamanho 50, onde 27% das peas eram defeituosas. Mostre se estas evidncias amostrais conrmam a acusao do consumidor. Utilize = 0, 05. 5. Assumir que um procedimento de diminuio do peso considerado aceitvel se pelo menos 80% dos indivduos conseguem diminuir 10% de seu peso em 90 dias. Um pesquisador submete 480 pessoas a um novo procedimento e obtm o resultado desejado em 360 pessoas. (a) Identicar e estimar o parmetro de interesse. (b) Testar, ao nvel de 0,05, a hiptese de que o novo procedimento de diminuio do peso aceitvel. 6. Uma empresa de comercializao de alimentos promoveu um curso novo e melhorado destinado a treinar seu pessoal de vendas. Foram escolhidos 100 candidatos que foram divididos em dois grupos : 50 freqentaram o curso usual e 50 freqentaram o curso novo. Ao m de 6 82

semanas, todos os 100 candidatos foram submetidos ao mesmo exame nal. Teste a hiptese de que o novo curso no apresentou mudana alguma em relao ao curso usual no que diz respeito ao treinamento do pessoal de vendas. O que seus resultados indicam? Habilidades Usual Novo/melhorado Acima mdia 15 19 Mdia 25 23 Abaixo mdia 10 8 7. O fabricante de um determinado remdio alega que o mesmo acusou 90% de ecincia em aliviar a alergia por um perodo de 8 horas. Em uma amostra de 200 indivduos que sofriam de alergia, o remdio deu resultado positivo em 160. Determine se a alegao do fabricante legtima. Use = 0, 01. 8. Um pesquisador est interessado na diferena de sexos com relao a opinio sobre adicionar antioxidantes nos alimentos comercializados por certa empresa. Pesquisando uma amostra de 100 homens e 80 mulheres, constatou que 36% dos homens e 40% das mulheres so favorveis referida adio. Teste a signicncia da diferena entre os sexos com relao a adicionar antioxidantes nos referidos alimentos. 9. Um estudo foi conduzido para avaliar a eccia relativa de suplementao com clcio versus o calcitrol (agente que aumenta a absoro gastrointestinal do clcio), no tratamento da osteoporose depois da menopausa. Vrias pacientes retiraram-se prematuramente desse estudo, devido aos efeitos adversos do tratamento. Os dados relevantes sobre a retirada da pesquisa aparecem abaixo: Retirada Tratamento Sim No Total Calcitrol 27 287 314 Clcio 20 288 308 Total 47 575 622 (a) Calcule a proporo da amostra de pacientes que se retiram do estudo em cada grupo de tratamento. (b) Teste a hiptese nula de que no h associao entre o grupo de tratamento e sua retirada do estudo ao nvel de 0,05.

83

10. Suspeita-se que exista relao entre a diculdade de aprendizagem de crianas em idade escolar e a prematuridade ao nascer. Para testar esta hiptese foram coletadas informaes de 52 crianas na referida faixa etria, obtendo-se os seguintes resultados: Diculdade de aprendizagem Muita Normal Facilidade Prematuro 5 2 7 No-prematuro 1 31 6 A suspeita conrmada pelos dados coletados? Usar =0,01. 11. A pedido de um laboratrio qumico, dois mtodos de diagnstico de um distrbio neurolgico chamados A e B e considerados baratos, so avaliados em 70 pacientes sabidamente portadores do distrbio, obtendo-se os seguintes resultados: Diagnstico B Diagnstico A Positivo Negativo Positivo 40 15 Negativo 10 5 Como o laboratrio requerente produz o kit de diagnstico A, ele arma que o seu kit mais sensvel. A armao do laboratrio conrmada pelas evidncias amostrais? Usar =0,05. 12. Setenta e cinco camundongos recebem uma droga que estimula a absoro de um determinado nutriente no intestino, e outros setenta e cinco no a recebem. Depois de 25 dias de alimentao, todos os camundongos so analizados com relao ao nvel de absoro intestinal do referido nutriente, sendo classicados em absoro completa ou absoro parcial, obtendo-se os seguintes resultados: Absoro Com droga Sem droga Completa 60 51 Parcial 15 24 Total 75 75 Prove se a droga aumenta a habilidade dos camundongos para conseguir absoro completa do nutriente, = 0, 05.

84

13. Num torneio de voleibol, a recuperao energtica dos jogadores aps uma partida importante. Um grupo de nutricionistas desenvolveu um cardpio com o objetivo de melhorar a referida recuperao. Foram observados 68 times submetidos ao referido cardpio e 85 sem tratamento especial obtendo-se os seguintes resultados: Recuperao Cardpio especial energtica Sim No Conseguiram 53 42 No conseguiram 15 43 Testar, para um nvel de 0,05, a ecincia do trabalho dos nutricionistas. 14. Cinquenta amostras de saliva sabidamente positivas para o bacilo da tuberculose foram colocadas em duas diferentes culturas ou meios de deteco (A e B). O objetivo do experimento era a comparao destes meios na deteco do bacilo. Os resultados esto resumidos na tabela abaixo: Meio A Meio B Detectou No detectou Detectou 20 12 No detectou 2 16 Existe evidncia de que os meios ou culturas sejam diferentes? ( = 0, 05) 15. Numa pesquisa de opino pblica 1000 homens e 1000 mulheres foram entrevistados sobre a posio acerca do aborto. Entre as mulheres 356 manifestaram-se contra a legalizao do aborto, enquanto que 515 homens tiveram a mesma posio. Existe diferena signicativa entre os dois sexos quanto opinio sobre a legalizao do aborto? ( = 0, 05) 16. Para estudar as diculdades de dormir dos usurios de maconha, foi planejado o seguinte experimento: 64 pessoas foram colocados para dormir separadas em duplas, cada dupla em um quarto, de forma que estas foram formadas por um usurio de maconha e um no usurio, chamado de controle, foi registrado se cada indivduo teve, ou no, diculdades para dormir. Usando os dados a seguir, prove se existem evidncias de que a porcentagem de usurios de maconha com diculdades para dormir maior do que no grupo controle. Use =0,05.

85

Diculdades para dormir Grupo Maconha Grupo Controle Sim Sim Sim No No Sim No No

Nmero de duplas 4 3 9 16

17. Observou-se nos anos 60 que a ocorrncia de abortos espontneos nas gestaes de mdicas anestesistas era mais alta do que o normal. Para vericar se esta observao reetia ou no uma condio geral, realizouse em 1970 um estudo em um hospital universitrio. Foram encontrados os seguintes resultados: Especialidade Anestesista Outra Total Gestao normal 23 52 75 Aborto espontneo 14 6 20 Total 37 58 95 (a) Escolha a hiptese nula e a alternativa que sejam razoveis nesta situao. (b) Faa o teste adequado considerando um nvel de signicncia de 0,05. Qual sua concluso? 18. Uma consulta a 300 eleitores do distrito A e 200 eleitores do distrito B acusou 56% e 48%, respectivamente, a favor de determinado candidato. Para = 0, 05, teste a hiptese de que: (a) no exista diferena entre os dois distritos, (b) o candidato tenha preferncia maior no distrito A. 19. Um radialista, considerando uma alterao na programa o de sua emissora, coleta dados sobre as preferncias de vrios grupos etrios de ouvintes. Com a seguinte tabulao cruzada, teste a hiptese de que a preferncia pelo tipo de programa no difere por grupo etrio. Preferncia Jovem Meia-idade Adulto mais velho Msica 14 10 3 Noticirio 4 15 11 Esporte 7 9 5 Quadro

86

20. Um nutricionista que implementou o Manual de Boas Prticas em 3 restaurantes deseja conhecer se houve diferenas nas melhoras perceptveis decorrentes do uso do manual nos 3 restaurantes. Para isto entrevista amostras independentes de freqentadores dos 3 restaurantes perguntando se eles esto satisfeitos com as mudanas ocorridas. Os resultados obtidos aparecem na seguinte tabela: Satisfeitos Insatisfeitos 50 50 80 20 40 60

Rest. 1 Rest. 2 Rest. 3

(a) Dena as hipteses necessrias. (b) Teste para um nvel de 0,05 as hipteses do item anterior.

87

Apndice A Respostas selecionadas


(Cap. 1) 3 (a) Categrico nominal. (b) Numrico discreto (dias, meses). (c) Numrico discreto. (d) Categrico nominal se as observaes so baixo, mdio e alto, numrico se so consideradas as medies. (e) Categrico dicotmico. (f) Numrico contnuo. 4 Estudo experimental. 5 Estudo observacional de corte transversal. (Cap. 2) 5 S = 0,623 e Me =2,82. 6 (a) Varivel numrica contnua. (b) Estudo observacional de corte transversal. (c) Me = 3371,9 g, X = 3349,5 g. (d) S = 615,1 g. 7 (b) Me = 195. 8 (a) Nmero de quilmetros que os pacientes conseguem caminhar. Varivel numrica contnua. (b) Mdia = 4,79 km. (c) Me = 3,65 km. (d) S = 3,63 km. 9 (a) Dado censurado. (c) X =1046,76 Me = 960. (Cap. 3) 1 (a) 0,0. (b) 0,8. (c) 0,0 (d) 0,7. 2 (a) 0,85. (b) 0,45. (c) 0,9. (d) 0,2. 3 0,75. 5 (a) 0,89. (b) 0,95. (c) 0,28. (d) 0,50. 6 (a) 0,34. (b) 0,18. 7 0,73. 11 (a) 0,004661. (b) 0,954467. (c) -0,84. 13 (a) 0,072145. (b) 0,796498. 14 (a) 0,02275. (b) 0,9545. (Cap. 4) 1 Conf (148, 37 151, 63) = 95%. 88

2 Conf (7, 22 7, 78) = 95%. 4 Conf (5, 52 6, 88) = 90%.

3 Conf (23, 28 24, 52) = 99%.

5 (a) Conf (117, 68 122, 32) = 95%. (b) Aumentar n ou diminuir o nvel de conana. 6 Conf (0, 3886 p 0, 4114) = 98%. 7 Conf (0, 4525 p 0, 6475) = 95%. 9 Conf (0, 162 p 0, 495) = 95%. 2 = 0, 091759 e = 0, 066807. 3 (a) H0 : = 10, H1 : > 10. (b) Erro tipo I: Armar que a embarcao ser mais lenta quando na verdade to rpida quanto a anterior. Erro tipo II: Armar que a embarcao ser to rpida quanto a anterior quando na verdade mais lenta. (c) Rejeitar H0 se X > 11, 31. (d) 0,151505. 4 (a) Regio crtica: X > 9, 19 ou X < 6, 81. (b) 0,617641. 5 Sim. 7 Rejeitar H0 . 8 Rejeitar H0 . 9 (a) H0 : = 74, 4, H1 : 6= 74, 4. (b) Rejeitar H0 . (c) No. 11 (a) Conf (9, 56 10, 64) = 98%. (b) Rejeitar H0 . 12 Aceitar H0 . 14 Aceitar H0 . 15 Rejeitar H0 . 16 Rejeitar H0 . 17 Rejeitar H0 . (Cap. 6) 2 Aceitar H0 . 3 (a) 0,010444. (b) 0,997445. 4 Aceitar H0 .
b 5 (a) p = 0, 75. (b) Rejeitar H0 .

8 Conf (0, 7992 p 0, 8468) = 95%.

10 Sim. Conf (8, 876 12, 324) = 95%.

6 Aceitar H0 .

7 Rejeitar H0 . 89

8 Aceitar H0 . 10 Rejeitar H0 . 11 Aceitar H0 . 12 Rejeitar H0 . 14 Rejeitar H0 . 15 Rejeitar H0 . 16 Aceitar H0 . 17 (a) H0 : pa po , H1 : pa > po . (b) Rejeitar H0 . 18 (a) Aceitar H0 . (b) Aceitar H0 . 19 Rejeitar H0 .

90

Apndice B Distribuio Normal padro N(0; 1)


As probabilidades fornecidas nas tabelas so da forma: = P (0 Z < z).

Figura~B.1: Probabilidades fornecidas pelas tabelas da distribuio Normal padro.

91

z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 z

0,00 0,000000 0,039828 0,079260 0,117911 0,155422 0,191462 0,225747 0,258036 0,288145 0,315940 0,341345 0,364334 0,384930 0,403199 0,419243 0,433193 0,445201 0,455435 0,464070 0,471284 0,477250 0,482136 0,486097 0,489276 0,491802 0,493790 0,495339 0,496533 0,497445 0,498134 0,498650 0,499032 0,499313 0,499517 0,499663 0,499767 0,499841 0,499892 0,499928 0,499952 0,499968 0,00

0,01 0,003989 0,043795 0,083166 0,121719 0,159097 0,194974 0,229069 0,261148 0,291013 0,318589 0,343752 0,366500 0,386860 0,404902 0,420730 0,434478 0,446301 0,456367 0,464852 0,471933 0,477784 0,482571 0,486447 0,489556 0,492024 0,493963 0,495473 0,496636 0,497523 0,498193 0,498694 0,499064 0,499336 0,499533 0,499675 0,499776 0,499847 0,499896 0,499930 0,499954 0,499970 0,01

0,02 0,007978 0,047758 0,087064 0,125516 0,162757 0,198468 0,232371 0,264238 0,293892 0,321214 0,346136 0,368643 0,388767 0,406582 0,422196 0,435744 0,447384 0,457284 0,465621 0,472571 0,478308 0,482997 0,486791 0,489830 0,492240 0,494132 0,495603 0,496736 0,497599 0,498250 0,498736 0,499096 0,499359 0,499550 0,499687 0,499784 0,499853 0,499900 0,499933 0,499956 0,499971 0,02 92

0,03 0,011967 0,051717 0,090954 0,129300 0,166402 0,201944 0,235653 0,267305 0,296731 0,323814 0,348495 0,370762 0,390651 0,408241 0,423641 0,436992 0,448449 0,458185 0,466375 0,473197 0,478822 0,483414 0,487126 0,490097 0,492451 0,494297 0,495731 0,496833 0,497673 0,498305 0,498777 0,499126 0,499381 0,499566 0,499698 0,499792 0,499858 0,499904 0,499936 0,499958 0,499972 0,03

0,04 0,015953 0,055670 0,094835 0,133072 0,170031 0,205402 0,238914 0,270350 0,299546 0,326391 0,350830 0,372857 0,392512 0,409877 0,425066 0,438220 0,449497 0,459071 0,467116 0,473810 0,479325 0,483823 0,487455 0,490358 0,492656 0,494457 0,495855 0,496928 0,497744 0,498359 0,498817 0,499155 0,499402 0,499581 0,499709 0,499800 0,499864 0,499908 0,499938 0,499959 0,499973 0,04

z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 z

0,05 0,199939 0,059618 0,098706 0,136831 0,173645 0,208840 0,242154 0,273373 0,302338 0,328944 0,353141 0,374928 0,394350 0,411492 0,426471 0,439429 0,450529 0,459941 0,467843 0,474412 0,479818 0,484222 0,487776 0,490613 0,492857 0,494614 0,495975 0,497020 0,497814 0,498411 0,498856 0,499184 0,499423 0,499596 0,499720 0,499807 0,499869 0,499912 0,499941 0,499961 0,499974 0,05

0,06 0,023922 0,063559 0,102568 0,140576 0,177242 0,212260 0,245373 0,276373 0,305106 0,331472 0,355428 0,376976 0,396165 0,413085 0,427855 0,440620 0,451543 0,460796 0,468557 0,475002 0,480301 0,484614 0,488089 0,490863 0,493053 0,494766 0,496093 0,497110 0,497882 0,498462 0,498893 0,499211 0,499443 0,499610 0,499730 0,499815 0,499874 0,499915 0,499943 0,499963 0,499975 0,06

0,07 0,027903 0,067495 0,106420 0,144309 0,180822 0,2155661 0,248571 0,279350 0,307850 0,333977 0,357690 0,378999 0,397958 0,414656 0,429219 0,441792 0,452540 0,461636 0,469258 0,475581 0,480774 0,484997 0,488396 0,491106 0,493244 0,494915 0,496207 0,497197 0,497948 0,498511 0,498930 0,499238 0,499462 0,499624 0,499740 0,499821 0,499879 0,499918 0,499946 0,499964 0,499976 0,07 93

0,08 0,031881 0,071424 0,110261 0,148027 0,184386 0,219043 0,251748 0,282305 0,310570 0,336457 0,359929 0,381000 0,399727 0,416207 0,430563 0,442947 0,453521 0,462462 0,469946 0,476148 0,481237 0,485371 0,488696 0,491344 0,493431 0,495060 0,496319 0,497282 0,498012 0,498559 0,498965 0,499264 0,499481 0,499638 0,499749 0,499828 0,499883 0,499922 0,499948 0,499966 0,499977 0,08

0,09 0,035856 0,075345 0,114092 0,151732 0,187933 0,222405 0,254903 0,285236 0,313267 0,338913 0,362143 0,382977 0,401475 0,417736 0,431888 0,444083 0,454486 0,463273 0,470621 0,476705 0,481691 0,485738 0,488989 0,491576 0,493613 0,495201 0,496427 0,497365 0,498074 0,498605 0,498999 0,499289 0,499499 0,499650 0,499758 0,499835 0,499888 0,499925 0,499950 0,499967 0,499978 0,09

Apndice C Distribuio t-Student


As probabilidades fornecidas nas tabelas so da forma: = P (T < t).

Figura~C.1: Student.

Probabilidades fornecidas pelas tabelas da distribuio t-

94

G.L. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0,1 3,0777 1,8856 1,6377 1,5332 1,4759 1,4398 1,4149 1,3968 1,3830 1,3722 1,3634 1,3562 1,3502 1,3450 1,3406 1,3368 1,3334 1,3304 1,3277 1,3253

0,05 6,3137 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7531 1,7459 1,7396 1,7341 1,7291 1,7247

0,025 0,01 0,005 12,7062 31,8210 63,6559 4,3027 6,9645 9,9250 3,1824 4,5407 5,8408 2,7765 3,7469 4,6041 2,5706 3,3649 4,0321 2,4469 3,1427 3,7074 2,3646 2,9979 3,4995 2,3060 2,8965 3,3554 2,2622 2,8214 3,2498 2,2281 2,7638 3,1693 2,2010 2,7181 3,1058 2,1788 2,6810 3,0545 2,1604 2,6503 3,0123 2,1448 2,6245 2,9768 2,1315 2,6025 2,9467 2,1199 2,5835 2,9208 2,1098 2,5669 2,8982 2,1009 2,5524 2,8784 2,0930 2,5395 2,8609 2,0860 2,5280 2,8453

95

21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 1000 G.L.

1,3232 1,3212 1,3195 1,3178 1,3163 1,3150 1,3137 1,3125 1,3114 1,3104 1,3062 1,3031 1,3007 1,2987 1,2958 1,2938 1,2922 1,2910 1,2901 1,2824 0,1

1,7207 1,7171 1,7139 1,7109 1,7081 1,7056 1,7033 1,7011 1,6991 1,6973 1,6896 1,6839 1,6794 1,6759 1,6706 1,6669 1,6641 1,6620 1,6602 1,6464 0,05

2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0301 2,0211 2,0141 2,0086 2,0003 1,9944 1,9901 1,9867 1,9840 1,9623 0,025

2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4377 2,4233 2,4121 2,4033 2,3901 2,3808 2,3739 2,3685 2,3642 2,3301 0,01

2,8314 2,8188 2,8073 2,7970 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,7238 2,7045 2,6896 2,6778 2,6603 2,6479 2,6387 2,6316 2,6259 2,5807 0,005

96

Apndice D Distribuio 2
As probabilidades fornecidas nas tabelas so da forma: = P (2 > 2 ).

Figura~D.1: Probabilidades fornecidas pelas tabelas da distribuio 2 .

97

G.L. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40

0,25 1,3233 2,7726 4,1083 5,3853 6,6257 7,8408 9,0371 10,2189 11,3887 12,5489 13,7007 14,8454 15,9839 17,1169 18,2451 19,3689 20,4887 21,6049 22,7178 23,8277 24,9348 26,0393 27,1413 28,2412 29,3388 30,4346 31,5284 32,6205 33,7109 34,7997 40,2228 45,6160

0,2 1,6424 3,2189 4,6416 5,9886 7,2893 8,5581 9,8032 11,0301 12,2421 13,4420 14,6314 15,8120 16,9848 18,1508 19,3107 20,4651 21,6146 22,7595 23,9004 25,0375 26,1711 27,3015 28,4288 29,5533 30,6752 31,7946 32,9117 34,0266 35,1394 36,2502 41,7780 47,2685

0,1 2,7055 4,6052 6,2514 7,7794 9,2363 10,6446 12,0170 13,3616 14,6837 15,9872 17,2750 18,5493 19,8119 21,0641 22,3071 23,5418 24,7690 25,9894 27,2036 28,4120 29,6151 30,8133 32,0069 33,1962 34,3816 35,5632 36,7412 37,9159 39,0875 40,2560 46,0588 51,8050

0,05 3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 16,9190 18,3070 19,6752 21,0261 22,3620 23,6848 24,9958 26,2962 27,5871 28,8693 30,1435 31,4104 32,6706 33,9245 35,1725 36,4150 37,6525 38,8851 40,1133 41,3372 42,5569 43,7730 49,8018 55,7585

0,025 5,0239 7,3778 9,3484 11,1433 12,8325 14,4494 16,0128 17,5345 19,0228 20,4832 21,9200 23,3367 24,7356 26,1189 27,4884 28,8453 30,1910 31,5264 32,8523 34,1696 35,4789 36,7807 38,0756 39,3641 40,6465 41,9231 43,1945 44,4608 45,7223 46,9792 53,2033 59,3417

0,01 6,6349 9,2104 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 24,7250 26,2170 27,6882 29,1412 30,5780 31,9999 33,4087 34,8052 36,1908 37,5663 38,9322 40,2894 41,6383 42,9798 44,3140 45,6416 46,9628 48,2782 49,5878 50,8922 57,3420 63,6908

0,005 7,8794 10,5965 12,8381 14,8602 16,7496 18,5475 20,2777 21,9549 23,5893 25,1881 26,7569 28,2997 29,8193 31,3194 32,8015 34,2671 35,7184 37,1564 38,5821 39,9969 41,4009 42,7957 44,1814 45,5584 46,9280 48,2898 49,6450 50,9936 52,3357 53,6719 60,2746 66,7660

98

Bibliograa
[1] Altman,D. (1991), Practical Statistics for Medical Research, Chapman & Hall, London. [2] Bussab,W., Morettin,P. (2005), Estatstica Bsica, Editora Saraiva, So Paulo. [3] Daz,F.R., Lpez,F.J.B. (2007), Bioestatstica, Thomson, So Paulo. [4] Morettin,L.G. (2000), Estatstica Bsica, Volume 1 (Probabilidade) e Volume 2 (Inferncia), Makron Books, So Paulo. [5] Pagano,M., Gauvreau,K. (2000), Princpios de Bioestatstica, Thomson, So Paulo. [6] Soares,J., Siqueira,A.L. (2002), Introduo Estatstica Mdica, COOPMED Editora Mdica, Belo Horizonte.

99