You are on page 1of 424
modo, bustowse desenvelver © texto de forma similar a0 uso pratico da Estatistica, quande normalmente um conjunto de dados é explorado descritivamente antes da modelagem. e aplicagao de téenicas estatisticas, Nao foi explicitade o uso de nenhum softivare em particular, uma vez que se procurou enfatizar as ideias envolvidas © nio a habilidade computacional. ‘Nio obstante, virios exercicios = apresentades ao fim de cada secao ‘em uma segio especifica ao final Prefiicio Lista de Definigoes Lista de Figuras Lista de Tabelas 1. Introdugao a Andlise Exploratéria de Dados 2, Probabilidades 3, Varidveis Aleatorias Diseretas 4, Medidas Resamo- 5. Varidveis Bidimensionais 6. Varitiveis Aleatorias Continuas . Inferéneia Estatistica — Estimago 8, Inferéncia Estatistica —‘Testes de Hipéteses 9. Tépieos Especiais Respostas dos Exercicios Bibliografia indice Remissive Manos NavcMero MACALHaN & professor do Departamento de Estatistica do Instituto de Matemuitica e Hatatistics da Universidade de Si Paulo (IME-USP). Licenciadio © mestre ‘University, Virginia, BUA. Sua dea de peas Teoria das Flas, Processos Estocisticon Aplicados © Beducagiio Fstatisticn. ANTosIO CAIU.06 Prnkeso ne Lima € professor do Departamento de Estatistica do Inetinuto de Matemiticae Estatistica da Universidade de Sio Paulo (IME-AUSP), Bachare! © mestre em Estatistica pelo IME-USP ¢ doutor em Bivestatiitica pela University of North Carolina at Chapel Hill, Carolina do Norte, BUA. Sua drea de pesquisa é Andlise de Sobrevivencia. [UNIVIERSIDADE DE SAO PAULO Joo Gravatino Rodos ali Nogueira da Cruz [EDITOR DA UNIVERSIDADE DE SAO PAULO NOGOES DE PROBABILIDADE E EstatisTIca Marcos Nascimento Magalhaes Antonio Carlos Pedroso de Lima Departamento de Estatistica — IME-USP Jo24J¢ “i wwoadie Copyright © 1999 by Marcos Nascimento Mapalhiics © Antonio Carlos Pedroso de ‘Lima T edigao stunlizada segundo © Acordo Ontogrifico da Lingua Pormgucsa 2010 TPedigo, F*reimpressSo 2011 |Daios Internsckonaix de Cataiogacio na Publicagiio (CIP) (CSmara Brasilciza do Livro, SP, Brasil) ‘Magathies, Maroos Nascimento ‘Nogocs de Prababiiitace ¢ Estatfstica # Marcas Nascimento Maga Iles, Antonio Carlos Pofroso de Lina ~ 7 ed, 1. reimpr. - Sb Paulo: [Editora da Universidade de Sso Paulo, 2011. -(Académica; 40) Bibliogratia ISBN 978-45-314.0677-5 1, Estatistien — Estado ¢ Enaino 2. Matemsética — Estudo © Ensino 3, Probsbilidades — Eutudoe Emino 1 Titulo Il, Série. on472 (CDD-519.507 Indices par caeiogo siuemiicos | Ritatistice: Matemétice: Estwdoe Ensino 5195077 2, Probubiladades © Eutmitica: Matemitcar Estucoe Ensino $19:507 ireitos reservadars b Eduip ~ Eataora da Universe de Sao Panto ‘Av, Covifeu de Azevedo Marques, 1975, nérrco {05581-001 ~ Botantl ~ So Panlo ~SP~ Brasil Divishe Comercia: Tel. (11) 3091-4008 73001-4150 Fax (11) 3091-4151 Instituto de Mateandtica ¢ Estatistica ~ IME-USP Rus do Matto, 1010 — Cidate Universi (05904-900 — Sio Paulo — SP— Brasil Departamento de Estatistica ~ Tel. (Oxx1 1} 3091-6129 / 3091-6130 (Caixa Postal 66.281 ~ 09315-970 weneimeanp.br/-noproet ~ e-mail: noproet@ime.usp be Printed in Beart 2011 Fos feito 0 depésito legal Prefacio da 7? edicio Este texto é fruto da nossa experiéncia de varios anos como professores do Departamento de Estatistica do Instituto de Matematica e Estatistica da Universidade de Sao Paulo. Nesse perfodo, foram ministradas diversas disciplinas basicas de Estatistica para cursos mas dreas de Ciéncias Humanas, Exatas e Buscamos enfatizar dois aspectos neste livro. O primeiro se refere a repartir a Estatistica Descritiva ao longo do texto, suavizando, assim, a transiga0 para Probabilidade ¢ Varidveis Aleatérias. Em geral, os alunos setitem o impacto de uma maior formalizagao ¢, muitas vezes, nfio conseguem estabelecer 0 elo de ligagdo entre essas partes. Um segundo interesse é transmitir a importincia da computacio na Estatistica. Nao atrelamos o texto a nenhum software especifico, permitindo que 0 conhecimento computacional anterior dos estudantes pudesse ser incorporado, minimizando 0 desgaste de um novo aprendizado. Ressaltamos que virios software disponiveis no mercado podem ser utilizados, Os arquivos mencionados no decorrer do livro estiio disponfveis em www.ime.usp.br/-noproest juntamente com outras informagées de interesse, ‘O livro contém exercicios ao final de segdes e capftulos. Os exercicios de segdo so mais diretos € visam & aplicagio imediata dos conceitos discutidos. Ao fim de cada capitulo, um consideriivel mimero de exercicios ajuda os estudantes na fixago global dos conceitos apresentados, Também sio propostos exercicios para serem deseavolvidos com a ajuda do computador. O principal objetivo desses exercicios € enfatizar as ideias estatisticas envolvidas ¢ mio a habilidade computacional. No Apéndice B, apresentamos as solugGes comentadas dos exercicios de segiio ¢ fornecemos as respostas para 0% exercicios impares de fim de capitulo. Em relagao a edigio anterior, @ sétima edigho tem como modificagdes principais a forma como apresentamos 0 bex-plot ¢ a introdugio dos graficos 0-Q plot © de probabilidade. Optamos por identificar no box-plot os valores extremos com asteriscos, conforme utilizado na maioria dos software, Os novos tipos de graficos possibilitam ampliar e enriquecer a andlise de dados. Essas modificagées foram feitas nos Capitulos | ¢ 6, consequentemente, houve alteragSo na sequéncia € no numero de paginas, sendo que foram acrescentados novos exercicios e/ou itens referentes aos t6picos mencionados. Aproveitamos para atualizar o texto pela nova ortografia e corrigir os erros em respostas, identificados até ent@o. Pequenas alteragdes de redagio também vil Preficio foram feitas. As principais mudangas, em relagio sexta edicfo revista, terceira reimpressio, esto listadas no enderego Internet mencionado acima. Ao longo das varias edigdes, diversos colegas contribuiram com sugesties. Entre eles destacamos Adilson Simonis, Claudia Monteiro Peixoto, Clélia Toloi, Denise Botter, Elisabeti Kira, Elisete da Conceigio Q. Aubin, Julio da Motta Singer, Lighia B. Horodynski-Matsushigue, Licia P. Barroso, Marli Mikael, Nelson Tanaka, Rinaldo Artes e Silvia Ferrari. Maria Cecilia Camargo Magalhaes colaborou na revisio final da redagdo. A estudante Tatyana Maya Okano auxiliou ha corregdo das respostas de varios exercicios. Apontames, ainda, 0 recebimento de varias mensagens eletrénicas com comentdrios c/ou sugest6es. A todos que colaboraram, © nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de varias unidades da USP, que apontaram erros e deram sugestées. Finalmente, gostarfamos de agradecer a Luis Ricardo Camara, da Adusp- Associagao dos Docentes da USP, pela diagramagao das tabelas ¢ auxflio na arte final de algumas das figuras apresentadas no texto. Pedimos, desde ja, desculpas pelos ecrros que serao eventualmente identificados nesta nova edigaio. As criticas e sugest6es de colegas e estudantes serao muito bem-vindas e, certamente, auxiliariio na melhoria da préxima versio. ‘Sao Paulo, fevereiro de 2010 Marcos N. Magalhies e Antonio Carlos P. Lima (snarcos@ime.usp.br) (acarlos@ime.usp.be) L. Introdugdo a Andilise Exploratéria de Dados... 1.1 O.que é Estatfstica..... 1.2 Organizagao de Dados... 1.3 O Uso de Computadores em 1.4 Exercicios...... 5, Variaveis Bidimensionais... 5.1 Introdugao..... 5.2 Associagiio entre Varidveis... 5.3 Exercicios...... 8. Inferéncia Estatistica - Testes de Hipéteses... 8.1 A 8.2 Teste para a Média Populacional.. 8.3 Teste para a Média com Variaincia Desconhecida.. 8.4 Nivel Descritivo... 8.5 Testes Qui-Quadrado. 8.6 Exercicios..., 9.2: Comparagiio de Duas Médias. 9.3 Testes para Wariancia...... 9.4 Andlise de Variancia.... Distribuigao Fisher Snedecor (0,95) Apéndice B - Respostas dos Exercicios.... Bibliografia..... indice Remissivo... Lista de Definigdes 21 22 23 24 3.1 32 33 34 35 3.6 37 38 41 42 43 44 45 51 52 53 34 = 5.6 Probabilidade .. Probabilidade condicional . Independéncia de eventos... Partigdo do espago amostral ......-.000. Fungdo discreta de probabilidade ..... Fungiio de distribuigao de probabilidade Modelo Uniforme Discreto .... Modelo Bernoulli ... Modelo Binomial Modelo Geométrico Modelo Poisson .. Modelo Hipergeométrico Medidas de posi¢ao para um conjunto de dados ... Medidas de posigao para varidiveis aleatérias discretas Amplitude de uma varidvel em um conjunto de dados Varifincia ¢ desvio-padriio em um conjunto de dados ..... Varidncia de uma varidvel aleatéria discret .........s000 Fungiio de probabilidade conjunta .... Probabilidade condicional para varidveis aleatérias discretas Independéncia de varidveis aleatérias ... Correlagdio entre varidveis num conjunto de dados brutes .. Covarifincia de duas varidveis aleatérias Correlagiio entre variiveis aleatérias ... 6.1 Geet est 72 73 14 75 Lista de Definigies Fungo densidade de probabilidade .....0...00.0 Medidas de posigo para varidveis aleatérias continuas ‘Varifincia para varidveis aleat6rias continuas . Modelo Uniforme Continuo ... Lista de Figuras Ll 12 13 14 1s 16 17 18 19 110 Lt 2 22 23 24 31 32 33 34 35 3.6 SA 5.2 5.3 Populagiio e amostra Classificagdo de varidveis .. ‘Exemplos de griificos publicades na imprensa .... Diagrama circular para a varidivel Toler -sescone Grdfico de barras para a varidivel Idade .ece-neemenerneseroes ze ‘Histograma para a variével PeS0 -ceeemeroemeremunemnerinenee Elementos de um box-plot Box-plot para a varidvel Peso Padres de assimetria- histogramas. Padrdes de assimettiae BON-PLOE o.cccoei Box-plot da varidvel Peso para cada sexo .., Regra de adigiio de probabilidades ..... Regra do produto de probabilidades ...... Arvore de probabilidades ... Parti¢ao do espago amostral (& Arvore de probabilidades - alteragies no subsolo .. Fungao de distribuigdo - doses de vacina ..... Modelo Uniforme Discreto [0, 10] -. Grafico de freqiiéncias - natalidade em porcos Modelo Geométrico (p = 0,01) .... Modelo Poisson (A = 5) .... Independéncia de varidveis aleatérias Valor esperado da soma de varidveis aleatérias .. Valor esperado do produto e independéncia de varidveis aleatérias .. SA a 5.6 61 62 6.3 64 ae: 72 BI 8.2 84 8.5 8.6 8.7 88 8.9 8.10 8.11 91 92 9.3 Correlag&o para conjuntos de dados (brutes) Covariiincia e correlagiio de varidveis aleatérias Varifincia da soma de duas varidveis aleatérias .. Densidade Uniforme Continua ..... Densidade Exponencial Densidade Normal .... ‘Aproximagiio Normal para o Modelo Binomial -. Histogramas para valores simulados da Binomial ..... Efeito de n na distribuigao amostral de X ~ N(10, 16/n) .. Efeito do tamanho da amostra sobre a distribuigao de X Enros associados a testes de hipdteses .. Representagao gréfica dos erros a ¢ 4 Representagao grafica da regidio de rejeico- unilateral .. Representagdo gréfica da regiiio de rejeigio- bilateral Fungao Poder ..... Etapas de um teste de hipéteses .... Densidade t- Student ..... Nivel descritivo unilateral Regides desfavordveis num teste bilateral com H,: ji Nivel deseritivo bilateral .. Densidade 2 ¢ Regitio Critica ... Casos na comparacao de duas amostras Distribuigaio de Fisher- Snedecor .... Resfduos no modelo de regressiio linear simples ..... Lista de Tabelas 1d 12 1.3 14 LS 41 42 43 44 6.1 Rl 72 o1 92 Informagdes de questiondrio estudantil - dados brutes .. ‘Tabela de freqiéncia para a varidvel Sexo ..... ‘Tabela de freqiiéncia para a varidvel Idade ‘Tabela de freqiiéncia para a varidvel Peso .. ‘Tabela de freqiiéncia para a varidvel TV Medidas de tendéncia central ...... Medidas de dispersio . Propriedades da média e da variainci Modelos discretos- valor esperado ¢ variancia Modelos continuos- Valor esperado © variAnei cece 203 Estimadores. para média, proporgiio e varifincia ....... Intervalos de confianga para j: € p . ‘Comparagao de médias para duas populagées ‘Tabela de Aniilise de Varifincia (ANOVA) .... Capitulo 1 Introdugio 4 Andlise Exploratéria de Dados 1.1 O que é Estatistica? ‘Neste capitulo, pretendemos formalizar alguns conccitos que constituem a base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de forma objetiva e segura, situagdes que envolvem uma grande quantidade de informages. A utilizag4o dessas técnicas, destinadas A anélise de situagies complexas ou nao, tem aumentado e faz parte de nosso cotidiano. ‘Tome-se, por exemplo, as transmiss6es esportivas. Em jogos de futebol, o nimero de escanteios, © ntimero de faltas cometidas ¢ o tempo de posse de bola sio dados geralmente fornecidos a0 telespectador ¢ fazem com que as conclusdes sobre qual time foi o melhor em campo, se tornem objetivas (niio que isso implique que tenha sido © vencedor...). O que tem levado a essa quantificagao de mossas vidas no dia a dia? Um fator importante é a popularizagio dos computadores. No passado, tratar uma grande massa de némeros era uma tarefa. Custosa € Cansativa, que cxigia horas de tabalho tedioso, Recentemente, mo entanto, grande quantidade de informagées pode ser analisada rapidamente com um computador pessoal e programas adequados. Desta forma, o computador contribui, positivamente, na difusio ¢ uso de métodos estatisticos, Por outro lado, o computador possibilita uma automagiio que pode levar um individu sem preparo cespecifico a utilizar técnicas inadequadas para resolver um dado problema. Assim, € necessério a compreensio dos conceitos bdsicos da Estatfistica, bem como as suposigdes necessirias para o seu uso de forma criteriosa. Entendemos a Estatistica como um conjunto de técnicas que permite, de forma sistemiatica, organizar, descrever, analisar ¢ interpretar dados oriundos de estudos ou experimentos, realizados em qualquer rea do conhecimento. Estamos denominando por dados um (ou mais) conjunto de valores, numéricos ou no. A aplicabilidade das técnicas a serem discutidas se d4 nas mais variadas dreas da atividade humana. De modo geral podemos dividir a Estat(stica em wés areas: © Estatistica Descritiva © Probabilidade © Inferéncia Estatistica 2 Capitulo 1: Introdugao a Anélise Exploratéria de Dados Estatistica Descritiva é, em geral, utilizada na etapa inicial da anélise, quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclusdes de modo informal ¢ direto, a maneira mais simples seria a observagao dos valores colhidos. Entretanto, 20 depararmos com uma grande massa de dados, percebemos, imediatamente, que a tarefa pode nao ser simples. Para tentar depreender dos dados informagGes a respeito do fendmeno sob estudo, é preciso aplicar alguma técnica que nos permita resumir a informagio daquele particular conjunto de valores. Em outras palavras, a estatistica descritiva pode ser definida como um conjunto de téenicas destinadas a descrever ¢ resumir os dados, a fim de que possamos tirar conclusdes a respeito de caracteristicas de interesse. Probabilidade pode ser pensada como a teoria matematica utilizada para se estudar a incerteza oriunda de fenémenos de carfter aleatério. Apesar de ser uma 4rea extremamente afracnte ¢ estudada do ponto de vista matemitico, abordaremos, aqui, apenas os aspectos necessérios para as técnicas estatisticas apresentadas neste livro. Inferéncia Estatistica € 0 estudo de técnicas que possibilitam a extrapolagio, a um grande conjunto de dados, das informages e concluses obtidas a partir de subconjuntos de valores, usualmente de dimensio muito menor. Deve ser notado que, se tivermos acesso a todos os elementos que desejamos estudar, nao € necessdrio o uso das técnicas de inferéncia estatistica. Entretanto, elas sfio indispens4veis quando existe a impossibilidade de acesso a todo 9 conjunto de dados, por razbes de natureza econémica, ética ou fisica. Estudos complexos que envolvem © tratamento estatfstico dos dados, usualmente, incluem as trés areas mencionadas acima. Na terminologia estatfstica, © grande conjunto de dados que contém a caracteristica que temos interesse recebe o nome de populagdo. Esse termo refere-se niio somente a uma colegio de individuos, mas também a0 alvo sobre o qual reside nosso interesse. Assim, nossa populagdo pode ser tanto todos os habitantes de Sorocaba, como todas as lampadas produzidas por uma fabrica em um certo perfodo de tempo, ou todo o sangue no corpo de uma pessoa, Algumas vezes podemos acessar toda a populagiio para estudarmos caracteristicas de interesse, mas, em muitas situagdes, tal procedimento niio pode ser realizado. Em geral, raz6es coondmicas sio as mais determinantes dessas situagées. Por exemplo, uma empresa, usualmente, nio dispde de verba suficiente para saber © que pensam todos os consumidores de seus produtos, Ha ainda razGes éticas, quando, por exemplo, os experiments de laboratério envolvem o uso de seres vives. Além disso, existem casos em que a impossibilidade de se acessar toda a populagao de interesse € incontorndvel. Na andlise do sangue de uma pessoa ou cm um experimento para determinar 0 tempo 1.1 O que é Estatistica? de funcionamento das limpadas produzidas por uma inddstria, néo podemos observer toda populagZo de interesse. Tendo em vista as dificuldades de varias naturezas para se observar todos os elementos da populagdo, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da populagao, em geral com dimensao sensivelmente menor, é denominado amostra. A Figura 1.1 ilustra as etapas da andlise estatistica, ren Figura 1.1: Poptilagdo e amostra. A sclegio da amostra pode ser feita de varias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da populagdo, da quantidade de recursos disponiveis e assim por diante, Devemos ressaltar que, em principio, a selegdo da amostra tenta fornecer um subconjunto de valores o mais parecido possivel com a populacdo que Ihe dd origem. A amostragem mais usada é a amostra casual simples, em que selecionamos a0 acaso, com ou sem reposigio, os itens da populagao que fardo parte da amostra. Eventualmente, se tivermos informagées adicionais a respeito da populag&io de interesse, podemos utilizar outros esquemas de amostragem mais sofisticados. Por exemplo, se numa cidade, tivermos mais mulheres do que homens, podemos sclecionar um certo ntimero de individuos entre as mulheres outro nimero entre os homens. Esse procedimento € conhecido como amostragem estratificada, Outras vezes, pode existir uma relagao numerada dos 4 Capitulo I: Introdugdo & Andlise Exploratéria de Dados itens da populacao (uma lista de referéncia) que nos permitiria utilizar a chamada amostragem sistemdtica em que sclecionamos os individuos de forma pré- determinada, por exemplo de 8 em 8 ou de 10 em 10. Outros esquemas de amostragem poderiam ser citados ¢ todos fazem parte da drea de Teoria da amostragem, cujos detalhes no serio aprofundades neste livro. Assim sendo, terminamos esta se¢do mencionando que quanto mais complexa for a amostragem, maiores cuidados deverfo ser tomados nas andlises estatisticas utilizadas; em contrapartida, o uso de esquemas de amostragem mais elaborados pode jevar a uma diminuigao no tamanho de amostra necess4rio para uma dada precisiio. Exercicios da Segao 1.1: 1. Classifique como verdadcira ou falsa cada uma das seguintes afirmagoes: a. Estatistica é um conjunto de técnicas destinadas a organizar um conjunto de valores numéricos. b. Sempre que estivermos trabalhando com némeros, deveremos utilizar a Inferéncia Estatistica. c. A Estatistica Descritiva fornece uma maneira adequada de tratar um conjunto de valores, numéricos ou ndo, com a finalidade de conhecermos 0 fendmeno de interesse. d. Qualquer amostra representa, de forma adequada, uma populago. . As técnicas estatisticas niio siio adequadas para casos que envolvam experimentos destrutivos como, por exemplo, queima de equipamentos, destrui¢ao de corpos de provas etc. 2, Para as situagdes descritas a seguir, identifique 2 populagio © a amostra correspondente. Discuta a validade do processo de infer€ncia estatistica para cada um dos casos. a. Para avaliar a eficdicia de uma campanha de vacinagiio no Estado de Sic Paulo, 200 mies de recém-nascidos, durante © primeiro semestre de um dado ano e em uma dada matemnidade em Séo Paulo, foram entrevistadas a respeito da Gltima vez cm que vacinaram seus filhos. b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c, Para verificar a audiéncia de um programa de televisio, 563 individuos foram entrevistados por telefone com relaglo ao canal em que estavam sintonizados. d. A fim de avaliar a intengao de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas cm Brasflia. 1.2 Organizagdo de Dados 5 3. Discuta, para cada um dos casos abaixo, os ‘cuidados que precisam ser tomados para garantir uma boa conclusde a partir da amostra, a. Um grupo de criangas sera escolhido para receber uma nova vacina contra meningite. b, Sorteamos um certo nimero de donas de casa, para testar um novo sabao em po. c. Uma fabrica deseja saber se sia produgéo de biscoitos est4 com o sabor previsto. 4d. Accitago popular de um certo projeto do govern, 1.2 Organizagao de Dados Nesta secao, discutiremos alguns procedimentos que podem ser utilizados para organizar e descrever um conjunto de dados, seja em uma populagaio ou em ura amostra. Veremos como conceitos relacionados 4 Teoria das Probabilidades aparecem naturalmente, levando-nos, assim, a uma exposi¢ao mais criteriosa do assunto. A questo inicial é: dado um conjunto de dados, como tratar os valores, numéricos ou nfo, a fim de se extrair informagGes a respeito de uma cu mais caracteristicas de interesse? Basicamente, faremos uso de tabelas de frequéncias ¢ Mek notando que tais procedimentos devem levar em conta a natureza dos Suponha, por exemplo, que um questionério foi aplicado aos alunos do primeiro ano de uma escola fornecendo informagées que séo apresentadas a seguir, com os respectivos nomes: Id: identificago do aluno, Turma: turma.aque o aluno foi alocado (A ou B). ‘Sexo: _F se feminino, M se masculino. Idade: _idade em anos, Alt: altura em metros. Peso: peso em quilogramas. Filhos: — niimero de filhes na familia. Fuma: hdbito de fumar, sim ou nao, Toler: _ tolerfincia ao cigarro: (7) indiferente, (P) incomoda pouco e (M) incomoda muito. 6 Capitulo 1: Introdugio é Andlise Exploratéria de Dados Exerc: horas de atividade fisica, por semana, Cine: _ ntimero de vezes em que vai ao cinema por semana. OpCine: opiniao a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa. TV: horas gastas assistindo TV, por semana, ‘OpTV: opinilio a respeito da qualidade da programagiio na TV: (R) ruim, (M) média, (B) boa e (N) no sabe. 0 conjunto de informages disponiveis, apés a tabtilagaio do questiondrio ou pesquisa de campo, € denominado de tabela de dados brutos © contém os dados da maneira que foram coletados inicialmente. Os valores obtides para cada uma dessas informagGes esto apresentados na Tabela 1.1. Cada uma das caracteristicas perguntadas aos alunos, tais como 0 peso, a idade e a altura, entre outras, € denominada de varidvel. Assim, a varidvel Altura assume os valores (em metros) 1,60; 1,58;... ¢ a varidvel Turma assume os valores A ou B. Claramente tais vuridveis tém naturezas diferentes no que tange aos possiveis valores que podem assumir, ‘Tal fato deve ser levado em conta nas andlises e, para fixar ideias, vamos considerar dois grandes tipos de varidveis: numéricas ¢ no numéricas. As numéricas sero denominadas quantifativas, a0 passo que as nio numéricas, qualitativas, A varidvel € qualitativa quando os possiveis valores que assume representam atributos e/ou qualidades. Se tais varidveis tém uma ordenagéo natural, indicando intensidades crescentes de realizagiio, entSo elas scrao classificadas como qualitativas ordinais. Quando nao € possivel estabelecer uma ordem natural entre seus valores, elas sio classificadas como guwalitarivas nominais. Varidiveis tais como Turma (A ou B), Sexo (feminino ou masculino) Fuma (sim ou no) sio varidveis qualitativas nominais. Por outro lade, varidiveis ‘como Tamanho (pequeno, médio ou grande), Classe Social (baixa, média ow alta) ‘sdo varidveis qualitativas ordinais. Varidiveis quantitativas, isto €, varidveis de natureza numérica, podem ser ‘subdivididas em discretas e continuas. De modo geral, varidveis quantitativas discretas podem ser vistas como resultantes de contagens, assumindo assim, em geral, valores intciros. De uma mancira mais formal, 0 conjunto dos valores assumidos é finito ou enumerivel. J4 as varidveis quantitativas continuas ‘assumem valores em intervalos dos ntimeros reais ¢, geralmente, sio provenientes de uma mensuragéo. Por exemplo, Nimero de Irmios (0, 1, 2, ...) ¢ Niimero de Defeitos (0, 1, 2, ...) sio diseretas, enquanto Peso e Altura so quantitativas continuas. J.2 Organizagde de Dados Tabela I.1:; Informagées de questiondrio estudantil - dados brutos. Id Turma Sexo Idade Alt_ Peso F er Cine ine TV Tv i A Fr 17 1,60 60,5 WAG P a 1 B 16 R a ihe wy 16 1,69 NAD MM o 1 B | 3 A M Te 1,85 wAD OUP 5 : Ll 15 g 4 A M 25 1,85 NAC UP 5 2 B 20 R Sk, 19 NAD OM 2 2 B 5 oR 6 A M 19 M4 2 I 5 2 BR 7 A F 20 P 3 1 B 7 R a ke 18 I 2 2 M 10 oR ga 18 ™ 3 3 a 12 OR 20. A. oF 17 M 2 2 M 190 OR co a ae 2 18 I 10 2 B a nN iz A F 18 o Zz B 0 R id, «AP 21 6 1 M 30. OR 14 A OM 19 5. i MM 2 is A F is 1 B R if =A F B RB i? A OF B " 168 A M ’ rR 19 6A CO* R 20 )hUAlCUWF ™ 7 he 4 " R a2 & 3a ay a 23. Apne 2 ' i Rg a AE: 1 SIM 1 f 25 AF 2 NAO OF £ se 26 A UF Zz WAG Of 6 2 22 EF 2 NAD M 8 z # . 2 6B F 1 WAO B 1 1 “ R 25 B FE 18 i, 57 49,0 2 NAO OF 3 - B it. 2k 30 B & 25 1,65 59,0 4 NAD 6M i 2 4 2 RK BB B F 18 1,61 52,0 1 WAG PF 2 2 Mu 6 u 32 B M 17 1,71 73,04 nAC OF 1 a 8 20 RB 33 B F 17 1,65 56,0 3 WAG OM 2 2 B 14 R a4 B F 17 1,67 56,0 1 NAD OM 4 Zz B 10 BR a8 8 a 18 1,73 87,0 1 NAO OM 7 1 B 25 B 36 B F 18 1,60 47,0 1 NAD OP 5 i Bw 4 BR a7 B M 17 1,70 95,0 1 WAG OP 10 2 M 12 Nn 38 6 6FU 21 1,85 64,0 1 SIM I 6 4 B 10 Rn 39 B F 18 1,76 60,0 1 WAD FP 5 z B i2Z x 40 B Mi 18 1, 73-73,00 4 WAD M 4 I B 2 R 41 B F 17 1,70 55,0 72 HAD UT 5 4 B 16 Ba 42 B F 23 1,45 44,0 2 HAO M z 2 B 25 R 43 B Hi a4 1,76 75,0 -2 RAO UL 7 Q M 14 Hu 44 68 F Te 1,68 55,0 i KAO P 5 1 B 8 45 B F 18 1,55 45,0 1 RAO OM 0 1 M 10 A 46 B F 15 41,70 50,0 7 RAG OM 0 LE B 8 R 47 5 F 19 1,55 54,5 2 MAG OM 4 | B 4 R 48 5B Fr 18 1,60 50,0 1 NAO OP 2 i B 5 BR 49 B M 17 1,80 71,0 2 NAO OP 7 o M 14 R 39 6B OU 18 1,83 86,0 1 WAO OP 7 0 M 20 8 & Capitulo 1: Introdugéo & Andlise Exploratéria de Dados Resumimos a classificagio das variéveis no esquema apresentado na Figura 1.2 (a titulo de exercicio, tente classificar todas as varidveis da Tabela 1.1). Figura 1.2: Classificagio de varidveis. Vale ressaltar que, em muitas situagdes priticas, a classificagiio depende de certas particularidades. Por exemplo, a varidvel Idade, medida em nimero de anos, pode ser vista como discreta, entretanto, se levarmos em conta os dias, niio é absurd falar que a idade € 2,5 ou 2,85 anos, dando assim respaldo para classificd- la como continua. Por outro lado, dependendo da preciso do instrumento utilizado para se obter medidas em um objeto, podemos ter limitagdes no nimero de casas decimais e uma varidvel de mensuragio pode se tornar discreta. E importante salientar que a classificagao apresentada acima se refere 4 natureza da varidvel ¢, em geral, devemos utilizar o bom senso na hora de decidir qual procedimento adotar para caracterizar uma varidvel. Para salientar tal fato, mencionamos que podemos, inclusive, discretizar uma variével continua para obter uma melhor representagio da ocorréncia de seus valores no conjunto de dados. Outro ponto que pode trazer confus&o € que, muitas vezes, na utilizagio de programas computacionais, associamos cédigos numéricos a uma varidvel qualitativa. Por exemplo na Tabela 1.1, pode-se associar a0 sexo ferinino o valor 1 e ao masculino 2. Apesar de a varidvel ser representada por valores numéricos, isso nfo a torma uma varidvel quantitativa. Novamente, vemos que a natureza da varidvel deve sempre ser levada em conta na hora de se interpretar resultados obtidos na andlise descritiva, 1.2 Organizagdo de Dados 9 Apesar de conter muita informagao, a tabela de dados brutes pode nao ser pritica para respondermos as questées de interesse. Por exemplo, da Tabela 1.1 nao € imediato dizer se os alunos se incomodam muito ou pouco com os fumantes. Portanto, a partir da tabela de dados brutes, vamos construir uma nova tabela com as informagées resumidas, para cada varidvel. Essa tabela sera denominada de tabela de frequéncia e, como © nome indica, conterd os valores da varidvel e suas respectivas contagens, a8 quais sio denominadas frequéncias absoluias ou simplesmente, frequéncias. No caso de varidveis qualitativas ou quantitativas discretas, a tabela de frequéncia consiste em listar os valores possiveis da varidvel, numéricos ou néio ¢ fazer a contagem na tabela de dados ‘brutos do niimero de suas ocorréncias. Representaremos por n, a frequéncia do valor i € por na frequéncia total. Para efeito de comparagio com outros grupos ou conjuntos de dados, seré conveniente acrescentarmos uma coluna na tabela de frequéncia contendo o célculo da frequéncia relativa, definida por f, = n/n. Convém notar que, quando estivermos comparando dois grupos com relagio as frequéncias de ocorréncia dos valores de uma dada varidvel, grupos com um ndmero total de dados maior tendem a ter maiores frequéncias de ocorréncia dos valores da varidvel. Desta forma, o uso da frequéncia relativa vem resolver este problema. A Tabela 1.2 apresenta as frequéncias para a varidvel Sexo, obtida a partir da Tabela 1.1. Tabela 1.2: Tabeta de frequéncia para a variével Sexo. Note que, para varidveis cujos valores possuem ordenagao natural (qualitativas ordinais ¢ quantitativas em geral), faz sentido incluirmos também uma coluna contendo as frequéncias acumuladas fic. A frequéncia acumulada até um certo valor é obtida pela soma das frequéncias de todos os valores da varidvel, menores ou iguais ao valor considerado. Sua utilidade principal é ajudar a estabelecer pontos de corte com uma determinada frequéncia nos valores da variavel. Por exemplo, na Tabela 1.3, observamos que 90% dos #lunos tém idades até 21 anos, de fato até 22, uma vez que este valor tem frequéncia zero. 10 Capitulo 1: Introducdo a Andlise Exploratéria de Dados Tabela 1.3: Tabela de frequéncia para a varidvel Idade. Com relagao & varidvel Peso, lembremos que foi classificada como quantitativa continua e assim, teoricamente, seus valores podem ser qualquer nimero real num certo intervalo. Aqui os valores variam entre 44,0 € 95,0 kg e foram medidos com apenas uma casa decimal. Ainda assim, existe um grande ndmero de valores diferentes de modo que, se a tabela de frequéncia fosse feita os mesmos moldes dos casos anteriores, obterfamos praticamente os valores originais da tabela de dados brutos. A alternativa que vamos adotar consiste em construir classes ou faixas de valores e contar 0 ntimero de ocorréncias em cada faixa, Para a varidvel Peso, usamos faixas de amplitude 10, iniciando em 40 kg. Na Tabela 1.4, escolhemos incluir o extremo inferior ¢ excluir o superior, Dessa forma, a frequéncia da faixa 40 }— 50 nao incluiu os alunos 46 ¢ 48 que tinham peso igual a 50,0 kg. A opgdo de qual extremo incluir pode ser arbitraria, mas 0 importante é indicar claramente quais siio os valores que estiio sendo contados em cada faixa. Apesar de nao adotarmos nenhuma regra formal quanto ao total de faixas, utilizamos, em geral, de 5 a 8 faixas com mesma amplitude. Entretanto, ressaltamos que faixas de tamanho desigual podem ser convenientes para representar valores nas extremidades da tabela. 1.2 Organizagao de Dados u Tabela 1.4: Tabela de frequéncia para a varidvel Peso. Vamos estudar, agora, a sitiagSo em que a varidvel é por natureza discreta, mas © conjunto de possiveis valores € muito grande. Por exemplo, a varidvel TV, definida como o ntimero de horas assistindo & televisio, tem valores inteiros entre 0 ¢ 30 ¢ uma tabela representando seus valores € respectivas frequéncias seria muito extensa ¢ pouco pratica, O caminho adequado, nesse caso, € tratar a varidvel como se fosse continua e criar faixas para representar seus valores, Assim, passamos a tratar como continua uma varidvel que seria, originalmente, classificada como discreta. Tabela 1.5: Tabela de frequéncia para a varidvel TV. A organizagio dos dados em tabelas de frequéncia proporciona um meio eficaz de estudo do comportamento de caracterfsticas de interesse. Muitas vezes, a informago contida nas tabelas pode ser mais facilmente visualizada através de grfficos, Meios de comunicagfo apresentam, diariamente, gréficos das mais variadas formas para auxiliar na apresentacfo das informagées. Orglos publics e empresas s¢ municiam de gréficos e tabelas em documentos internos ¢ relatérios n Capindo 1; introdugéo & Andlise Exploratéria de Dados de atividades € desempenho. Gragas & proliferago de recursos gréficos, cuja onstrecic ccna Guti enelnie sun nieeasar en covgulae oleate existe hoje uma infinidade de tipos de gréficos que podem ser utilizados, Como ilustragao deste ponto, apresentamos na Figura 1.3 alguns graficos publicados em 6rgaos de imprensa. EVOLUGAO DO LUCRO LiQuIDO Fie - Figura 1.3: Exemplos de gréficos publicadas na No. DE CONTRAGS = 22.161 —_____RECURSOSHUMANGS [OsTIMBURChO FOR ESCOLAAMIDADE li i— t i imprensa. 1.2 Organizagao de Dados B Deve ser notado, entretanto, que a utilizagfio de recursos visuais na criagdo de grdficos deve ser feita cuidadosamente; um gréfico desproporcional em suas medidas pode dar falsa impressao de desempenho e conduzir a conclusdes equivocadas. Obviamente, questdes de manipulagiio incorreta da informagio podem ocorrer em qualquer drea e nfo cabe culpar a Estatistica. O uso ¢ a divulgacao ética e criteriosa de dados devem ser pré-requisitos indispensdveis e inegocidveis. ‘Vamos definir, inicialmente, trés tipos bdsicos de graficos: disco ou pizza, barras ¢ histograma. Como dissemos, a criatividade na apresentagfo gréfica pode ser imensa ¢ os gréficos que discutiremos sintetizam trés caminhos, entre varios, de ao. grafico de disco, ou pizza, ou ainda diagrama circular, sc adapta muito bem as variéveis qualitativas. Consiste em repartir um disco em setores circulares correspondentes ts porcentagens de cada valor, calculadas multiplicando-se por 100 a frequéncia relativa f;. Por exemplo, 0,20 de frequéncia relativa cormesponde a 20% uma vez que 100 x 0,20 = 20. A Figura 1.4 apresenta o diagrama de disco para 4 varidvel Toler, obtida a partir da Tabela 1.1, Figura 1.4: Diagrama circular para a varidvel Toler. O erdfico de barras utiliza 0 plano cartesiano com os valores da varidivel no eixo das abcissas ¢ as frequéncias ou porcentagens no eixo das ordenadas. Nole que para cada valor da varidvel desenha-se uma barra com altura correspondendo & sua frequéncia ou porcentagem. Esse tipo de grafico se adapta melhor as varidveis discretas ou qualitativas ordinais, A Figura 1.5 apresenta 0 grifico de barras da varidvel Idade. ia Capitulo 1: Introdugdo a Andtise Exploratéria de Dados 15 Frequéncia 3 a 17 1 «#19 2 2 @ 23 26 2B kdade Figura 1.5: Grafico de barras para a varidvel Idade. O histograma consiste em retngulos contfguos de base dada pelas faixas de valores da varidvel ¢ drea igual & frequéncia relativa da respectiva faixa. A altura de cada retéingulo é denominada densidade de frequéncia ow simplesmente densidade ¢ é definida pelo quociente da area pela amplitude da faixa. Note que, pelo uso das frequéncias relativas, a soma das dreas de todos os retingulos em um histograma é igual a 1. Para a varidvel Peso, as densidades de cada faixa podem ser obtidas dividindo-se a coluna f; da Tabela 1.4 por 10, que é a amplitude de cada faixa. O ean ae nevomient «cone veers aereesc ee Note que incluimos, no topo de cada retingulo, a porcentagem de observagdes ‘correspondente, para facilitar a interpretagao. E importante ressaltar que alguns autores utilizam a frequéncia absoluta ou a porcentagem na construgao do histograma. Preferimos 0 uso da densidade de frequéncia, pois ela faz com que © histograma nfo fique distorcido quando as faixas de valores tém diferentes tamanhos, Uma outra vantagem diz respeito A associag&o que pode ser feita entre o histograma e © grafico da fungiio densidade de probabilidade, que seré visto mais adiante, 4.2 Organizagao de Dados b Para aprofundar a discussiio sobre a representagio de dados de varidveis continuas consideramos, por um momento, um grifico similar ao histograma porém utilizando-se a frequéncia absoluta nas ordenadas, ao invés da densidade de frequéncia. Na figura abaixo, faremos esse gréfico para a varidvel Peso obtendo ret&ngulos com alturas visualmente idénticas ds do histograma, © que era esperado pois as faixas so todas do mesmo tamanho. 16 Capitulo I: Introdugdo 2 Andlise Exploratéria de Dados Vejamos como ficaria esse mesmo gréfico se as duas /iltimas faixas fossem agrupadas. Da Tabela 1.4 observamos que teriamos a dl faixa dada por 80 }— 100, com frequéncia 6 e frequéncia relativa 0,12. Temos: Ao utilizar a frequéncia na ordenada, o grafico wansmite a impressio de que a tiltima faixa de peso tem 0 mesmo comportamento da faixa precedente. Contudo, # porcentagem de 12% s6 foi obtida pela adi¢fo das frequéncias das Ultimas duas faixas da Tabela 1.4. Usando a densidade de frequéncia no eixo das ordenadas desfazemos essa impressao, como vemos na figura a seguir. 005 44% 2.08 S ba 16% 16% 12 = 12%. 0.00 0 8 60 %® 9% 100 1.2 Organizagéio de Dados 7 © histograma também pode ser utilizado no célculo da mediana (md..,), que € © valor que divide o conjunto de dados ordenados em dois subgrupos de mesmo tamanho, Isto é, das observagdes ordenadas, 50% estiio abaixo e 50% estiio acima da mediana, Note que a mediana nfo precisa ser um dos valores que foi efetivamente observado num cerio conjunto de dados. Para o célculo da mediana pelo histograma, vamos assumir que as observagdes da varidvel em cada faixa sitio homogeneamente distribuidas, isto é, para um mesmo retangulo, fatias de mesmo tamanho contém uma mesma porcentagem de observagées, Apesar de a suposigo de homogeneidade niio ser sempre verificada, ela é bastante razodvel em muitas situagdes c pode ser uma boa aproximagiio da realidade. Exemplo 1.1: Vamos calcular a mediana da varidvel Peso através do histograma, Notamos que a mediana deve pertencer ao intervalo [50; 60), uma vez que até o valor 60 temos acumuladas 60% das observagdes. Dentro dessa faixa, a partir de SO kg, precisamos determinar um retingulo com drea igual a 34%, que € o que falta para atingir a porcentagem de 50%. Na figura a seguir marcamos 0 retangulo procurado com drea mais escura. Com uso de proporgdes, temos: midges — 50 60 — 50 O34 (0,44 => map, = 57,73kg. ¥- 0,044 = O74 0,05 w= 34 23,49 18 Capitulo 1: Introdugdo & Andlise Exploratéria de Dados O conceito de mediana pode ser generalizado para situagdes em que o conjunto de dados € dividido em mais do que dois subgrupos. Um caso importante € aquele em que dividimos 0 conjunto em quatro subgrupos. Para/tanto, devemos determinar, além da mediana, dois valores tais que 25% das observagdes ordenadas estiio abaixo de um deles e 75% estéio abaixo do outro. Tais valores sto denominados, respectivamente, primeiro quartil ¢ terceiro quartit, usualmente representados por Q; ¢ Qs. Note que a mediana, discutida anteriormente, representa 0 segundo quartil. O cAlculo dos valores dos quartis também pode ser feito através do histograma, conforme mostrado no exemplo a seguir. Exemplo 1.2: No Exemplo 1.1, 0 valor da mediana (segundo quartil) calculado: através do histograma foi 57,73 kg. Observamos que o valor do primeiro quartil também se encontra no intervalo [50; 60), isto ¢, corresponde ao valor Qi que determina uma rea de 9% no retingulo correspondente, Assim, temos: 21—80 _ W~50 i 0,00 Ot => Qi = 52,05 kg. 0,05 44% 0,04 i: os 16% 16% 12% 0.01 wee m% 0,00 ‘0, 4 3 6 7 8 9 100 Peso De forma seme!hante ohtemos, para o terceiro quartil, Q3 = 69,38 kg. o 1.2 Organizagéo de Dados 9 Para o célculo de quartis e mediana a partir da tabela de dados brutos precisamos, inicialmente, ordenar as observagdes pata escolher os valores que dividem os dados nas proporgdes desejadas, Se 0 ntimero de observagées for par, a mediana seri o ponto médio dos dois valores centrais e, para um niimero impar de observagées, a mediana sera o valor que ocupa a posicZio central para os dados ordenados. A mediana divide os dados ordenados em dois grupos que so, por sua vez, divididos novamente pelos quartis, Se 0 nimero total de observagdes for impar, para cfetuar os célculos dos quartis, consideramos que a mediana faz parte de cada um desses grupos. Entretanto, se 0 ntimero de observagdes for par, a mediana nio é incluida em nenhum desses grupos. Para obter os quartis, aplicamos a mesma regra de par/impar usada no célculo da mediana. De maneira informal, podemos considerar os quartis como os valores que dividem © conjunto de dados nas metades de cada metade, Exemplo 1.3: Suponha que um produtor de laranjas guarde as frutas colhidas de cada drvore em caixas separadas e esté interessado em estudar o niimero de laranjas por caixa (ou por drvore). Apés um dia de colheita, 20 caixas foram contadas ¢ os resultados brutos, apés a ordenagiio, sdo: 22, 29, 33, 35, 35, 37, 38, 43, 43, 44, 48, 48, 52, 53, 55, 57, 61, 62, 67 € 69. Como © total de observagdes ¢ 20, um nimero par, temos duas observagdes centrais ¢ a mediana é o valor médio entre a 10" © a 11® observagdes ordenadas, respectivamente iguais a 44 ¢ 48. Assim, mids, = (44+ 48) /2 = 46. Os dois conjuntos de observagdes, inferior ¢ superior 4 mediana, t¢m 10 observagdes cada um. Dessa forma, o primeiro quartil seri o valor médio entre a 5* ¢ a 6 observagbes ordenadas, logo Qy = (85 + $7) /2 = 36. Para o terceiro quartil, usamos a 15° ¢ a 16* observapies ordenadas ¢ Qs = (55 + 57) /2 = 56. Considere agora, que 0 produtor resolveu retirar de sua andlise as caixas que tenham menos de 30 laranjas. O banco de dados original foi reduzido para 18 observagdes, apés a remogiio dos valores 22 ¢ 29. A ordenagio dos dados pode ser vista acima desconsiderando as duas Pprimeiras observagdes, Para a mediana, calculamos o ponto médio entre a e a 10" observagées ordenadas ©, como ambas so iguais a 48, temos md... = 48. Para calcular os quartis, partimos dos dois conjuntos separados pela mediana que tém nove observagGes em cada um. O conjunto inferior vai da 1” a 9° observagio ordenada € © conjunto superior da 1)" a 18", Note que o valor da mediana no estd incluido em tenhum desses conjuntos ¢, como nove é impar, temos Q, = pois é a 5* observagao ordenada e Qs = 57, correpondendo a 14” observagao ordenada. ao 20 Capitulo I: Introdugao & Andlise Exploratéria de Dados Exemplo 1.4: Com os dados apresentados na Tabela 1.1, vamos obter os quartis das alturas dos homens, em metros. © conjunto de dados tem 13 alturas e os valores listados na tabela sito: 1.85; 1.85: 1,76, 1,78; 1,80; 1,71; 1,73; 1,70; 1,85; 1,73; 1,76; 1,80; 1,83. Ordenando essas observagées, obtemos: 1,70; 1,71; 1,73; 1,73; 1,76; 1,76; 1.78; 1,80; 1,80; 1,83; 1,85; 1.85; 1,85. Como © total de observagées € impar, a mediana é © valor central que correspondente & 7! observag3o ordenada, Assim, mds, = 1,78. Para calcular Q; € Qs consideramos a separag%o indicada pela mediana em dois conjuntos de observagées, inferior e superior, com ambos incluindo a mediana. © conjunto inferior inclui da 14 7" observagiio ordenada ¢ © superior, da 7* & 13%, tendo cada conjunto sete valores, Como o numero de observagdes é impar, obtemos @) = 1,73 (4° observagio) e¢ Qs = 1,83 (108 eo ordenada). Uma representagao grafica envolvendo quartis é 0 box-plot ou grafico de caixa, que permite visualizar diversos aspectos da distribuigio dos dados, tais como posi¢ao, variabilidade, assimetria e mesmo a ocorréncia de valores atipicos. Note que, para obter 0 box-plot conforme seré definido, precisamos usar informagdes da tabela de dados brutos. Para a construgdo do box-plot, definimos um retiingulo ("caixa") em que a aresta inferior coincide com © primeiro quartil ¢ a superior, com © terceiro quartil. A mediana é representada por um trago no interior do retingulo, Segmentos de reta, denominados bigodes por alguns autores, so inclufdos no box-plot, partindo dos primeiro ¢ terceiro quartis ¢ terminando em valores definidos a seguir. O intervalo (Q,; Qs] contém 50% das observagies centrais ¢ dé uma ideia de quo dispersos so os valores observados. A amplitude desse intervalo, 1Q=Qs—Qt, recebe 0 nome de intervalo interquartil. Alguns autores consideram que, para conjuntos de dados "bem comportados", a maior parte das observagdes se situa no intervalo [Q, — 1,5/Q; Qs + 1,5/Q], sendo que dados fora desse intervalo so potenciais valores atipicos, pois upresentariam um padriio distinto do esperado para a maior parte das unidades experimentais. Por essa ra7io, os limites desse intervalo serio denominados pontos de corte. Os Segmentos partindo dos primeiro e terceiro quartis so limitados pelos valores minimo e m4ximo dentro do intervalo acima descrito. Valores. abaixo ou acima desses limites siio representados por asteriscos e denominados valores extremos. A Figura 1.7 ilustra os elementos de um bax-plot. 1.2 Organizagde de Dados a ‘Valor Extorno ace Maio aor absorvada ua. menor ou igual a Qs+1 SI a Messrs a Ss 7 ' ' ‘ aes eae aoe Figura 1.7. Elementos de um box-plot. Na figura apresentada existe um valor extremo na parte superior do grafico, mas no na parte inferior. © segmento superior vai do terceiro quartil até © maior valor que € menor ou igual a Qs + 1,5/@; na parte inferior, © segmento vai de Q, até o menor valor observado que seja superior a Q; — 1,5/Q. Como comentirio adicional, note que os valores extremos sio observapdes que podem ser atipicas para o fendmeno que gera os dados e, se esse for o caso, serio denominados valores aberrantes ou outlier, Esses dados devem ser investigados com maior cuidado pois muitas vezes devem-se a erros de digitagio ou de registro dos valores quando se realiza a coleta dos dados. Entretanto, vale notar que para distribuigdes assimétricas ¢ comum o aparecimento de valores extremos, como sera discutido adiante, Os préximos exemplos ilustram a construgao do hax-plot. Exemplo 1.5: Vamos construir 0 box-plor para os dados apresentados no Exemplo 1.3. Para as 20 caixas do conjunto de dados original, os quartis do némero de laranjas por caixa (ou por drvore) resultaram em Q; = 36, mde. = 46 e Qs = 56. Vamos obter as demais informages necessdrias para apresentar 0 box- plot. O intervalo interquartil € 10 = Q — Q, = 56 — 36 = 20 c, portanto, os pontos de corte sio Q; — 1,5/Q = 6 e Qs + 1,57Q = 86. Observagdes fora do intervalo [6,86] seriam valores extremos, mas isso niio ocorreu, pois © niimero 2 Capttule I: Introducéio & Andlise Exploratéria de Dados minimo de laranjas nas caixas foi 22 ¢ o mimero méximo, 69. Dessa forma, os segmentos do box-plot, abaixo de Q; ¢ acima de Q;, param nos valores 22 e 69, respectivamente. O box-plot é apresentado na figura abaixo. 8 e@a Nomoro de laranjas 8 8 8 o Exemplo 1.6: Com auxflio dos célculos do Exemplo 1.4 vamos obter 0 box-plot das alturas dos homens (em metros), conforme os dados da Tabela 1.1, Obtivemos, anteriormente, (); = 1,73; md,», = 1,78 e Qs = 1,83. Dessa forma, temos 10 = Qs — Q) = 0,10 os pontos de corte Q, — 1,57/Q = 1,58 ¢ Qs + 1,5/Q = 1,98. Podemos constatar pelos dados do Exemplo 1.4 que nfo temos observagGes extremas, sendo a altura minima 1,70 ¢ a maxima 1,85. Assim, os segmentos, abaixo de Q; ¢ acima de (3, vio até esses valores, conforme indicado no box-plot abaixo. 1.85 —— 1.2 Organizagéo de Dados 23 Exemplo 1.7: Com os dados brutes, apresentados na Tabela 1.1, vamos contruir © box-plot para a varifivel Peso (em quilos). ‘Apés a ordenagio das 50 observagdes, a tabela a seguir apresenta varios dos elementos necessarios para obter 0 box-plot. Comentario 13" observagao ordenada. 58 _| Valor médio entre 25* a 26". ‘3S observacdio ordenada. Ponto de corte inferior. 93,25 Ponto de corte superior. Consultando os dados brutos notamos que o valor minimo é 44, que esté contido em [27,25; 93,25]. Por sua vez, 0 maximo € 95 que estd fora desse intervalo e é considerado um valor extremo, representado por asterisco no grifico, O maior valor das observagdes dentro do intervalo é 87 &, portanto, os limites dos segmentos (bigodes) sao 44 ¢ 87. A Figura 1,8 apresenta o box-plor. 100 gm 60 40 Figura 1.8: Box-plot para a variéivel Peso. Note que nos Exemplos 1.1 ¢ 1.2 os quartis foram calculados pelo histograma e seus valores foram ligeiramente diferentes dos usados aqui. Para a construgio do box-plot utilizamos a tabela de dados brutos mas, em algumas situagGes, podemos usar informagdes parciais ¢ suposigdes adicionais para obter esse griifico de forma aproximada. Oo 4 Capitula 1: Introdugdo a Andlise Exploratéria de Dados Uma caracteristica interessante de um conjunto de dados € a existéncia, ou nfo, de simetria na distribuigo de seus valores. A Figura 1.9 ilustra esse ponto, Uma distribuigdo de frequéncias simétrica € apresentada, seguida dle outras duas distribuigGes em que ocorrem assimetrias negativa e positiva. Distribuiciio Simetrica rH Vatores a varied (a) Distribuipdo Aasimierica Negativn Diatribulgo Assimdiries Pestvs Were trae Valve vari (b) (c) Figura 1.9: Padrées de assimetria- histogramas. Os histogramas foram construfdos a partir de trés conjuntos de dados diferentes. © histograma (a) ilustra uma distribuigio aproximadamente simétrica, em que valores menores e maiores da variével ocorrem com frequéncias semelhantes. Em (b) temos um padrio de assimetria em que valores menores da varidvel aparecem com frequéncia menor do que valores maiores, 0 que caracteriza uma distribuigao assimétrica negativa. O histograma (c) caracteriza a assimetria a direita, em que ha baixa frequéncia de valores maiores. Graficos tipo box-plot também so titeis para detectar, descritivamente, diferengas de simetria. Para os conjuntos de dados da Figura 1.9, temos: 1.2 Organizagdo de Dados 25 eed _— (b) ©) Figura 1.10: Padroes de assimetria- box-plot. Observando-se os grificos da Figura 1.10, vemos que a assimetria leva, em geral, a0 aparecimento de valores extremos. Assimetrias negativa ¢ positiva tendem a ter valores extremos baixos € altos, respectivamente. Para distribuigdes simétricas, valores extremos no sao tao comuns. Além disso, a assimetria afeta o comprimento dos segmentos do grifico, sendo maiores abaixo ou acima da caixa dependendo, respectivamente, da assimetria ser negativa ou positiva. Podemos também avaliar a assimetria através da relago entre os quartis e a mediana, Para 0 caso de assimetria negativa, a distancia entre 0 primeiro quartil ea mediana é maior do que a dist@ncia entre a mediana ¢ © terceiro quartil; para assimetria positiva, a distfncia entre o primeiro quartil e a mediana é menor do que entre a mediana ¢ o terceiro quartil. Para situagSes de simetria, essas distancias so aproximadamente iguais. Este fato sugere utilizar a diferenga entre 05 quartis € a mediana para quantificar a assimetria, o que feito pelo coeficiente de assimetria de Bowley definide por _ (Qs = mdorn) = (rmdotn = Qi) a= ete Qs- OQ 26 Capitulo 1; Introdugdo é Andlise Exploratdéria de Dados Em um caso extremo, uma forte assimetria negativa pode fazer com que mdog, = Qs de tal forma que g = ~ 1. No outro extremo, temos que para uma forte assimetria positiva, mdi, = Q fazendo com que g = 1. Situagdes de simeiria tornam © valor de g, proximo de zero. Exemplo 1.8: Vamos calcular 0 coeficiente de assimetria de Bowley para os dados do Exemplo 1.3. Para a distribuigio do niimero de laranjas por caixa obtivemes md,1; = 46, Qi = 36. Qs = 56. Logo, 10-10 0 9 = 3H =a) =o © valor obtide de g, indica uma distribuiggo simétrica, concordando com o padrdo apresentado pelo box: plot naquele exemplo. o Exemplo 1.9: Com os dados da Tabela 1.1, resumimos a seguir os resultados referentes A varidvel Peso, por sexo. Existe certa assimetria em ambos os casos, Mulheres tém assimetria negativa; j4 para homens, © coeficiente de Bowley indica a presenga de pesos altos que se destacam dos demais. Para cada sexo, seguem 0s grificos box-plot: Figura 1.11: Box-plot da varidvel Peso para cada sexo. 4.2 Organizagao de Dados 7 Podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variabilidade. Ressaltamos, ainda, que o valor extremo da Figura 1.8 desaparece quando se considera os dados separades por sexo. A Figura 1.11 confirma a descrigao feita com base nos coeficientes de assimetria calculados, com pouca assimetria negativa para as mulheres € distribuigSo de frequéncias com certa assimetria positiva para homens. ao Antes apresentar um novo gréfico comparando variiveis precisamos generalizar os conccitos de mediana € quartis j4 discutidos. Os quantis sao valores que limitam uma certa porcentagem de observagGes da varidvel. A notacdo para quartis e mediana j4 foi apresentada e para quantis escolhemos qj. com d indicando a porcentagem definida pelo quantil. Por exemplo, giz € © quantil que limita 12% dos valores inferiores do conjunto de observagdes ordenadas. Para comparar © comportamento de duas varidveis, além dos gréficos jé apresentados, pode-se usar 0 grdfico de quantis ou Q-Q plot que consiste em representar, no plano cartesiano, quantis das respectivas varidveis como pares ordenados. Se os pontos estiverem préximos da reta de 45° temos uma indicagio de que a distribuigéo dos valores das duas varidveis se aproximam. Um caso particular de interesse € aquele em que as duis varidveis tém o mesmo néimero de observagdes. Nesse caso, 0 Q-Q plot € obtido apés ordenar os dois conjuntos de dados ¢ apresentar os pares assim obtidos no plano cartesiano. Exemplo 1.10: Considere que desejamos comparar as alturas (em metros) de alunos do ensino médio de duas escolas A ¢ B. Uma amostra com 15 estudantes foi sorteada em cada uma dessas escolas ¢ os resultados slo apresentados a seguir: Escola A: 1,60 1,69 1,85 1,85 1,58 176 1,60) 1,64 1,62 1,64 172 1,66 1,70 1,78 1,65 Escola B: 1,62 162 1,57 165 1,61 71 165 467) «173 1,60 1.70 185° 1,70 1,73) 1,70 Ordenando as observagées das duas amostras © apresentado os resultados em uma mesma tabela, obtemos: [A [TSE [60 [roe [oF [es | 1.65 [185] [B17 [1.60 [Ler [Lez] 1.62 | 1.65 | 1.65 [1.67 | 1,69] 1,70 | 1,72 | 1,76 | 1,78] 1,85 | 1.85 1,70 | 1,70 | 1,70 | 1,71 | 1,73 | 1,73 | 1.85 28 Capitulo 1: Intredugéo @ Andlise Exploratéria de Dados O grafico Q-@ plor correspondente as duas amostras € apresentado em seguida. O desenho da bissetriz (reta 45°) ajuda a avaliar o comportamento dos quantis. Podemos notar que as distribuigdes sao similares para alturas mais baixas, entretanto diferengas importantes aparecem nos mais altos. Uma andlise mais aprofundada requereria uma amostra maior, 185 160 168 1,70 175 1,80 1,85 Escola A Oo Em geral, para um conjunto de dados com némero diferente de observagdes em cada varidvel precisaremos calcular quantis em cada uma delas. Apesar da ideia de quantil ser relativamente simples de entender, seu célculo pode envolver complicagdes consideriveis, Podemos utilizar a tabela de dados brutes, histograma ou, ainda, a tabela de frequéncias, sendo que cada forma de célculo envolve suposigdes € aproximagdes. Com uma tabela de dados brutos, as alternalivas mais simples para obter 05 quantis séo 0 uso da média de valores vizinhos e da interpolagiio linear, contudo seus resultados podem ser diferentes. Varios programas computacionais calculam 0 Q-0 plor a partir de dados brutes, mas é preciso estar atento para identificar a alternativa de cAlculo que estd sendo usada. Quando temos um grande niimero de observagdes, as varias formas de obtengao dos quantis tendem a produzir resultados semelhantes. No préximo exemple, consideramos os dados apresentados na Tabela 1.1 com os pesos dos estudantes segundo o sexo, Como 0 conjunto de dados é relativamente pequeno, 0 Q-@ plot sera feito usando os decis, isto é, repartindo o conjunto de dados ordenados a cada 10%. Em grandes conjuntos de dados pedemes calcular os percentis (intervalos de 1%) em cada varidvel, produzindo gnificos com mais pontos, o que pode resultar em uma andlise mais informativa. 1.2 Organizagdo de Dados 2» Exemplo 1.11: Com as informagées da Tabela 1.1, desejamos comparar os pesos de homens e¢ mulheres usando o Q-Q plot. Para construir o grafico calculamos, para cada sexo, os decis da varidvel Peso por interpolagao linear, usando a tabela de valores brutos ordenados e as respectivas frequéncias relativas acunuladas. O cdlculo também poderia ser feito de forma similar ao realizado no Exemplo 1.2, amas construindo um histograma da varidvel Peso para cada sexo. ‘Considerando, inicialmente, os estudantes do sexo masculino, temos: | Peso | Freq. Rel. Acum. | 60.0 | 0,08 (113) 685 | 0,15 2/13) 023 G/3) 0,31 4/13) 730 0,38 G3) 0,46 (6/13) i 0,62 (8/13) 84.0 | 0,69,0/13) 85,2 0,77 (10/13) 86,0 | _ 0,85 (i/13) 0,92 (12/13) 1,00 (13/13) 0 1 decil seré obtido interpolando os valores da primeira e segunda tendo em vista que, pela frequéncia relativa acumulada, valores. determinam 8% e 15%, respectivamente. Assim, 68,5—60,0 _ dion — 60,0 0,15 0,08 ~ 0,10=0,08 “17 = 824 De modo anélogo para o 5° decil, 750-730 _ dow — 780 4 aa.9, 0,540.46 0,50—0,46 Nolte que 0 5° decil é a mediana que j4 sabemos calcular de uma outra forma. Ou seja, como temos 13 observages, um nimero impar, a mediana seria 0 valor da sétima observagao ordenada pois ela dividiria © conjunto em niimero igual de. observagGes (6 antes e 6 depois). Nesse caso obteriamos 0 valor 75 que, apesar de préximo, é diferente daquele obtido neste exemplo. = od 30 Capitulo 1: Introdugio 4 Andlise Exploratéria de Dados Realizando os célculos conforme indicado, obtemos a tabela: arya. 701 49,1 Decis iow Homens | 62,4 Mulheres | 47,3 srw | dior | dice | deo | dro | daos | doose 72,6 | 73,0 | 74,0 | 79,4 | 84.2 | 85,5 | 86,7 51,6 | 53,5 | 55,0 | 56,3 | 58,0 | 58,8 | 61,3 Entdo, temos 0 seguinte Q-Q plot: Vemos claramente que, conforme esperado, 0 comportamento da varidvel Peso € bastante diferente entre homens ¢ mulheres. Para todos os decis, 0 peso dos homens é maior do que o das mulheres, conforme vemos no-desvie des pontos em relacSo & bissetriz apresentada no gréifico. Essa mesma conclusio jé tinha sido indicada com base nos graficos box-plot da Figura 1.11. o Exercicios da Segiio 1.2: 1. Classifique cada uma das varidveis abaixo em qualitativa (nominal / ordinal) ou quantitativa (disereta / continua): a. Ocorréncia de hipertensao pré-natal em grividas com mais de 35 anos (sim ou ndo sao possiveis respostas para esta varidvel). 1.2 Organizagéo de Dados 3 b. Intengao de voto para presidente (poss{veis respostas sio os nomes dos candidatos, além de ndo sei). c. Perda de peso de maratonistas na Corrida de Sao Silvestre, em quilos. d, Intensidade da perda de peso de maratonistas na Corrida de Sao Silvestre (eve, moderada, forte). e. Grau de satisfapao da populagdo brasileira com relagao ao trabalho de seu presidente (valores de 0 a 5, com 0 indicando totalmente insatisfeito ¢ 5 totalmente satisfeito). 2, Quinze pacientes de uma clinica de ortopedia foram entrevistades quanto ao mimero de meses previstos de fisioterapia, se haverd (S) ou nao (N) sequelas apés © tratamento e o grau de complexidade da cirurgia Tealizada: alto (A), we Se a. Classifique cada uma das variéveis. b. Para cada varidvel, construa a tabela de frequéncia e faga uma representacio grdfica. ¢. Para 0 grupo de pacientes que néio ficaram com sequelas, faga um grafico de barras para a varidvel Fisioterapia. Vocé acha que essa varidivel se comporta | de modo diferente neste grupo? 3. Os dados abaixo referem-se ao saldrio (em saldrios minimos) de 20 funciondirios administrativos em uma indtistria, [10.17 7.3 [85 [5,07 42 [3,1 1221 9,019.41 6.1] [3.3 [10,7 [7.5 | 8,2] 10,0] 47 13,5 [6.5 18,9 [6.1 | a, Construa uma tabela de frequéncia, agrupando os dados cm faixas a partir de 1 com amplitude 2, Escolha ineluir o limite inferior ¢ excluir 0 superior. b. Construao histograma e calcule o Ie 0 3° quartil. c. Construa 0 box-plot utilizando'os dados brutos, 4, Um grupo de estudantes do ensino médio foi submetido a um teste de matemitica resultando em: 32 Capitulo I: Introdugdo & Andlise Exploratéria de Dados ‘Nota | Frequéncia Or2 4 24 28 4-6 27 6B 11 81-10 4 a. Construa o histograma. b. Se a nota minima para aprovagio for 5, qual serd a porcentagem de aprovagiio? . Usando as informagdes disponiveis, obtenha 0 box-plor, Indique as suposigées feitas. 5. Um estudo pretende verificar se o problema da desnutrig#o em adultos medida pelo peso, em quilos, em uma regio agricola (denotada por Regifio A), é maior do que em uma regiao industrial (Regiio B). Para tanto, uma amostra foi tomada em cada regido, fornecendo a tabela de frequéncias a seguir: A Regio B a. Os dados apresentados sugerem que o grau de desnutrigio € diferente nas duas regiées? (Note que 0 total de observagdes difere em cata regifio). b. Construa, a partir dos dados das tabelas, um histograma para cada regia. Faga uma suposi¢ao conveniente para as faixas nfo delimitadas, c. Com base nos histogramas obtidos em (b) e em suposigGes adequadas, obtenha as medidas necess4rias para construir um box-plot para o peso de adultos em cada regido. Usando essa representagao gréfica, faca uma rediscussdo do item (a). d. Utilizando a mediana ¢ 0s quartis obtidos em (c), determine © coeficiente de assimetria de Bowley para o peso de adultos em cada regio. Os valores desses coeficientes estiio de acordo com os padrdes observados em (b) ¢ (c)? 41.3 O Use de Computadores em Estatistica Bal 6. Em um estudo clinico dois anestésicos esto sendo avaliados. Cada um dos medicamentos Alpha e Beta foram aplicados em grupos diferentes de 18 cobaias, sendo que todas clas tinham aproximadamente as mesmas caracteristicas fisicas, incluindo peso ¢ idade. O tempo para o completo efeito dos anestésicos foi medido, em segundos, para cada animal. Os resultados, ‘apés ordenagdo, so apresentados a seguir. Medicamento Alpha: 24, 24, 24, 25, 25, 26, 26, 27, 28, 29, 30, 30, 30, 31, 31, 32, 3233. Medicamento Beta: 19, 19, 19, 20, 22, 25, 26, 26, 27, 29, 29, Il, 34, 34, 37, 40, 41 e 42. ‘a. Construa um box-plot para o tempo de efeito de cada anestésico € comente as diferengas encontradas. b. Para o tempo de efcito de cada medicamento, determine 0 coeficiente de assimetria de Bowley ¢ comente os resultados. ‘c. Compare o desempenho dos anestésicos usando um Q-@ plot. 1.3 O Uso de Computadores em Estatistica Foi mencionado anteriormente que o desenvolvimento da inddstria de computadores deu grande impulso ao uso da Estatistica, Varios programas computacionais de uso comum contém rotinas estatisticas incorporadas as suas fungoes bisicas. Eo caso das planithas eletrénicas, wsualmente pré-instaladas em novos, Programas especificamente desenvolvidos para efetuar andlises estatfsticas so conhecidos como pacotes estatisticos. Existe um nimero considerdvel desses pacotes, alguns voltacios para andlises mais comuns na rea de humanidades, outros para a drea de biomédicas; alguns sio extremamente ‘simples de se utilizar através de menus, outros pressupSem conhecimento de uma linguagem de programagio especifica. Qualquer que seja o programa a ser utilizado, trés sio as etapas que envolvem seu uso: 1. Entrada de Dados 2. Execugiio da Andlise Estatistica 3. Interpretagiio de Resultados A Entrada de Dados deve assumir certas convengdes. Apesar de certos programas terem rotinas desenvolvidas de forma a simplificar a criagdio do banco de dados, intrinsecamente o que se tem € a criagio de uma marriz, em que cada linha corresponde a uma unidade experimental ¢ cada coluna a uma varidvel. Loa hib ae Capitulo 1; Introdugao a Andtise Exploratéria de Dados Por unidade experimental, entende-se 0 elemento da populagio ou amostra no qual observarcmos as varidveis. Por exemplo, na Tabela 1.1, observamos 50 unidades experimentais, os estudantes, nos quais foram observadas 14 varidveis. Assim, os dados podem ser representados por uma matriz com dimensio 50 por 14. Leitores familiares com planilhas eletrénicas nao terao problema em visualizar esta situag&o, Assim, quando estudamos uma nica varidvel, consideramos a coluna correspondente. Se estamos interessados em saber o comportamento desta varidvel em dois grupos diferentes (como na Figura 1.11), precisamos estudar os valores da coluna em que ela se encontra, conjuntamente com a coluna que contém a informagdo dos grupos. A fase da execugio da andlise estatistica pressupde 0 conhecimento de como © programa que est4 sendo utilizado trabalha as informagdes. Torna-se, assim, importante se ter acesso ao manual do programa. Apds as informagdes terem sido trabalhadas, vem a fase da interpretagio dos resultados obticos. Nesta hora, € aconselhavel consultar o manual sempre que houver divida, se o que foi calculado relaciona-se, de fato, 4 andlise estatistica desejada. Ao interpretar as caracterfsticas observadas, € importante verificar se resultados absurdos nfo estio ocorrendo, Em caso positive, releia © manual ¢ Certifique-se de ter executado a andlise correta para os dados em questio, Em muitos casos, a fase de interpretagdo € a mais dificil ¢ interessante, pois envolve 0 equacionamento das caracteristicas apresentadas na andlise com vistas a responder as questées inicialmente colocadas. Exercicies da Segio 1.3: 1. Utilizando alguma planilha eletronica ou pacote estatfstico disponivel e com as informagées da Tabela 1.1, construa um banco de dados para os 20 individuos iniciais ¢ as varidveis Sexo, Idade, Altura e Peso. Imprima e confira os valores digitad 2. Considerando © banco de: dados criado no Exercicio | desta segao, construa Tepresentagées graficas adequadas para as quatro varidveis e descreva os seus: comportamentos, 3. Considerando o banco de dados criado no Exercicio 1 desta segio, divida a idade cm trés categorias (menores de 18 anos, idade entre 18 ¢ 21 inclusive, e maiores de 21 anos), Construa gréficos de barra pura essa varidvel, incluindo todos os individuos ¢ um para cada sexo. Interprete os resultados obtidos. 1.4 Exercicios cs] 1.4 Exercicios 1. Responda certo ou errado, justificando: @. Suponha duas amostras colhidas de uma mesma populagiio, sendo uma de tamanho 100 € outra de tamanho 200. Entao, a amostra de tamanho maior é mais representativa da populagao. b. Duas variéveis com valores diferentes podem apresentar histogramas iguais. ¢. Duas varidveis com box-plot iguais nao podem ter valores diferentes. 2. Suponha que duas empresas desejam empregé-lo © apés considerar as vantagens de cada uma, yoot vai escolher aquela que Ihe pagar melhor. Apés. certa pesquisa, voc€ consegue a distribuigo de salirio das empresas, dadas si As HHT I 1 ULE > =» pia ww ~ ‘Com base nas informagGes de cada grafico, qual seria sua decisiio? 3. Uma pesquisa com usuarios de transporte coletivo na cidade de Sio Paulo indagou sobre os diferentes tipos usados nas suas locomogées didrias. Dentre Gnibus, metré c trem, o némero de diferentes meios de transporte utilizados foi oseguinte: 2, 3, 2, 1,2, 1, 2, 1,2,3, 1, 1,1,2,2,3, 1,111.2, 1,1,2,2, 1,2, 1,23. a. Organize uma tabela de frequéncia. b. Faga uma representagio grifica. ¢, Admitindo que essa amostra represente bem o comportamento do usudrio paulistano, vocé acha que a porcentagem dos usudrios que utilizam mais de um tipo de transporte é grande? 36 Capitulo I; Introdugdo a Andlise Exploratéria de Dados 4. A idade dos 20 ingressantes num certo ano no curso de pés-graduagao em jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 € 40. a. Apresente os dados em uma tabela de frequéncia, incluindo a frequéncia relativa. b. Idades atipicas parecem ter ocorrido nesse ano. Apés sua retirada do conjunto de dados, refaca o item (a). Comente as diferengas encontradas. 5. Um novo medicamento para cicatrizago est sendo testado e um experimento € feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, IS 14. a. Organize uma tabela de frequéncia, b. Que porcentagem das observagGes estiio abaixo de 16 dias? . Classifique como rdpida as cicatrizagées iguais ou inferiores a 15 dias e como lena as demais, Faga um diagrama circular indicando as porcentagens para cada classificagio. 6. O Posto de Sade de um certo bairro mantém um arquivo com o niimero de eriangas nas familias que se utilizam do Posto, Os dados siio os seguintes: 3, 4, 3,4, 5, 1,6, 3, 4,5, 3, 4, 3,3, 4, 3,5, 5,5, 5,6, 11, 10,2, 1,2,3,1,5¢2. a. Organize uma tabela de frequéncia. b. Faga uma representagao grafica, ¢. Vooé identifica valores muito discrepantes? Que fazer com eles? 7. Um questiondrio foi aplicado aos dez funciondrios do setor de contabilidade de ‘uma empresa fornecendo os dadas apresentados na tabela. a. Classifique cada uma das varidveis. 14 Exercicios 7 b, Faga uma representago griifica para a variével Curso. ¢. Discuta a melhor forma de construir a tabela de frequéncia para a varidvel Idade, Construa uma representagio grifica, d. Repita o item (c) para a varidvel Salario. e. Considerando apenas os funciondrios com mais de tés anos de casa, descreva o comportamento da varidvel Saldrio, 8. Um grupo de pedagogos estuda a influéncia da troca de escolas no desempenho de alunos do ensino fundamental. Como parte do levantamento realizado, foi anotado o nitimero de escolas cursadas pelos alunos participantes do estudo. Escolas Cursadas | Frequéncia a. Qual é a porcentagem dos alunos que cursaram mais de uma escola? b. Construa 0 grifico de barras. ¢. Classifique os alunos em dois grupos segundo a rotatividade: alia para alunos com mais de 2 escolas e baixa para os demais. Obtenha a tabela de frequéncia dessa varifivel. 9. Alunos da Escola de Educagio Fisica foram submetidos a um teste de resisténcia quanto ao nimero de quildmetros que conseguiram correr sem parar. Os dados estilo apresentados a seguir. ‘a, Qual é a varidivel em estuco? b. Construa o hi c. Determine os 12, 2% 3° quartis. Faixas | Frequéncia Or4 438 41-8 206 8-12 125 2-16 22 16}- 20 9 10. O tempo de utilizagdo de caixas eletrénicos depende de cada usudrio e das operapées efetuadas. Foram coletadas 26 medidas desse tempo (em minutos): 38 Captrulo 1: Introdugdo 2 Andlise Exploratéria de Dados (277 5] 09 113 4 6] 1,7 [1,6] 10 [08] 15 (E37 6] 1,4 10,219,210) 09 8 17 [15 sis a. Organize uma tabela de frequéncia sem agrupar os dados. b. Agrupe os dados em faixas de tamanho 0,2 a partir de 0,8 e obtenha uma nova tabela de frequéncia. c. Compare as tabelas obtidas em (a) € (b). Comente as diferengas. d. Construa o box-plot a partir da tabela de dados brutos. 11. Vinte € uma pacientes de uma clinica médica tiveram o seu nivel de potissio no plasma medido. Os resultados foram os seguintes: 2,55 2,75 2,75 - 2,95 2,95 3,15 3,15 3,35 3,85 13,65 Alele cle a. Construa © histograma. b. Determine os 1%, 2° ¢ 3° quartis. ¢. Qual a porcentagem dos valores que estiio acima do nivel 37 12. Foram feitas medidas em operdrios da construgio civil a respeito da taxa de hemoglobina no sangue (em gramas/em*); Ti, [1227 11,7 [12,6] 13,9 | 12,8 | 14,4 | 13,6 | 12,7 | 12,0 11,3 [11,7 | 12,6 | 13,4 | 15,2 | 13,2 [13,0 | 16,9 | 15,8 | 14,7 13,5 [12,7 | 12,3 | 13,6 | 15,4 | 16,3 | 15,2 [12,8 | 13,7 | 141 a. Organize os dados em faixas de tamanho 1 a partir do 11. b. Construa o histograma_ ¢. Determine 0 terceiro quartil ¢ a mediana. d. Taxas abaixo de 12 ou acima de 16 sio consideradas alteradas e requerem acompanhamento médico. Obtenha a tabela de frequéncia da varivel Acompanhamento Médico com duas opgdes: sim ou nio. e. Usando a tabela de dados brutos construa 0 box-piot.

You might also like