You are on page 1of 49

Curso Prtico & Objetivo Direitos Autorais Reservados

Estatstica Descritiva
1 INTRODUO
A Estatstica uma cincia cujo campo de aplicao estende-se a muitas reas do conhecimento humano. Entretanto, um equvoco comum que deparamos nos dias atuais que, em funo da facilidade que o advento dos computadores nos proporciona, permitindo desenvolver clculos avanados e aplicaes de processos sofisticados com razovel eficincia e rapidez, muitos pesquisadores consideram-se aptos a fazerem anlises e inferncias estatsticas sem um conhecimento mais aprofundado dos conceitos e teorias. Tal prtica, em geral, culmina em interpretaes equivocadas e muitas vezes errneas... Em sua essncia, a Estatstica a cincia que apresenta processos prprios para coletar, apresentar e interpretar adequadamente conjuntos de dados, sejam eles numricos ou no. Podese dizer que seu objetivo o de apresentar informaes sobre dados em anlise para que se tenha maior compreenso dos fatos que os mesmos representam. A Estatstica subdivide-se em trs reas: descritiva, probabilstica e inferencial. A estatstica descritiva, como o prprio nome j diz, se preocupa em descrever os dados. A estatstica inferencial, fundamentada na teoria das probabilidades, se preocupa com a anlise destes dados e sua interpretao. A palavra estatstica tem mais de um sentido. No singular se refere teoria estatstica e ao mtodo pelo qual os dados so analisados enquanto que, no plural, se refere s estatsticas descritivas que so medidas obtidas de dados selecionados. A estatstica descritiva, cujo objetivo bsico o de sintetizar uma srie de valores de mesma natureza, permitindo dessa forma que se tenha uma viso global da variao desses valores, organiza e descreve os dados de trs maneiras: por meio de tabelas, de grficos e de medidas descritivas. A tabela um quadro que resume um conjunto de observaes, enquanto os grficos so formas de apresentao dos dados, cujo objetivo o de produzir uma impresso mais rpida e viva do fenmeno em estudo. Para ressaltar as tendncias caractersticas observadas nas tabelas, isoladamente, ou em comparao com outras, necessrio expressar tais tendncias atravs de nmeros ou estatsticas. Estes nmeros ou estatsticas so divididos em duas categorias: medidas de posio e medidas de disperso.
Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

Para se obter bons resultados numa anlise estatstica, alm dos mtodos aplicados, tambm necessrio ter clareza nos conceitos utilizados. A seguir so apresentados alguns desses conceitos.

1.1 CONCEITOS FUNDAMENTAIS E DEFINIES


A estatstica trabalha com dados, os quais podem ser obtidos por meio de uma populao ou de uma amostra, definida como: Populao: conjunto de elementos que tem pelo menos uma caracterstica em comum. Esta caracterstica deve delimitar corretamente quais so os elementos da populao que podem ser animados ou inanimados. Amostra: subconjunto de elementos de uma populao. Este subconjunto deve ter dimenso menor que o da populao e seus elementos devem ser representativos da populao. A seleo dos elementos que iro compor a amostra pode ser feita de vrias maneiras e ir depender do conhecimento que se tem da populao e da quantidade de recursos disponveis. A estatstica inferencial a rea que trata e apresenta a metodologia de amostragem. Em se tratando de conjuntos-subconjuntos, estes podem ser: Finitos: possuem um nmero limitado de elementos. Infinitos: possuem um nmero ilimitado de elementos. Segundo Medronho (2003), elemento significa cada uma das unidades observadas no estudo. Aps a determinao dos elementos pergunta-se: o que fazer com estes? Pode-se medilos, observ-los, cont-los surgindo um conjunto de respostas que receber a denominao de varivel. Varivel: a caracterstica que vai ser observada, medida ou contada nos elementos da populao ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. No basta identificar a varivel a ser trabalhada, necessrio fazer-se distino entre os tipos de variveis: Varivel qualitativa: uma varivel que assume como possveis valores, atributos ou qualidades. Tambm so denominadas variveis categricas. Varivel quantitativa: uma varivel que assume como possveis valores, nmeros. Cada uma dessas variveis pode ser sub-classificada em: Varivel qualitativa nominal: uma varivel que assume como possveis valores,
Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

atributos ou qualidades e estes no apresentam uma ordem natural de ocorrncia. Exemplo 01: meios de informao utilizados pelos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM: televiso, revista, internet, jornal. Varivel qualitativa ordinal: uma varivel que assume como possveis valores atributos ou qualidades e estes apresentam uma ordem natural de ocorrncia. Exemplo 02: estado civil dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM: solteiro, casado, separado. Varivel quantitativa discreta: uma varivel que assume como possveis valores nmeros, em geral inteiros, formando um conjunto finito ou enumervel. Exemplo 03: nmero de reprovas, por disciplina, dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM: 0, 1, 2, ..... Varivel quantitativa contnua: uma varivel que assume como possveis valores nmeros, em intervalos da reta real e, em geral, resultantes de mensuraes. Exemplo 04: peso (quilogramas) dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM: 58, 59, 63.....

Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

2 TABELA
muito comum nos dias de hoje, devido ao uso de computadores, realizarem pesquisas em que a coleta de dados resulta em grandes colees (quantidades) de dados para anlise e torna-se quase impossvel entend-los, quanto ao(s) particular(es) objetivo(s) de estudo, se estes dados no estiverem resumidos. Em outras palavras, os dados na forma em que foram coletados no permitem, de maneira fcil e rpida, que se extraia informaes. Torna-se difcil detectar a existncia de algum padro. necessrio trabalhar os dados para transform-los em informaes, para compar-los com outros resultados, ou ainda para julgar sua adequao a alguma teoria (Bussab, 2003, p.1). Montgomery (2003, p.14) afirma que sumrios e apresentaes de dados bem constitudos so essenciais ao bom julgamento estatstico, porque permitem focar as caractersticas importantes dos dados ou ter discernimento acerca do tipo de modelo que deveria ser usado na soluo do problema em questo. Com o objetivo de levantar dados, para exemplificar a maioria das tcnicas apresentadas, no dia 21/03/2005, um questionrio (vide anexo I) foi aplicado aos alunos do 2 ano do curso de Estatstica da Universidade Estadual de Maring (UEM) matriculados na disciplina Inferncia Estatstica. As variveis que compem o questionrio so: Sexo: com categorias (1) se masculino e (2) se feminino Id: idade em anos Altura: altura em metros e centmetros Peso: peso em quilos Est.Civil: estado civil com categorias (1) se solteiro, (2) se casado e (3) se separado Nir.: nmero de irmos Transp.: meio de transporte mais utilizado com categorias (1) de coletivo e (2) se prprio Procedncia: municpio de procedncia com categorias (1) se Maring, (2) se outro municpio do Paran e (3) se de outro Estado Trabalho: relao do trabalho com o curso com categorias (1) no trabalho, (2) completamente relacionado, (3) parcialmente relacionado e (4) no relacionado Inform: meio de informao mais utilizado com categorias (1) se TV, (2) jornal, (3) rdio, (4) revista e (5) internet Disc.: nmero de disciplinas reprovadas no 1 ano da UEM. Para se trabalhar estes dados so necessrios, em primeiro lugar, tabul-los e apresent-

Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

los na forma em que foram coletados (dados brutos) como na Tabela 01. Em geral, a 1 coluna da tabela deve conter a identificao do respondente.

Tabela 01 - Informaes sobre sexo, idade (anos), altura (metro e centmetro), peso (kg), estado civil, nmero de irmos, transporte, procedncia, relao do trabalho com o curso de Estatstica, meio de informao e nmero de disciplinas reprovadas dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM - 21/03/2005. N Sexo Id Altura Peso Est.Civil Nir. Transp. Procedncia Trabalho Inform Disc. 1 F 20 1,60 58 Solteiro 1 Prprio Maring No Rel. TV 2 2 F 26 1,65 59 Solteiro 2 Coletivo Fora do Pr No trab. Revista 0 3 F 18 1,64 55 Solteiro 2 Prprio Maring No trab. TV 0 4 F 25 1,73 60 Solteiro 2 Coletivo Outro no Pr No Rel. TV 2 5 M 35 1,76 83 Casado 6 Coletivo Outro no Pr No Rel. TV 2 6 F 20 1,62 58 Solteiro 2 Coletivo Outro no Pr No Rel. Rdio 5 7 F 29 1,72 70 Solteiro 3 Coletivo Maring No trab. TV 0 8 M 23 1,71 62 Separado 2 Prprio Outro no Pr No Rel. Internet 2 9 F 20 1,63 63 Solteiro 2 Prprio Maring No trab. TV 1 10 M 20 1,79 75 Solteiro 2 Prprio Fora do Pr No trab. Internet 2 11 M 20 1,82 66 Solteiro 1 Prprio Fora do Pr No trab. TV 2 12 F 30 1,68 46 Solteiro 3 Prprio Outro no Pr Parc.Rel. TV 4 13 F 18 1,69 64 Solteiro 1 Prprio Maring Parc.Rel. TV 0 14 M 37 1,82 80 Casado 2 Prprio Maring No Rel. TV 3 15 M 25 1,83 62 Solteiro 1 Prprio Outro no Pr No Rel. TV 2 16 F 20 1,63 68 Solteiro 2 Coletivo Maring No trab. TV 2 17 M 21 1,71 80 Solteiro 2 Coletivo Maring No Rel. Internet 0 18 M 25 1,80 82 Casado 1 Prprio Outro no Pr No Rel. Internet 3 19 F 24 1,62 55 Solteiro 2 Prprio Maring No trab. Jornal 2 20 M 19 1,74 58 Solteiro 2 Prprio Maring Com.Rel. TV 3 21 F 21 1,55 65 Solteiro 1 Prprio Maring No trab. TV 1 22 M 22 1,73 62 Solteiro 0 Prprio Maring No trab. Jornal 4 Fonte: Departamento de Estatstica (DES)/UEM. De acordo com Magalhes (2000), pode-se observar que a Tabela 01, tabela de dados brutos, contm muita informao, porm pode no ser muito rpido e prtico obter estas informaes. Por exemplo, no imediato afirmar que existem mais homens que mulheres. Neste sentido, pode-se construir outra tabela para cada uma das variveis que resumir as informaes ali contidas. Segundo o mesmo autor, observa-se tambm que, ao usar programas computacionais e para facilitar/agilizar a digitao do banco de dados, s variveis qualitativas associam-se valores numricos e nem por isso a varivel deixa de ser qualitativa. Cabe ao bom senso lembrar da natureza da varivel.
Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

Embora um certo volume de informao seja perdido quando os dados so resumidos, um grande volume pode tambm ser ganho. Uma tabela talvez seja o meio mais simples de se resumir um conjunto de observaes (Pagano, 2004, p.10). Deve ser usada quando importante a apresentao dos valores (Medronho, 2003, p.227), e sua leitura depende de quem a l. Todas as variveis podem ser resumidas atravs de uma tabela, mas a construo diferenciada dependendo do tipo de varivel. Denomina-se Tabela Simples tabela que resume os dados de uma nica varivel qualitativa e Distribuio de Freqncias ao resumo de uma nica varivel quantitativa.

2.1 ELEMENTOS DA TABELA


Toda tabela deve ser simples, clara, objetiva e auto-explicativa. Segundo Milone (2004, p.25),
os elementos fundamentais da tabela so: ttulo, cabealho, coluna indicadora e corpo. O ttulo aponta o fenmeno, poca e local de ocorrncia; o cabealho explica o contedo das colunas; a coluna indicadora detalha as linhas; o corpo mostra os dados. Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante (caracterizando a confiabilidade dos dados); as notas esclarecem o contedo e indicam a metodologia adotada na obteno ou elaborao da informao; as chamadas clarificam pontos especficos da tabela.

A disposio de uma tabela pode ser generalizada como mostra a Figura 01 a seguir. Tabela rs Ttulo respondendo as perguntas: o qu, onde e quando? Coluna indicadora Cabealho Contedo da linha Clula Coluna
Corpo da tabela

Fonte: Origem dos dados. Nota: Informao esclarecedora.

Figura 01 Representao tabular dos dados.

Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem no texto, como o caso de trabalhos cientficos; as bordas superiores e inferior devem ser fechadas com traos horizontais enquanto s da esquerda e direita no, podendo ou no ser fechadas por traos verticais a separao das colunas no corpo da tabela. conveniente tambm 6

Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

que o nmero de casas decimais seja padronizado.

2.2 TABELA SIMPLES

Uma tabela simples contm as diferentes categorias observadas de uma varivel qualitativa e suas respectivas contagens, denominadas freqncias absolutas. A contagem referese ao nmero de ocorrncias de cada categoria e realizada utilizando-se, por exemplo, a Tabela 01 ou o banco de dados. Quanto classificao, uma tabela simples pode ser temporal quando as observaes so feitas levando-se em considerao o tempo; geogrfica quando os dados referem-se ao local de ocorrncia; especfica (ou categrica) quando tempo e local so fixos; e comparativa quando a tabela resume informaes de duas ou mais variveis. A tabela comparativa tambm denominada tabela cruzada ou de dupla ou mais entradas. Os nomes da coluna indicadora e cabealho podem ser escritos iniciando-se com letras maisculas. Tambm prtica comum justificar esquerda as diferentes categorias da varivel qualitativa que se apresentam no contedo das linhas, iniciando-se com letras maisculas e podem ser dispostas na ordem em que aparecem nos questionrios, ordem alfabtica ou ordem decrescente de freqncia absoluta. Exemplo 05: Tabela histrica.

Tabela 02 Nmero de alunos matriculados na disciplina Probabilidade I do curso de Estatstica da Universidade Estadual de Maring. Ano N de Alunos 2000 40 2001 59 2002 63 2003 69 2004 71
Fonte: DES/UEM. Nota: Os nmeros de 2003 e 2004 correspondem a duas turmas.

Exemplo 06. Tabela geogrfica, especfica e comparativa construda a partir da Tabela 01.

Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

Tabela 03 Municpio de procedncia dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Municpio de Procedncia N de Alunos Maring 12 Outro no Paran 7 Fora do Paran 3 Total 22
Fonte: Tabela 01.

comum e til na interpretao de tabelas a incluso de uma coluna contendo as freqncias relativas e/ou relativas em percentual. A freqncia relativa obtida dividindo-se a freqncia absoluta de cada categoria da varivel pelo nmero total de observaes (nmero de elementos da amostra ou da populao). Multiplicando-se este resultado por 100, obtm-se a freqncia relativa em percentual. Assim, a Tabela 5 torna-se:

Tabela 04 Municpio de procedncia dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Municpio de Procedncia N de Alunos Percentual Maring 12 55 Outro no Paran 7 32 Fora do Paran 3 13 Total 22 100
Fonte: Tabela 01.

Segundo Barbetta et al. (2004), as freqncias relativas em percentual so teis ao se comparar tabelas ou pesquisas diferentes. Por exemplo, quando amostras (ou populaes) tm nmeros de elementos diferentes, a comparao atravs das freqncias absolutas pode resultar em afirmaes errneas enquanto que pelas freqncias relativas em percentual no, pois os percentuais totais so os mesmos.

Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

Tabela 05 Meio de transporte mais utilizado pelos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Meio de transporte N de Alunos Coletivo 7 Prprio 15 Total 22
Fonte: Tabela 01.

Tabela 06 Meio de transporte mais utilizado segundo o sexo dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Sexo Meio de transporte Total Masculino Feminino Coletivo 2 5 7 Prprio 8 7 15 Total 10 12 22
Fonte: Tabela 01.

Exerccio 01. Construa tabelas simples, incluindo os percentuais, para as variveis estado civil, relao do trabalho com o curso de graduao e meio de transporte mais utilizado referentes Tabela 01. Construa tambm, uma tabela cruzada para as variveis estado civil e meio de informao.

2.3 DISTRIBUIO DE FREQNCIA

Como j mencionado no incio deste captulo, dependendo do volume de dados, torna-se difcil ou impraticvel tirar concluses a respeito do comportamento das variveis e, em particular, de variveis quantitativas. Pode-se, no entanto, colocar os dados brutos de cada uma das variveis quantitativas em uma ordem crescente ou decrescente, denominado rol. A visualizao de algum padro ou comportamento continua sendo de difcil observao ou at mesmo cansativa, mas torna-se rpido identificar maiores e menores valores ou concentraes de valores no caso de variveis quantitativas. Estes nmeros (menor e maior valor observado) servem de ponto de partida para a construo de tabelas para estas variveis. Vale destacar que para as variveis qualitativas, podese tambm construir um rol em ordem temporal ou alfabtica, por exemplo.
Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

a diferena entre o menor e maior valor observado da varivel X, denominada amplitude total (AT = xmax xmin), que definir a construo de uma distribuio de freqncia pontual ou em classes. O ideal que uma distribuio de freqncia resuma os dados em um nmero de linhas que varie de 5 a 10.

2.3.1 Distribuio de freqncia pontual sem perda de informao

A construo de uma distribuio de freqncia pontual equivalente construo de uma tabela simples, onde se listam os diferentes valores observados da varivel, com suas freqncias absolutas, denotadas por Fi, onde o ndice i corresponde ao nmero de linhas da tabela, como mostrado na Tabela 7.

Tabela 07 Nmero de irmos dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Nmero de irmos Contagem Freqncia (Fi) 0 | 1 1 |||||| 6 2 |||||||||||| 12 3 || 2 6 | 1 Total 22
Fonte: Tabela 01.

Observa-se que esta varivel foi resumida em 5 linhas. Assim, i = 1,...,5, e, portanto, temse 5 valores para as freqncias absolutas. A freqncia absoluta da segunda linha, F2 = 6, por exemplo, indica que seis alunos tm um irmo, enquanto apenas um afirmou ter seis irmos. A soma de todas as freqncias absolutas deve ser igual ao nmero total de observaes da varivel, neste caso, 22. A segunda coluna desta tabela uma coluna opcional em distribuies de freqncias. Ainda, como colunas complementares em uma distribuio de freqncias e considerando i, a ordem da linha na tabela, tem-se: a freqncia relativa, denotada por fi, e j definida anteriormente como:
Curso Prtico & Objetivo Direitos Autorais Reservados

10

Curso Prtico & Objetivo Direitos Autorais Reservados

fi =

Fi n

onde n o tamanho da amostra, devendo ser substituda por N se os dados forem populacionais. A soma das freqncias relativas de todas as categorias igual a 1; a freqncia relativa em percentual, denotada por fi%, e definida como: fi % = Fi 100 , n

representando o percentual de observaes que pertencem quela categoria. A soma das freqncias deve, agora, ser igual a 100%; a freqncia absoluta acumulada, denotada por Fa i . Estas freqncias so obtidas

somando-se a freqncia absoluta do valor considerado, s freqncias absolutas anteriores a este mesmo valor. a freqncia acumulada relativa, denotada por fa i % e definida como: fa i % = Fa i n 100

Uma tabela contendo todas estas freqncias dita uma distribuio de freqncias completa. Desta forma, a Tabela 8 pode ser apresentada como:

Tabela 08 Nmero de irmos dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Fa i f ai % Fi fi % Nmero de irmos (xi) 0 1 2 3 6 Total
Fonte: Tabela 01.

1 6 12 2 1 22

4,55 27,26 54,55 9,09 4,55 100,00

1 7 19 21 22

4,55 31,81 86,36 95,45 100,00

Segundo Milone (2004), em se tratando das freqncias relativas em percentuais, arredondamentos se fazem necessrios e devem ser feitos de maneira convencional. Neste tipo de aproximao opta-se sempre pelo menor erro. Por exemplo, se for necessrio aproximar o nmero 0,483 para a ordem do centsimo, erra-se menos subtraindo 0,003 que adicionando 0,007 ao valor 0,483, portanto a aproximao correta 0,48. Se a aproximao for do nmero 0,4853
Curso Prtico & Objetivo Direitos Autorais Reservados

11

Curso Prtico & Objetivo Direitos Autorais Reservados

para a ordem do centsimo, ento o erro menor ser para a adio de 0,0047 e no para a subtrao de 0,0053, e a aproximao adequada 0,49. J no caso do nmero 0,485, o tamanho do erro de aproximao o mesmo que se obtm quando feita para mais ou para menos (0,005), e neste caso, cabe ao pesquisador decidir qual aproximao mais conveniente. A soma de todas as freqncias relativas percentuais deve ser igual a 100. Entretanto, quando so feitas aproximaes, tal fato pode no ocorrer. Para o caso em que for menor que 100, soma-se uma unidade ao dgito de interesse das maiores freqncias relativas at que a soma seja 100. Se for maior que 100, deve-se subtrair uma unidade das maiores freqncias relativas. Agora, se ocorrem empates ou se as maiores freqncias forem nmeros inteiros, conveniente trabalhar com as outras freqncias. O importante que a distribuio dos dados no seja alterada.

2.3.2 Distribuio de freqncia em classes com perda de informao

A distribuio de freqncias em classes apropriada para apresentar dados quantitativos contnuos ou discretos com um nmero elevado de possveis valores (Medronho, 2003, p231). necessrio dividir os dados em intervalos ou faixas de valores que so denominadas classes. Uma classe uma linha da distribuio de freqncias. O menor valor da classe denominado limite inferior (li) e o maior valor da classe denominado limite superior (Li). O intervalo ou classe pode ser representado das seguintes maneiras: a) li |____ Li, onde o limite inferior da classe includo na contagem da freqncia absoluta mas o superior no; b) li ____| Li, onde o limite superior da classe includo na contagem mas o inferior no; c) li |____| Li, onde tanto o limite inferior quanto o superior so includos na contagem; d) li ____ Li, onde os limites no fazem parte da contagem. Pode-se escolher qualquer uma destas opes sendo o importante tornar claro no texto ou na tabela qual est sendo usada. Se houver muitos intervalos, o resumo no constituir grande melhoria com relao aos dados brutos. Se houver muito poucos, um grande volume de informao se perder. Embora no seja necessrio, os intervalos so freqentemente construdos de modo que todos tenham larguras iguais, o que facilita as comparaes entre as classes. (Pagano, 2004, p.11). Milone (2004, p.36) apresenta os seguintes critrios para a determinao do nmero de intervalos, denotado por k: 12

Curso Prtico & Objetivo Direitos Autorais Reservados

Curso Prtico & Objetivo Direitos Autorais Reservados

1. Raiz quadrada: k = n 2. Log (Sturges): k = 1 + 3,3 log n


3. ln (Milone): k = 1 + 2 ln n 4. k = 1 + 10 d AT , onde n o nmero de elementos da amostra, AT a amplitude total dos dados e d o nmero de decimais de seus elementos. Deve-se lembrar que sendo k o nmero de classes, o resultado obtido por cada um dos critrios deve ser o nmero inteiro mais prximo ao obtido. Milone (2004) acrescenta ainda que, adotando o princpio de que os agrupamentos devem ter no mnimo cinco e no mximo 20 classes, o critrio da raiz valido para 25 n 400, o do log para 16 n 572.237 e o do ln para 20 n 36.315. Por outro lado, o pesquisador pode definir o nmero de classes baseando-se em sua experincia. Determinado o nmero de classes da distribuio de freqncias, o prximo passo determinar a amplitude de cada classe, h, que por uma questo de bom senso deveria ser um nmero com a mesma preciso dos dados. A amplitude de classe, h, definida por:
h= AT k

e assim todas as classes tero a mesma amplitude, o que permitir a construo de grficos e clculo de medidas descritivas. No caso de uma distribuio de freqncia contnua, ou em classes, uma outra coluna pode ser acrescentada tabela. a coluna dos pontos mdios, denotada por xi e definida como a mdia dos limites da classe: xi = li + Li , i = 1,..., k . 2

Estes valores so utilizados na construo de grfico e na obteno de medidas descritivas com o auxlio de calculadoras.

Exemplo 07. Considere a varivel idade dos alunos da Tabela 01. A Tabela 09 apresenta a

distribuio de freqncia adequada.

Curso Prtico & Objetivo Direitos Autorais Reservados

13

Curso Prtico & Objetivo Direitos Autorais Reservados

Tabela 09 Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Fi Idade 18 2 19 1 20 6 21 2 22 1 23 1 24 1 25 3 26 1 29 1 30 1 35 1 37 1 Total 22
Fonte: Tabela 01.

Pode-se observar que a tabela possui 13 linhas e que muitas delas, seguidas, apresentam freqncia igual a 1, o que mostra que o resumo da idade no apresenta uma distribuio satisfatria dos dados. Segundo Montgomery (2003), ao passar dos dados brutos, que o mesmo que os dados apresentados numa distribuio de freqncias pontual, para uma distribuio de freqncia em classes, algumas informaes so perdidas, pois no se tem mais as observaes individuais. Por outro lado, essa perda pequena quando comparada ao ganho de conciso e de facilidade de interpretao da distribuio de freqncia. Assim, para a idade, tem-se:
At = 37 18 = 19 anos

k = 22 = 4, 69 5 classes h= 19 = 3,8 4 anos 5

e, a distribuio de freqncia dada na Tabela 10.

Curso Prtico & Objetivo Direitos Autorais Reservados

14

Curso Prtico & Objetivo Direitos Autorais Reservados

Tabela 10 Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Fa i f ai % xi Fi fi % Idade 18 |---22 20 11 50,00 11 50,00 22 |---26 24 6 27,27 17 77,27 26 |---30 28 2 9,09 19 86,36 30 |---34 32 1 4,55 20 90,91 34 |---38 36 2 9,09 22 100,00 Total 22 100,00 Fonte: Tabela 01.

Nota-se que cada um dos valores observados deve pertencer a uma e somente uma classe. usual que o limite inferior da primeira classe seja igual ao menor valor observado e que o maior valor pertena ltima classe. Quando o limite superior da ltima classe coincidir com o maior valor observado mais apropriado fechar este intervalo, contando o elemento nesta classe, do que abrir uma nova classe contendo apenas uma freqncia absoluta. Por outro lado, se o maior valor observado for inferior ao limite superior da classe, no h problemas, pois fixamos todas as classes com a mesma amplitude. Nada impede que se construa uma tabela com amplitude de classes desiguais. Isto depender do objetivo do pesquisador. O que se recomenda o cuidado na interpretao da tabela. O primeiro passo calcular as amplitudes das classes (i) e apresent-las numa coluna. Em seguida, calculam-se as densidades de freqncias de cada classe, dividindo-se Fi por i, para conhecer a concentrao por unidade da varivel. Pode-se, tambm, calcular as densidades das propores para se conhecer o percentual de concentrao em cada classe (fi / i).
Exemplo 08. Considere os dados do exemplo 07. A distribuio de freqncias com intervalos

de classes desiguais apresentada na Tabela 11. Tabela 11 Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005. Frequncia Amplitude Densidade Proporo Densidade Idade Fi i Fi / i fi fi / i 18 |---20 3 2 1,50 0,14 0,07 20 |---22 9 2 4,50 0,40 0,20 22 |---24 2 2 1,00 0,09 0,05 24 |---28 5 4 1,25 0,23 0,06 28 |---38 3 10 0,30 0,14 0,01 Total 22 1,00 Fonte: Tabela 01.

Curso Prtico & Objetivo Direitos Autorais Reservados

15

Curso Prtico & Objetivo Direitos Autorais Reservados

Uma outra forma de construir uma distribuio de freqncias com amplitudes de classes desiguais a que se apresenta na Tabela 12, onde a ltima classe no apresenta limite superior especificado. Isto poderia, tambm, ocorrer na primeira classe, mas agora com o limite inferior no especificado.

Tabela 12 Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring. Fa i f ai % Fi fi % Idade 18 |---20 20 |---22 22 |---24 24 |---26 Acima de 26 Total
Fonte: Tabela 01.

3 8 2 4 5 22

14 36 9 18 23 100

3 11 13 17 22 -

14 50 59 77 100 -

Com este tipo de distribuio dificuldades podem ocorrer na construo de grficos e no clculo da mdia, por exemplo.
Exerccio 02. Construa uma distribuio de freqncia completa para as variveis da Tabela 01:

a) nmero de disciplinas reprovadas no 1 ano do curso; b) peso.

Curso Prtico & Objetivo Direitos Autorais Reservados

16

Curso Prtico & Objetivo Direitos Autorais Reservados

3 GRFICOS
Grfico um recurso visual da Estatstica utilizado para representar um fenmeno. Sua utilizao em larga escala nos meios de comunicao social, tcnica e cientfica, devem-se tanto sua capacidade de refletir padres gerais e particulares do conjunto de dados em observao, como facilidade de interpretao e a eficincia com que resume informaes dos mesmos. Embora os grficos forneam menor grau de detalhes que as tabelas, estes apresentam um ganho na compreenso global dos dados, permitindo que se aperceba imediatamente da sua forma geral sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do pesquisador. Uma representao grfica coloca em evidncia as tendncias, as ocorrncias ocasionais, os valores mnimos e mximos e tambm as ordens de grandezas dos fenmenos que esto sendo observados. Todo grfico, em sua verso final deve primar pela simplicidade, clareza e veracidade nas informaes. Para atingir tal objetivo, a construo de um grfico exige muito trabalho e cuidados. Segundo Silva (apud WALLGREN, 1996), a escolha da representao grfica e, conseqentemente, a escolha do tipo de grfico mais adequado para representar um conjunto de dados deve ser feita com base nas respostas de questes como: - Um grfico realmente a melhor opo? - Qual o pblico-alvo? - Qual o objetivo do grfico? - Que tipo de grfico deve ser usado? - Como o grfico deve ser apresentado? - Que tamanho o grfico deve ter? - Dever ser usado apenas um grfico? - A qual meio tcnico se deve recorrer? Ao incluir um grfico em um trabalho, sua identificao deve aparecer na parte inferior, precedido pela palavra Grfico seguida de seu nmero de ordem de ocorrncia no texto (algarismos arbicos), de seu respectivo ttulo e/ou legenda explicativa de maneira breve e clara (dispensando a leitura do texto) e da fonte de onde se extraiu os dados. Uma regra bsica para a elaborao adequada do ttulo de qualquer grfico, verificar se o mesmo responde a trs exigncias: o qu, onde e quando.
Curso Prtico & Objetivo Direitos Autorais Reservados

17

Curso Prtico & Objetivo Direitos Autorais Reservados

Quando um grfico for inserido em um texto, recomenda-se que este seja destacado tanto do texto que o precede, como do texto imediatamente subseqente, por meio de trs espaos simples. O ttulo escrito em letras minsculas, exceto a inicial da frase e dos nomes prprios. Deve ser separado da numerao do grfico por um hfen seguido de um espao. Caso seja composto por mais de uma linha, estas devem ser alinhadas sob a primeira letra da primeira linha do ttulo. Em casos onde a legenda se fizer necessrio, como nos casos de grficos comparativos, ela deve ser colocada direita ou abaixo do grfico. A proporo da altura identificada no eixo vertical deve ser, aproximadamente, de 60% a 70% da largura da abscissa, ou seja, do eixo horizontal. D-se preferncia a pouca variao de cores. A variao de cores num mesmo grfico recomendada para o caso de grficos comparativos. No final das linhas que definem os eixos (abscissa e ordenada), devem ser expostas as unidades utilizadas nas escalas que mensuram as grandezas representadas. Existem diversos tipos de grficos. Porm, neste trabalho sero destacados aqueles de maior interesse pedaggico na representao das variveis qualitativas e quantitativas.

3.1 GRFICOS PARA VARIVEIS QUALITATIVAS

3.1.1 Grfico de barras

um grfico formado por retngulos horizontais de larguras iguais, onde cada um deles representa a intensidade de uma modalidade ou atributo. recomendvel que cada coluna conserve uma distncia entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando deste modo, a no continuidade na seqncia dos dados. O objetivo deste grfico de comparar grandezas e recomendvel para variveis cujas categorias tenham designaes extensas.

Curso Prtico & Objetivo Direitos Autorais Reservados

18

Curso Prtico & Objetivo Direitos Autorais Reservados

No trabalho

No relacionado Parcialmente relacionado Completamente relacionado 0 1 2 3 4 5 6 7 8 9 10 11

N de alunos

Figura 02 - Relao trabalho e curso dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

3.1.2 Grfico de colunas

o grfico mais utilizado para representar variveis qualitativas. Difere do grfico de barras por serem seus retngulos dispostos verticalmente ao eixo das abscissas sendo mais indicado quando as designaes das categorias so breves. Tambm para este tipo de grfico deve ser preservada a distncia entre cada retngulo de, aproximadamente, 2/3 da largura da base de cada coluna. O nmero de colunas ou barras do grfico no deve ser superior a 12 (doze).

N de alunos 14 12 10 8 6 4 2 0 Internet Jornal Rdio Revista TV

Figura 03 - Meios de informao utilizados pelos alunos da disciplina Inferncia Estatstica, curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

Curso Prtico & Objetivo Direitos Autorais Reservados

19

Curso Prtico & Objetivo Direitos Autorais Reservados

Ao se descrever simultaneamente duas ou mais categorias para uma varivel, conveniente fazer uso dos grficos de barras ou colunas justapostas (ou sobrepostas), chamados de grficos comparativos. De acordo com as normas contidas em Grficos (UFPR, 2001), este tipo de grfico s deve ser utilizado quando apresentar at trs elementos para uma srie de no mximo quatro valores.

N de alunos 9 8 7 6 5 4 3 2 1 0 Fora do PR Maring

Coletivo Prprio

Outro no PR

Figura 04 - Municpio de procedncia segundo o tipo de transporte utilizado pelos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

3.1.3 Grfico de setores

Tipo de grfico onde a varivel em estudo projetada num crculo, de raio arbitrrio, dividido em setores com reas proporcionais s freqncias das suas categorias. So indicados quando se deseja comparar cada valor da srie com o total. Recomenda-se seu uso para o caso em que o nmero de categorias no grande e no obedecem a alguma ordem especfica. A Figura 05 mostra um grfico de setores para a varivel municpio de procedncia que constam na Tabela 01. O procedimento para o clculo do ngulo correspondente a cada categoria feito por meio de simples propores: 360 que corresponde a um crculo completo est para o total de alunos entrevistados, 22, assim como x est para o total de alunos que pertencem categoria desejada. Por exemplo, os 54% de alunos que residem no municpio de Maring corresponder a um ngulo x resultante da expresso 360 x = , cujo valor aproximadamente 196. 22 12
Curso Prtico & Objetivo Direitos Autorais Reservados

20

Curso Prtico & Objetivo Direitos Autorais Reservados


Maring 54%

Fora do Paran 14%

Outro no Paran 32%

Figura 05 - Municpio de procedncia dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

3.1.4 Grfico de linhas

Sua aplicao mais indicada para representaes de sries temporais sendo por tal razo, conhecidos tambm como grficos de sries cronolgicas. Sua construo feita colocando-se no eixo vertical (y) a mensurao da varivel em estudo e na abscissa (x), as unidades da varivel numa ordem crescente. Este tipo de grfico permite representar sries longas, o que auxilia detectar suas flutuaes tanto quanto analisar tendncias. Tambm podem ser representadas vrias sries em um mesmo grfico.

80 70 N de alunos 60 50 40 30 20 10 0 1999 Ano 2000 2001 2002 2003 2004

Figura 06 - Nmero de matrculas anuais na disciplina Probabilidade do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

Curso Prtico & Objetivo Direitos Autorais Reservados

21

Curso Prtico & Objetivo Direitos Autorais Reservados

Exerccio 03: Considerando as informaes sobre os alunos da disciplina de Inferncia Estatstica

do curso de Estatstica da Uem, contidas na Tabela 01, construa um grfico adequado para representar as variveis: a) sexo; b) estado civil; c) transporte; d) meios de informao segundo o sexo dos alunos.

3.2 GRFICOS PARA VARIVEIS QUANTITATIVAS DISCRETAS

3.2.1 Grfico de bastes


Este grfico formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da varivel), cujo comprimento corresponde freqncia absoluta ou relativa de cada elemento da distribuio. Suas coordenadas no podem ser unidas porque a leitura do grfico deve tornar claro que no h continuidade entre os valores individuais assumidos pela varivel em estudo.

N de alunos 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 N irmos

Figura 07 Nmero de irmos dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

3.2.2 Grfico da freqncia acumulada

A Figura 08 mostra o grfico para freqncia acumulada de uma varivel quantitativa discreta. Na abscissa so alocados os valores assumidos pela varivel nmero de irmos e no eixo das ordenadas suas freqncias acumuladas. Observa-se que a leitura do grfico exige alguns
Curso Prtico & Objetivo Direitos Autorais Reservados

22

Curso Prtico & Objetivo Direitos Autorais Reservados

cuidados bsicos: caso o valor da varivel esteja ou no includo, sua freqncia acumulada difere. Se for de interesse saber quantos alunos tem dois ou menos irmos (inclui-se dois irmo), a freqncia acumulada de 19 alunos. Caso se queira apenas saber quantos alunos tm menos de dois irmos (portanto o nmero dois no est incluso), sua freqncia acumulada de 7 alunos.

Fac 22 20 18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6

N de irmos

Figura 08 - Nmero acumulado de irmos dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

3.3 GRFICOS PARA VARIVEIS QUANTITATIVAS CONTNUAS

3.3.1 Histograma

um grfico de colunas justapostas que representa uma distribuio de freqncia para dados contnuos ou uma varivel discreta quando esta apresentar muitos valores distintos. No eixo horizontal so dispostos os limites das classes segundo as quais os dados foram agrupados enquanto que o eixo vertical corresponde s freqncias absolutas ou relativas das mesmas. Quando os dados so distribudos em classes de mesma amplitude, Figura 09 (a), todas as colunas apresentam bases iguais com alturas variando em funo das suas freqncias absolutas ou relativas. Neste caso, tem-se que a rea de cada retngulo depende apenas da sua altura enquanto que no caso de dados agrupados em classes de dimenses diferentes, como mostra a Figura 9 (b), a rea de cada coluna j no mais proporcional sua altura. Como a altura de cada classe precisa variar simultaneamente com sua largura, necessrio que a rea de cada uma das colunas
Curso Prtico & Objetivo Direitos Autorais Reservados

23

Curso Prtico & Objetivo Direitos Autorais Reservados

permanea em proporo conveniente, o que pode ser obtido dividindo-se as freqncias das classes pelas respectivas amplitudes e construindo-se o histograma a partir destas freqncias. Portanto, pode-se dizer que no primeiro caso, o eixo dos valores informa sobre a freqncia relativa de cada classe, no segundo caso, tal procedimento perde todo significado, e necessrio comparar as reas para interpretar as informaes que so expostas.

N de alunos 12 10 8 6 4 2 0 18 22 26 30 34 Idade 38

(a) Amplitudes iguais.


Densidade 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 14% 0 18 20 22 24 28 38 Idade 14% 9% 41%

23%

(b) Amplitudes desiguais. Figura 09 - Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

Curso Prtico & Objetivo Direitos Autorais Reservados

24

Curso Prtico & Objetivo Direitos Autorais Reservados

3.3.2 Polgono de freqncia

um grfico de linha cuja construo feita unindo-se os pontos de coordenadas de abscissas correspondentes aos pontos mdios de cada classe e as ordenadas, s freqncias absolutas ou relativas dessas mesmas classes. O polgono de freqncia um grfico que deve ser fechado no eixo das abscissas. Ento, para finalizar sua elaborao, deve-se acrescentar distribuio, uma classe esquerda e outra direita, ambas com freqncias zero. Tal procedimento permite que a rea sob a linha de freqncias seja igual rea do histograma. Uma das vantagens da aplicao de polgonos de freqncias que, por serem grficos de linhas, permitem a comparao entre dois ou mais conjuntos de dados por meio da superposio dos mesmos.

12 10 N de alunos 8 6 4 2 0 12 16 20 24 28 32 36 40 Idade

Figura 10 - Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

3.3.3 Grfico da freqncia acumulada ou Ogiva

um grfico que permite descrever dados quantitativos por meio da freqncia acumulada. A ogiva um grfico de linha que une os pontos cujas abscissas so os limites superiores das classes, e, ordenadas suas respectivas freqncias acumuladas. Convm observa-se que o ponto
Curso Prtico & Objetivo Direitos Autorais Reservados

25

Curso Prtico & Objetivo Direitos Autorais Reservados

inicial desse grfico o limite inferior do primeiro intervalo, com freqncia acumulada zero, pois no existe qualquer valor inferior a ele. Quando os dados contidos em cada classe so distribudos uniformemente, pode-se estimar, a partir da ogiva, o nmero de elementos pertencentes a qualquer uma das classes que compe a distribuio de freqncia dos dados e a quantidade ou porcentagem de elementos que esto abaixo de certo valor pertencente ao conjunto de dados. Pela Figura 11, nota-se que no existem alunos com idade inferior a 18 anos enquanto que abaixo de 34 anos existem vinte alunos.

N de alunos
25 20 15 10 5 0 18 22 26 30 34 38 42

Idade

Figura 11 - Idade acumulada dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da UEM, 21/03/2005.
Fonte: Tabela 01.

Exerccio 04: Considerando as informaes sobre os alunos da disciplina de Inferncia Estatstica

do curso de Estatstica da UEM, contidas na Tabela 01, construa os grficos adequados para as variveis: a) peso; b) altura; c) nmero de reprovas no 1 ano de curso.

3.3.4 Ramo-e-Folhas

O diagrama Ramo-e-Folhas, criado por John Tukey, um procedimento utilizado para armazenar os dados sem perda de informao. utilizado para se ter uma idia visual da distribuio dos dados. Cada valor observado, xi, da varivel X, deve consistir de no mnimo dois dgitos e a varivel pode ser tanto quantitativa discreta como contnua.
Curso Prtico & Objetivo Direitos Autorais Reservados

26

Curso Prtico & Objetivo Direitos Autorais Reservados

Para constru-lo, divide-se cada nmero em duas partes. A primeira denominada ramo e a segunda, folhas. O ramo consistir de um ou mais dgitos iniciais se o valor da varivel for um nmero inteiro e do nmero inteiro, se o valor da varivel for um nmero com decimais. Nas folhas, colocam-se os dgitos restantes se o valor observado for nmero inteiro, ou os decimais, caso contrrio. A Figura 12 (a) apresenta o ramo-e-folhas correspondente a varivel idade do aluno da Tabela 01. Observa-se que o ramo correspondente ao dgito 2 tem muitas folhas. Neste caso, a opo dividir este ramo em dois: as folhas de 0 a 4 pertencero a uma linha e as folhas de 5 a 9 pertencero outra linha. Os ramos so discriminados por um sinal no seu expoente, como na Figura 12 (b).

Ramo 1 2 3

Folha 889 0000000112345569 57 (a) Sem diviso de ramos. Folha 889 000000011234 5569 57 (b) Com diviso de ramos.

Freqncia 3 16 2

Ramo 1 2 2* 3

Freqncia 3 12 4 2

Figura 12 - Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring, 21/03/2005.
Fonte: Tabela 01.

Exerccio 05: Construir o ramo-e-folhas para a varivel altura, da Tabela 01.

Curso Prtico & Objetivo Direitos Autorais Reservados

27

Curso Prtico & Objetivo Direitos Autorais Reservados

4 MEDIDAS DESCRITIVAS
Uma outra maneira de se resumir os dados de uma varivel quantitativa, alm de tabelas e grficos, apresent-los na forma de valores numricos, denominados medidas descritivas. Estas medidas, se calculadas a partir de dados populacionais, so denominadas parmetros e se calculadas a partir de dados amostrais so denominadas estimadores ou estatsticas. As medidas descritivas auxiliam a anlise do comportamento dos dados. Tais dados so provenientes de uma populao ou de uma amostra, o que exige uma notao especfica para cada caso, conforme mostra o Quadro 01.

Quadro 01: Notaes de algumas estatsticas. Medidas Parmetros Nmero de elementos N Mdia Varincia 2 Desvio padro

Estimadores n X S2 S

Classificam-se as medidas descritivas como: medidas posio (tendncia central e separatrizes), medidas de disperso, medidas de assimetria e de curtose.

4.1 MEDIDAS DE TENDNCIA CENTRAL

As medidas de tendncia central so assim denominadas por indicarem um ponto em torno do qual se concentram os dados. Este ponto tende a ser o centro da distribuio dos dados. Reis (1998), afirma que:
o valor a escolher depende das caractersticas dos dados. Por exemplo, num estudo agrcola sobre a produo de trigo por hectare de terra arvel podemos estar interessados em conhecer o valor mais elevado da produtividade do solo agrcola das vrias exploraes analisadas. Num outro estudo sobre os resultados de uma turma de estudantes universitrios talvez seja mais interessante conhecer o resultado mdio obtido por 50% dos estudantes. Num outro estudo sobre os rendimentos per capta dos pases da CEE, a comparao entre pases ser facilitada se calcularmos os rendimentos mdios de cada pas.

A seguir, so definidas as principais medidas de tendncia central: mdia, mediana e moda.

Curso Prtico & Objetivo Direitos Autorais Reservados

28

Curso Prtico & Objetivo Direitos Autorais Reservados

4.1.1 Mdia aritmtica

A mdia aritmtica (X) a soma de todos os valores observados da varivel dividida pelo nmero total de observaes. Sob uma viso geomtrica a mdia de uma distribuio o centro de gravidade, representa o ponto de equilbrio de um conjunto de dados. a medida de tendncia central mais utilizada para representar a massa de dados. Seja (x1, ..., xn) um conjunto de dados. A mdia dada por:
N n

= i =1 N

xi
ou

X = i =1 n

xi

para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuio de freqncia, tem-se:
k k

= i =1 N

x i Fi
ou

X = i =1

x i Fi
n .

Observe que no caso de dados agrupados a mdia obtida a partir de uma ponderao, onde os pesos so as freqncias absolutas de cada classe e xi o ponto mdio da classe i. Citam-se a seguir, algumas propriedades da mdia aritmtica: 1. a mdia um valor calculado facilmente e depende de todas as observaes; 2. nica em um conjunto de dados e nem sempre tem existncia real, ou seja, nem sempre igual a um determinado valor observado; 3. a mdia afetada por valores extremos observados; 4. por depender de todos os valores observados, qualquer modificao nos dados far com que a mdia fique alterada. Isto quer dizer que somando-se, subtraindo-se, multiplicando-se ou dividindo-se uma constante a cada valor observado, a mdia ficar acrescida, diminuda, multiplicada ou dividida desse valor. 5. a soma da diferena de cada valor observado em relao mdia zero, ou seja, a soma dos desvios zero.

(x i x) = 0
A propriedade 5, de extrema importncia para a definio de varincia, uma medida de disperso a ser definida posteriormente. Destaca-se, ainda, que a propriedade 3, quando se observam no conjunto dados discrepantes, faz da mdia uma medida no apropriada para representar os dados. Neste caso, no existe uma regra prtica para a escolha de uma outra medida. O ideal , a partir da experincia do pesquisador,
Curso Prtico & Objetivo Direitos Autorais Reservados

29

Curso Prtico & Objetivo Direitos Autorais Reservados

decidir pela moda ou mediana. Para ilustrar, considere o nmero de filhos, por famlia, para um grupo de 8 famlias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso, a mdia x = 1,875 filhos por famlia. Entretanto, incluindo ao grupo uma nova famlia com 10 filhos, a mdia passa a ser x = 2, 788 , o que eleva em 48,16% o nmero mdio de filhos por famlia. Assim, ao observar a mdia, pode-se pensar que a maior parte das famlias deste grupo tem trs filhos quando, na verdade, apenas uma tem trs filhos.

Exemplo 09: Considerando a idade dos alunos da disciplina Inferncia Estatstica do curso de

Estatstica da Universidade Estadual de Maring, a idade mdia

X=

x
i =1

20 + 26 + 18 + + 21 + 22 518 = = 23,5 anos 22 22

Assim, a idade mdia dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring 23,5 anos. No entanto, ao considerar os dados agrupados como na Tabela 10, a mdia :
5

X=

x F
i =1

i i

20 11 + 24 6 + 22

+ 36 2

524 = 23,8 anos. 22

Nota-se que esta diferena ocorre devido ao fato de se utilizar os dados sem o conhecimento de seus valores individuais. Neste caso, tornou-se necessrio represent-los pelos pontos mdios de suas respectivas classes resultando numa certa perda de informao.
Exerccio 06: Calcule a mdia aritmtica para a varivel altura dos alunos da disciplina Inferncia

Estatstica do curso de Estatstica da UEM. a) utilizando os dados brutos; b) utilizando a distribuio de freqncia (dados agrupados).

Curso Prtico & Objetivo Direitos Autorais Reservados

30

Curso Prtico & Objetivo Direitos Autorais Reservados

4.1.2 Moda

A moda (Mo) o valor que apresenta a maior freqncia da varivel entre os valores observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente observando-se o rol ou a freqncia absoluta dos dados. Por outro lado, em se tratando de uma distribuio de freqncia de valores agrupados em classes, primeiramente necessrio identificar a classe modal, aquela que apresenta a maior freqncia, e a seguir a moda calculada aplicando-se a frmula: M o = li + onde i a ordem da classe modal; li o limite inferior da classe modal; h a amplitude da classe modal; Fi a freqncia absoluta da classe modal; Fi 1 a freqncia absoluta da classe anterior classe modal; Fi +1 a freqncia absoluta da classe posterior classe modal. relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a mesma freqncia absoluta, e neste caso no existir um valor modal, o que significa que a distribuio ser classificada como amodal. Pode ocorrer, tambm, casos em que a seqncia de observaes apresente vrios elementos com freqncia iguais, implicando numa distribuio plurimodal. O uso da moda mais indicado quando se deseja obter, rapidamente, uma medida de tendncia central. Um outro aspecto que favorece a utilizao da moda que seu valor no afetado pelos valores extremos do conjunto de dados analisado.
Exemplo 10: A moda da idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica

h(Fi Fi 1) (Fi Fi 1 ) + (Fi Fi +1)

da UEM, determinada pontualmente, Mo= 20 anos. Isto significa que a idade mais freqente entre estes alunos de 20 anos. Ao considerar a distribuio apresentada na Tabela 10, a moda

M o = li +

h ( Fi Fi 1 ) 4 (11 0) 44 = 18 + = 18 + = 18 + 2, 75 = 20, 75 anos. (11 0) + (11 6) 16 ( Fi Fi1 ) + ( Fi Fi+1 )

A interpretao anloga determinada pontualmente.


Curso Prtico & Objetivo Direitos Autorais Reservados

31

Curso Prtico & Objetivo Direitos Autorais Reservados

Exerccio 07: Calcule a moda para a varivel altura dos alunos da disciplina Inferncia Estatstica

do curso de Estatstica da UEM. a) utilizando os dados brutos; b) utilizando a distribuio de freqncia (dados agrupados). Graficamente, utilizando-se um conjunto de dados hipotticos, identifica-se a classe modal como aquela que apresenta o retngulo de maior altura (freqncia). A interseco das retas que unem os pontos AD e os pontos BC, determina o ponto P que, projetado perpendicularmente no eixo da varivel, corresponder ao valor da moda Mo.

12 10 N de alunos 8 6 4 2 0

B 18 Mo 22

26

30

34

Anos 38

4.1.3 Mediana

A mediana (Md) o valor que ocupa a posio central da srie de observaes de uma varivel, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores inferiores mediana igual quantidade de valores superiores a mesma.
Exemplo 11: Retomando o exemplo do nmero de filhos por famlias, verifica-se que:

Para o caso de oito famlias, n=8, a mediana determinada como a seguir: X Valor observado x1 0 x2 1 x3 1 x4 2 x 4 +x 5 2 Md=2 x5 2 x6 2 x7 3 x8 4

4 observaes

4 observaes

Quando se acrescenta ao grupo uma outra famlia com 10 filhos o tamanho da amostra passa
Curso Prtico & Objetivo Direitos Autorais Reservados

32

Curso Prtico & Objetivo Direitos Autorais Reservados

a ser n=9. Neste caso, a mediana : X Valor observado x1 0 x2 x3 1 1 4 observaes x4 1 x5 2 Md=2 x6 2 x7 x8 3 4 4 observaes x9 10

Observe que nos dois casos, por coincidncia, a mediana manteve-se a mesma, Md=2, significando que 50% das famlias possuem menos de 2 filhos ou 50% possuem mais de 2 filhos. Mostra-se assim, que a mediana no influenciada por valores extremos. Este procedimento pode tornar-se inadequado quando o conjunto de dados for composto por muitos elementos. Os passos a seguir indicam uma forma para o clculo da mediana, independentemente do tamanho da amostra. Ordenar as observaes em ordem crescente ou decrescente (rol). Calcular a posio, p, que a mediana ocupa no conjunto de dados:

p = 0,50(n + 1)
Obter a mediana pela equao
M d = x Ip + Fp (x Ip +1 x Ip ) onde Ip a parte inteira de p e Fp a parte fracionria (ou decimal).
Exemplo 12: Considere o rol da idade dos alunos da disciplina Inferncia Estatstica do curso de

Estatstica da UEM: 18, 18, 19, 20, 20, 20, 20, 20, 20, 21, 21, 22, 23, 24, 25, 25, 25, 26, 29, 30, 35, 37 A posio p da mediana p = 0,50(22 + 1) = 11,5 . Assim, M d = x11 + 0,5 (x12 x11 ) = 21 + 0,5 (22 21) = 21,5 anos, logo, 50% dos alunos tm idade inferior a 21,5 anos. Para os dados em distribuio de freqncias em classes, tem-se: M d = li + onde: p= n indica a posio central da srie; 2 h p Fai 1 Fi

i a ordem da classe que contm o menor valor de Fa i , tal que Fa i p ;


Curso Prtico & Objetivo Direitos Autorais Reservados

33

Curso Prtico & Objetivo Direitos Autorais Reservados

Fa i 1 a freqncia acumulada da classe anterior da mediana.

Exemplo 13: Ao considerar a distribuio apresentada na Tabela 10, a mediana

p=

22 = 11 Fai 11 i = 1 2

M d = li +

h p Fai 1 Fi

) = 18 + 4 (11 0) = 18 + 44 = 18 + 4 = 22 anos.
11 11

A idade mediana 22 anos, ou seja, 50% dos alunos que cursam a disciplina Inferncia Estatstica do curso de Estatstica da UEM tm idade inferior ou igual a 22 anos.
Exerccio 08: Calcule a mediana para a varivel altura dos alunos da disciplina Inferncia

Estatstica do curso de Estatstica da UEM. a) utilizando os dados brutos; b) utilizando a distribuio de freqncia (dados agrupados). Para ilustrar graficamente o clculo da mediana, considere novamente um conjunto de pesos fictcios. Deve-se localizar no eixo da varivel o ponto que divide o histograma ao meio. Isto feito somando-se as reas (freqncias relativas) at que se obtenha 50%. No histograma abaixo, a classe que contm a mediana a classe de 62 a 68 kg, com freqncia relativa igual a 36%. Pode-se observar ento que faltam 18%, 50%-(14%+18%) para completar 50% da distribuio. Tem-se ento que o limite superior da base do retngulo hachurado a mediana da distribuio.
9 8 7 6 5 4 3 2 1 0 50 56 62 Md 68 74 80 kg 86 14% 18% 14% 9% 9% 18% 36%

Aplicando a proporcionalidade entre rea e base do retngulo resultar na mediana: 68 62 M d 62% = 36% 18% Portanto a mediana igual a 65 kg.

Curso Prtico & Objetivo Direitos Autorais Reservados

34

Curso Prtico & Objetivo Direitos Autorais Reservados

4.2 MEDIDAS SEPARATRIZES

Estas medidas so valores que ocupam posies no conjunto de dados, em rol, dividindo-o em partes iguais e podem ser: Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais.

Quadro 02: Descrio dos quartis (dados amostrais). Estatstica Notao Interpretao 25% dos dados so valores menores ou 1 quartil Q1 iguais ao valor do primeiro quartil. 50% dos dados so valores menores ou 2 quartil Q2 =Md iguais ao valor do segundo quartil. 75% dos dados so valores menores ou 3 quartil Q3 iguais ao valor do terceiro quartil. Decil: Os decis dividem o conjunto de dados em dez partes iguais.

Posio p=0,25(n+1) p=0,50(n+1) p=0,75(n+1)

Quadro 03: Descrio dos decis (dados amostrais). Estatstica Notao Interpretao 10% dos dados so valores menores 1 decil D1 ou iguais ao valor do primeiro decil. 20% dos dados so valores menores 2 decil D2 ou iguais ao valor do segundo decil. 30% dos dados so valores menores 3 decil D3 ou iguais ao valor do terceiro decil. 40% dos dados so valores menores 4 decil D4 ou iguais ao valor do primeiro decil. 50% dos dados so valores menores 5 decil D5=Q2=Md ou iguais ao valor do segundo decil. 60% dos dados so valores menores 6 decil D6 ou iguais ao valor do terceiro decil. 70% dos dados so valores menores 7 decil D7 ou iguais ao valor do primeiro decil. 80% dos dados so valores menores 8 decil D8 ou iguais ao valor do segundo decil. 90% dos dados so valores menores 9 decil D9 ou iguais ao valor do terceiro decil.

Posio p=0,10(n+1) p=0,20(n+1) p=0,30(n+1) p=0,40(n+1) p=0,50(n+1) p=0,60(n+1) p=0,70(n+1) p=0,80(n+1) p=0,90(n+1)

Percentil: Os percentis dividem o conjunto de dados em cem partes iguais. A seguir so apresentados alguns dos percentis mais usados:

Curso Prtico & Objetivo Direitos Autorais Reservados

35

Curso Prtico & Objetivo Direitos Autorais Reservados

Quadro 04: Descrio de alguns percentis (dados amostrais). Estatstica Notao Interpretao 5% dos dados so valores menores ou 5 Percentil P5 iguais ao valor do primeiro percentil. 10% dos dados so valores menores ou 10 Percentil P10 iguais ao valor do dcimo percentil. 25% dos dados so valores menores ou 25 Percentil P25=Q1 iguais ao valor do percentil cinquenta. 50% dos dados so valores menores ou 50 Percentil P50= D5 =Q2 = Md iguais ao valor do primeiro percentil. 75% dos dados so valores menores ou 75 Percentil P75=Q3 iguais ao valor do primeiro percentil. (Q3) 90% dos dados so valores menores ou 90 Percentil P90 iguais ao valor do percentil noventa. 95% dos dados so valores menores ou 95 Percentil P95 iguais ao valor do percentil noventa e cinco.

Posio p=0,05(n+1) p=0,10(n+1) p=0,25(n+1) p=0,50(n+1) p=0,75(n+1) p=0,90(n+1) p=0,95(n+1)

Para os dados em rol, o clculo das medidas separatrizes a mesma que a da mediana, a saber: Sk = x Ip + Fp (x Ip+1 x Ip ) onde Ip a parte inteira de p e Fp a parte fracionria (ou decimal). Para os dados em distribuio de freqncias em classes, o clculo das medidas separatrizes a mesma que a da mediana, a saber:
Sk = l i + h p Fai 1 Fi

onde: p= p= p= n k , com k = 1, 2, 3 , para determinao dos quartis; 4 n k , k = 1, 2, 10 n k , k = 1, 2, 100

,9 para o clculo dos decis; e


, 99 para os percentis;

i a ordem da classe que contm o menor valor de Fai , tal que Fai p ;
Fa i1 a freqncia acumulada da classe anterior da separatriz.

Exemplo 14: Considerando o rol do exemplo 12, o terceiro quartil e o quadragsimo percentil so:

Terceiro quartil: p = 0, 75(22 + 1) = 17, 25 e

Curso Prtico & Objetivo Direitos Autorais Reservados

36

Curso Prtico & Objetivo Direitos Autorais Reservados

Q3 = S3 = x17 + 0, 25(x18 x17 ) = 25 + 0, 25 (26 25) = 25, 25 anos. Assim, pode-se afirmar que 75% dos alunos que cursam a disciplina Inferncia Estatstica do curso de Estatstica da UEM tm idade inferior ou igual a 25,25 anos. Quadragsimo percentil: p = 0, 40(22 + 1) = 9, 2 e P40 = S40 = x 9 + 0, 20(x10 x 9 ) = 20 + 0, 20 (21 20) = 20, 2 anos. Logo, 40% dos alunos que cursam a disciplina Inferncia Estatstica do curso de Estatstica da UEM tm idade inferior ou igual a 20,2 anos.
Exemplo 15: Em continuao ao exemplo 14, da Tabela 10 tem-se:

Primeiro quartil: p =

n 22 k = 1 = 5,5 Fa i 5,5 i = 1 4 4 h p Fa11 F1

Q1 = l1 + Terceiro quartil: p =

) = 18 + 4(5,5 0) = 20 anos,
11

n 22 k = 3 = 16,5 Fa i 16,5 i = 2 4 4 h p Fa 21 F2

Q3 = l 2 + Stimo decil: p =

) = 22 + 4 (16,5 11) = 25, 67 anos


6

n 22 k= 7 = 15, 4 Fai 17 i = 2 10 10 h (p Fa1 ) F2 = 22 + 2(15,4 11) = 23,47 anos 6

D7 = l2 +

Nonagsimo percentil: p =

n 22 k= 90 = 19,8 Fai 19,8 i = 4 100 100

P90 = l 4 +

h p Fa3 F4

) = 30 + 4(19,8 19) = 33, 2 anos


1

Conclui-se, que 25% dos alunos que cursam a disciplina Inferncia Estatstica do curso de Estatstica da UEM tm idade inferior ou igual a 20 anos, 75% tem idade inferior a 25,67, 70% tem idade inferior a 22,8 e 90% tem idade inferior a 33,2 anos.

4.3 MEDIDAS DE DISPERSO

De acordo com Toledo (1985), fenmenos que envolvem anlises estatsticas caracterizamse por suas semelhanas e variabilidades. As medidas de disperso auxiliam as medidas de
Curso Prtico & Objetivo Direitos Autorais Reservados

37

Curso Prtico & Objetivo Direitos Autorais Reservados

tendncia central a descrever o conjunto de dados adequadamente. Indicam se os dados esto, ou no, prximos uns dos outros. Desta forma, no h sentido calcular a mdia de um conjunto onde no h variao dos seus elementos. Existe ausncia de disperso e a medida de disperso igual a zero. Por outro lado, aumentando-se a disperso, o valor da medida aumenta e se a variao for muito grande, a mdia no ser uma medida de tendncia central representativa. Faz-se necessrio, portanto, ao menos uma medida de tendncia central e uma medida de disperso para descrever um conjunto de dados. As quatro medidas de disperso que sero definidas a seguir so: amplitude total, amplitude interquartlica, desvio padro e varincia. Com exceo primeira, todas tm como ponto de referncia a mdia.

4.3.1 Amplitude Total

A amplitude total de um conjunto de dados a diferena entre o maior e o menor valor observado. A medida de disperso no levar em considerao os valores intermedirios perdendo a informao de como os dados esto distribudos e/ou concentrados. At = x max x min
Exemplo 16: A amplitude total da idade dos alunos que cursam a disciplina Inferncia Estatstica

do curso de Estatstica da UEM AT = 37-18 = 19 anos, isto , as idades dos alunos diferem em 19 anos.

4.3.2 Amplitude Interquartlica


A amplitude interquartlica a diferena entre o terceiro e o primeiro quartil. Esta medida mais estvel que a amplitude total por no considerar os valores mais extremos. Esta medida abrange 50% dos dados e til para detectar valores discrepantes.
d q = Q3 Q1 .

Por outro lado, a amplitude semi-interquartlica definida como a mdia aritmtica da diferena entre a mediana e os quartis:
dq m = Q 3 Q1 . 2

Exemplo 17: A amplitude interquartlica da idade dos alunos que cursam a disciplina Inferncia
Curso Prtico & Objetivo Direitos Autorais Reservados

38

Curso Prtico & Objetivo Direitos Autorais Reservados

Estatstica do curso de Estatstica da UEM considerando-se a Tabela 10 : dq = 25, 67 20 = 5, 67 anos A amplitude entre o terceiro e primeiro quartil, que envolve 50% (centrais) dos alunos, de 5,67 anos.
Exemplo 18: Do exemplo 17, obtm-se a amplitude semi-interquartlica da idade dos alunos que

cursam a disciplina Inferncia Estatstica do curso de Estatstica da UEM: dqm=2,84 anos. Observa-se que a distncia entre a mediana e o quartil 1 (22-20) 2. Como 2 < 2,84, isto indica que h uma concentrao de dados esquerda da mediana., e que os dados localizados a direita da mediana so mais dispersos.

4.3.3 Desvio-mdio

A diferena entre cada valor observado e a mdia denominado desvio e dado por
( x i ) se o conjunto de dados populacional, ou por ( x i x ) se os dados so amostrais.

Ao somar todos os desvios, ou seja, ao somar todas as diferenas de cada valor observado em relao a mdia, o resultado igual a zero (propriedade 5 da mdia). Isto significa que esta medida no mede a variabilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da diferena, considerando-as em mdulo e a mdia destas diferenas em mdulo denominada desvio mdio:
i =1 N n

xi
N ou dm =

dm =

i =1

xi x
n ,

para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuio de freqncia, tem-se:
N n

dm =

x
i =1

i Fi

ou

dm =

x
i =1

x Fi .

4.3.4 Varincia e desvio padro

Curso Prtico & Objetivo Direitos Autorais Reservados

39

Curso Prtico & Objetivo Direitos Autorais Reservados

Enquanto no h nada conceitualmente errado em se considerar o desvio mdio, segundo Pagano (2004), esta medida no tem certas propriedades importantes e no muito utilizada. O mais comum considerar o quadrado dos desvios em relao mdia e ento calcular a mdia. Obtm-se, assim a varincia que definida por:
N
n

2 =

i =1

2 ( x i )

ou

S2 =

(x
i =1

x) 2 ,

n 1

se os dados so populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuio de freqncia, tem-se:
k k

2 =

i =1

( x i ) 2 Fi
N ou

s 2 = i =1

( x i x ) 2 Fi
n 1 .

Entretanto, ao calcular a varincia observa-se que o resultado ser dado em unidades quadrticas, o que dificulta a sua interpretao. O problema resolvido extraindo-se a raiz quadrada da varincia, definindo-se, assim, o desvio padro:

i =1

( x i )
N

ou

S=

(x
i =1

x) 2 ,

n 1

se os dados so populacionais ou amostrais e, se estiverem em distribuio de freqncias:

i =1

( x i ) 2 Fi
N

ou

S=

(x
i =1

x ) 2 Fi .

n 1

importante destacar que se duas populaes apresentam a mesma mdia, mas os desvios padro no so iguais, isto no significa que as populaes tm o mesmo comportamento. Exemplo 19: Considere trs alunos cujas notas em uma disciplina esto apresentadas na Tabela 13. Observa-se que as mdias das notas dos trs alunos so iguais, porm, seus desvios em torno da mdia so diferentes. Isto quer dizer que seus desempenhos so diferentes. O aluno A constante em seu desempenho, o segundo vai progredindo aos poucos e o terceiro diminui abruptamente seu desempenho. Em outras palavras, apesar dos trs alunos terem o mesmo desempenho mdio, a variabilidade difere.
Curso Prtico & Objetivo Direitos Autorais Reservados

40

Curso Prtico & Objetivo Direitos Autorais Reservados

Tabela 13. Notas, desvios e mdia dos alunos em uma disciplina. Aluno Notas Soma Mdia

d=x i -

|x i -|

(x i -) 2 0 0 0 0 0 0 4 4 0 4 4 16 4 4 4 9 9 30

(xi )

8 8 8 8 8 Total 6 6 8 10 10 Total 10 10 10 5 5 Total

40

40

40

0 0 0 0 0 0 -2 -2 0 2 2 0 2 2 2 -3 -3 0

0 0 0 0 0 0 2 2 0 2 2 8 2 2 2 3 3 12

0 =0

16 =4

30 =5,48

Como demonstrado no exemplo, geralmente, o desvio padro maior ou igual ao desvio mdio, e isto devido ao fato de que para o clculo do desvio-padro cada desvio em torno da mdia elevado ao quadrado, aumentando desproporcionalmente o peso dos valores extremos.
Exemplo 20: Retomando a idade dos alunos apresentada na Tabela 10, temos:

Desvio mdio: Dm = Varincia: s 2 =

20 23,8 11 + + 36 23,8 2 = 3,82 anos 22

(20 23,8) 211 + + (36 23,8) 2 2 = 23, 63 anos 22 1

Desvio padro: s = 23, 63 = 4,86 anos.

4.3.5 Coeficiente de Variao

O coeficiente de variao uma medida de disperso relativa definida como a razo entre o desvio padro e a mdia: CV =
100

ou

CV =

S 100 , X

se os dados so populacionais ou amostrais.


Curso Prtico & Objetivo Direitos Autorais Reservados

41

Curso Prtico & Objetivo Direitos Autorais Reservados

A partir do coeficiente de variao pode-se avaliar a homogeneidade do conjunto de dados e, conseqentemente, se a mdia uma boa medida para representar estes dados. utilizado, tambm, para comparar conjuntos com unidades de medidas distintas. Uma desvantagem do coeficiente de variao que ele deixa de ser til quando a mdia est prxima de zero. Uma mdia muito prxima de zero pode inflacionar o CV. Um coeficiente de variao superior a 50% sugere alta disperso o que indica heterogeneidade dos dados. Quanto maior for este valor, menos representativa ser a mdia. Neste caso, opta-se pela mediana ou moda, no existindo uma regra prtica para a escolha de uma destas medidas. O pesquisador, com sua experincia, que dever decidir por uma ou outra. Por outro lado, quanto mais prximo de zero, mais homogneo o conjunto de dados e mais representativa ser sua mdia.
Exemplo 21: Para idades apresentadas na Tabela 10, temos:

CV =

4,86 100 = 20, 42% . 23,8

Como CV<50%, pode-se afirmar que a mdia uma medida descritiva representativa para a varivel idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring do ano de 2002.
Exerccio 09: Calcule as medidas de disperso para a varivel altura da Tabela 10.

4.3.6 Medidas de Assimetria

A medida de assimetria um indicador da forma da distribuio dos dados. Ao construir uma distribuio de freqncias e/ou um histograma, est-se buscando, tambm, identificar visualmente, a forma da distribuio dos dados que ou no confirmada pelo coeficiente de assimetria de Pearson (As) definido como:
Mo

As =

ou

As =

X Mo S

para dados populacionais e amostrais, respectivamente. Uma distribuio classificada como:


simtrica se mdia = mediana = moda ou As = 0; assimtrica negativa se mdia mediana moda ou As < 0. O lado mais longo do
Curso Prtico & Objetivo Direitos Autorais Reservados

42

Curso Prtico & Objetivo Direitos Autorais Reservados

polgono de freqncia (cauda da distribuio) est esquerda do centro.


assimtrica positiva se moda mediana mdia ou As > 0. O lado mais longo do

polgono de freqncia est direita do centro.

Assimtrica negativa Simtrica Figura 15 - Classificao quanto forma da distribuio

Assimtrica positiva

Exemplo 22: A distribuio das idades apresentadas na Tabela 10 classificada como assimtrica

positiva, pois: As = 23,8 20,75 = 0,89 . 3,44

4.3.7 Medidas de Curtose

A medida de curtose o grau de achatamento da distribuio, um indicador da forma desta distribuio. definido como: K= (Q3 Q1 ) 2(P90 P10 )

A curtose ou achatamento mais uma medida com a finalidade de complementar a caracterizao da disperso em uma distribuio. Esta medida quantifica a concentrao ou disperso dos valores de um conjunto de dados em relao s medidas de tendncia central em uma distribuio de freqncias. Uma distribuio classificada quanto ao grau de achatamento como:
Leptocrtica: quando a distribuio apresenta uma curva de freqncia bastante fechada,

com os dados fortemente concentrados em torno de seu centro, K < 0,263.


Mesocrtica: quando os dados esto razoavelmente concentrados em torno de seu centro,

K= 0,263
Platicrtica: quando a distribuio apresenta uma curva de freqncia mais aberta, com os

dados fracamente concentrados em torno de seu centro, K > 0,263.

Curso Prtico & Objetivo Direitos Autorais Reservados

43

Curso Prtico & Objetivo Direitos Autorais Reservados

Leptocrtica

Mesocrtica

Platicrtica

Mo

Figura 16 - Classificao da distribuio quanto curtose.


Exemplo 23: Em relao ao grau de achatamento, a distribuio das idades apresentadas na Tabela

10 classificada como leptocrtica, pois: K= (25, 67 20) = 0,1969 . 2(33, 2 18,8)

Quadro 5 - Resumo descritivo da varivel idade (Tabela1) Centrais Separatrizes Disperso Assimetria Curtose x = 23,8 Q1=20 AT=20 As=0,89 K=0,1969 dq=5,67 M o = 20,8 Q3=25,67 Dm=23,82 P10=18,8 M d = 22 P90=33,2 s2=23,63 s=4,86 CV=20,42%
Exerccio 10: Determine e interprete as medidas de assimetria e curtose para a varivel altura da

Tabela 10.

4.4 BOX PLOT OU DESENHO ESQUEMTICO

O grfico Box Plot (ou desenho esquemtico) uma anlise grfica que utiliza cinco medidas estatsticas: valor mnimo, valor mximo, mediana, primeiro e terceiro quartil da varivel quantitativa. Este conjunto de medidas oferece a idia da posio, disperso, assimetria, caudas e dados discrepantes. A posio central dada pela mediana e a disperso pelo desvio interquartlico dq= Q3 - Q2. As posies relativas de Q1 , Q2 e Q3 do uma noo da assimetria da distribuio. Os comprimentos das caudas so dados pelas linhas que vo do retngulo aos valores atpicos. Segundo Triola (2004), um outlier ou ponto discrepante um valor que se localiza distante de quase todos os outros pontos da distribuio. A distncia a partir da qual considera-se um valor
Curso Prtico & Objetivo Direitos Autorais Reservados

44

Curso Prtico & Objetivo Direitos Autorais Reservados

como discrepante aquela que supera 1,5dq. De maneira geral, so considerados outliers todos os valores inferiores Li= Q1-1,5dq ou os superiores a Ls=Q3+1,5dq.
Exemplo 24:A construo do grfico Box Plot pode ser exemplificada tomando-se a varivel idade

da Tabela 01. Sua elaborao segue os seguintes passos: Ordenar os dados em seqncia crescente.

18 22

18 23

19 24

20 25

20 25

20 25

20 26

20 29

20 30

21 35

21 37

Determinar as cinco medidas. Mediana: i = 0,5(22 + 1) = 11,50 , logo, a mediana M d = x11,50 M d = x11 + 0,50(x12 x11) M d = 21 + 0,50(22 21) M d = 21,50 Primeiro quartil:

i = 0, 25(22 + 1) = 5, 750 , temos ento que o primeiro quartil


Q1 = x 5,75 Q1 = x 5 + 0, 75(x 6 x 5 ) Q1 = 20 + 0, 75(20 20) Q1 = 20

Terceiro quartil: i = 0, 75(22 + 1) = 17, 25 , temos ento que o terceiro quartil Q3 = x17,25 Q3 = x17 + 0, 25(x18 x17 ) Q3 = 25 + 0, 25(26 25) Q3 = 25, 75 Desvio interquartlico: dq= Q3 Q1 = 25,75 20,00 = 5,75

Curso Prtico & Objetivo Direitos Autorais Reservados

45

Curso Prtico & Objetivo Direitos Autorais Reservados

Limite inferior: Li= Q1-1,5dq Li = 20 1,5. 5,75 = 11,375 Limite superior: Ls= Q3+1,5dq Ls= 25,75 + 1,5. 5,75 = 34,375 Construir uma escala com valores que incluam os valores mximo e mnimo dos dados.

Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da mediana.

Traar uma linha paralela reta, com uma das extremidades alinhada ao limite inferior Li e a outra no centro do lado do retngulo correspondente ao primeiro quartil. Trace uma outra linha paralela reta, com uma extremidade no centro do lado do retngulo correspondente ao terceiro quartil e a outra alinhada com o limite mximo Ls .

Curso Prtico & Objetivo Direitos Autorais Reservados

46

Curso Prtico & Objetivo Direitos Autorais Reservados

Identificar os pontos discrepantes

Figura 17 - Idade dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring. No conjunto de dados no existe aluno com idade inferior a 11,375, ou seja, no h aluno com idade considerada discrepante inferiormente. Entretanto, existem dois indivduos cujas idades so superiores a 34,375, pontos estes considerados discrepantes neste conjunto de dados: as idades 35 e 37. Estes pontos so identificados no diagrama de caixas por meio de um asterisco na direo das linhas traadas nos item v. Note-se que no intervalo interquartlico (dentro do retngulo) existem 50% dos dados, dos quais, 25% esto entre a linha da mediana e a linha do primeiro quartil e os outros 25% esto entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores discrepantes contm os 25% restantes da distribuio. A Figura 17 mostra que a distribuio das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para os valores maiores. O grfico Box Plot pode ser utilizado para fazer comparaes entre vrias distribuies. Essa comparao feita atravs de vrios desenhos esquemticos numa mesma figura. Na Figura 18 apresentado o grfico para a varivel idade classificada segundo o sexo do aluno. Nota-se que para o sexo feminino, no valores discrepantes e a distribuio apresenta assimetria positiva, com idade mediana inferior ao do sexo masculino.
Curso Prtico & Objetivo Direitos Autorais Reservados

47

Curso Prtico & Objetivo Direitos Autorais Reservados


38 36 34 32 30

Idade

28 26 24 22 20 18 16

Feminino Sexo

Masculino

Figura 18 Box plot da idade segundo o sexo dos alunos da disciplina Inferncia Estatstica do curso de Estatstica da Universidade Estadual de Maring.
Exerccio 11: Considere as variveis peso, n de reprovas na disciplina Inferncia Estatstica e n de

irmos apresentados na Tabela 01. Determine e interprete os resultados, utilizando os dados em rol e em distribuio de frequncias: a) Mdia, mediana e moda. b) Quartil 1, quartil 3; decil 4 e percentil 95. c) Desvio mdio, varincia, desvio padro e coeficiente de variao. d) Medidas de assimetria e curtose. e) Construir o box plot para cada uma das variveis.

Curso Prtico & Objetivo Direitos Autorais Reservados

48

Curso Prtico & Objetivo Direitos Autorais Reservados

BIBLIOGRAFIA
BARBETTA, P. A. Estatstica Aplicada s Cincias Sociais. Florianpolis: Editora da UFSC, 1998. BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatstica para cursos de
Engenharia e informtica. So Paulo: Editora Atlas S.A., 2004

BUSSAB, W. O. e MORETTIN, P. A. Estatstica Bsica. So Paulo: Editora Saraiva, 2003. CURTY, Marlene G.; CRUZ, Anamaria da C.; MENDES, Maria Tereza R. Apresentao de
trabalhos acadmicos, dissertaes e teses (NBR 14724/2002). Maring: Dental Press, 2002.

http://alea-estp.ine.pt/html/statofic/ SILVA, Ana Alexandrino da. Acesso em: 28 abr. 2005; s 21:03. MAGALHES, M. N. e LIMA, A. C. P.de. Noes de Probabilidade e Estatstica. So Paulo: IME-USP, 2000. MEDRONHO, R. A., CARVALHO, D.M.de, BLOCH K.V., LUIZ, R.R. E WERNECK, G.L.
Epidemiologia. So Paulo: Editora Atheneu, 2003.

MILONE, Giuseppe. Estatstica Geral e Aplicada. So Paulo: Pioneira Thomson Learning, 2004. MONTGOMERY, D.C. e RUNGER, G.C. Estatstica Aplicada e Probabilidade para
Engenheiros. Rio de Janeiro: Livros Tcnicos e Cientficos Editora S.A., 2003.

MLLER, Mary S.; CORNELSEN, Julce M. Normas e padres para teses, dissertaes e
monografias. Londrina: Eduel, 2003. Normas para apresentao de documentos cientficos. Vol. 10, Grficos. Curitiba: Editora da

UFPR, 2001. PAGANO, Marcello ; GAUVREAU, Kimberlee. Princpios de Bioestatstica. Traduo da 2 edio norte-americana. So Paulo: Pioneira Thomson Learning, 2004 REIS, Elizabeth. Estatstica descritiva. Lisboa: Silabo, ed. 4, 1998. SOARES, Jos F.; Alfredo A. FARIAS e CESAR, Cibele C. Introduo Estatstica. Rio de Janeiro: Livros Tcnicos e Cientficos Editora S.A., 1991.

Curso Prtico & Objetivo Direitos Autorais Reservados

49

You might also like