You are on page 1of 40

APONTAMENTOS

DE

ESTATSTICA APLICADA

ndice 1. Conceitos Estatsticos Bsicos.............................................................................3 1.1.Introduo......................................................................................................................... 3 1.2 Objectivo da Estatstica.................................................................................................... 3 1.3. O Mtodo Cientfico e a Anlise Estatstica ................................................................... 3 1.4.O Processo de Pesquisa e o seu Desenho......................................................................... 4 1.4.1. Definio do problema, objectivos e hipteses........................................................ 4 1.4.2. Tipos de Pesquisa e Mtodos de Recolha de Dados ................................................ 4 1.4.3. Populao, Amostra e Mtodos de Amostragem ..................................................... 5 1.5.Tipos de Dados................................................................................................................. 6 1.5.1.Variveis Qualitativas e Quantitativas ...................................................................... 6 1.5.2.Escalas de Medida..................................................................................................... 7 1.6. Estatstica Descritiva, Inferncia Estatstica, Estatsticas e Parmetros.......................... 8 2. Estatstica Descritiva .............................................................................................10 2.1. Introduo...................................................................................................................... 10 2.2. Tabelas de Distribuio de Frequncias........................................................................ 10 2.2.1. Variveis Qualitativas ............................................................................................ 10 2.2.2. Variveis Quantitativas .......................................................................................... 11 2.3. Representao Grfica de Distribuies de Frequncia................................................ 13 2.4. Indicadores Numricos............................................................................................. 15 2.4.1. Medidas de Tendncia Central: Mdia, moda e mediana ................................ 15 2.4.2. Medidas de Partio: Quartis, Decis e Percentis.............................................. 20 2.4.3. Medidas de Disperso ...................................................................................... 22 2.5. Assimetria e Curtose. Diagramas de Caixa e Bigodes (Box Plot)............................. 26 2.5.1. Assimetria............................................................................................................... 26 2.5.2. Curtose ................................................................................................................... 28 2.5.2. Diagramas de Caixa e Bigodes............................................................................... 30 2.6. Tabelas de contingncia ................................................................................................ 31 2.7. Diagramas de disperso e coeficientes de correlao ................................................... 33

1.

Conceitos Estatsticos Bsicos

1.1.Introduo Qualquer um de nos, enquanto cidados do mundo moderno, est exposto a um enorme conjunto de informao resultante de estudos sociolgicos, econmicos e de mercado, de sondagens polticas e de estudos cientficos. Muita desta informao baseia-se em resultados colhidos junto de alguns elementos (amostra) da populao. Para que a informao seja relevante a amostra deve ser representativa, ter uma dimenso adequada e ser seleccionada aleatoriamente. Caso estes pressupostos no se verifiquem no se pode fazer extrapolao dos resultados obtidos na amostra para a populao. Assim, o conhecimento da estatstica permite que se avaliem os mtodos de recolha de dados, os resultados e as concluses definidos num dado estudo permitindo que se detectem falsas concluses. Para alm da sua utilidade ao nvel cvico a necessidade de saber estatstica encontra-se intimamente ligada ao exerccio de profisses no domnio da engenharia, da economia, da psicologia e da sociologia, sendo ainda uma ferramenta indispensvel investigao cientfica.

1.2 Objectivo da Estatstica O objectivo fundamental deste ramo do conhecimento consiste na recolha, compilao, anlise e interpretao de dados, havendo a necessidade de se distinguir entre estatstica descritiva e inferncia estatstica. No mbito da estatstica descritiva procura-se sintetizar e representar de forma compreensvel e sintetizada a informao contida num conjunto de dados. Esta tarefa concretiza-se na construo de tabelas e grficos e no clculo de valores que representem a informao contida nos dados. O objectivo da inferncia estatstica consiste, em ltima anlise, em fazer previses a partir da parte para o todo, ou seja, com base na anlise de um conjunto limitado de alguns dados (amostra) recolhidos junto de um conjunto total de indivduos (populao), pretendemos caracterizar a populao.

1.3. O Mtodo Cientfico e a Anlise Estatstica

A metodologia utilizada na anlise estatstica tem um paralelismo evidente com o mtodo cientfico. Esta metodologia consiste em cinco passos fundamentais: i) Estabelecer o objectivo da anlise e definir a populao ii) Conceber o procedimento mais adequado para a recolha de dados iii) Proceder recolha de dados iv) Analisar os dados v) Inferir acerca da populao

1.4.O Processo de Pesquisa e o seu Desenho

1.4.1. Definio do problema, objectivos e hipteses De modo a se proceder a qualquer anlise ou a estabelecer uma hiptese sobre um determinado conjunto de dados sempre necessrio identificar correctamente o problema. Isto , saber qual a informao relevante para o problema que se pretende estudar1.

1.4.2. Tipos de Pesquisa e Mtodos de Recolha de Dados Para alm de se dever recolher informao relevante a recolha deve ser realizada em tempo til podendo ser obtida a partir de diversas fontes e de formas diversas. Se os dados forem recolhidos directamente pelo analista atravs de inquritos ou determinaes laboratoriais os dados dizem-se primrios. Se os dados forem recolhidos e publicados por pessoas ou instituies das quais o analista no depende dizem-se secundrios. So deste tipo os dados que podemos obter junto de institutos governamentais ou associaes empresariais A recolha de dados primrios pode ainda ser efectuada recorrendo a dois tipos de processos: processos experimentais e processos observacionais. Nos processos experimentais exerce-se um controle directo sobre os factores que potencialmente afectam a caracterstica ou o conjunto de caractersticas em anlise Exemplo: Para estudar o efeito poluente de uma fbrica sobre a gua de um rio efectuaram-se medies da concentrao de um determinado contaminante sobre um conjunto de amostras colhidas em vrios pontos do rio a jusante da fbrica. Metade das amostras foram
1

Um estudante de biologia interessado no comportamento das rs pretendia saber quais os factores que influenciavam a audio destes animais. Para tal comeou por pegar numa r e cortar-lhe uma perna, pousando-a em seguida e sussurrando-lhe ao ouvido :- salta r!, ordem que a r obedeceu imediatamente. Repetiu a experincia com vrias rs e obteve os mesmos resultados. No estgio seguinte da experincia o estudante recorreu s rs previamente amputadas e cortou-lhes uma segunda perna mas, desta vez, ao pousa-las sussurrando salta r!, os animais mantiveram-se imveis. Concluso do estudante: As rs sem pernas no ouvem

colhidas no final de dias teis e a outra metade durante o fim-de-semana. de esperar que as concentraes medidas na primeira metade das amostras sejam superiores s medidas na segunda metade. Neste caso o momento em que se efectua a recolha da amostra influencia os resultados da anlise. Nos processos observacionais os factores que potencialmente afectam as caractersticas a analisar no so controlados. Exemplo: No mbito de um estudo de trfego num tnel rodovirio procurou-se analisar a relao entre a densidade do trfego e a velocidade mdia de circulao. Para se proceder a esse estudo efectuaram-se medies em simultneo da velocidade e da densidade do trfego ao longo de um ms. Neste caso verifica-se que o momento em que efectuada a medio no tem influncia sobre os dados j que em cada momento existir sempre uma relao nica entre os valores observados.

1.4.3. Populao, Amostra e Mtodos de Amostragem Designa-se por Universo ou Populao o conjunto de dados que expressam a caracterstica que se pretende medir para a totalidade dos indivduos que constituem o objecto da anlise. Designa-se por amostra um subconjunto dos dados pertencentes populao: Exemplos: 1) Populao: inteno de voto dos eleitores de uma cidade Amostra: inteno de voto de alguns dos eleitores dessa cidade seleccionados a partir da lista telefnica. 2) Populao: Consumo de um novo detergente pelos clientes de um supermercado Amostra: Consumo do produto recolhido por entrevista porta do supermercado A dimenso da populao pode ser finita ou infinita. Frequentemente as populaes, apesar de finitas, tm uma dimenso to elevada que se torna mais simples trat-las como infinitas. Assim, a dimenso da amostra pode ser um dos factores para que se proceda anlise por amostragem. Exemplos Populao Finita (susceptvel de ser tratada como tal): conjunto da intenes de voto dos eleitores de uma freguesia; Populao Finita (susceptvel de ser tratada como infinita): conjunto das alturas dos portugueses com mais de 18 anos;

Populao Infinita: conjunto das presses atmosfricas que se verificam num determinado instante superfcie terrestre. Para alm da dimenso da populao existem outras razes que podem contribuir

para no se analisarem todos os elementos de uma populao, entre elas distinguem-se as seguintes: 1- Custo excessivo do processo de recolha e tratamento de dados, como resultado da sua elevada dimenso ou da sua complexidade de caracterizao 2- Tempo excessivo de recolha e tratamento dos dados, que pode conduzir obteno de informao desactualizada (por alterao da populao) ou obsoleta (por exceder o prazo de utilidade da informao) 3- Destruio da populao provocada pelos mtodos de recolha de informao 4- Inacessibilidade a alguns elementos da populao (por exemplo, por razes de carcter legal) De modo que a anlise feita sobre a amostra possa ser extrapolada para a populao a amostragem deve seguir algumas regras. O processo de amostragem deve recorrer a mtodos probabilsticos nos quais cada um dos elementos da populao tem uma certa probabilidade (conhecida) de ser includo na amostra. Dentre estes mtodos o mais utilizado o de amostragem aleatria. Este processo garante que todos os elementos da populao tm a mesma probabilidade de serem includos na amostra e, atravs dele, consegue-se evitar qualquer enviesamento no processo de seleco, ou seja, afastada qualquer tendncia sistemtica para sub representar ou sobre representar na amostra alguns elementos da populao.

1.5.Tipos de Dados Os dados podem ser qualitativos ou quantitativos dependendo do acontecimento a medir. A inteno de voto dos eleitores de uma freguesia constitui um conjunto de dados qualitativos. A durao em horas de um lote de lmpadas constitui um conjunto de dados quantitativos, ou seja, os dados quantitativos so expressos por um valor numrico.

1.5.1.Variveis Qualitativas e Quantitativas Constituem variveis qualitativas a profisso, o sexo, a raa, a localizao geogrfica, o sector de actividade econmica (por exemplo).

Como exemplos de variveis quantitativas podemos referir, a idade, o peso, a distncia, a temperatura, a altitude, o n de trabalhadores nos diferentes departamentos de uma empresa

1.5.2.Escalas de Medida Dependendo do tipo de variveis que constituem os dados estes podem ser expressos em quatro escalas distintas: nominal, ordinal, por intervalo e por rcios. Os dados qualitativos exprimem-se nas duas primeiras escalas e os dados quantitativos nas duas ltimas. Em relao a este tipo de dados devemos distinguir os que constituem variveis discretas dos que constituem variveis contnuas. Considerem-se os valores que se podem obter dos seguintes acontecimentos: - resultados de 150 lanamentos de um dado. - distncia diria em km a percorrer por um vendedor no prximo ms. No primeiro caso os dados podem tomar valores pertencentes a um conjunto finito: {1,2,, 6} dizendo-se nesse caso que os dados so discretos ou que so realizaes de uma varivel aleatria discreta. No segundo caso, se admitirmos que as distncias podem ser medidas com preciso absoluta, existem um nmero infinito de distncias dirias, entre um valor mnimo e um valor mximo, que o vendedor pode percorrer diariamente. Nesta situao os dizem-se contnuos ou realizaes de uma varivel aleatria contnua. Escala Nominal: Suponha-se que para elaborar um estudo de mercado se pretendia conhecer a profisso de uma populao constituda pelos consumidores de um determinado produto. Esse tipo de estudo conduziria a uma lista onde, por exemplo, se incluiria: - Trabalhador no qualificado - Trabalhador qualificado - Professor - Engenheiro - Mdico - Advogado - Etc. Suponha-se que para efeitos de processamento dos dados se atribua um cdigo a cada um dos elementos da lista anterior: 1 para trabalhador no qualificado; 2 para trabalhador qualificado, 3 para professor, etc. Apesar desta codificao no podemos considerar os dados como quantitativos uma vez que no possvel estabelecer uma ordem entre eles, isto , a profisso codificada com 1 no menor nem maior que a profisso codificada com 2.

Um caso particular deste tipo de escala de medida ocorre quando a caracterstica em estudo envolve apenas duas categorias (por exemplo o sexo, ou questes que apenas podem ser respondidas com sim ou no). Essas caractersticas so denominadas binrias ou dictmicas. Escala Ordinal: esta escala de medida pode ser construda a partir de escalas nominais quando existe paralelismo evidente entre a escala nominal e uma sequncia crescente ou decrescente com significado. Por exemplo, pode-se perguntar a um consumidor qual a sua opinio sobre um determinado produto alimentar de acordo com a seguinte lista: - detesta - gosta pouco - indiferente - gosta - adora Sendo evidente que esta lista corresponde a uma sequncia ordenada com cinco categorias. Escala por Intervalos: este tipo de escala usada com dados quantitativos tanto discretos como contnuos sendo que a distncia entre os valores que constituem os intervalos deve ser igual. O nmero de automveis que atravessa a ponte da Arrbida em cada hora pode ser definido numa escala por intervalos de valores discretos, por exemplo, entre 0 e 150; entre 150 e 300; entre 300 e 450, etc. A temperatura mnima diria do ar em C numa estao meteorolgica num determinado ano pode ser definido numa escala por intervalos de valores contnuos, por exemplo, [-5, 0[; [0, 5[; [5, 10[; [10, 15[; etc. Escala por Rcios: As escalas deste tipo tm as mesmas propriedades que as escalas por intervalos para variveis contnuas e, adicionalmente, apresentam a caracterstica de possuirem um zero absoluto como valor mnimo de modo que as razes entre duas medidas tm sempre o mesmo valor qualquer que seja a unidade utilizada. Por exemplo o peso pode constituir uma escala por rcios (a razo entre os pesos de dois pacotes de acar, por exemplo, sempre o mesmo qualquer que seja a unidade de medida: g, kg, ton., etc.) mas a temperatura no ( 10C = 50 F; 30 C=86 F porm 10/30 50/86)

1.6. Estatstica Descritiva, Inferncia Estatstica, Estatsticas e Parmetros A estatstica descritiva ocupa-se da recolha, classificao e organizao de dados permitindo elaborar concluses apenas para o conjunto limitado de indivduos que serviram de base recolha desses dados. Pelo contrrio. A inferncia estatstica permite estimar as caractersticas desconhecidas de uma populao, mesmo que a populao no tenha sido analisada na totalidade, e testar se so plausveis determinadas hipteses formuladas sobre

essas caractersticas (por exemplo, permite testar se verdadeira ou falsa a afirmao de um vendedor de detergentes para automveis quando diz que os resultados da lavagem da marca que vende so superiores aos da concorrncia) Quando calculamos determinados valores sobre o conjunto de dados que constituem a amostra designamos esses valores por estatsticas. Quando esses mesmos valores dizem respeito populao designam-se por parmetros. Os mtodos de inferncia estatstica envolvem o clculo de estatsticas a partir dos quais se inferem os parmetros da populao, ou seja, permitem, com determinado grau de probabilidade, generalizar para a populao determinadas caractersticas dos resultados amostrais. Exemplo: Um fabricante de mquinas de lavar pretende determinar o nmero mdio de lavagens efectuado por um determinado modelo de mquina at necessitar de reparao. O responsvel pela qualidade selecciona aleatoriamente algumas mquinas produzidas mensalmente e regista para cada uma o nmero de lavagens efectuadas at ocorrer uma avaria, calculando em seguida o n mdio de lavagens em cada amostra (mdia amostral estatstica) concluindo que os valores obtidos podem ser extrapolados para o n mdio de lavagens dos lotes mensais (mdia populacional parmetro cujo valor real desconhecido).

2. Estatstica Descritiva

2.1. Introduo A estatstica descritiva pretende organizar, sintetizar e analisar os dados obtidos no estudo de variveis relativas a uma populao de modo a permitir caracterizar a populao e conhecer o seu comportamento. A informao fornecida pelos dados complilada e sintetizada em tabelas e grficos e atravs do clculo de indicadores numricos. O desafio da Estatstica Descritiva consiste no na prpria construo das tabelas ou dos grficos mas na escolha mais adequada destas ferramentas de modo a caracterizar correctamente as variveis em estudo

2.2. Tabelas de Distribuio de Frequncias Nas tabelas de distribuio de frequncias representa-se a forma como uma dada varivel se encontra distribuda pelo conjunto dos indivduos em que essa varivel foi analisada, tendo aplicao tanto em variveis qualitativas como quantitativas.

2.2.1. Variveis Qualitativas Suponha-se que se pretende estudar a marca de computadores portteis preferida pelos estudantes do ensino superior. Tendo-se questionado 50 estudantes obtiveram-se os dados representados na Tabela 2.1.
Tabela 2.1. Marca de Computadores Portteis preferida por 50 estudantes do Ensino Superior
COMPAQ TOSHIBA FUJITSU ACER FUJITSU HP COMPAQ IBM TOSHIBA COMPAQ COMPAQ COMPAQ FUJITSU IBM ACER COMPAQ TOSHIBA IBM IBM IBM COMPAQ TOSHIBA COMPAQ IBM IBM ACER ACER TOSHIBA IBM TOSHIBA ACER ACER FUJITSU FUJITSU COMPAQ ACER COMPAQ FUJITSU COMPAQ TOSHIBA FUJITSU FUJITSU IBM TOSHIBA COMPAQ TOSHIBA COMPAQ TOSHIBA ACER TOSHIBA

Para construir a tabela de frequncias deve-se proceder contagem do nmero de vezes que cada marca referida. Verifica-se que a marca COMPAQ foi referida 13 vezes pelo que este valor ser a frequncia para essa marca (neste caso, a frequncia absoluta, em contraste com a frequncia relativa que dada em percentagem por

13 100 = 26% ) 50

10

Na tabela de frequncias usual representar a frequncia absoluta, ni, a frequncia relativa, fi, e a frequncia relativa acumulada, Fi. A tabela de frequncias para os dados apresentados na Tabela 2.1 dada pela Tabela 2.2. e permitem saber como se distribuem as preferncias dos 50 elementos da amostra relativamente s marcas de computadores portteis.
Tabela 2.2. Distribuio de frequncias para a marca de computadores portteis preferidos
Marca de PC COMPAQ HP TOSHIBA ACER IBM FUJITSU Freq. Abs ni 13 1 11 8 12 5 50 Freq. Relat. (%) fi 26 2 22 16 24 10 100 Freq. Relat. Acumulada (%) Fi 26 26+2=28 28+22=50 50+16=66 66+24=90 90+10=100

A marca mais frequente a COMPAC, com 26 % das preferncias, seguida pela IBM, com 24 %, podendo verificar-se as preferncias relativas para as 6 marcas analisadas. A frequncia relativa acumulada permite verificar que metade dos indivduos da amostra prefere trs marcas e a outra metade prefere as marcas restantes (neste caso, tambm trs). Fi obtm-se somando ordenadamente as frequncias relativas de cada varivel.

2.2.2. Variveis Quantitativas No caso de variveis quantitativas discretas, desde que o espao amostral no tenha dimenses muito elevadas, o procedimento utilizado para construir tabelas de frequncias idntico ao que foi apresentado para as variveis qualitativas. Suponha-se uma experincia concebida para verificar se um dado ou no viciado. A experincia consistiu em lanar os dados 112 vezes e registar o resultado obtido em cada lanamento. O espao amostral desta experincia um conjunto discreto, limitado e de dimenso reduzida, correspondendo a A ={1, 2, 3, 4, 5, 6}. Os resultados obtidos na experincia encontram-se na Tabela 2.3. A Tabela 2.4 apresenta a respectiva distribuio de frequncias
Tabela 2.3. Resultados obtidos em 112 lanamentos de um dado
2 4 3 3 3 2 5 4 6 2 5 2 4 2 3 3 1 3 2 5 5 4 6 2 2 6 5 5 5 1 4 5 3 5 3 4 5 2 2 5 1 6 6 5 1 5 5 3 4 4 4 1 1 5 5 3 2 2 4 4 5 5 4 4 5 3 3 2 2 5 5 1 6 3 4 5 4 5 3 5 3 3 1 5

11

3 6

4 5

2 3

4 5

6 3

3 2

4 3

4 2

2 5

5 3

1 5

3 2

4 5

5 5

Tabela 2.4. Distribuio de frequncias para os resultados do lanamento de um dado


Pontos 1 2 3 4 5 6 ni 9 19 23 20 33 8 112 fi 8,035714 16,96429 20,53571 17,85714 29,46429 7,142857 100 Fi 8,035714 25 45,53571 63,39286 92,85714 100

Vamos agora estudar o caso de uma varivel quantitativa contnua. Suponhamos que se registou a durao, em horas, de uma amostra de 40 pilhas extradas ao acaso de um lote de produo dirio. Os valores observados constam da Tabela 2.5.
Tabela 2.5. Resultados obtidos em 40 observaes efectuadas durao em horas de lote de pilhas
45,7 45,0 45,8 45,0 44,7 44,8 44,5 43,8 44,5 43,7 45,0 44,9 44,1 44,4 44,7 44,5 45,3 43,8 44,2 45,3 45,6 43,9 44,9 44,0 45,2 43,9 43,7 43,6 43,8 44,2 45,5 43,9 44,2 44,7 44,9 44,5 45,2 45,5 45,7 44,4

Conforme se pode verificar, entre o valor mnimo (43,6 horas) e o valor mximo (45,8 horas) existe um nmero infinito de valores, alguns observados, outros no. Nesse caso recorre-se distribuio dos dados por classes ou clulas. A regra para se saber qual o nmero de classes a considerar consiste em determinar a raiz quadrada do nmero de observaes, N:

K = N de Classes = N
Esta regra no estrita, fornecendo unicamente uma ordem de grandeza. No caso que exemplificamos

40 = 6,6(6) porm, por razes de natureza prtica e de melhor

compreenso dos dados s foram consideradas 5 classes com amplitude de 0,5 horas. Para determinar a amplitude de cada classe efectua-se a razo entre a diferena do valor mximo e mnimo observados pelo nmero de classes. A rotina mais adequada para construir uma tabela de frequncias com dados agrupados em classes : 1) Calcular K e arredondar convenientemente (no exemplo anterior K=7) 2) Considerar K1=K; K2=K+1 e K3=K-1 (No exemplo anterior K1=7; K2=8; K3=6 3) Determinar as respectivas amplitudes, ai, para os diferentes valores de Ki (i=1,2,3). Ou seja:

12

a1=

45,8 43,6 =0,3143; a2= 45,8 43,6 =0,275; a3= 45,8 43,6 =0,36(6) 7 8 6

4) Seleccionar a amplitude mais consistente com os dados (neste caso, a2) Voltando deciso inicial (meramente prtica) de representar 5 classes com amplitude 0,5h, constri-se a tabela de frequncias representada na Tabela 2.6.
Tabela 2.6. Distribuio de frequncias para os resultados da durao em horas de uma amostra de pilhas
Durao (h) [43,5 a 44[ [44 a 44,5[ [44,5 a 45[ [45 a 45,5[ [45,5 a 46[ ni 9 7,0 11,0 7,0 6,0 40 fi (%) 22,5 17,5 27,5 17,5 15 100 Fi (%) 22,5 40,0 67,5 85,0 100,0

Na Tabela 2.6. podemos concluir 67,5% da amostra tem durao inferior a 45 horas, enquanto que 32,5% tem durao superior ou igual a 45 hs.

2.3. Representao Grfica de Distribuies de Frequncia As frequncias absolutas e relativas para variveis quantitativas discretas ou qualitativas podem ser representadas em grficos de barras, conforme se ilustra na Figura 2.1.
Figura 2.1. Grfico de colunas para as marcas preferidas de PC portteis
14 Frequncias Absolutas 12 10 8 6 4 2 0

M PA Q

IB A

IB M

TO S

AC

Marcas Com putadores

FU

JI T

SU

13

As frequncias absolutas e relativas para variveis quantitativas contnuas podem ser representadas por histogramas (colunas contguas) ou polgonos de frequncia (linha poligonal), conforme se ilustra na Figura 2.2.
Figura 2.2. Histograma e polgono de frequncias relativas para a durao em horas de uma amostra de pilhas.

Podemos igualmente construir um histograma de frequncias relativas (ou absolutas) acumuladas e o respectivo polgono de frequncias acumuladas (tambm denominado Ogiva). Na construo do polgono de frequncias acumuladas considera-se o limite inferior da primeira classe como tendo frequncia acumulada nula temos assim o par ordenado (43,5; 0) para o exemplo da Tabela 2.6 a frequncia acumulada da primeira classe ser considerada no limite inferior da classe e temos o par ordenado (44; 22,5) para o exemplo da Tabela 2.6. Deste modo, a frequncia acumulada da ltima classe marcada para o limite superior dessa classe. Na Figura 2.3 apresenta-se o histograma de frequncias relativas acumuladas e a respectiva ogiva para os dados da Tabela 2.6.
Figura 2.3. Frequncias relativas acumuladas e Ogiva para a durao em horas de uma amostra de pilhas.

Variveis qualitativas ou quantitativas, tanto discretas como contnuas, podem ser representadas em diagramas circulares (Figura 2.4.)

14

Figura 2.4. Diagrama circular para as marcas preferidas de PC portteis (frequncias relativas)

2.4.

Indicadores Numricos Os indicadores numricos sumariam a informao contida nos dados e, quando

calculados para uma amostra, denominam-se estatsticas. Estes indicadores podem ser classificados em:

Mdia Tendncia CentralModa Mediana - Medidas de Localizao Quartis Partio Decis Percentis
Amplitude AIQ - Medidas de Disperso Varincia Desvio Padro Coeficiente de Variao
- Assimetria: Coeficiente de Assimetria - Curtose: Coeficiente de Curtose

2.4.1. Medidas de Tendncia Central: Mdia, moda e mediana 2.4.1.1. Mdia A mdia uma medida de localizao de tendncia central, sendo representada por

X ou por conforme se trate, respectivamente, da mdia amostral (estatstica) ou da


15

mdia populacional (parmetro). A mdia de um conjunto de dados quantitativos obtm-se somando todos os valores e dividindo o resultado pelo n total de valores. Sejam as seguintes idades, em anos, dum grupo de 15 pessoas: 39, 43, 41, 43, 39, 45, 39, 39, 39, 43, 41, 43, 39, 45, 39, A idade mdia do grupo dada por:

X =

7 39 + 2 41 + 4 43 + 2 45 617 = = 41,1(3) 15 15

Ou seja:

X =

niXi =
N

fiXi

Com : Xi valor das variveis observadas ni Frequncia absoluta N N total de dados fi Frequncia relativa No caso dos dados estarem agrupados em classes a mdia ser dada por:

X =
sendo Ci o valor central de cada classe.

niCi =
N

fiCi

Exemplo: Pretende-se calcular o preo mdio das habitaes T2 numa cidade em 1993. Os dados so apresentados na Tabela 2.7.
Tabela 2.7. Distribuio de frequncias para os resultados da durao em horas de uma amostra de pilhas
Preo (contos) [13600, 14800[ ]14800, 16000[ [16000, 17200[ ]17200, 18400[ ]18400, 19600] = f abs. (fi) 7 15 24 27 17 90 Ci 14200 15400 16600 17800 19000 Cixfi 99400 231000 398400 480600 323000 1532400

X =

1532400 = 17026,67 contos 90

2.4.1.2. Mediana A mediana ( X ) o valor central de um conjunto de dados. No caso de dados brutos discretos, obtm-se ordenando os dados de forma crescente ou decrescente e identificando

16

o valor central, caso o n de dados seja mpar, ou a mdia entre os dois dados centrais, caso o n de dados seja par. Exemplo : Pretende-se determinar a mediana para os pontos obtidos em 25 lanamentos de um dado com os seguintes resultados: 1112223455445666133344455 1) 25 impar logo o local do valor mediano obtm-se pela expresso Lme=

N +1 , ou seja 2

25 + 1 = 13 2
2) Ordenando os dados: 1111222333344444455555666

Logo X =4 No caso dos dados estarem representados numa tabela de frequncias temos que localizar a mediana atravs das frequncias absolutas ou relativas acumuladas. Considerando o exemplo anterior temos:

17 contm 13 logo X =4 No caso de frequncias relativas acumuladas devemos determinar o valor em percentagem ao qual corresponde a posio da mediana. No exemplo apresentado a posio em percentagem

13 100 = 52% 25

68% contm 52% logo X =4

17

O modo de proceder no caso do n de dados ser par anlogo porm, neste caso, a

N N +2 + 2 . Para exemplificar posio do valor mediano dado pela expresso 2 2


calculemos a mediana na seguinte distribuio de frequncias:

42 42 + 2 + 2 = 43 = 21,5 , correspondendo em 2 A posio da mediana dada por 2 2


percentagem a

21,5 ~ 100 = 51,19% . 71,4% contm 51,19% logo X =3 42

No caso de dados agrupados em classe o primeiro passo consiste em identificar a classe mediana pelos processos j descritos. Em seguida calcula-se o valor da mediana atravs da seguinte expresso:

N CumFabs (me 1) ~ 2 X = li (me) + a (me) Fabs (me)


Com: li(me): limite inferior da classe mediana N: dimenso da amostra CumFabs(me-1): cumulante das frequncias absolutas na classe anterior classe mediana Fabs(me): frequncia absoluta da classe mediana a(me): amplitude da classe mediana A expresso para frequncias relativas semelhante:

0,5 CumFrel (me 1) ~ X = li (me) + a(me) Frel (me)


Com: li(me): limite inferior da classe mediana

18

CumFrel(me-1): cumulante das frequncias relativas na classe anterior classe mediana Fabs(me): frequncia relativa da classe mediana a(me): amplitude da classe mediana Exemplo: Calcular o valor da mediana na seguinte distribuio de frequncias:

58 58 + 2 + 2 = 29,5 , logo, 2 O primeiro passo ser localizar a classe mediana: Localizao= 2


a classe mediana [55, 65[ e X = 55 +

29 17 10 = 61,67 unidades de medida dos dados. 18

2.4.1.3. Moda

A moda ( X ) pode ser determinada para dados quantitativos e qualitativos. Para


variveis quantitativas discretas ou qualitativas simplesmente a varivel mais frequente (ou mais observada). Para variveis quantitativas agrupadas em classes necessrio: 1 Identificar a classe modal 2 Determinar o valor da moda dentro da classe atravs das expresses:

X = li (mo) +

F (mo + 1) a(mo) F (mo 1) + F (mo + 1)


ou

X = li (mo) +
Com:

f (mo + 1) a(mo) f (mo 1) + f (mo + 1)

li(mo): limite inferior da classe modal F(mo+1): frequncia absoluta da classe seguinte modal f(mo+1): frequncia relativa da classe seguinte modal F(mo-1): frequncia absoluta da classe anterior modal f(mo+1): frequncia relativa da classe anterior modal a(mo): amplitude da classe modal

19

Assim, no ltimo exemplo tem-se: X = 55 +


dados

14 10 = 60,4 unidades de medida dos 12 + 14

2.4.2. Medidas de Partio: Quartis, Decis e Percentis 2.4.2.1. Quartis Os quartis so os valores da varivel observada que dividem a distribuio de frequncias em 4 partes iguais.

Q1 Primeiro Quartil o valor da varivel observada tal que o n de observaes para valores inferiores a Q1 ser de 25% e o n de observaes para valores superiores a Q1 ser de 75%. Q2 Segundo Quartil o valor da varivel tal que metade das observaes encontram-se sua esquerda e a outra metade sua direita, logo, coincide com a mediana. Q3 Terceiro Quartil o valor da varivel observada tal que o n de observaes para valores inferiores a Q3 ser de 75% (3/4)e o n de observaes para valores superiores a Q3 ser de 25% (1/4). Para determinar os quartis, tal como ocorre na determinao da mediana, necessrio ordenar os dados. Exemplo: O editor de uma obra literria pretende estudar as idades dos leitores da obra tendo obtido, numa amostra de 15 leitores, as seguintes respostas: 15 15 15 16 17 17 17 17 18 19 19 20 20 20 20 O primeiro passo para determinar os quartis localiz-los: Q1: localizao Q2: localizao Q3: localizao

1 15 = 3,75 4 Q1 = 16 4 2 15 = 7,5 8 Q 2 = 17 4 3 15 = 11,25 12 Q3 = 20 4

Nas situaes em que os dados se encontram agrupados em classes, aps identificar a classe a que corresponde o quartil que pretendemos determinar, aplica-se a expresso seguinte:

20

iN CumFabsAnterior a(Qi) Qi = li (Qi) + 4 Fabs


Esta expresso tambm pode ser aplicada s frequncias relativas. Exemplo. Considere-se que se pretende determinar os quartis na distribuio de frequncias para as classificaes obtidas num teste de estatstica. Os dados constam da tabela seguinte:

Posio de Q1: 110/4=27,528. Em percentagem: Posio de Q2: 110/2=5555,5. Em percentagem:

28 100 =25,5% 110 55,5 100 =50,5% 110 83 100 =75,5% 110

Posio de Q3: (3x110)/4=82,583. Em percentagem: Ento: Q1 = 4 +

28 27 4 = 4,125 valores 16 55 43 4 = 9,4 valores 34 83 77 4 = 13,3 valores 17

Q2 = 8 +

Q3 = 12 +

2.4.2.2. Decis e Percentis Os decis so os valores da varivel que dividem a distribuio em 10 partes iguais. Os percentis dividem a distribuio em 100 partes iguais. O nmero de decis 9 (do D1 at o D9) e o de percentis 99 (do P1 ao P99). semelhana do que se fez no clculo da mediana e dos quartis o primeiro passo consiste em determinar a posio destes indicadores. A posio do 1 decil efectuada dividindo o n de dados por 10, a do 2 decil obtm-se multiplicando o n de dados por 2/10, etc. As posies dos percentis obtm-se multiplicando o n de dados por (ordem do percentil)/100. Por exemplo, para calcular a posio do P72 suficiente fazer Para dados agrupados em classes rcorre-se seguinte expresso:

72 N. 100

Ci ou

Di = li +

ni CumFabsAnterior a Fabs 21

Com: li: limite inferior da classe decil ou percentil ni: n de observaes at ao decil (percentil) CumFabAnteriors: cumulante das frequncias absolutas na classe anterior classe do decil (percentil) Fabs: frequncia absoluta da classe decil (percentil) a: amplitude da classe do decil (percentil) Exemplo: Calculem-se o D4 e o P72 da seguinte distribuio: classes [4, 9[ [9, 14[ [14, 19[ [19, 24] Posio de D4= F abs 8 12 17 3 Cum F 8 20 37 40

4 40 = 16 D4 pertence classe [9, 14[ 10 72 40 = 28,8 P72 pertence classe [14, 19[ 100 16 8 5 = 12,3 12
P72= 14 +

Posio de P72=

D4= 9 +

29 20 5 = 16,9 17

2.4.3. Medidas de Disperso As medidas de disperso tm por finalidade verificar a representatividade das medidas de localizao.

2.4.3.1. Exactido e Disperso Sejam as observaes seguintes relativas s variveis x e y X y 20 15 20 10 20 20 20 25 20 30

Verifica-se que X ( x) = 20 e que X ( y ) = 20 mas, enquanto os valores de x no apresentam variaes em relao mdia, os valores de y apresentam variaes significativas em torno do seu valor mdio. Ou seja, x no apresenta qualquer disperso em torno de

X (x) enquanto que y tem os seus valores dispersos em torno de X ( y ) . A disperso faz
com que a medida considerada para a mdia possa no ser representativa por pouca exactido. A exactido uma medida do desvio entre o valor obtido e o verdadeiro valor.

22

2.4.3.2. Erros Fortuitos e Erros Sistemticos As medidas efectuadas e os valores observados podem ser afectados por erros de medio ou de observao. Os erros so sistemticos quando ocorrem sempre e da mesma maneira, podendo ser evitados. Os erros fortuitos so acidentais, acontecendo esporadicamente e no podendo ser evitados.

2.4.3.3. AIQ, Varincia, Desvio-Padro e Coeficiente de Variao As medidas de disperso dividem-se em trs categorias principais: - Medidas de distncia cujos valores esto representados nas mesmas unidades que os dados e onde no necessrio o clculo de uma medida de localizao, por exemplo o AIQ (Amplitude Inter Quartis); - Medidas de desvio em relao a uma medida de localizao que utilizada como termo de comparao, por exemplo a varincia e o desvio padro; - Medidas de disperso relativa entre 2 ou mais conjuntos de dados, por exemplo o CV (Coeficiente de Variao)

AIQ Esta medida de disperso define-se pelo valor da diferena entre o 3 e o primeiro quartis:

AIQ = Q3 Q1
medindo a amplitude que existe entre 50% das observaes centrais. Considerem-se os preos dos vrios modelos de um determinado produto dados na tabela seguinte:
Modelo Preo() A 133 B 135 C 146 D 175 E 179 F 188 G 195 H 204 I 219 J 233 K 254

A amplitude total dos dados 254-133=121 e AIQ=219-146=73 , concluindo-se que das 11 observaes registadas para os preos, as que correspondem a 50% dos valores centrais (entre o 3 e o 9 registo) tm uma variao de preo de 73 . Este valor representa mais de metade da amplitude total dos dados pelo que a distribuio pode ser considerada dispersa.

Varincia e Desvio Padro A varincia e o desvio padro fornecem uma medida da variabilidade dos dados em torno do se valor mdio. A varincia amostral (s2) dada pelas seguintes expresses:

23

s =
2

(x
N i =1

)
para dados no agrupados (brutos)

N 1
K

s =
2

N f k xk x
k =1

)
com fk frequncias relativas, e para dados discretos agrupados

N 1

K a2 N f k C k x 12 k =1 s2 = N 1

com fk frequncias relativas e para dados contnuos

agrupados em classes, onde Ck o centro de cada classe e a a amplitude das classes. Considere-se a tabela de frequncias seguinte:
Pesos em gramas dos contedos garrafas [297, 298[ [298, 299[ [299, 300[ [300, 301[ [301, 302[ [302, 303[ [303, 304[ [304, 305[ [305, 306] Totais de 100 Freq. Relativa Acumulada (%) 8 29 57 72 83 93 98 99 100

Freq. Relativa (%) 8 21 28 15 11 10 5 1 1 100

De modo a calcular a varincia amostral e o desvio padro deste conjunto de dados contnuos agrupados em classes, teremos primeiro que fazer os clculos que constam da tabela seguinte. Nessa tabela devemos ter o cuidado de reparar que, como N=100, os valores das frequncias relativas so iguais aos valores das frequncias absolutas, pelo que se no clculo da mdia so assumidos como absolutos (por exemplo, a frequncia absoluta da classe [302, 303[ 10), no clculo da varincia devem ser assumidos como relativos (por exemplo, a frequncia relativa da classe [302, 303[ 0,1)

24

Pesos em gramas dos contedos de 100 garrafas [297, 298[ [298, 299[ [299, 300[ [300, 301[ [301, 302[ [302, 303[ [303, 304[ [304, 305[ [305, 306] Totais

Freq. Relativa (%) 8 21 28 15 11 10 5 1 1 100

Freq. Relativa Acumulada (%) 8 29 57 72 83 93 98 99 100

ci

fi*ci

(ci-med(x))^2

fi/100*(ci-med(x))^2

297,5 298,5 299,5 300,5 301,5 302,5 303,5 304,5 305,5

2380 6268,5 8386 4507,5 3316,5 3025 1517,5 304,5 305,5 30011

6,8121 2,5921 0,3721 0,1521 1,9321 5,7121 11,4921 19,2721 29,0521

0,544968 0,544341 0,104188 0,022815 0,212531 0,57121 0,574605 0,192721 0,290521 3,0579

Aplicando as frmulas teremos ento: Mdia x =

fc
N

i i

30011 = 300,11g 100


f1 ci x 100 N 1

Amplitude das clulas a=1g

Varincia s 2 =

100 3,0579 = 3,005 g2 99

Desvio padro s =

s 2 = 3,005 = 1,733 g

O desvio padro, dado pela raiz quadrada da varincia, tem a vantagem de ser expresso nas mesmas unidades dos dados a partir dos quais foi calculado, podendo ser interpretado como o valor absoluto de um desvio tpico dos dados em relao mdia amostral.

Coeficiente de Variao

O coeficiente de variao (CV) particularmente til quando se pretende tirar concluses acerca da representatividade da mdia como medida estatstica. A expresso do CV dada por:
CV = s 100% x

E mede o grau de disperso relativa. De modo geral considera-se que:

CV 10% Disperso reduzida

CV 30% Disperso moderada CV > 30% Disperso elevada

25

Para melhor interpretar o significado deste coeficiente, consideremos o exemplo seguinte: Uma mesma pea fornecida por dois fornecedores, A e B. A pea destina-se indstria automvel e o seu dimetro deve ser de 1,3 cm. Tanto o fornecedor A como o B garantem estas dimenses no dimetro mdio das peas e estas so vendidas por ambos ao mesmo preo. De modo a decidir qual o fornecedor a escolher, com base nas garantias de qualidade oferecidas, o comprador recolheu uma amostra de 6 peas junto de cada fornecedor, tendo medido o dimetro de cada uma. Os resultados obtidos encontram-se na tabela seguinte. Fornecedor A Dimetros (cm) 1,5 1,4 1,2 1,0 1,3 1,3 Fornecedor B Dimetros (cm) 2,0 1,2 1,0 1,5 1,2 0,9

Pode-se verificar a partir da tabela que x A = x B = 1,3cm . Porm, sA=0,14 cm e sB=18,5 cm. Sendo assim CVA=7% e CVB=18,5 % pelo que se pode concluir que as peas do fornecedor A tero dimetros mais uniformes, optando-se ento pelo fornecedor A.

2.5. Assimetria e Curtose. Diagramas de Caixa e Bigodes (Box Plot)

2.5.1. Assimetria
Uma distribuio de frequncias diz-se simtrica quando os valores da moda, de mdia e da mediana coincidem entre si. O histograma da Figura seguinte representa uma distribuio simtrica.

26

Histograma Simtrico Quando o valor da moda inferior ao da mediana que, por sua vez, possui um valor menor que a mdia, a distribuio diz-se assimtrica positiva ou assimtrica direita. No histograma da figura seguinte representa-se uma distribuio assimtrica positiva.

Histograma Assimtrico Positivo Quando o valor da moda superior ao da mediana que, por sua vez, possui um valor superior ao da mdia, a distribuio diz-se assimtrica negativa ou assimtrica esquerda. No histograma da figura seguinte representa-se uma distribuio assimtrica negativa .

Histograma Assimtrico Negativo

27

A assimetria fcil de determinar graficamente, podendo dizer-se se uma distribuio simtrica ou assimtrica (positiva ou negativa) pelo aspecto do seu histograma. Quando no se dispem de meios grficos o grau de assimetria de uma distribuio pode ser medido utilizando um indicador: o coeficiente de assimetria. Para dados no agrupados em classe o coeficiente de assimetria dado por:

g1 =
Dizendo-se que a distribuio :

N (N 1)(N 2)

(x
i =1

x) 2

s2

Simtrica se g1 =0 Assimtrica direita se g1>0 Assimtrica esquerda se g1<0

No caso de dados agrupados em classes recorremos ao coeficiente de assimetria de Pearson, dado por:

G1 =
Dizendo-se que a distribuio :

xx s

Simtrica se G1 =0 Assimtrica direita se G1>0 Assimtrica esquerda se G1<0

2.5.2. Curtose
As medidas de curtose do uma indicao da intensidade das frequncias na vizinhana dos valores de tendncia central, por comparao com a distribuio Normal. A distribuio Normal (ou de Gauss em homenagem ao matemtico alemo Carl F. Gauss), cujo estudo ser efectuado mais a frente, a que mais frequentemente se utiliza para descrever fenmenos que so traduzidos por variveis aleatrias contnuas que resultam da soma de um grande nmero de efeitos provocados por causas independentes, em que o efeito de cada causa desprezvel em relao soma de todos os outros efeitos. Esta distribuio pode ser caracterizada por uma funo f (x) simtrica em torno de x = ( a mdia populacional), que tem um mximo em x = e pontos de inflexo em x = , sendo o desvio padro populacional. Na Figura seguinte representa-se uma curva tpica de Gauss.

28

Grfico da Distribuio Normal ou Curva de Gauss O garu de curtose de uma qualquer distribuio fica assim definido pelo seu achatamento por comparao com a Normal. Para variveis no agrupadas pode-se medir a curtose atravs do coeficiente de curtose, g2, dado por:

g2 =

( N + 1) N ( N 1)( N 2)( N 3)

(x
N i =1

s4

(N 1)2 (N 2)(N 3)

Dizendo-se que a distribuio : To achatada quanto a Normal se g2 =0 Menos achatada do que a Normal se g2>0 Mais achatada do que a Normal se g2<0

Para dados agrupados em classes o coeficiente de curtose, K, dado por:

K=
Dizendo-se que a distribuio :

Q3 Q1 2(P90 P10)

To achatada quanto a Normal se K =0,263 Menos achatada do que a Normal se K<0,263 Mais achatada do que a Normal se K>0,263

Exemplo: O gerente de um supermercado registou as chegadas dos clientes numa terafeira entre as 15 h. e as 17 h., procedendo ao registo de chegadas em 100 perodos com a durao de um minuto seleccionados ao acaso, obtendo a tabela seguinte, a partir da qual se verifica que a distribuio assimtrica positiva e menos achatada do que a normal.
g1= G1= 1,020408 0,699968

29

xi 0 1 2 3 4 5 6 7 8 9 10 Totais

fi 1 8 19 23 17 15 8 3 3 2 1 100 g2=

xi*fi 0 8 38 69 68 75 48 21 24 18 10 379 16,40553

(xi-mdia)^2 14,3641 7,7841 3,2041 0,6241 0,0441 1,4641 4,8841 10,3041 17,7241 27,1441 38,5641 126,1051

2.5.2. Diagramas de Caixa e Bigodes


Os diagramas deste tipo designam-se em ingls por box-plot ou box and whisker plot. Nestes diagramas representam-se graficamente o 1 e 3 quartis (que delimitam a caixa), representando a mediana no interior da caixa, e unindo por duas linhas caixa tanto o valor mnimo da maior concentrao de dados como o valor mximo da maior concentrao de dados. Para melhor compreender este tipo de diagramas veja-se a Figura seguinte:

Diagrama de caixa e bigodes representando uma distribuio assimtrica direita

Para representar diagramas deste tipo necessrio, numa primeira fase, identificar se existem valores aberrantes, que no pertencem ao intervalo no interior do qual se encontram contidos a maior parte dos dados, os denominados outliers. De modo a detectar a existncia destes valores deveremos calcular 4 limites: LL1=Q1-3AIQ LL4=Q3+3AIQ LL2=Q1-1,5AIQ LL3=Q3+1,5AIQ

Os valores da varivel menores que LL1 e maiores que LL4 so outliers severos. Os valores compreendidos entre LL1 e LL2 e entre LL3 e LL4 so outliers moderados.

30

Os outliers so representados no diagrama de caixa como pontos isolados, adoptando-se normalmente um asterisco (*) para os severos e um ponto aberto (o) para os moderados. Para melhor compreenso deste assunto, consideremos o exemplo seguinte: Uma dada varivel apresenta Q1=50, Q3=60 e X =55. Os valores mais pequenos medidos para a varivel foram: 18, 25 e 40. Os maiores valores medidos foram: 70 e 85. Os restantes valores situavam-se 40 e 70. Para construir o correspondente box-plot investiguemos a existncia de outliers: AIQ=60-50=10 LL1=50-30=20 LL4=60+30=90 LL2=35 LL3=75 Conclumos que existem outliers severos (x=18) e moderados (x=25 e x=85) devendo assinal-los no box-plot pelos pontos que lhe correspondem. Obtem-se ento o diagrama da Figura seguinte:

2.6. Tabelas de contingncia


Existe um grande nmero de estudos estatsticos que no dedicado apenas a analisar o valor de uma nica varivel mas de vrias variveis em simultneo. Neste tipo de estudos, a cada elemento analisado corresponde um conjunto de valores, sendo os dados resultantes designados por multivariados (podemos para cada indivduo analisar em simultneo, por exemplo a idade, a altura, o peso, o estado civil, o distrito onde reside, etc.). No caso particular de serem medidas duas variveis para cada um dol elementos que constituem a amostra obtm-se um conjunto de dados bivariado. Nestes conjuntos de dados interessa desenvolver instrumentos que meam o grau de associao ou a existncia de alguma relao entre as variveis. Para dados qualitativos recorre-se elaborao de tabelas de contingncia e para dados quantitativos utilizam-se os diagramas de disperso e os coeficientes de correlao.

31

As tabelas de contingncia so semelhantes s tabelas de distribuio de frequncias e permitem analisar a associao entre variveis quantitativas, apresentando os dados duma forma sumria. Para as elaborar contam-se o nmero de observaes que so comuns a cada par de categorias. Por exemplo, quando se pretende relacionar o gnero sexual com o estado civil de um conjunto de indivduos necessrio contabilizar quantos so homens casados, homens divorciados, homens vivos, homens solteiros, mulheres casadas, etc. A tabela seguinte exemplifica uma tabela de contingncia para as variveis: x=idade e y=regio do pas preferida para frias. Regio preferida Norte Sul Centro Total ]20, 30] 84 80 4 168 ]30, 40] 80 130 10 220 Idade (anos) ]40, 50] 4 90 30 124 >50 2 10 25 37 Total 170 310 69 544

Na tabela verifica-se que a faixa etria entre os 30 e os 40 anos prefere o Sul como destino de frias. Observa-se tambm que apenas 6 dos indivduos com 40 ou mais anos preferem o Norte. Como as faixas etrias no foram igualmente amostradas, a informao que se pode obter ainda mais til se forem obtidas as percentagens em linha ou em coluna. Para obter as percentagens em linhas dividem-se os valores das frequncias em cada linha pelo resultado total da linha e multiplica-se por 100. Assim, temos: Regio preferida Norte Sul Centro Total ]20, 30] 49,9% 25,8% 5,8% 30,5% ]30, 40] 47,0% 41,9% 14,5% 40,1% Idade (anos) ]40, 50] 2,4% 29,0% 43,5% 22,5% >50 1,2% 3,3% 36,2% 6,9% Total 100% 100% 100% 100%

Na tabela anterior podemos verificar que, dentre os indivduos que preferem o Norte, 49,9 % tem idade compreendida entre 20 e 30 anos e 47,0 % tm idade entre 30 e 40 anos. Apenas 3,6 % das pessoas que preferem o Norte tm idade superior a 40 anos. Como concluso geral dos dados apresentados podemos dizer que existe uma tendncia para as pessoas mais jovens preferirem o Norte como destino de frias enquanto que nas idades mais avanadas prefere-se o Centro.

32

2.7. Diagramas de disperso e coeficientes de correlao


Os diagramas de disperso e os coeficientes de correlao so utilizados para analisar possveis associaes entre variveis quantitativas. Um pressuposto indispensvel existncia dessas associaes que permitir, numa fase posterior, elaborar previses, o facto de se poder estabelecer uma relao do tipo causa-efeito entre as variveis. Isto , s vivel fazer previses com base em relaes estatsticas entre variveis se a variao de uma delas puder ser atribuda variao da outra. Aps se estabelecer que existe uma relao causal entre as variveis, o passo seguinte consiste em determinar a forma ou o tipo de relao. Esta determinao pode ser feita mediante a construo de um diagrama de disperso. Um diagrama de disperso consiste num grfico constitudo por pontos discretos onde cada ponto, Pi, representa um par de valores observados, (xi, yi). xi representa o valor da varivel independente observada para o indivduo Pi e yi representa o valor da varivel dependente observada para esse mesmo indivduo. O diagrama de disperso tem uma funo dupla: por um lado ajuda a destrinar se existe alguma associao entre as variveis, por outro permite identificar qual o modelo matemtico (equao) mais apropriado para descrever essa associao. Nos grficos da Figura seguinte apresentam-se vrios exemplos de diagramas de disperso e as concluses que deles se podem tirar acerca da relao entre as variveis.

33

No caso de existir uma relao entre as variveis esta pode ser de vrios tipos: linear (casos (a) e (b) da figura), polinomial (caso (c) da figura polinmio do 2 grau), exponencial, logartmica, etc. A relao mais simples do tipo linear, sendo possvel linearizar algumas das relaes no lineares exemplificadas no pargrafo anterior. Uma relao do tipo linear entre as variveis pode ser descrita matematicamente pela equao:

y = b + mx + e
Esta equao constitui o modelo de regresso linear simples sendo: y: varivel explicada ou dependente x: varivel explicativa ou independente e: varivel residual que inclui outros factores explicativos de y no includos em x ou erros de medio b e m: parmetros da regresso. b a interseco da recta com o eixo vertical e m o seu declive. A equao anterior representa pois uma recta que, quando ajustada aos dados do diagrama de disperso, se chama recta de regresso ou recta ajustada. Exemplo: pretende-se estudar a relao entre os custos do factor trabalho (em percentagem) e o ndice de preos no produtor (em percentagem) com o objectivo de fazer previses acerca desta ltima varivel a partir de valores conhecidos da primeira. Os valores conhecidos das variveis para um perodo de 7 anos constam da tabela seguinte:
Ano 1984 1985 1986 1987 1988 1989 1990 Fact Trab (%) 7,5 5,7 6,1 7,7 11,2 11,2 8,3 Preo Prod (%) 10,8 4,4 6,5 7,8 11,1 13,5 9,2

Recorrendo aos dados dessa Tabela podemos construir o seguinte diagrama de disperso que se ilustra na Figura seguinte e onde aparentemente existe uma relao linear positiva entre as variveis, isto , quando o custo do factor trabalho aumenta, o ndice de preos tambm aumenta. Podemos agora tentar ajustar uma recta de regresso aos dados, assumindo que existe entre eles uma relao de causa-efeito.

34

14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 -1 0 -2

1989 1984 1990 1987 1986 1985 1988

Preo Prod (%)

9 10 11 12 13

Fact Trabalho (%)

O modelo de regresso linear assume que existe a seguinte relao entre os dados:

y = b + mx + e
Com o seguinte significado: - cada valor observado para a varivel dependente (y) pode ser encontrado a partir de um efeito constante (b) - de um efeito que resulta da varivel independente (mx) - de um efeito resultante de uma varivel residual (e) que impede a existncia de uma relao linear perfeita entre y e x. Ao ajustar uma recta de regresso aos dados observados anulamos os efeitos da varivel residual. A recta ajustada ter ento a forma:

y a = b + mx
A obteno da recta ajustada implica o conhecimento dos parmetros m e b de tal modo que o desvio entre os valores reais e os valores ajustados seja mnimo. Um mtodo que permite minimizar estes desvios o mtodo dos mnimos quadrados. Neste mtodo minimizado o somatrio dos quadrados das distncias entre os valores observados e os valores ajustados. Os valores observados so dados por y = b + mx + e e os valores ajustados so dados por y a = b + mx . O que se pretende atravs do mtodo dos mnimos quadrados minimizar o somatrio dos quadrados das diferenas, ei=yi-yia, para cada indivduo, i, observado. Isto :

y i = b + mx + ei

y ia = b + mx

ento y i y ia = ei e ei = y i b mx

Pretendendo determinar-se m e b de tal modo que:

35

Min ei2 = Min ( y i y ia ) = Min ( y i b mx )


2 m ,b m ,b m ,b

Para o ltimo somatrio, ou para qualquer outro polinmio quadrtico, os pontos mnimos encontram-se quando as primeiras derivadas forem nulas e as segundas derivadas forem positivas (concavidade voltada para cima). Assim, a funo de minimizao estabelecida, pode ser resolvida atravs dos sistemas:

ei2 =0 b e 2 ei m = 0
(ordenada na origem da recta ajustada):

2 ei2 >0 b 2 2 2 ei m 2 > 0

que conduzem s seguintes expresses para m (declive da recta ajustada) e para b

m=

N xi y i xi y i
i =1 i =1 i =1

N x xi i =1 i =1
N N 2 i

b = y mx
Exemplo: Para a relao entre o custo do factor trabalho e o ndice de preos no produtor dada anteriormente, iremos calcular a recta de regresso pelo mtodo dos mnimos quadrados. Esse clculo efectuado atravs da tabela seguinte:
Ano 1984 1985 1986 1987 1988 1989 1990 N=7 X Fact Trab (%) 7,5 5,7 6,1 7,7 11,2 11,2 8,3 57,7 Y Preo Prod (%) 10,8 4,4 6,5 7,8 11,1 13,5 9,2 63,3 X*Y 81 25,08 39,65 60,06 124,32 151,2 76,36 557,67 x^2 56,25 32,49 37,21 59,29 125,44 125,44 68,89 505,01

Dessa tabela conclumos que:

m=

7 557,67 57,7 63,3 = 1,22 7 505,01 57,7 2

b=

63,3 57,7 1,22 = -1,022 7 7

Pelo que a recta ajustada tem a seguinte expresso:

y a = 1,22 x 1,022
Podendo agora desenhar-se essa recta sobre o diagrama de disperso, conforme se ilustra na seguinte Figura:

36

Preo Prod (%)

14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 -1 0 -2

1989 1984 1990 1987 1986 1985


y = 1,2211x - 1,0226

1988

9 10 11 12 13

Fact Trabalho (%)


Preo Prod (%) Linear (Preo Prod (%))

Na Figura anterior v-se que existe uma relao linear positiva, embora imperfeita, entre as variveis analisadas. Uma maneira de se analisar a possibilidade de existncia de uma associao linear entre um par de variveis atravs do clculo do coeficiente de correlao linear. O coeficiente de correlao linear, r, um valor real compreendido entre -1 e 1 que pode ser calculado pela expresso seguinte:

r=

cov( x, y ) sx s y
x

onde cov( x, y ) =

[(x

x yi y N 1

)(

)] a covarincia entre as variveis x e y, s

o desvio-

padro de x e sy o desvio padro de y. No caso de no existir qualquer relao linear entre as variveis a covarincia ser nula e quanto maior for o valor absoluto da covarincia maior ser o grau de associao linear entre as variveis. Porm as unidades da covarincia so difceis de compreender. Se estivermos a relacionar precipitao (em mm) com presso atmosfrica (em bar) as unidades da covarincia respectiva ser mmxbar, o que no tem um significado compreensvel. Opta-se ento pelo coeficiente de correlao para medir o grau de ajuste linear entre um par de variveis. Este coeficiente, obtido da diviso entre a covarincia e o produto dos desvios padres adimensional e tem o seguinte significado: r=1: correlao linear perfeita positiva

37

0,7r<1: correlao linear forte positiva 0,3r<0,7: correlao linear moderada positiva 0<r0,3: correlao linear fraca positiva r=0: no existe correlao linear (podendo ou no existir outro tipo de relao) r=-1: correlao linear perfeita negativa -1<r-0,7: correlao linear forte negativa 0,7<r-0,3: correlao linear moderada negativa -0,3<r<0: correlao linear fraca negativa Nos grficos da figura seguinte ilustra-se a relao entre o valor do coeficiente de correlao linear e o ajuste entre os dados observados e a recta de regresso.

No devemos tirar concluses apressadas sobre o relacionamento entre duas variveis apenas com base no clculo do coeficiente de correlao linear. Por vezes este coeficiente sugere a existncia de uma correlao linear entre os dados (positiva ou negativa) que refutada pelo diagrama de disperso. Para melhor compreender estes casos considere-se o seguinte exemplo. Exemplo: Com o objectivo de estabelecer se existe uma relao linear entre o nmero de anos de trabalho e o volume de vendas anual para os vendedores de uma empresa analisou-se este par de variveis na totalidade dos 16 trabalhadores da empresa. Os valores obtidos constam da tabela seguinte:

38

Anos de Vendas anuais Experincia (milhares de ) 24 54 8 57 2 45 12 61 8 57 4 50 6 54 6 54 11 59 12 60 11 59 16 62 14 62 10 60 18 61 22 57

O valor obtido para o coeficiente de correlao linear deste conjunto de dados 0,5, indicando uma correlao linear moderada positiva. Porm, ao construir o diagrama de disperso, verifica-se que existe uma relao no linear (mas polinomial do 2 grau) entre as variveis (ver a Figura seguinte).
Vendas Anuais (milhares )
70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70

Anos de experincia

Quando se procede ao ajuste de uma determinada recta de regresso aos dados observados, podemos ainda tirar concluses acerca da qualidade do ajuste atravs do clculo de outro coeficiente: o coeficiente de determinao. O coeficiente de determinao, notado por R2, mede a qualidade do ajuste entre a recta e os dados e o seu valor um nmero real compreendido entre 0 e 1. Se R2 for 1 a qualidade do ajuste perfeita (positiva ou negativa), no existindo relao linear se R2 =0. O coeficiente de determinao representa ainda a proporo (ou percentagem) da variao da varivel dependente (y) que explicada pelas variaes da varivel independente (x), sendo o seu valor obtido atravs da seguinte expresso:

39

R2 =

m xi x y i y

(y

[(

)(

)]

No exemplo da variao dos ndices de preo no consumidor com o custo do factor trabalho, o coeficiente de determinao 0,8 (verifique), o que significa que 80% das variaes dos ndices de preo no consumidor so devidas s variaes verificadas pelo custo do factor trabalho, sendo que os restantes 20% so devidos a outras causas. Nesse exemplo foi obtida uma recta de regresso cuja equao y a = 1,22 x 1,022 , o coeficiente de correlao linear indica uma correlao linear positiva forte (verifique), o coeficiente de determinao prximo da unidade e no diagrama de disperso v-se que existe de facto uma relao linear entre as variveis. Deste conjunto de observaes conclumos que a equao da recta obtida constitui um modelo matemtico (embora estatstico e no fenomenolgico) que permite prever a evoluo dos ndices de preo com o custo do factor trabalho. Podemos, por exemplo, prever para o ano 2007, sabendo que o custo do factor trabalho nesse ano ser 12 %, o ndice de preo no consumidor como sendo

y p = 1,22 12 1,022 =13,618 %

40

You might also like