Apontamentos de Estatística Descritiva

• Unidade Curricular: Estatística Aplicada • Área Científica: Matemática • A L ti Ano Lectivo: 2007/2008 • Curso: Contabilidade e Finanças • Regime: Diurno + Pós-Laboral • Escola: Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria • D Docentes: Mi t Miguel F l l Felgueiras, J é M ti i José Martins, R i P i Rui Paiva • A Autores: F Fernando S b i e H l d Sebastião Helena Sil Silva

Conteúdos Programáticos g
Noções básicas: População. Amostra. Unidade estatística. Atributo. Modalidades. Atributo Modalidades Quadros de frequências: Frequências absolutas. Frequências relativas relativas. Frequências acumuladas. Dados agrupados em classes. Representação gráfica de frequências: Diagrama de barras. Diagrama de sectores. Histograma. Polígono de f P lí d frequências. ê i Redução dos dados: Medidas de tendência central. Medidas de dispersão. M did d di ã Medidas de assimetria. Medidas de achatamento. Medidas de concentração.
Estatística Descritiva 2

Objectivos/resultados de aprendizagem
Gerais:
• • Explorar a informação contida num conjunto de dados. Usar espírito crítico na análise dos resultados obtidos quer em termos numéricos quer em termos computacionais computacionais.

Específicos:
No fim deste capítulo da unidade curricular o estudante deverá saber: Noções básicas: ç
Identificar a população em estudo. Identificar a amostra em análise. Identificar a unidade estatística. Identificar o atributo em estudo na população. Distinguir atributos qualitativos e quantitativos. p Caracterizar as modalidades para um determinado atributo.
Estatística Descritiva 3

Objectivos/resultados de aprendizagem
Específicos (continuação):
Quadros de frequências:
Determinar e interpretar as frequências absolutas. p q Determinar e interpretar as frequências relativas. Determinar e interpretar as frequências acumuladas. Distinguir os vários tipos de frequências (absolutas, relativas e acumuladas). Agrupar os dados em classes para um determinado atributo.

Representação gráfica de frequências:
Representar e interpretar o diagrama de barras para atributos qualitativos e quantitativos. quantitativos Representar e interpretar o diagrama de sectores para atributos qualitativos e quantitativos. Representar e interpretar o histograma histograma. Distinguir as várias representações gráficas. Identificar as representações gráficas mais adequadas a cada tipo de atributo. Representar e interpretar o polígono de frequências frequências.
Estatística Descritiva 4

nomeadamente amplitude total. Representar e interpretar diagramas de extremos e quartis. Definir as medidas de concentração. Definir e determinar os percentis.Objectivos/resultados de aprendizagem Específicos (continuação): Redução dos dados: Definir. Definir as medidas de assimetria. amplitude interquartis. mediana e moda. Interpretar as medidas de achatamento através do coeficiente de achatamento. Interpretar as medidas de assimetria através das medidas de tendência central assim como através do coeficiente de assimetria. desvio padrão e variância. Distinguir os tipos de achatamento (leptocúrtica. mesocúrtica e platicúrtica). Estatística Descritiva 5 . determinar e interpretar as medidas de tendência central: média aritmética. Interpretar as medidas de concentração no contexto dos problemas em análise análise. Distinguir a simetria da assimetria negativa e da assimetria positiva. determinar e interpretar as medidas de dispersão. nomeadamente os quartis. Definir. Definir e identificar outliers outliers. Definir as medidas de achatamento.

McGraw Hill [3] Pereira. Estatística Descritiva. Ribeiro. B. e Pimenta.Bibliografia [1] Murteira B (1993) Análise Exploratória de Dados – Murteira. Edições ( ) Sílabo Estatística Descritiva 6 . B. J. Edições Sílabo [ ] [4] Reis. C.. (2004) SPSS – Guia Prático de Utilização. A. McGraw Hill [2] Murteira. C. (2002) Introdução à Estatística. Silva. Elizabeth (2000) Estatística Descritiva..

Noções básicas Estatística Descritiva Tem como objectivo resumir a informação mais importante contida num conjunto tid j t de dados. interpretação Estatística Descritiva Indutiva Tem como objectivo T bj ti tirar conclusões sobre as características da população a partir da informação contida numa amostra. permitindo assim facilitar a sua compreensão e interpretação. 7 .

Noções básicas Indivíduo ou unidade estatística Unidade base sobre a qual o observador realiza as observações. População ou universo Conjunto formado por todos os indivíduos em estudo estudo. Estatística Descritiva 8 . Amostra Subconjunto finito da população que seja representativo desta. Modalidades ou categorias Resultados possíveis para um determinado atributo. Atributo ou variável A ib iá l Característica em estudo na população.

tais como. adições ou subtracções. Estatística Descritiva 9 . não tem significado transformá-las através de operações usuais.Noções básicas Atributos ou Variáveis Qualitativas Quando assumem um conjunto de categorias que. Q d j t d t i embora possam ser representadas por números. Quantitativas Quando assumem um conjunto de valores numéricos.

pouco satisfeito (2). pode ser codificado por insatisfeito (1). categorias Exemplo: o grau de satisfação relativamente a um serviço. satisfeito (3) ou muito satisfeito (4) (4). masculino pode ser codificado por 0 ou 1. Ordinais Pode-se estabelecer uma P d t b l relação de ordem entre as categorias.Noções básicas Variáveis Qualitativas Nominais Não se pode estabelecer uma relação d ordem l ã de d entre as categorias. Exemplo: o sexo. feminino ou masculino. Estatística Descritiva 10 .

• Lucro anual. 11 Estatística Descritiva .Noções básicas Variáveis Quantitativas ou de Escala Discretas As categorias definem-se no conjunto dos números inteiros. Exemplos: p • Altura. i t i Exemplos: • Nº de clientes. • Nº de animais de estimação. Contínuas As categorias definem-se no conjunto dos números reais. • Nº de livros editados. •P Peso.

1.Quadros de Frequências Definição de Frequências Seja p o número total de modalidades distintas.ni: número de observações q pertencem à modalidade i. Frequências relativas . n i= i 1 Estatística Descritiva 12 . Verifica-se que: ∑n i= i=1 p i = n. Frequências absolutas .fi: percentagem de observações que pertencem à modalidade i com i = 1 2 …. …. p. com i = 1. 2. p que p p. p i. 2. nas n observações válidas. p ni e Verifica-se que: fi = × 100 ∑ fi = 100.

com i = 1 2 ….Fi: percentagem F ê i l ti l d t de observações que pertencem à modalidade i e anteriores. uma vez que as modalidades não são ordenáveis. t i 1. Verifica-se que: Fi = ∑ f j j= j 1 i e Fp = 100 . Notas: Para o caso em que as variáveis são qualitativas nominais q não faz sentido determinar as frequências relativas acumuladas. p. 2. Para o caso em que as variáveis são qualitativas ordinais pode fazer sentido determinar as frequências relativas acumuladas.Quadros de Frequências Frequências relativas acumuladas . Estatística Descritiva 13 . acumuladas uma vez que as modalidades são ordenáveis ordenáveis.

0 Valid Missing Total Casado Viúvo Divorciado Separado Solteiro Total NA Estatística Descritiva 14 . familiares.0 100 0 Valid Percent (fi) 53.1 19 1 100.1 19 1 99.2 2.7 19. profissionais.sav contém informações de algumas características g ç g pessoais.0 11..2 2. que se obtiveram através de um inquérito efectuado a 1500 indivíduos inscritos na Segurança Social.7 19.0 11.9 .1 100.0 11 0 14. etc.0 11 0 14. Considere-se a seguinte variável: Estado civil Frequency (ni) 795 165 213 40 286 1499 1 1500 Percent 53. sociais.Quadros de Frequências Variáveis Qualitativas O ficheiro SegSocial.

6 89.1 8.3 100.9 46. • 31% dos alunos inquiridos têm 20 anos.Dados Não Agrupados em Classes As idades seguintes obtiveram-se através de um inquérito realizado a g q alguns alunos inscritos no 2º ano de um determinado curso da ESTG.7 17 100.7 98.Quadros de Frequências Variáveis Quantitativas .0 Valid Percent 6.6 1.6 77.7% dos alunos têm 21 anos ou menos.0 100 0 Valid 18 19 20 21 22 23 Total Interpretação: • 23 alunos dos 58 inquiridos têm 19 anos.9 39.7 17 100.0 Cumulative C l ti Percent 6.9 39. Idade do indivíduo (em anos) Frequency 4 23 18 7 5 1 58 Percent 6.0 12. % Estatística Descritiva 15 .1 8.7 31.7 31.6 1. • 89.0 12.

Quadros de Frequências Variáveis Quantitativas .Dados Agrupados em Classes Notas: Para o caso em que as variáveis são quantitativas discretas e o número de modalidades é relativamente elevado. os dados são agrupados em classes. Para o caso em que as variáveis são quantitativas contínuas os dados são agrupados em classes. Estatística Descritiva 16 .

(i = 1... • Amplitude total dos dados: IT = max(xi) – min(xi) Para o caso em que as classes tê a mesma amplitude: P l têm lit d • Amplitude de cada classe: I C = Estatística Descritiva IT p 17 . a utilizar é o menor inteiro tal que 2 ≥ n. p Nota: Sempre que possível o número de classes deverá ser entre 5 e 20 i l i d á t inclusive.. n) cada uma das observações da variável. p. .Dados Agrupados em Classes Quantas classes deverão ser utilizadas? O número de classes.Quadros de Frequências Variáveis Quantitativas . Seja xi.

2 4.1 2.0 Notas: • n = 900 (válidos) • p = 10 classes • max(xi) = 89 • min(xi) = 2 • IT = 89 – 2 = 87 • IC = 87 / 10 = 8. pelo que as observações foram agrupadas em classes e apresentadas no seguinte quadro de frequências: Número de horas trabalhadas na semana passada (Binned) ni Valid <10 10 .72 73 .8 24.63 64 .18 19 .2 100.Quadros de Frequências Variáveis Quantitativas .sav.6 99.9 4.2 .7 81.7 66.81 82+ Total NAP DK NA Total 20 44 78 80 378 134 107 37 20 2 900 592 2 6 600 1500 fi (%) 2.9 8.0 14.9 42.8 100.7 ≈ 9 Missing Total Estatística Descritiva 18 .36 37 .4 97.54 55 .9 14 9 11.0 Fi (%) 2. considere-se a variável quantitativa discreta horas1 (Número de horas trabalhadas na semana passada) cujo número de modalidades é relativamente elevado.27 28 .45 46 .Dados Agrupados em Classes No ficheiro SegSocial.6 81 6 93.1 15.2 7.7 8.

Quadros de Frequências Variáveis Quantitativas .Dados Agrupados em Classes Notas: Se ao agrupar os dados em classes.. Neste caso usam-se classes de diferentes amplitudes! Estatística Descritiva 19 .. existir alguma classe que não contenha observações então não faz sentido usar classes de igual amplitude!!!..

Representação Gráfica de Frequências Variáveis Qualitativas Diagrama de Barras (“Bar Chart”) Formado por rectângulos separados com a mesma largura e com altura igual à frequência (quer seja absoluta ou relativa) p correspondente a cada modalidade ou categoria. Estatística Descritiva 20 .

Representação Gráfica de Frequências Variáveis Qualitativas Diagrama de Sectores ou Circular (“Pie Chart”) Círculo constituído por sectores. cuja área de cada sector é proporcional à frequência (quer seja absoluta ou relativa) de cada uma das modalidades ou categorias. Estatística Descritiva 21 .

Dados Não Agrupados em Classes Diagrama de Barras (“Bar Chart”) Diagrama de Sectores ou Circular ( g (“Pie Chart”) ) Estatística Descritiva 22 .Representação Gráfica de Frequências Variáveis Quantitativas .

45 6 → 46 . Estatística Descritiva 10 classes 1 → <10 2 → 10 .18 3 → 19 .36 5 → 37 .63 8 → 64 .54 7 → 55 .Dados Agrupados em Classes Histograma (“Histogram”) ( Histogram ) Formado por p rectângulos adjacentes com largura igual à amplitude da classe correspondente e área proporcional à frequência d f ê i da respectiva classe.81 10 → 82+ 23 .72 9 → 73 .Representação Gráfica de Frequências Variáveis Quantitativas .27 4 → 28 .

g g g Estatística Descritiva 24 .Representação Gráfica de Frequências Variáveis Quantitativas V iá i Q tit ti Polígono de Frequências g q É a linha poligonal que une os pontos médios superiores de cada rectângulo do diagrama de barras ou do histograma.

os dados também podem ser representados em diagramas de sectores. Para o caso em que as variáveis são contínuas. os dados são agrupados em classes e consequentemente representados em histogramas.Representação Gráfica de Frequências Variáveis Quantitativas Notas: Para o caso em que as variáveis são di P iá i ã discretas e o t número de modalidades é relativamente elevado. Estatística Descritiva 25 .

isto é. representar as observações através de alguns resultados numéricos que analisam as características mais importantes. Medidas de tendência central Medidas de dispersão Medidas de M did d assimetria i i Medidas de achatamento Medidas de concentração Estatística Descritiva 26 .Redução dos Dados A redução dos dados tem por objectivo resumir a informação neles contida.

Média Aritmética Mediana Moda oda Média Aritmética (“Mean”) Indica o valor em torno do qual se distribuem as observações. p. i = 1. Sejam xi. x= 1 n ∑n i=1 p i xi. as diferentes modalidades do atributo.Medidas de Tendência Central As medidas de tendência central representam a p localização do centro das observações. 2. Estatística Descritiva 27 . …. Então. Interpretação: A média indica o valor que cada observação deveria ter para que a soma de todas as observações fosse igual à verificada.

Medidas de Tendência Central Mediana (“Median”) É o valor q e di ide as obser ações em d as partes ig ais alor que divide observações duas iguais. ≤ x (n−1) ≤ x (n ) . Consideremos as observações ordenadas por ordem crescente: x (1) ≤ x ( 2 ) ≤ x ( 3) ≤ . se n é par Interpretação: 50% das observações têm valor superior ou igual à mediana e 50% das obse ações tê valor inferior ou igual à mediana. Me = ⎨ x ⎛ n ⎞ + x ⎛ n ⎞ ⎜ ⎟ ⎜ +1 ⎟ ⎪ ⎝2⎠ ⎝2 ⎠ ⎪ 2 ⎩ .. se n é ímpar p . t ⎧ x ⎛ n+1 ⎞ ⎜ ⎟ ⎪ ⎝ 2 ⎠ ⎪ Então. observações têm a o e o gua ed a a Estatística Descritiva 28 ..

Estatística Descritiva 29 .Medidas de Tendência Central Moda (“Mode”) É a modalidade ou categoria mais frequente na amostra e representa-se por Mo. o SPSS devolve o menor valor da moda. Nesse caso. sendo essa frequência máxima. A moda não tem de ser única. Observação: Para variáveis qualitativas a ú i medida d t dê i P iá i lit ti única did de tendência central que faz sentido determinar é a moda. pois pode haver mais do que uma modalidade com igual frequência.

81 anos.0 Cumulative Percent 6.0 Statistics Idade do indivíduo (em anos) N Valid 58 Missing 0 Mean 19.7 31.9 39.0 .0 Valid Percent 6.3 100.9 46.Medidas de Tendência Central Exemplo: E l Idade do indivíduo (em anos) Frequency 4 23 18 7 5 1 58 Percent 6. essa idade teria que ser 19. anos 30 .00 Mode 19 Sum 1149 Valid 18 19 20 21 22 23 Total Se todos os indivíduos tivessem a mesma idade.7 31.6 77. 12. p para q a soma de todas as idades fosse igual que g a 1149.9 39.6 .81 19 81 Median 20. 89.7 100.0 .1 8.6 1.7 100. Estatística Descritiva A idade mais frequente entre os indivíduos é 19 anos.1 8.7 98.6 1. 12. 50% dos indivíduos têm idade inferior ou igual a 20 anos e os restantes 50% dos indivíduos têm idade superior ou igual a 20 anos anos.

min (xi) ( q1 25 % obs.Medidas de Dispersão As medidas de dispersão analisam o grau de variabilidade das observações de um conjunto de dados em torno das medidas de tendência central. q3 25 % obs. Amplitude Total (“Range”) É a diferença entre o valor observado mais elevado e o valor observado mais baixo: IT = max (xi) – min (xi). 25 % obs. Quartis (“Quartiles”): Os t ê O três quartis ( 1. q2 e q3) são os valores que di id ti (q ã l dividem os d d dados em 4 partes iguais em termos de percentagem de observações. max (xi) 31 . q2 Estatística Descritiva 25 % obs.

4 ⎧ x⎛ r ⎞ + x⎛ r ⎞ ⎜ ×n ⎟ ⎜ ×n + 1 ⎟ ⎪ ⎝4 ⎠ ⎝4 ⎠ ⎪ q =⎨ 2 r ⎪ x (m ) ⎪ ⎩ Nota: Existem diferentes formas de definir os quartis podendo surgir quartis..Medidas de Dispersão Consideremos as observações ordenadas por ordem crescente: x (1) ≤ x ( 2 ) ≤ . se r × n é natural 4 . 2 e 3. ç p Estatística Descritiva 32 . ≤ x (n−1) ≤ x (n ) . respectivamente. se r × n não é natural 4 m é o menor número inteiro superior a r × n. são dados por: . 2º e 3º quartis com r = 1.. Os valores dos 1º. Uma p possível definição é a apresentada anteriormente. valores ligeiramente diferentes para o mesmo quartil.

percentil 25 (Q25) q2 .percentil 75 ( 75) p (Q Amplitude Interquartis É a amplitude do intervalo que contém 50% das observações centrais: Iq = q3 – q1.percentil 50 (Q50) . q1 .Mediana q3 .Medidas de Dispersão Percentis ou Q Quantis (”Percentiles”): (” ”) São os valores Qp tais que p% das observações da amostra são inferiores ou iguais a Qp. 50 % de observações min (xi) q1 q2 Estatística Descritiva q3 max (xi) 33 .

1.5 * Iq . “Outliers” severos ou valores extremos: Outliers Observações inferiores a q1 – 3 * Iq ou superiores a q3 + 3 * Iq. afastando-se portanto do padrão geral dos mesmos. “Outliers” moderados: Observações pertencentes ao intervalo ç p [q1 – 3 * Iq . q1 .5 [ 1 – 1 5 * Iq . fica fora d suporte usual d di ib i do l da distribuição d dos dados. q3 + 1 5 * Iq] 1.5 considera-se uma observação “suspeita” e denomina-se por outlier.Medidas de Dispersão “Outliers”: Se alguma observação ficar fora do intervalo [q 1. Estatística Descritiva 34 .5 * Iq] ou [q3 + 1. i li isto é fi f é. q3 + 3 * Iq].

vice versa Estatística Descritiva 35 .Medidas de Dispersão Diagrama de Extremos e Quartis ou Caixa de Bigodes (“Boxplot”) Sem outliers max (xi) q3 Me q1 min (xi) min (xi) não outlier Outlier severo Outlier moderado max (xi) não outlier Com outliers Quanto menor for a distância entre 2 destas medidas em relação às restantes. menor é a dispersão das observações nesse intervalo e vice-versa.

Medidas de Dispersão Variância (“Variance”) A variância é a média dos quadrados dos desvios das q observações em relação à média aritmética e é dada por: 2 ⎛1 p 2 2⎞ 1 s = n ∑ ni x i − x = ⎜ n ∑ ni x i ⎟ − x . e vice-versa observações vice-versa. que é dada por: 2 sc = 1 n-1 ∑ n (x p i=1 i i −x . ) 2 Quanto maior for o valor da variância mais afastadas estão as observações da média e logo existe uma maior dispersão das observações. Estatística Descritiva 36 . ⎜ ⎟ i =1 i=1 ⎝ ⎠ p 2 ( ) Alguns autores ( o SPSS) utilizam a variância corrigida g (e ) g em vez da variância usual.

2 c Quanto maior for o valor do desvio padrão mais afastadas estão as observações da média e logo existe uma maior dispersão das observações. 2 E o desvio padrão corrigido é dado por: sc = s .Medidas de Dispersão Desvio Padrão (“Standard Deviation”) O desvio padrão é a raiz quadrada da variância e é dado p p q por: s= s . e vice-versa. Nota: 2 sc = n n-1 s2 e sc = n n-1 s. 37 Estatística Descritiva .

Medidas de Assimetria As A medidas d assimetria servem para analisar se as did de i ti li frequências estão ou não distribuídas simetricamente em torno das medidas de tendência central. Tipo de assimetria 80 FR EQUENCY Exemplos 60 40 20 0 80 Comparação das medidas de tendência central Mo = Me = x x < Me < Mo x = Me < Mo x < Me = Mo Mo Me M <M < x Mo = Me < x Mo < Me = x Coeficiente de assimetria ( Skewness ) (“Skewness”) Simétrica Cs = 0 Cs < 0 Cs > 0 38 Assimétrica negativa Assimétrica positiva FREQUEN NCY 60 40 20 0 80 FREQUENCY 60 40 20 0 Estatística Descritiva .

Medidas de Achatamento As A medidas d achatamento servem para analisar a did de h t t li intensidade das frequências em torno das medidas de tendência central. Exemplos Tipo de Achatamento Coeficiente de achatamento (“Kurtosis”) (“K t i ”) Menos achatada que a distribuição Normal (Leptocúrtica) Tão achatada como a distribuição Normal (Mesocúrtica) (M ú ti ) Mais achatada que a distribuição Normal (Platicúrtica) Ck > 0 Ck = 0 Estatística Descritiva Ck < 0 39 .

• concentração mínima de igual distribuição do atributo por todos os indivíduos. Estatística Descritiva 40 .Medidas de Concentração As medidas de concentração analisam o modo como o atributo está distribuído pelos indivíduos. Curva de Lorenz Índice de Gini Notas: Só faz sentido analisar a concentração desde que possam ocorrer as d duas situações seguintes: it õ i t • concentração máxima do atributo num só indivíduo.

F i) F’i) com i = 0. …. Estatística Descritiva 41 . p. 100 100 80 100 80 60 40 20 0 0 20 40 60 80 100 80 F' i F' i 40 20 0 0 20 40 60 80 100 40 20 0 F' i 60 60 0 20 40 60 80 100 Fi Fi Fi Concentração fraca Concentração intermédia Concentração forte Interpretação: Quanto mais afastada estiver a curva de Lorenz da recta de ig al distrib ição maior será a concentração do atrib to igual distribuição atributo. 1. onde: Fi – frequências relativas acumuladas das observações F’i – frequências relativas acumuladas do atributo.Medidas de Concentração Curva de Lorenz É a linha poligonal que une os pontos da forma (Fi .

33 12 33 13.31 9.10 100 F'i 4.52 13. 800[ [800 .97 26. logo a concentração do atributo é fraca.45 14.31 13. e euros. 1000[ [1000 .71 38 71 52.38 86. 1800[ [1800 . dos trabalhadores de uma empresa encontram-se resumidos na tabela tabela. Classes Cl [400 .41 12. em salários líquidos mensais.16 66.90 100.66 12. 1400[ [1400 . 2000] ni i 50 80 80 65 60 55 70 40 500 fi 10 16 16 13 12 11 14 8 100 Fi 10 26 42 55 67 78 92 100 xi i 500 700 900 1100 1300 1500 1700 1900 ni*xi i* i 25000 56000 72000 71500 78000 82500 119000 76000 580000 f'i 4.Medidas de Concentração Exemplo: E l Os dados referentes aos sa á os qu dos e sa s.00 Total Vencim entos m ensais (em euros) líquidos dos trabalhadores de um em a presa 100 80 Interpretação: Curva de Lorenz L Recta de igual distribuição 0 20 40 60 80 100 F' i 60 40 20 0 A curva está pouco p afastada da recta de igual distribuição. 1600[ [1600 . 600[ [600 . 1200[ [1200 . 42 Fi Estatística Descritiva .22 20.38 38.

0 ≤ IG ≤ 1 Concentração mínima (Fi = F’i) Concentração máxima (F i (F’i = 0. Estatística Descritiva 43 . i = 1.22.Medidas de Concentração Índice de Gini Mede o grau de concentração do atributo num conjunto de dados e é dado por: p 1 p−1 IG = 1 − i=1 ∑F 'i p −1 i=1 . …. p 1) p-1) ∑ Fi Exemplo: Para os dados dos salários do exemplo anterior mostre que o valor do Índice de Gini é aproximadamente igual a 0.

Sign up to vote on this title
UsefulNot useful