You are on page 1of 31

UNIVERSIDADE ESTADUAL PAULISTA

"JÚLIO DE MESQUITA FILHO"


Campus de Presidente Prudente

ESTATÍSTICA BÁSICA

Relatório das atividades desenvolvidas no período


da Bolsa de Apoio Acadêmico e Extensão I (PAE)
de 26/04/2007 á 28/02/2008.

Bolsista: Fabiano José dos Santos


Orientadora: Vilma Mayumi Tachibana

Presidente Prudente
2008
Índice
1.0 Introdução.......................................................................................................... 2
1.1 O que é Estatística.............................................................................................. 3

Análise exploratório de dados 4

2.0 Resumo de Dados............................................................................................. 4

2.1 Classificação de variáveis.................................................................................. 4


2.2 Distribuição de Freqüência................................................................................ 6
2.3 Gráficos.............................................................................................................. 7
2.3.1 Gráficos para Variáveis Qualitativas................................................... 7
2.3.2 Gráficos para as Variáveis Quantitativas............................................ 8
2.4 Ramo-e-Folhas................................................................................................... 13
2.5 Exercícios........................................................................................................... 13

3.0 Medidas-resumo............................................................................................... 17

3.1 Medida de Posição............................................................................................. 17


3.2 Medida de Dispersão.......................................................................................... 17
3.3 Quantis............................................................................................................... 18
3.4 Intervalo – interquartil....................................................................................... 19
3.5 Exercícios........................................................................................................... 19

4.0 Análise Bidimensional...................................................................................... 20

4.1 Introdução.......................................................................................................... 20
4.2 Associação entre variáveis Qualitativas............................................................. 21
4.3 Medidas de Associação...................................................................................... 22
4.4 Associação entre Variáveis Quantitativas.......................................................... 22
4.5 Associação entre Variáveis Qualitativas e Quantitativas................................... 24
4.6 Exercícios........................................................................................................... 25

5.0 Probabilidade................................................................................................... 26

5.1 Introdução.......................................................................................................... 26
5.2 Probabilidade condicional e independência....................................................... 27
5.3 Exercícios........................................................................................................... 28

Dados da Companhia MB.................................................................................. 29

Bibliografia ............................................................................................................ 30

1
1.0 Introdução

O projeto inicialmente proposto tem como objetivo o aprendizado, desenvolvimento


da análise e o entendimento do conjunto de dados do objeto de estudo do pesquisador.
A transformação dos dados em informações, para compará-los com outros
resultados para um melhor entendimento da análise em que esta sendo feita ou ainda
julgar sua=adequação a alguma teoria. A Estatística Descritiva é a ciência que apresenta
processos próprios para coletar, apresentar adequadamente conjuntos de dados sejam eles
numéricos ou não. Pode-se dizer que o seu objetivo é o de apresentar informações sobre
dados em análise para que se tenha maior compreensão dos fatos em que os mesmo
representam.
A essência da ciência é a observação e que seu objetivo básico é a Inferência. Ela
tem com finalidade a coleta, redução, análise e modelagem dos dados, e em procedimento
a amostra.
O estudo a ser estudado no projeto terá com base alguns desses procedimentos que
foram abordados, para uma melhor aplicação nos trabalhos em que o pesquisador
precisará observar a análise e o conjunto de dados.

2
1.1 O Que é Estatística

Ao longo do século XX, os métodos estatísticos foram desenvolvidos como uma


mistura de ciência, tecnologia e lógica para a solução e investigação de problemas em
várias áreas do conhecimento humano (Stigler, 1986). Ela foi reconhecida como um
campo da ciência neste período, mas sua história tem início bem anterior a 1900.
A estatística não é uma caixa-preta, nem bola de cristal, nem mágica. Tampouco é
um conjunto de técnicas úteis para algumas áreas isoladas ou restritas da ciência. Por
exemplo, ao contrário do que alguns imaginam, a estatística não é um ramo da
matemática onde se investigam os processos de obtenção, organização e análise de
dados sobre uma determinada população. A estatística também não se limita a um
conjunto de elementos numéricos relativos a um fato social, nem a números, tabelas e
gráficos usados para o resumo, à organização e apresentação dos dados de uma
pesquisa, embora este seja um aspecto da estatística que pode ser facilmente percebido
no cotidiano (basta abrir os jornais e revistas para ver o "bombardeio" de estatísticas).
Ela é uma ciência multidisciplinar: um mesmo programa de computador que permite a
análise estatística de dados de um físico poderia também ser usado por um economista,
agrônomo, químico, geólogo, matemático, biólogo, sociólogo psicólogo e cientista
político. Mesmo que as interpretações dessas análises sejam diferentes por causa das
diferenças entre as áreas do conhecimento, os conceitos empregados, as limitações das
técnicas e as conseqüências dessas interpretações são essencialmente as mesmas.
Segundo Rao (1999), a estatística é uma ciência que estuda e pesquisa sobre: o
levantamento de dados com a máxima quantidade de informação possível para um dado
custo; o processamento de dados para a quantificação da quantidade de incerteza
existente na resposta para um determinado problema; a tomada de decisões sob
condições de incerteza, sob o menor risco possível. Finalmente, a estatística tem sido
utilizada na pesquisa científica, para a otimização de recursos econômicos, para o
aumento da qualidade e produtividade, na otimização em análise de decisões, em
questões judiciais, previsões e em muitas outras áreas.

3
2.0 Resumo de Dados

2.1 Classificação de variáveis

Variável é a característica de interesse que é medida em cada elemento da


amostra ou população. Como o nome diz, seus valores variam de elemento para
elemento. As variáveis podem ter valores numéricos ou não numéricos.

Variáveis podem ser classificadas da seguinte forma:

Variáveis Quantitativas: são as características que podem ser medidas em uma


escala quantitativa, ou seja, apresentam valores numéricos.
Podem ser contínuas ou discretas.

Variáveis discretas: características mensuráveis que podem assumir apenas um


número finito ou infinito contável de valores e, assim, somente valores inteiros.
Geralmente são o resultado de contagens. Exemplos: número de filhos, número de
bactérias por litro de leite, número de cigarros fumados por dia.

Variáveis contínuas: características mensuráveis que assumem valores em uma


escala contínua (na reta real), para as quais valores fracionais. Usualmente devem ser
medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo
(relógio), pressão arterial, idade.

Variáveis Qualitativas (ou categóricas): são as características que não possuem


valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja,
representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.

Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo,


cor dos olhos, fumante/não fumante, doente/sadio.

Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos:


escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês
de observação (janeiro, fevereiro,..., dezembro).

Exemplo 1.0

Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos


sócio econômico dos empregados da seção de orçamentos de uma companhia. Usando
informações obtidas do departamento pessoal, ele elaborou a Tabela 1.0.

4
Tabela 1.0
Informações sobre estado civil, grau de instrução, número de filhos, salário
(expresso como fração do salário mínimo), idade (medida em anos e meses) e
procedência de 36 empregados da seção de orçamentos da Companhia.

Nº Estado Grau de Nº de Salário Idade Região de


Civil Instrução Filhos Anos Meses Procedência
1 Solteiro Fundamental ... 4,00 26 3 Interior
2 Casado Fundamental 1 4,56 32 10 Capital
3 Casado Fundamental 2 5,25 36 5 Capital
... ... ... ... ... ... ... ...
35 Casado Médio 2 19,40 48 11 Capital
36 Casado Superior 3 23,30 42 2 Interior
Fonte: Bussab e Morettin (2002)

Observações sobre a Tabela 1.0.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado
um (ou mais de um) resultado correspondendo à realização de uma característica
(ou características). Por exemplo, considerando a variável estado civil, para cada
empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia
haver outras possibilidades, como separado, divorciado, mas somente as duas
mencionadas foram consideradas no estudo).

Resumindo
Como as variáveis são classificadas e outros exemplos:

Nominal Sexo, Cor dos Olhos.


Qualitativa
Ordinal Classe social, grau de instrução.

Discreta Número de filhos, números de carros.


Quantitativa
Contínua Peso, altura.

Para cada tipo de variável existem técnicas apropriadas para resumir as


informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é
uma forma de escrever os dados de uma forma resumida.
Em algumas situações podem-se atribuir valores numéricos às várias qualidades
ou atributos de uma variável qualitativa e depois se proceder à análise como se esta
fosse quantitativa, desde que o procedimento seja passível de interpretação.
Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil:
a chamada variável dicotômica. Para essa variável podem ocorrer somente duas
realizações, usualmente chamadas de sucesso e fracasso.

Exemplo 1.1: A variável Civil, Sexo, Hábito de Fumar, etc.


Como as Variáveis são classificadas e outros exemplos;

5
Uma variável originalmente quantitativa pode ser coletada de forma qualitativa.
Por exemplo, a variável idade, medida em anos completos, é quantitativa (contínua);
mas, se for informada apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc...), é qualitativa
(ordinal). Outro exemplo é o peso dos lutadores de boxe, uma variável quantitativa
(contínua) se trabalha com o valor obtido na balança, mas á qualitativa (ordinal) se o
classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).
Outro ponto importante é que nem sempre uma variável representada por números
é quantitativa.
O número do telefone de uma pessoa, o número da casa, o número de sua
identidade. Às vezes o sexo do indivíduo é registrado na planilha de dados como 1 se
macho e 2 se fêmea, por exemplo. Isto não significa que a variável sexo passou a ser
quantitativa!

2.2 Distribuição de Freqüência

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o


comportamento dessa variável, analisando a ocorrência de suas possíveis realizações.
Veremos uma maneira de dispor uns conjuntos de realizações, para se ter uma idéia
global sobre elas, ou seja, de sua distribuição.

Exemplo 1.2
A tabela apresenta a distribuição de freqüência da variável grau de instrução,
usando os dados da tabela 1.0.
Tabela 1.1. Freqüência e porcentagem dos 36 empregados da seção de orçamentos
da Companhia MB segundo o grau de instrução.

Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem 100x (fi)


Fundamental 12 0,3333 33,33%
Médio 18 0,5000 50,00%
Superior 6 0,1667 16,67%
Total 36 1,0000 100,00%
Fonte: Bussab e Morettin (2002)

Observando os resultados da segunda coluna, vê-se que dos 36 empregados da


Companhia, 12 têm o ensino fundamental, 18 o ensino médio e 6 possuem curso
superior.
Uma medida bastante útil na interpretação de tabelas de freqüências é proporção
de cada realização em relação ao total. Assim 6/36-0,1667 dos empregados da
companhia MB tem instrução superior.

6
2.3 Gráficos

A representação gráfica da distribuição de uma variável tem vantagem de rápida e


concisamente, informar sobre sua variabilidade. Existem vários gráficos que podem ser
utilizados e abordaremos aqui os mais simples para as variáveis quantitativas.

2.3.1 Gráficos para as Variáveis Qualitativas


A representação gráfica da distribuição de uma variável tem a vantagem de, rápida
e concisamente, informar sobre sua variabilidade.
Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão
ilustrados dois deles: Gráficos em Barras e de Composição em Setores (“Pizza”).

(i) Gráfico em Barras


O gráfico em Barras consiste em construírem retângulos ou barras, em que uma
das dimensões é proporcional à magnitude a ser representada (ni), sendo a outra
arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente
uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico
em barras (verticais) para a variável Grau de Instrução.

Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB segundo o grau de instrução.

Tabela 1.3.

Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)


Fundamental 12 0,3333 33,33%
Médio 18 0,5000 50,00%
Superior 6 0,1667 16,67%
Total n = 36 1,0000 100,00%
Fonte: Bussab e Morettin (2002)

7
Figura 1.0
Gráfico em Barras para a variável Grau de Instrução

18
18
16

14

12
12
Freqüência (ni)

10

6
6
4

0
Fundamental Médio Superior
Grau de Instrução

(ii) Gráfico de Composição em Setores (“Pizza”)


O gráfico de composição em setores (“pizza”), destina-se a representar a
composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo
de raio arbitrário, representando o todo, dividido em setores, que correspondem às
partes de maneira proporcional.
Para o exemplo anterior temos o seguinte gráfico:

Figura 1.1
Gráfico em Setores para a variável Grau de Instrução

50%

Fundamental

Médio
33%
Superior

17%

2.3.2 Gráficos para as Variáveis Quantitativas


Para variáveis Quantitativas podemos considerar uma variedade maior de
representações gráficas.

8
(i) Gráfico em Barras

O gráfico em Barras para as variáveis Quantitativas é construído da mesma forma


ao das variáveis Qualitativas.
Como ilustração, considere a variável “Número de Filhos” dos empregados
casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 1.4
Freqüências e Porcentagens dos empregados da seção de orçamentos da
Companhia MB, segundo o número de filhos.

Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi)


0 4 20
1 5 25
2 7 35
3 3 15
4 0 0
5 1 5
Total n = 20 100
Fonte: Bussab e Morettin (2002)

Figura 1.2
Gráfico de Barra para a variável Números de Filhos

35
35

30

25
25
Porcentagem

20
20

15
15

10

5 0 5

0
0 1 2 3 4 5
Números de Filhos

(ii) Gráfico de Pontos (Dot-Plot)

Quando os dados consistem em um pequeno conjunto de números, estes podem


ser representados traçando-se uma reta com uma escala que abranja todas as
mensurações observadas e grafando-se as respectivas freqüências como pontos acima da
reta. Por esse motivo, é também conhecido como gráfico de pontos.

9
Exemplo1.3: Considere a variável tempo, em segundos, entre carros que passam
por um cruzamento, viajando na mesma direção.

6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

Figura 1.3

Gráfico de Dispersão – Dot Plot

2 3 4 5 6 7 8 9 10

(iii) Histograma

O Histograma é utilizado para representar a distribuição de freqüência. É um


gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área
de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a
amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja
proporcional a fi, a sua altura deve ser proporcional a fi/ai, que é chamada de densidade
de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto
deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um).

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da


Companhia MB, temos os seguintes dados:

Tabela 1.5
Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da
companhia MB, por faixas de salário.

Classe de Freqüência Proporção Porcentagem Densidade de Freqüência


Salário (ni) (fi) (100 x fi) (fi/ai)
04 |-- 08 10 0,2778 27,78 0,0695
08 |-- 12 12 0,3333 33,33 0,0833
12 |-- 16 8 0,2222 22,22 0,0556
16 |-- 20 5 0,1389 13,89 0,0347
20 |-- 24 1 0,0278 2,78 0,0070
Total n = 36 1,0000 100,00
Fonte: Bussab e Morettin (2002)

10
Figura 1.4
Histograma da variável Salário

0,09

0,08

0,07 0,0833
D en sid a d e d e F req ü ên cia

0,06 0,0695

0,05
0,0556
0,04

0,03 0,0347

0,02

0,01 0,007

0
04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24
Classes de Salários

(iv) Gráfico em Linhas

É um gráfico muito importante utilizado para representar observações feitas ao


longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as
chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um
fenômeno em certo intervalo de tempo.

11
Tabela 1.6
Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares.
Ano Dívida Ano Dívida Ano Dívida
1956 2736 1973 14857 1990 123439
1957 2491 1974 20032 1991 123910
1958 2870 1975 25115 1992 135949
1959 3160 1976 32145 1993 145726
1960 3738 1977 37951 1994 148295
1961 3291 1978 52187 1995 159256
1962 3533 1979 55803 1996 179935
1963 3612 1980 64259 1997 199998
1964 3294 1981 73963 1998 241644
1965 3823 1982 85487 1999 241468
1966 3771 1983 93745 2000 236156
1967 3440 1984 102127 2001 226067
1968 4092 1985 105171 2002 227689
1969 4635 1986 111203 2003 235414
1970 6240 1987 121188 2004 220182
1971 8284 1988 113511 2005 187987
1972 11464 1989 115506 2006 191999
Fonte: IPEADATA

Figura 1.5
Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006
250000

200000
Dívida em Milhões de Dólares

150000

100000

50000

0
56

58

60

62

64

66

68

70

72

74

76

78

80

82

84

86

88

90

92

94

96

98

00

02

04

06
19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

19

20

20

20

20

Ano

12
2.4 Ramo-e-Folhas

Tanto o histograma como os gráficos em barras dão uma idéia de forma da


distribuição da variável sobre consideração. Por exemplo, saber que a renda per capita
de um país é de tantos dólares pode ser um dado interessante, mas saber como esta
renda se distribui é mais importante.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo
de se obter uma idéia da forma de sua distribuição, é o Ramo-e-Folhas. Uma vantagem
desde diagrama sabre o histograma é que não perdermos (ou perdemos pouca)
informação sobre os dados em si.

Exemplo 1.4

Os dados abaixo referem-se á dureza de 30 peças de alumínio (Hoaglin, Mosteller


e Tukey, 1983)

53 70 84 69 77 87 53 82 67 54
70 71 95 51 74 55 63 85 53 64
82 78 55 69 72 59 55 73 52 50

Na figura 1.6: Temos o Ramo-e-Folhas correspondente.

Figura 1.6: Ramo-e-folhas para os dados de dureza de peças de alumínio.

5 01233345559
6 34799
7 00123478
8 22457
9 5

2.5 Exercícios

1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo
as seguintes informações:

ID: Identificação do aluno;


Turma: Turma a que o aluno foi alocado (A ou B);
Sexo: Feminino (F) ou Masculino (M);
Idade: Idade;
Alt: Altura;
Peso: Peso;
Filh: Número de filhos na família;
Fuma: Hábito de fumar (sim ou não);

13
Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M)
Incomoda Muito;
Exer: Horas de atividade física, por semana;
Cine: Número de vezes que vai ao cinema por semana;
OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M)
muito boa
TV: Horas gastas assistindo TV, por semana
OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N)
não sabe.

Tabela A

Informações do questionário estudantil. Dados brutos.

ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV
1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R
2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R
3 A M 18 1,85 72,8 2 Não P 5 2 M 15 R
... ... ... ... ... ... ... ... ... ... ... ... ... ...
49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R
50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B
Fonte: Magalhães e Pedroso de Lima (2004).

Classifique as variáveis da Tabela A como:


Variável Qualitativa Nominal:
Resolução α ID, Turma, Sexo e Fuma.

Variável Qualitativa Ordinal:


Resolução α Toler, Opcione e Optv.

Variável Quantitativa Discreta:


Resolução α Filho, Exer e Cine

Variável Quantitativa Contínua:


Resolução α Idade, Alt, Peso e Tv

2) Classifique as seguintes variáveis:

(a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo);

Resolução α Variável Qualitativa Ordinal

(b) Bacias Hidrográficas (A: Amazônica, P:Platina, SF:São Francisco, N:do Nordeste,
L:do Leste, S:do Sul);
Resolução α Variável Qualitativa Nominal

14
(c) Número de sementes germinadas (0, 1, 2, 3, 4, 5);
Resolução α Variável Quantitativa Discreta

Tabela B: Informações sobre estado civil, grau de instrução, numero de filhos, salário
(expresso como fração do salário mínimo) e procedência de 36 empregados da seção de
orçamento da Companhia MB.

Tabela B

Nº Estado civil Grau de Nº de Idade Região de


Instruçaõ Filhos procedência
1 Solteiro Ens.fundamental 0 26 Interior
2 Casado Ens.Fundamental 1 32 Capital
3 Casado Ens.Fundamental 2 36 Capital
4 Solteiro Ens.Medio 0 40 Outra
5 Solteiro Ens.Fundamental 0 28 Outra
6 Casado Ens.Fundamental 0 41 Interior
7 Solteiro Ens.Fundamental 0 40 Interior
Fonte: Bussab e Morettin (2002)

3)Usando os dados da tabela B, Construa a distribuição de freqüência das variáveis.

(a)Estado Civil

Resolução

Estado Civil f
Freqüência ni
Porcentagem 100x
i
Solteiro 4 57,14
Casado 3 42,85
Total 7 100,00

(b) Região de procedência

Resolução

Região de Procedência Freqüência n Porcentagem f


i i
Capital 2 28,57
Interior 3 42,85
Outro 2 28,07
Total 7 100,00

15
c) Idade

Resolução

Idade f
Freqüência n i
Porcentagem
i

26 α 32 2 28,27
32 α 38 2 28,57
38 α 42 3 42,85
Total 7 100,00

4) Contou-se o número de erros de impressão da primeira página de um jornal durante


50 dias, obtendo os resultados abaixo.

8 11 8 12 14 13 11 14 14 15
6 10 14 19 6 12 7 5 8 8
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9
14 8 14 8 12 10 12 22 7 15

a) Represente os dados graficamente

Resolução

Freqüência do Número de Erros na Primeira página de um Jornal

10
9

8
7 7
7

6
Freqüência

5 5

5
4

4
3
3
2 2 2
2
1 1 1 1

0
5 6 7 8 9 10 11 12 13 14 15 16 19 22
Número de Erros

16
3.0 Medidas - Resumo

3.1 Medida de Posição

Vimos que o resumo de dados por meio de tabelas de freqüências e Ramo-e-


Folhas fornecem muito mais informações sobre o comportamento de uma variável do
que a própria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes
dados apresentando um ou alguns valores que sejam representativos da série toda>
Quando usamos um só valor, obtemos uma redução drástica dos dados usualmente,
emprega-se uma das seguintes medidas e posição (ou localização) central: médio,
mediana, máximo e mínimo.

Média
_
A média é a medida mais popular e representada por x , ela representa o ponto de
equilíbrio da distribuição de seus valores.
Considere uma variável x com observações representadas, por x 1 ,x 2 ,.....x n . A
média desse conjunto é a soma dos valores divididos pelo número total de observações.
Isto é
n

x + x 2 + x3 + Λ + x n ∑x i
x= 1 = i =1

n n

Mediana
A mediana representada por md obs é o valor que ocupa a posição central dos
dados ordenados. É o valor que divide os dados, isto é, metade dos dados será maior que a
mediana e metade será menor.
Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10.
De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o
conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é
9. Logo, a mediana é 9.

Moda
A moda é dada pelo valor mais freqüente do conjunto de dados.

Máximo e Mínimo
O máximo é o valor maior da observação do conjunto de dados, enquanto que o
mínimo é a menor observação.

3.2 Medidas de Dispersão

Apesar das medidas de tendência central fornecem uma idéia do comportamento


das variáveis, elas podem esconder valiosas informações. Essas medidas podem não ser
suficientes para descrever e discriminar diferentes conjuntos de dados. Vamos definir
algumas medidas de dispersão.

17
Definição 1.0: Amplitude de uma variável em um conjunto de dados

A amplitude, referente, a uma variável, é definida como a diferença entre o maior


e o menor valor do conjunto de dados. Será denotada por A.
A amplitude só leva em conta dois valores de todo o conjunto e, assim, seria mais
conveniente considerarmos uma medida que utilizasse todas as observações. Uma idéia
inicial é considerar o desvio de cada observação em relação a um ponto de referência e
então tomar sua média. Caso a observação seja menor do que a referência, o desvio
seria negativo, caso seja maior seria positivo.
A soma de tais desvios fará com que termos de sinais diferentes se compensem
podendo ocultar o efeito da variabilidade.

Definição 1.1 : variância e desvio – padrão em conjuntos de dados.

A variância, referente á variável x de um conjunto de dados é definido por

( x − x ) 2 + ( x 2 − x ) 2 + ( x3 − x ) 2 + Λ + ( x n − x ) 2 ∑ (x i − x)2
s2 = 1 = i =1

n −1 n −1

É conveniente definirmos o desvio padrão como sendo


s = s2

A expressão apresenta da definição Nº auxilia o leitor na interpretação da


variância como uma medida de variabilidade.
Entretanto, é possível obter uma expressão alternativa que facilita os cálculos:

1  n 2  2
s =  ∑ xi  − n ( x ) 
2

n − 1  i =1  

Essa expressão evita a operação de subtração, que em muitos casos envolvem


decimais e torna-se trabalhosa.

3.3 Quantis

Tanto a média como o desvio padrão podem não ser medidas adequadas para
representar um conjunto de dados, pois:
São afetadas, de forma exagerada, pois valores extremos:
Apenas com estes dois valores não temos idéia da simetria ou assimetria da
distribuição dos dados.
Para contornar esses fatos, outras medidas têm de ser consideradas.
Vimos que a medida é um valor que deixa metade dos dados abaixo dela e metade
acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p
p-quantil, indicada por q(p), onde é uma proporção qualquer 0<p<1, tal que 100% das
observações sejam menores do que q(p).

Indicamos, abaixo , alguns quantis e seus nomes particulares.

18
q(0,25):1° Quartil=25º Percentil
q(0,50):2ºQuartil=Mediana=50ºPercentil
q(0,75):3ºQuartil=75ºPercentil

Exemplo 1.3

Suponha que tenhamos os seguintes valores de uma variável x:


15,5,3,8,10,2,7,11,12
Ordenando os valores, obtemos as estatísticas de ordem x 1 =2, x 2 =3,...,x 9 =15, ou
seja, teremos
2<3 <5<7<8<10<11<12<15
Usando a definição de mediana dada, teremos que md=q(0,5)=x5=8 e o 1º Quartil
q(0,25)=3

3.4 Intervalo Interquartil

O intervalo interquartil é a diferencia entre o terceiro quartil (Q 3 ) e o primeiro


quartil (Q 1 ), ou seja,
IQ=Q 3 -Q 1
Essa medida nos dá a informação de amplitude dos 50% centrais do conjunto de
dados.

3.5 Exercícios

1) Quer se estudar o número de erros de impressão de um livro. Para isso


escolheu –se uma amostra de páginas, encontrando – se o numero de erros por páginas
da tabela abaixo.

a) Qual o número médio de erros por pagina?

Resolução


25 x0 + 20 x1 + 3 x 2 + 1x3 + 1x 4
x = = 0,66
50

b) Calcule a variância?

25(0 − 0,66) 2 + 20(1 − 0,66) 2 + 3(2 − 0,66) 2 + 1(3 − 0,66) 2 + 1(4 − 0,66) 2
Var= =0,704
50

c) Qual o desvio padrão?

Dp= 0,704 =0,8392

d) Se o livro tem 500 páginas, qual o número total de erros esperado no livro?

(Página)x(Média de erros por página) =500 x 0,66=330 erros

19
2) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a
seguir:

64 64 68 68 76 60 72 88 60 68 80 60 72 88 60

(a) Calcule: Média, Mediana. ;


Resolução

2 x64 + 3 x68 + 1x76 + 4 x60 + 2 x72 + 2 x72 + 2 x88 + 1x80


Média= = 69,86
15

Colocando em ordem α 60,60,60,60,64,64,68,68,68,72,72,72,76,76,80,88,88

Mediana=68
(b) Calcule: Mínimo, Q1, Q2, Q3 e Máximo;
Resolução

Maximo=60
Mínimo=60

q(0,25) = Q1 = 60
q(0,50) = Q2 = 68
q(0,75) = Q3 =76

4.0 Variáveis Bidimensionais

4.1 Introdução

Nos últimos capítulos estudamos o comportamento de apenas uma variável, neste


capitulo estudaremos o comportamento do conjunto de dados de duas ou mais variáveis.
Para trabalharmos com variáveis bidimensionais é muito simples, basta usarmos
as tabelas de cada variável e construir um conjunto juntando cada x i com seu respectivo
y i e construir a tabela x/y.
O principal objetivo das analises nessa situação é explorar relações (similaridades)
entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma
variável que estudamos, a distribuição conjunta das freqüências será uma instrumento
poderoso para a compreensão do comportamento dos dados.
Quando consideremos duas variáveis (ou dois conjunto de dados), podemos ter
três situações.
i) as duas variáveis são qualitativas:
ii) as duas variáveis são quantitativas: e
iii) uma variável é qualitativa e a outra quantitativa.

As técnicas de analises dos conjuntos de dados nas três são diferentes.

20
4.2 Associação entre Variáveis Qualitativas

Um das principais objetivos de se construir uma distribuição conjunta de duas


variáveis qualitativas é descrever a associação entre elas, isto é, queremos conhecer o
grau de dependência entre elas de modo, que possamos prever melhor o resultado de
uma delas quando conhecemos a realização da outra.
Por exemplo, suponhamos que uma pessoa, seja sorteada ao acaso numa indústria
siderúrgica, teríamos uma respostas mais provável que a pessoa sorteada é do sexo
masculino por ter maior proporção.Ou seja há um grau de dependência grande entre
sexo e ramo de atividade.

Exemplo 1.4
Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida
por 200 alunos de Economia e Administração.

Distribuição conjunta das freqüências e proporções (em porcentagem), segundo o sexo


(x) e o curso escolhido (y).

x Masculino Feminino Total


y

Economia 85(61%) 35(58%) 120(60%)

Administração 55(39%) 25(42%) 80(40%)

140(100%) 60(100%) 200(100%)


Total

Fonte: Bussab e Morettin (2002)

A partir dessa tabela podemos observar que independentemente do sexo, 60% das
pessoas preferem Economia a 40% preferem Administração ( observe na coluna de
total)
Não havendo dependência entre as variáveis esperaríamos essas mesmas
proporções para cada sexo. Observando a tabela, vemos que as proporções do sexo
masculino (61% e 39%) e do sexo feminino (60% e 40%). Esses resultados parecem
indicar não haver dependência entre que, neste caso, as variáveis sexo e escolha do
curso parece ser não associados.

21
4.3 Medidas de Associação

Person definiu uma medida de associação chamada coeficiente de contingência,


dada por

X2
C= ,
X2 +n

Que se interpreta de forma analógica ao coeficiente de correlação, a ser definido


mais adiante. Contudo o coeficiente acima não varia entre 0 e 1. O valor máximo de C
depende de r e s.
Para evitar esse inconveniente, costuma-se definir um outro coeficiente, dado por

X2
T= n
(r − 1)( s − 1)

Que atinge o máximo igual a 1 se r = s.

4.4 Associação entre Variáveis Quantitativas

Quando as variáveis envolvidas são ambos do tipo quantitativas, pode usar o


mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis
qualitativas.
Um dispositivo bastante útil para se verificar a associação entre duas variáveis
quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos
introduzir por meio exemplo.

Exemplo 1.5

Neste tipo de gráfico temos os possíveis pares de valores (x ,y), na ordem que
aparecem.
Para o exemplo, vemos que parece haver uma associação entre as variáveis,
porque no conjunto a medida que aumenta o tempo de serviço, aumenta o numero de
clientes.

22
Tabela1.5: Numero de anos de serviço (x) por numero de clientes (y) de agentes de uma
Companhia de Seguros.

Tabela 1.5
Agente Anos de Serviços(x) Números de clientes (y)
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
Fonte: Bussab e Morettin (2002)

Figura1.7
Gráficos de dispersão para as variáveis (x) anos de serviços e (y): numero de clientes.

Gráfico de Dispersão

70
7
Numeros de clientes

60 6
4
50 3 5
2
4
40 Gráfico de
30 Dispersão
20
10
0
0 2 4 6 8
Anos de Serviços

23
Se por acaso os pontos dos gráficos estivessem disperso e sem ordem de
crescimento ou de diminuição havendo acumulação entres eles, não haverá associação
entre as variáveis.

4.5 Associação entre variáveis Qualitativas e Quantitativas.

È comum nessas situações analisar o que acontece com a variável quantitativa,


entro de cada categoria da variável qualitativa.

Exemplo1.6

Na tabela 1.6 e temos os resultados as análises dos salários em função da região de


procedência(v), que mostram a inexistência de uma relação melhor definida entre essas
duas variáveis ou, ainda os salários estão mais relacionados com o grau de instrução do
que com a região de procedência.

Tabela 1.6: Medida-resumo para a variável salário segundo a região de procedência, na


Companhia MB.

Região de Nº − Dp(s) Var(s) S(1) q(1) q(1) q(1) S(n)


Procedência S
Capital 11 11,46 5,22 27,27 4,56 7,41 9,77 16,63 19,40
Interior 12 11,55 5,07 25,71 4,00 7,81 10,64 14,70 23,30
Outra 13 10,45 3,02 9,13 5,73 8,74 9,80 12,79 16,22
Todos 36 11,12 4,52 20,46 4,00 7,05 10,17 14,66 23,30
Fonte: Bussab e Morettin (2002)

È conveniente poder contar com uma medida que quantifique o grau de


dependência entre as variáveis. Com esse intuito, convém observar que as variâncias
podem ser usada como insumo para construir essa medida sem usar a informação da
variável categorizada, a variância calculada para a variável quantitativa para todos os
dados mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria
for pequena e menor do que a global, significa que a variável qualitativa cada categoria
for pequena e menor do que a global significa que a variável qualitativa melhora a
capacidade de previsão da quantitativa e por tanto existe uma relação entre as duas
variáveis.

Dados n pares de valores (x 1 ,y 1 ),..., (x n ,y n ), chamaremos de covariância entre as


duas variáveis x e y a

_ _
( x − x)( y i − y )
Cov (x,y) = ∑i =1 i
n
,
n

24
Ou seja, a média dos produtos dos valores centrados das variáveis.
Com essa definição, o coeficiente de correlação pode ser escrito como,

Cov( x, y )
Corr (x, y) =
dp ( x).dp ( y )

4.6 Exercícios

Com base na tabela abaixo, você concluiria que o tipo de atividade está
relacionada ao fato de as embarcações serem de propriedades estatal ou particular ?
Encontre uma medida de dependência entre as variáveis.

Atividades
Propriedades Total
Costeira Fluvial Internacional

Estatal 5 141 51 197


Particular 92 231 48 371
Total 97 372 99 658

Resolução

Tabela de desvio

Atividades
Propriedades Total
Costeira Fluvial Internacional

Estatal 5(33,64) 141(129,02) 51(34,34) 197


Particular 92(63,64) 231(242,98) 48(64,66) 371

Como X 2 = 51,09 pelo resultado existe associação entre o tipo de atividade e a


propriedade das embarcações.

25
5.0 Probabilidade

5.1 Introdução

Denominamos fenômeno aleatório á situação ou acontecimento cujos resultados


não podem ser previstos com certeza.
Chamamos de espaço amostral ao conjunto de todos os resultados possíveis de
certo fenômeno aleatório. Ele será representado pela letra grega Ω (Omega). Os
subconjuntos de Ω são denominados eventos e são representados pelas letras latinas
A,B,......O conjunto vazio , como já é tradicional, será denominado por Ø.
A união de dois eventos A e B, denotada por AUB, representa a ocorrência de pelo
menos um dos eventos A ou B.
Dois eventos A e B são adjuntos ou mutuamente exclusivos quando não tem
elementos em comum. Isto é A ∩ B = Ø.
Dizemos que A e B são complementares se sua união é o espaço amostral e sua
intersecção é vazia. O complemento de A será representado por A c e temos A ∪ A c =Ω
e A ∩ A c = Ø.

Considera-se probabilidade como sendo uma função P(.) que atribui valores
numéricos aos eventos do espaço amostral.

Definição: Probabilidade

Uma função P(.) é denominada probabilidade se satisfaz as condições:

i)0 P(A) 1, ∀ A ⊂ Ω

ii)P(Ω)=1
 n  n
iii)P  Υ Aj  = ∑ p ( Aj ) , com os Aj ' s distintos
 
 j =1  j =1

Pode-se atribuir probabilidade aos elementos do espaço amostral de duas


maneiras, uma delas consiste na atribuição de probabilidade baseando=se em
características teóricas da realização do fenômeno.
Uma outra maneira de obter probabilidade é através das freqüências de
ocorrências.
Observando as diversas repetições do fenômeno em que ocorre a variável de
interesse. Para um número grande de realizações, a freqüência relativa poderia ser usada
como probabilidade.
Por ora ,assumimos que á medida que o numero de repetições vai aumentando, as
freqüências relativas se estabilizam em um numero que chamarmos de probabilidade.
A probabilidade da união de eventos é calculada através da regra de adição de
probabilidade.

26
Sejam A e B eventos de Ω. Então
P(A ∪ B) =P(A) +P(B)-P(A ∩ B)

5.2 Probabilidade Condicional e Independência

Definição: Probabilidade Condicional

Dado dois eventos A e B, a probabilidade condicional de A dado que ocorre b é


P( A ∩ B)
representada por P(A B) e dada por P(A B) = , P(B) >0.
P( B)
Caso P(B)=0,P(A B ) pode ser definido arbitrariamente, neste texto usaremos
P(A B) =P(A).

Da definição de probabilidade condicional, deduzirmos a regra do produto de


probabilidades.

Sejam A e B eventos de Ω. Então,

P(A ∩ B ) = P ( A B ) P ( B ),

Com P(B)>0.

Definição: Independência de eventos

Dois eventos A e B são independentes se a afirmação da ocorrência ou não de B não


altere a probabilidade de A. Isto é,

P(A B ) = P ( A), P ( B ) > 0,


Ou ainda a seguinte forma equivalente:
P(A ∩ B ) = P ( A BP ( B ).

Teorema de Bayes: Suponha os eventos c , c ,c


1 2 3,
...., c k
Formem uma partipação de Ω
e que suas probabilidades sejam conhecidas. Suponha ainda que para um evento A, se conheçam
as probabilidades P(A c ) para todo i =1,2,....,k. Então, para qualquer j,
i

P( A C j ) P (C j )
P(C j A ) = k
, j = 1,2,3,......, k .
∑ P( A C ) P(C )
i =1
i i

27
5.3 Exercícios

As Preferências de homens e mulheres por cada gênero de filme alugado em uma


locadora de vídeos estão apresentadas na próxima tabela.

Sexo Filme Comédia Romance Policial


Homens 136 92 248
Mulheres 102 195 62

Sorteando-se ao caso uma dessas locações de vídeos, pergunta-se a probabilidade de:

Uma mulher ter alugado um filme de policial?

Resolução
62
835

O filme alugado ser uma comédia?

Resolução

P(C) = P (M) * P(C M ) + P (H) * P(C H ) = P(C ∩ H ) + P(C ∩ H )


102 136 238
P(C) = + =
835 835 835

Um homem ter alugado ou o filme ser um romance?

Resolução

P(H ∪ R ) = P ( H ) + P ( R ) − P ( H ∩ R )

476 287 92
P(H ∪ R ) = + − = 0,803
835 835 835

d)O filme ser policial dado que foi alugado por um homem?

Resolução

P( P ∩ H )
P(P H ) =
P( H )

248 476
P(P H ) = = P( P H ) = 0,91
476 835

28
Companhia MB

Os dados abaixo correspondem a uma pesquisa realizada na Cia MB.


Foram selecionados 36 funcionários e observadas as seguintes variáveis:
estado civil, grau de instrução, número de filhos, salário(em nº de salários
mínimos),
idade (em anos) e região de procedência.
Dados da Tabela 2.1. Pag 11 do livro.

No Estado Instrução Número de Salário Idade Procedência


Civil Filhos
1 Solteiro ensino fundamental 4,00 26 Interior
2 Casado ensino fundamental 1 4,56 32 Capital
3 Casado ensino fundamental 2 5,25 36 Capital
4 Solteiro ensino médio 5,73 21 Outro
5 Solteiro ensino fundamental 6,26 41 Outro
6 Casado ensino fundamental 0 6,66 28 Interior
7 Solteiro ensino fundamental 6,86 41 Interior
8 Solteiro ensino fundamental 7,39 43 Capital
9 Casado ensino médio 1 7,59 34 Capital
10 Solteiro ensino médio 7,44 24 Outro
11 Casado ensino médio 2 8,12 34 Interior
12 Solteiro ensino fundamental 8,46 28 Capital
13 Solteiro ensino médio 8,74 37 Outro
14 Casado ensino fundamental 3 8,95 44 Outro
15 Casado ensino médio 0 9,13 30 Interior
16 Solteiro ensino médio 9,35 39 Outro
17 Casado ensino médio 1 9,77 32 Capital
18 Casado ensino fundamental 2 9,80 40 Outro
19 Solteiro superior 10,53 26 Interior
20 Solteiro ensino médio 10,76 37 Interior
21 Casado ensino médio 1 11,06 31 Outro
22 Solteiro ensino médio 11,59 34 Capital
23 Solteiro ensino fundamental 12,00 41 Outro
24 Casado superior 0 12,79 26 Outro
25 Casado ensino médio 2 13,23 32 Interior
26 Casado ensino fundamental 2 13,60 35 Outro
27 Solteiro ensino médio 13,85 47 Outro
28 Casado ensino médio 0 14,69 30 Interior
29 Casado ensino médio 5 14,71 41 Interior
30 Casado ensino médio 2 15,99 36 Capital
31 Solteiro superior 16,22 31 Outro
32 Casado ensino médio 1 16,61 36 Interior
33 Casado superior 3 17,26 44 Capital
34 Solteiro superior 18,75 34 Capital
35 Casado 2º grau 2 19,40 49 Capital
36 Casado superior 3 23,30 42 Interior

29
Bibliografia

Wilton de O. Bussab, Pedro A. Morettin- Estatística Básica- São Paulo : Saraiva. 5º edição,
2005.

30

You might also like