You are on page 1of 63

Bioestatística básica

AULA 2

Conteúdo:
Apresentação de dados (Gráficos)
Medidas de posição
Medidas de dispersão
Características
importantes dos dados
 Centro: Um valor representativo ou médio,
que indica onde se localiza o meio do
conjunto de dados.
 Variação: Uma medida de quanto os valores
dos dados variam.
 Distribuição: A natureza ou forma da
distribuição dos dados (ex. uniforme, sino,
assimétrica).
 Outliers ou valores discrepantes: valores
amostrais que se localizam muito longe da
grande maioria dos outros valores amostrais.
 Tempo: Características dos dados que
mudam com o tempo.
Apresentação gráfica
de dados
 Diagrama de Barras
 Usado para apresentar variáveis
qualitativas e quantitativas discretas.
 As barras do diagrama podem ser
verticais ou horizontais.
 Variáveis qualitativas - ilustrar
comparações entre categorias.
 Variáveis quantitativas discretas -
barras do diagrama devem ser
verticais.
Diagrama de Barras -
Exemplos

Fonte: Fonte: Ministério da Saúde (1994)

Taxas de mortalidade pelos cânceres mais comuns, sexo


feminino. Estado de São Paulo, 1992.

14
Óbitos / 100.000 habitantes

12
10
8
6
4
2
0
mama estômago cólon/reto pulmão colo/útero
Tipo de Câncer

Fonte: Fonte: FOSP / Fundação Seade


Diagrama de Barras -
Exemplos
Incidência de efeitos colaterais devido ao uso
de um novo agente anti-hipertensivo

30
25
freqüência

20
15
10
5
0
1 2 3 4 5
número de efeitos colaterais
Apresentação gráfica
de dados
 Gráfico de setores
 Usado para representar variáveis
qualitativas.
 Cada categoria corresponderá a uma
divisão ou a um setor de um círculo.
 Geralmente utilizado quando se pretende
comparar o total de cada categoria com o
conjunto total.
 Neste tipo de gráfico, um círculo de raio
qualquer vai representar 100% dos dados
(360o).
 Quando usar a freqüência relativa no
gráfico, colocar o N.
Gráfico de Setores -
Exemplo
Gráfico em setores da distribuição da tuberculose (Dawson, 2003,
p.43)
Hipânicos
16%
Americanos nativos
1% Negros não-
Asiáticos ou hispânicos
habitantes das ilhas 37%
do Pacífico
11%

Brancos não-
hipânicos
35%
Apresentação gráfica
de dados
 Histograma
 Adequado para ilustrar o comportamento de
valores agrupados em classes.
 É um gráfico de colunas composto por vários
retângulos adjacentes, representando a
tabela de freqüência.
 As classes são colocadas no eixo horizontal
e as freqüências no eixo vertical.
 Na construção devem ser empregadas de 5 a
20 classes.
 Interpretação: Centro, variação, forma
e outlier. Não é apropriado para
verificar se há mudanças ao longo do
tempo.
Histograma – Exemplo
Percentual de linfócitos em pacientes com
leucemia linfóide

Percentual de linfócitos Freqüência

10 |- 12 5

12 |- 14 6

14 |- 16 5

16 |- 18 1

18 |- 20 2

20 |- 22 1

total 20
Histograma - Exemplo

Percentual de linfócitos em pacientes com leucemia linfóide

7
6
5
freqüência

4
3
2
1
0
11 13 15 17 19 21
percentual de linfócitos
Apresentação gráfica
de dados
 Polígono de freqüência
 Utilizado na representação de variáveis
quantitativas contínuas.
 Usa segmentos de reta ligados a pontos
localizados diretamente acima dos
valores dos pontos médios de classe.
 Os segmentos são estendidos à direita
e à esquerda de forma que o gráfico
comece e termine no eixo horizontal.
 Exemplo: tabela usada para construção
do histograma
Polígono de freqüência
Exemplo
Percentual de linfócitos em pacientes com leucemia linfóide

7
6
5
freqüência

4
3
2
1
0
9 11 13 15 17 19 21 23
percentual de linfócitos
Apresentação gráfica
de dados
 Ogiva de Galton
 É um gráfico de linha que representa
as freqüências acumuladas.
 O gráfico se inicia com a fronteira
inferior da primeira classe e termina
com a fronteira superior da última
classe.
 Exemplo: tabela usada para construção
do histograma
Ogiva de Galton -
Exemplo

Percentual de linfócitos em pacientes com leucemia linfóide

25
freqüência acumulada

20

15

10

0
10 12 14 16 18 20 22
percentual de linfócitos
Apresentação gráfica
de dados
 Ramo-e-folha
 Representa dados separando cada valor
em duas partes: o ramo (dígito mais a
esquerda) e a folha (dígito mais a direita).
 Pode ser expandido ou condensado.
 Ao virar o ramo-e-folhas de lado podemos
ver a distribuição dos dados.
 Vantagem: os dados originais podem ser
recuperados.
 Usar de 5 a 20 classes.
Ramo-e-folha –
Exemplo
Diâmetros abdominais de 40 indivíduos

57 63 66 70 74 81 87 94
59 63 68 71 75 83 88 95
60 63 69 72 75 85 88 101
60 64 69 72 77 86 89 107
62 66 70 73 78 86 91 119
Ramo-e-folha –
Exemplo
Diâmetros abdominais de 40 indivíduos

Ramo (dezena) Folhas (unidades)


5 7 9
6 0 0 2 3 3 3 4 6 6 8 9 9
7 0 0 1 2 2 3 4 5 5 7 8
8 1 3 5 6 6 7 8 8 9
9 1 4 5
10 1 7
11 9
Apresentação gráfica
de dados
 Diagrama de dispersão
 É a melhor maneira de visualizar o
relacionamento entre duas variáveis.
 A representação gráfica é feita no
mesmo sistema de coordenadas, em
que uma das variáveis é colocada no
eixo x e outra no eixo y.
 O gráfico de dispersão é utilizado para
interpretar o relacionamento entre duas
variáveis (direção, forma e intensidade
do relacionamento).
Diagrama de
Dispersão - Exemplo
Índice de massa corporal (IMC) e percentual
de gordura de 10 universitárias. Brasil, 1997

Indivíduo IMC Percentual de gordura


1 21,5 29
2 20,7 25
3 21,3 26
4 19,0 23
5 21,2 25
6 18,6 23
7 16,8 18
8 20,7 28
9 30,8 46
10 18,3 22
Fonte: dados fictícios
Diagrama de
Dispersão - Exemplo

Relação entre IMC e percentual de gordura de 10 universitárias.


Brasil, 1997

50
Percetual de gordura

40

30

20

10

0
0 5 10 15 20 25 30 35
IMC

Boxplot – após MP
Medidas de centro
 Valor no centro ou no meio do conjunto
de dados.

 Medidas: média, mediana, moda e


ponto médio.
 Média
Média amostral Média populacional
n n
x i x
X 
i

i 1 i 1

n N
Média - exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
 Mediana
 Para calcular a mediana devemos
primeiro colocar os valores em ordem
crescente (ou decrescente) e, em
seguida, aplicar um dos dois processos
abaixo:
 Se o número de valores é ímpar, a
mediana é o número localizado
exatamente no meio da lista.
 Se o número de valores é par, a mediana
é a média dos 2 valores do meio.
Mediana - exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
 Moda (M)
 É o valor que ocorre mais freqüentemente.
 Uma distribuição pode ser unimodal,
bimodal, multimodal ou amodal.

 Moda
 5 5 5 3 1 5 1 4 3 5
 1 2 2 2 3 4 5 6 6 6 7 9
 1 2 3 6 7 8 9 10
Moda - exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
 Ponto médio
 É o valor a meio caminho entre o maior
valor e o menor valor da série.
Ponto médio -
exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de centro
 Média de uma distribuição de
freqüência
n

xn i i
X  i 1
n

n
i 1
i
Média de uma
distribuição de
freqüência - Exemplo
Percentual de linfócitos em pacientes com
leucemia linfóide

Percentual de linfócitos Freqüência

10 |- 12 5

12 |- 14 6

14 |- 16 5

16 |- 18 1

18 |- 20 2

20 |- 22 1

total 20
Assimetria
 A distribuição de dados é assimétrica quando
se estende mais para um lado que para o
outro.
 Uma distribuição de dados é simétrica se a
metade esquerda do seu histograma é
praticamente uma imagem espelhada de sua
imagem direita.
Separatrizes
Separatrizes
 Quartil: Divide a distribuição em 4
partes iguais em um conjunto
ordenado de valores.
 Percentil: Divide a distribuição em 100
partes iguais em um conjunto
ordenado de valores.
 Decil: Divide a distribuição em 10
partes iguais em um conjunto
ordenado de valores.
Separatrizes
Separatrizes
 Observação:
 Intervalo interquartil = Q3 – Q1
 Intervalo semi-quartil = (Q3 – Q1) / 2

 Quartil médio = (Q1 + Q3) / 2


 Amplitude de percentis 10-90 = P90 – P10
Separatrizes -
Exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Calcule Q1, Q2, Q3, P10 e D9
Apresentação gráfica
de dados
 Boxplot ou diagrama em caixa ou
diagrama de caixa e bigode
 Resumo dos cinco números: mínimo,
Q1, Q2, Q3 e máximo.
 É um gráfico de um conjunto de dados
que consiste em uma linha que se
estende do valor mínimo até o valor
máximo, em uma caixa com linhas
traçadas em Q1, Q2 e Q3.
 Utilização: comparação entre
conjuntos de dados.
Apresentação gráfica
de dados
 Construção de um diagrama de
caixa
 Ache o resumo dos cinco números.
 Construa uma escala com valores que
incluam o máximo e o mínimo dos dados.
 Construa uma caixa retangular
estendendo-se de Q1 a Q3, e trace uma
linha ns caixa no valor de Q2.
 Trace linhas estendendo-se da caixa até
os valores mínimo e máximo.
Boxplot - Exemplo
Figure 1. Effect of Newly Diagnosed Helicobacter pylori Infection
on Thyrotropin Levels in Patients with Multinodular Goiter Treated
with Thyroxine. The box plots show levels of thyrotropin in
patients who received no treatment with thyroxine, in patients
receiving thyroxine treatment (median dose, 1.56 microg per
kilogram per day) and in whom a low level of thyrotropin (0.05 to
0.20 mU per liter) was stably achieved, in patients with H. pylori
infection (with no change in the dose of thyroxine), and in patients
after the eradication of H. pylori infection (median dose, 1.70
microg per kilogram per day).
Medidas de dispersão
 A dispersão fornece uma medida da
proximidade da série de dados em
torno de um valor de tendência central,
tomado como comparação.
 Medidas para avaliar a dispersão de
um conjunto de dados: Amplitude
Total, Desvio Médio, Variância,
Desvio Padrão e Coeficiente de
Variação.
Medidas de dispersão
 Amplitude total
 
  AT  x(máx)  x(mín)
 maior amplitude total  maior
dispersão.
 Problema: somente são usados os
extremos do conjunto (medida
instável).
 Elemento auxiliar na análise  mostra
a faixa de variação onde encontramos
todos os elementos do conjunto.
Amplitude - exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
 Desvio médio
 É a média aritmética dos desvios
absolutos dos elementos da série,
tomados em relação a média.

DM 
 |d |
onde d  x i  x
N
Desvio médio -
exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
 Desvio padrão

n n
 (x  )
i
2
 i
( x  X ) 2

 i 1
s i 1
n n 1

 Utilização
 Verificação da dispersão ou espalhamento de
um conjunto de dados;
 Permite distinguir numericamente conjuntos
de dados de mesmo tamanho e mesma
média, mas que são visivelmente diferentes.
Medidas de dispersão
 Desvio padrão - Interpretação
 Uma pergunta que pode surgir é se
um desvio padrão é grande ou
pequeno; dependendo da ordem de
grandeza da variável.
 Comparação de séries  menor
desvio  padrão mais homogênea
ou menos dispersa.
Desvio padrão -
Exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
 Desvio padrão de uma distribuição de
freqüência

n n

 ni ( xi   ) 2
 i i
n ( x  X ) 2

 i 1 s i 1

n n 1

População Amostra
Desvio padrão de uma
distribuição de
freqüência - Exemplo
Percentual de linfócitos em pacientes com
leucemia linfóide

Percentual de linfócitos Freqüência

10 |- 12 5

12 |- 14 6

14 |- 16 5

16 |- 18 1

18 |- 20 2

20 |- 22 1

total 20
Medidas de dispersão
 Variância
n n

 i
( x   ) 2
 i
( x  X ) 2

2  i 1
s2  i 1
n n 1

 Medida direta da dispersão  conjunto


com os dados mais dispersos terá
maior variância.
 Medida em unidade quadrada
(exemplo: anos2)  o que dificulta a
sua interpretação.
Variância - exemplo
Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Medidas de dispersão
 Coeficiente de variação
 É uma medida de dispersão relativa
(%) que mede a variação do desvio
padrão em relação à média aritmética.

s
CV (%)  100 
X
Medidas de dispersão
Coeficiente de variação
1) Qual a série mais homogênea: a série A ou
a série B?
2) A série C ou a série D?
3) A série A ou a série E? 
Série Média Desvio padrão

A (t) 80,8 t 10,0 t

B (cm) 450,0 cm 10,0 cm

C (oC) 32,6 oC 4,2 oC

D (oC) 30,0 oC 2,6 oC

E (t) 8200 t 700,0 t


Coeficiente de
variação - exemplo
 Variação de freqüência cardíaca com a respiração
profunda numa amostra aleatória de 18 pacientes

Identificação Variação da
do indivíduo freqüência
cardíaca
1 19,2
2 51,9
3 33,1
4 86,7
5 29,1
6 45,3
7 14,4
8 67,1
9 64,8
10 15,9
Banco de dados -
Honolulu
 Doenças Cardíacas – 7.683 casos
coletados no Havai em 1969
 Tamanho da amostra: 100
 Universo: Homens doentes com idade
entre 45 e 67 anos.
 Fator de exposição: fumante
 Média de Idade da população: 54,36
anos
Banco de dados -
Honolulu
 Variáveis Codificadas:
1) Educatio: nível de instrução
Utilizando similar brasileiro:
1 = nenhuma
2 = primeiro grau incompleto
3 = primeiro grau completo
4 = segundo grau completo
5 = curso técnico
6 = curso superior
2) Weight : peso em Kg
3) Height : altura em cm
4) Age : idade em anos
Banco de dados -
Honolulu
 Variáveis Codificadas:
5) Smoking: status de fumante
0 = não
1 = sim
6) Phisical : atividade física
1 = sedentário
2 = moderada
3 = alta
7) Glucose: nivel de glicose no sangue em
miligramas percentuais
8) Cholest: nível de coleterol sérico em
miligramas percentuais
10) Pressure: pressão sanguinea sistólica em
mmHg
Banco de dados -
Honolulu

Procedimentos - Tabelas (Planilha:
quali. cont. graf.)
 Variáveis nível educacional, Fumo e
Atividade Física – construção de tabela
usando comando freqüência.
Banco de dados -
Honolulu
 Procedimentos – Gráficos (Planilha:
quali. cont. graf.)
 Variáveis Nível Educacional, Fumo e
Atividade Física – construção de
diagrama de barras (barras e colunas)
e diagrama circular.
Banco de dados -
Honolulu
 Procedimentos - Medidas
 Calcular média, mediana, moda,
amplitude total, desvio médio, desvio
padrão, variância para as variáveis
massa, estatura, glicose, colesterol e
pressão.
 Uso das funções estatísticas do EXCEL.
 Uso da ferramenta análise descritiva do
menu Ferramentas.
Banco de dados -
Honolulu
 Procedimentos - Medidas
 Uso das funções estatísticas do EXCEL.
 Inserir  Função  Estatística  nome
da função (planilha: medidas)
Banco de dados -
Honolulu
 Procedimentos - Medidas
 Nome das funções

Medida Função
Média Média
Moda Modo
Mediana Med
Quartil Quartil
Percentil Percetil
Amplitude total Máximo – mínimo
Desvio médio Desv.médio
Desvio padrão Desvpad
Variância Var
Banco de dados -
Honolulu
 Ferramentas  Análise de dados 
Estatística descritiva (planilha: dados)

You might also like