You are on page 1of 5

LABORATÓRIO DE BIOESTATÍSTICA AULA PRÁTICA PROGRAMA: STATA ASSUNTO: ANÁLISE EXPLORATÓRIA DE DADOS Pontos básicos para a escolha da medida

de tendência central
a. A mediana não leva em conta a magnitude da maioria das observações, pois se baseia apenas na ordenação dos valores e não na sua expressão numérica. Assim, se perde informação quando se usa a mediana. Neste aspecto a média é mais poderosa, pois a mediana é pouco capaz de sofrer tratamento matemático. b. A média pode ser extremamente influenciada por valores extremos. Se a distribuição for assimétrica, a média pode ser muito diferente da mediana.

Como se avalia a assimetria da distribuição
a. Comparando-se a média com a mediana. Quando a distribuição for simétrica seus valores serão coincidentes ou próximos. b. Pelo valor da medida de assimetria (skewness). Se o valor for negativo, a distribuição está desviada para a esquerda. Se o valor for positivo, está desviada para a direita. Uma distribuição razoavelmente simétrica tem coeficiente de assimetria variando entre –1 e +1. c. Visualmente no gráfico (histograma ou box plot, onde se verifica a presença de valores extremos “outliers”) e se pode verificar o formato da distribuição, identificando-se assimetria ou curtose. d. Por um teste que avalie a normalidade da distribuição (Kolmogorov-Smirnov ou Shapiro Wilk). Quanto o valor de p nestes testes for menor do que 0.05 a distribuição não é normal.

EXERCÍCIO 1:
1. Na seguinte série numérica, que expressa a duração da ausência ao trabalho em dias por motivo de doença, calcule as medidas de tendência central e dispersão e responda às perguntas abaixo. Após entrar no Stata, clique no botão Data Editor, ou acesse e menu Data e depois Data Editor. Digite os números abaixo. 1 1 2 2 3 3 4 4 4 4 5 6 6 6 6 7 8 10 10 38 80 A. Comparar a média com a mediana e calcular o coeficiente de assimetria Comandos pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Summary Statistics e Summary Statistics. Na caixa de diálogo, indique var1. Depois clique em options: display adittional statistics. Clique finalmente em OK para concluir. Comando digitado: summarize var1, detail

a. b. c. d. e. f. g. h. i.

Média (Mean)= Mediana (50%)= Percentil 25= Percentil 75= Amplitude interquartil (P75 – P25)= Variância= Desvio-padrão (Std. Dev.)= Assimetria (Skewness)= Curtose (Kurtosis)= A média está próxima da mediana ? Qual o valor do coeficiente de assimetria? Há assimetria ?

B. Desenhar um histograma para visualizar assimetria Comando pelo menu: No menu escolha Graphics, Easy Graphics e depois Histogram. Na caixa de diálogo, indique var1. Na caixa de diálogo options você pode solicitar: add normal density plot. Clique finalmente em OK para concluir. Comando digitado: histogram var1, normal Observe o histograma e avalie se a distribuição é simétrica ou assimétrica. C. Desenhar o box-plot para avaliar se a distribuição é assimétrica e detectar valores extremos Comando pelo menu: No menu escolha Graphics, Easy Graphics e depois Box plot. Na caixa de diálogo, indique var1. Clique finalmente em OK para concluir. Comando digitado: graph box var1 Há assimetria ? Há valores extremos ? D. Teste de normalidade da distribuição Comando pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Distributional Plots & Tests e Shapiro-Wilk normality test. Na caixa de diálogo, indique var1. Clique finalmente em OK para concluir. Comando digitado: swilk var1 Quanto foi o valor de p do teste da normalidade ? Pode se assumir que a distribuição é simétrica (normal) ou assimétrica ? E. Construa o gráfico de normalidade (normal quantile plot). Se a distribuição for normal os pontos ficam sobre a reta ou bem próximos dela. Comando pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Distributional Plots & Tests e Normal quantile plot. Na caixa de diálogo, indique var1. Clique finalmente em OK para concluir. Comando digitado: qnorm var1 Para a série de dados anterior, você utilizaria a média ou a mediana como medida de tendência central ? Por quê ?

EXERCÍCIO 2:
Repita os mesmos procedimentos para os valores abaixo, que representam o diâmetro dos sarcomas removidos das mamas de 20 mulheres: 0,5 5,0 1,2 5,0 2,1 5,0 2,5 6,0 2,5 6,5 3,0 7,0 3,8 8,0 4,0 9,5 4,2 13,0 4,5 5,0

A. Comparar a média com a mediana e calcular o coeficiente de assimetria Comandos pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Summary Statistics e Summary Statistics. Na caixa de diálogo, indique var1. Depois clique em options: display adittional statistics. Clique finalmente em OK para concluir. Comando digitado: summarize var1, detail j. k. l. m. n. o. p. q. r. Média (Mean)= Mediana (50%)= Percentil 25= Percentil 75= Amplitude interquartil (P75 – P25)= Variância= Desvio-padrão (Std. Dev.)= Assimetria (Skewness)= Curtose (Kurtosis)= A média está próxima da mediana ? Qual o valor do coeficiente de assimetria? Há assimetria ? B. Desenhar um histograma para visualizar assimetria Comando pelo menu: No menu escolha Graphics, Easy Graphics e depois Histogram. Na caixa de diálogo, indique var1. Na caixa de diálogo options você pode solicitar: add normal density plot. Clique finalmente em OK para concluir. Comando digitado: histogram var1, normal Observe o histograma e avalie se a distribuição é simétrica ou assimétrica. C. Desenhar o box-plot para avaliar se a distribuição é assimétrica e detectar valores extremos Comando pelo menu: No menu escolha Graphics, Easy Graphics e depois Box plot. Na caixa de diálogo, indique var1. Clique finalmente em OK para concluir. Comando digitado: graph box var1 Há assimetria ? Há valores extremos ? D. Teste de normalidade da distribuição Comando pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Distributional Plots & Tests e Shapiro-Wilk normality test. Na caixa de diálogo, indique var1. Clique finalmente em OK para concluir. Comando digitado: swilk var1

Quanto foi o valor de p do teste da normalidade ? Pode se assumir que a distribuição é simétrica (normal) ou assimétrica ? E. Construa o gráfico de normalidade (normal quantile plot). Se a distribuição for normal os pontos ficam sobre a reta ou bem próximos dela. Comando pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Distributional Plots & Tests e Normal quantile plot. Na caixa de diálogo, indique var1. Clique finalmente em OK para concluir. Comando digitado: qnorm var1 Para a série de dados anterior, você utilizaria a média ou a mediana como medida de tendência central ? Por quê ?

EXERCÍCIO 3:
O arquivo espirometria.dta contém dados de 80 pacientes obesos do Hospital Universitário da UFMA, possíveis candidatos ao tratamento com cirurgia bariátrica. Avalie, usando os mesmos procedimentos realizados acima, as variáveis idade, altura, peso, imc (índice de massa corporal), cvf e vef1. Estas últimas duas variáveis foram obtidas na espirometria e foram medidas em litros. Abra o arquivo utililizando File, Open ou digitando use espirometria Para cada uma destas variáveis, você utilizaria a média ou a mediana como medida de tendência central ? Por quê ?

TRANSFORMAÇÕES
Se a distribuição não for simétrica temos que usar estimativas não paramétricas ou então transformar os dados. Pode-se avaliar a normalidade da distribuição através de testes, como o de Shapiro-Wilk. As principais transformações usadas em estatística são: Para distribuições assimétricas à direita (cauda direita mais longa): Logaritmo à base 10 de x x ′ = log10 x Logaritmo à base e de x Raiz quadrada
x′ = x

x ′ = ln x

Recíproca
x′ = 1 x

Para distribuições assimétricas à esquerda (cauda esquerda mais longa): Quadrática Cúbica
x′ = x 2 x′ = x 3

O Stata possui um comando automático que faz várias transformações e testa a normalidade das distribuições após a transformação, tornando mais fácil a tarefa de selecionar a melhor transformação. A variável imc tem distribuição assimétrica à direita. Vamos tentar as transformações. Comando pelo menu: No menu escolha Statistics, e a seguir clique em Summaries, Tables, & Tests, Distributional Plots & Tests e Ladder of powers. Na caixa de diálogo, indique imc. Clique finalmente em OK para concluir. Comando digitado: ladder imc . ladder imc
Transformation formula chi2(2) P(chi2) -----------------------------------------------------------------cubic imc^3 33.04 0.000 square imc^2 24.78 0.000 raw imc 16.49 0.000 square-root sqrt(imc) 12.61 0.002 log log(imc) 9.11 0.011 reciprocal root 1/sqrt(imc) 6.12 0.047 reciprocal 1/imc 3.66 0.160 reciprocal square 1/(imc^2) 0.63 0.731 reciprocal cubic 1/(imc^3) 0.62 0.733

Note que as três últimas transformações ficaram boas, sendo que as duas últimas são as melhores (maior valor de P no teste da normalidade). Você também pode usar os comandos gladder imc (Ladder of powers histograms) para ver os histogramas com as variáveis transformadas e qladder imc para ver os gráficos da normal (Ladder of powers normal quantile plots) com as variáveis transformadas.

EXERCÍCIO 4:
Das variáveis do arquivo espirometria que não tiveram distribuição normal, verifique a melhor transformação para normalizar os dados.