Unopar Virtual

1
ESPECIALIZAÇÃO EM ADMINISTRAÇÃO HOSPITALAR

Prof: Dr Leonardo Sturion - e-mail- sturion09@zipmail.com.br

Disciplina : BIOESTATÍSTICA


1 ESTATÍ STI CA

statística os primeiros resultados aparecem
possivelmente contemporâneas às primeiras
sociedades humanas, pois a história nos indica, que
nos anos 3.000 a.c. J á se usava fazer os censos na
Babilônia, China e Egito.
Pode-se ver na Bíblia, no livro dos
números do Velho Testamento, uma instrução para se fazer o levantamento
dos homens aptos a guerrear.
Um outro fato que consta da Bíblia, é o censo feito em todo o
império romano, por ocasião do nascimento de J esus Cristo, o que ocasionou a
viagem de J osé e Maria a Belém.
A Estatística era usada bem antes de ser batiza com esse
nome. A palavra Estatística foi usada pela primeira vez no século XVIII, pelo
alemão Gottfued Achennall.
A palavra “estatística” vem de status, que significa em latim
Estado. Com essa palavra faziam-se as descrições e dados relativos aos
Estados, fazendo da Estatística um meio de administração para os
governantes. Mais recentemente se passou a falar em estatística em várias
ciências de todas as áreas do conhecimento.
Onde pode-se definir a Estatística como “um conjunto de
métodos e processos quantitativos que servem para estudar e medir os
fenômenos coletivos”, segundo Bernouille.
Ao se estudar os fenômenos coletivos, o que interessa são os
fatos que envolvem os elementos desses fenômenos, como eles se relacionam
e qual o seu comportamento. Para que tal estudo possa acontecer com toda a
severidade que a ciência exige, é necessário que o levantamento seja feito
através de uma pesquisa científica, sendo ela definida como a realização
concreta de uma investigação planejada, desenvolvida e redigida de acordo
com as normas de metodologia.

2 PESQUI SA CI ENTÍ FI CA

Defini-se Pesquisa Científica como sendo um procedimento
racional que utiliza métodos científicos para encontrar respostas às questões
que são propostas.

E
Unopar Virtual
2
3 ROTEI RO PARA PESQUI SAS DESCRI TI VA E EXPERI MENTAL

1. Escolha o assunto: Assunto significativo e adequado ao interesse e ao
nível de formação e às condições do pesquisador.
2. Título da pesquisa: deve deixar claro o tema que está sendo trabalho.
3. Delimitação do assunto: Selecionar um tópico para ser estudado e
analisado em profundidade, tornado o assunto viável de ser pesquisado.
Evitar temas amplos que resultem em trabalhos superficiais.
4. Objetivos: Indicação do que se pretende alcançar com a pesquisa.
5. Justificativa da escolha: Mostrar as razões da preferência pelo assunto
escolhido e sua importância face a outros temas.
6. Revisão da literatura: É a realização de uma pesquisa bibliográfica do
assunto e da questão delimitada. Tal estudo preliminar tem o objetivo de
mostrar os trabalhos realizados sobre o assunto, apresentar as informações
sobre a situação atual do problema, e as opiniões existentes. Estes
conhecimentos prévios irão auxiliar o investigador nos passos seguintes.
7. Formulação do problema: Redigir de forma interrogativa, clara, precisa e
objetiva, a questão cuja solução viável possa ser alcançada pela pesquisa.
O problema levantado deve expressar uma relação entre duas ou mais
variáveis. A elaboração clara do problema é fruto da revisão da literatura e
da reflexão pessoa.
8. Enunciado da hipótese: A hipótese, como resposta e explicação
provisória, relaciona as duas ou mais variáveis do problema levantado.
Deve ser colocado à prova e responder o problema. Num trabalho, o
número de hipóteses não deve ser muito grande.
As variáveis são aqueles aspectos, propriedades ou fatores
reais ou potencialmente mensuráveis através dos valores que assumem e
possíveis de ser identificados em um objeto de estudo.
9. Definição operacional das variáveis: A hipótese orienta a execução da
pesquisa. Por isso os termos empregados na hipótese devem esclarecer
como o máximo de precisão, o que eles significam no contexto concreto e
objetivo da pesquisa a ser feita. A definição operacional das variáveis indica
as operações a serem realizadas e os mecanismos a serem usados para
verificar a conexão entre as variáveis.
10. Amostragem: A pesquisa procura estabelecer generalizações a partir de
observações em grupos ou conjuntos de indivíduos chamados de
“população” ou “universo”. População pode referir-se a um conjunto de
pessoas, animais ou objetos que representam a totalidade de indivíduos
que possuem as mesmas características definidas para um estudo.
Geralmente, a pesquisa é feita com uma parte representativa da população,
denominada “amostra”, e não com a totalidade dos indivíduos. Portanto a
amostra é uma parte da população, selecionada segundo uma técnica de
amostragem que garante sua representatividade.
11. Instrumentos de pesquisa: Na pesquisa descritiva relatar a técnica a ser
usada para a coleta de dados, como por exemplo: a entrevista,
questionário, formulário. Quando se trata de pesquisa experimental são
descritos os instrumentos e materiais ou as técnicas a serem usados.
Unopar Virtual
3
12. Procedimentos: Em pesquisas descritivas faz-se a descrição detalhada de
todos os passos da coleta e registro dos dados: Quem? Quando? Onde?
Como? Descrevem-se ainda as dificuldades, as precauções, a supervisão e
o controle.
Na pesquisa experimental é detalhada a forma usada para
fazer a observação, a manipulação da variável independente, o tipo de
experimento, o uso ou não de grupo de controle e a maneira do registro dos
resultados.
No relatório, os dados são apresentados depois de
classificados sob forma descritiva e, de preferência, em tabelas, quadros ou
gráficos. Os dados devem ser auto explicativos a fim de não exigir do leitor
exames exaustivos que o obrigue a um grande esforço para sua interpretação.
13. Análise dos dados: Coletados os dados é realizado uma análise
exploratória dos mesmos e expostos em tabelas de forma sintética, são
agora submetidos ou não, conforme o caso, ao tratamento estatístico mais
profundo, onde todas as informações reunidas nos passos anteriores são
comparados entre si e analisadas.
A análise, através da classificação ordenada dos dados, do
confronto dos resultados das tabelas e dos testes estatísticos, quando
empregados, procura verificar a comprovação ou não das hipóteses de estudo.
14. Discussão dos resultados: É a generalização dos resultados obtidos pela
análise. Na discussão, o pesquisador fará as inferências e generalizações
cabíveis, com base nos resultados alcançados. Os resultados também
serão discutidos e comparados com afirmações e posições de outros
autores. Finalmente, abordar e comentar os aspectos paralelos revelados
pela pesquisa.
15. Conclusão: A conclusão apresentará um resumo dos resultados mais
significativos da pesquisa e sintetizará os resultados que conduziram à
comprovação ou rejeição da hipótese de estudo. Fará inferências que os
dados alcançados permitem fazer e indicará aspectos que merecem mais
estudo e aprofundamento.
16. Bibliografia: São as referências bibliográficas que serviram de
embasamento teórico.
17. Anexos: Os anexos são constituídos de elementos complementares, como
questionários e outras fichas de observação e registro utilizadas no
trabalho, que auxiliam a análise do leitor da pesquisa.

4 OBJ ETI VO DA ESTATÍ STI CA

Dependendo do objetivo da pesquisa pode-se classificar a metodologia
Estatística em:

• Descritiva ou
• Indutiva
Unopar Virtual
4
4.1 Estatística descritiva
Usualmente, a expressão Estatística descritiva é empregada
para se referir à ordenação, exposição e sumarização de registros
quantitativos, relativos aos atributos do fenômeno em estudo.

4.2 Estatística indutiva
A estatística indutiva objetiva a generalização do que é
estudado descritivamente, em subconjuntos, para o conjunto que as contêm.

5 DESCRI ÇÃO E APRESENTAÇÃO DE DADOS

Os dados obtidos em pesquisas devem ser analisados e
interpretados com o auxílio de métodos estatísticos.
Na primeira etapa deve-se fazer uma análise descritiva que
consiste na organização e descrição dos dados, na identificação de valores que
representem o elemento típico e na quantificação da variabilidade presente nos
dados.

5.1 Noções Básicas
Na pesquisa científica coleta-se característica de pessoas,
animais, empresas, indústrias, sistema de produção, fenômenos físicos ou
químicos com a finalidade de verificar hipóteses lançadas sobre uma
população.

5.1.1 População
É um conjunto de elementos que detêm pelo menos uma
característica em comum.

5.1.2 Amostra
É uma parte retirada da população para estudo, segundo
técnica adequada, ou seja, um subconjunto representativo.
5.1.3 Amostragem
É o procedimento ou a técnica de obtenção de uma amostra
em uma população.

5.1.4 Variável
É qualquer quantidade ou característica que pode assumir
diferentes valores numéricos. Por exemplo, um questionário de uma pesquisa
em marketing, contém as seguintes perguntas:



Unopar Virtual
5
Qual a sua idade?
Qual o número de pessoas de
sua família?
Qual a renda familiar?
Qual é o seu estado civil?
Você tem emprego fixo?
Qual o tempo de trabalho na
empresa?

Gerem
informações
nas variáveis
- Idade

- Tamanho da família
- Renda familiar
- Estado civil
- Emprego

Tempo de trabalho.


5.1.4.1 Classificação das Variáveis
Ao fazer um estudo estatístico de um determinado fato ou
grupo, tem-se que considerar o tipo de variável. Pode-se ter variáveis
qualitativas e variáveis quantitativas.
As variáveis qualitativas são aqueles que descrevem os
atributos de um indivíduo, por exemplo: sexo, estado civil, grau de instrução,
etc. J á as variáveis quantitativas são as provenientes de uma contagem de
mensuração, por exemplo: idade, salário, peso, etc.
As variáveis qualitativas como as quantitativas dividem-se em
dois tipos:
Variáveis Tipos Descrição Exemplos
Nominal
Não existe nenhuma
ordenação
cor dos olhos, sexo,
estado civil
Qualitativas
ou
Categóricas
Ordinal
Existe uma
ordenação I, II, III
nível de escolaridade,
estágio da doença
Discretas
Valor pertence a um
conjunto enumerável
número de filhos por
casal, quantidade de
leitos


Quantitativas


Contínuas
Quando o valor
pertence a um
intervalo real
medida de altura e
peso, taxa de glicose

6 TI POS DE AMOSTRAGEM

As técnicas de obtenção de uma amostra podem ser
classificadas como amostragem probabilísticas ou não-probabilísticas.

Unopar Virtual
6
6.1 Amostragens Probabilísticas
Destacam-se as Amostragens Simples ao Acaso, Sistemática e
Estratificada.
a) Amostragem Simples ao Acaso (ASA), também
conhecida como amostragem aleatória simples, é quando
todos os elementos de uma população têm a mesma
chance (probabilidade) de ser selecionada. É um
procedimento que pode-se tornar trabalhosos quando a
população é muito grande. É aplicado quanto a população é
considerada homogênea. Para manter a propriedade deve-
se numerar todos os elementos da população e obter-se os
elementos que comporão a amostra, através de um sorteio
ou do auxílio de uma tabela de números aleatórios.

b) Quando a população está organizada, em ordem alfabética,
por exemplo, num fichário ou uma lista telefônica, aplica-se
nestes casos a Amostragem Sistemática, que consiste na
seguinte técnica: divide-se o tamanho da população pelo
tamanho da amostra, obtendo-se assim o que se chama de
Salto. Matematicamente tem-se:
n
N
S =

S =Salto
N =tamanho da população
n =tamanho da amostra

Tendo-se o S (salto), sorteia-se um elemento que compõe o
primeiro elemento, a partir daí basta ir somando S a posição do elemento
retirado.

c) Quando se trabalha com uma população heterogênea, onde
se tem elementos discrepantes, há a necessidade de se
dividir a população em grupos, com elementos
homogêneos, que se chama estrato. Desses estratos são
sorteados os elementos que comporão a amostra, tendo
assim o que se chama de Amostragem Estratificada. O
número de elementos sorteados de cada grupo poderá ser
proporcional ao tamanho do grupo, tendo dessa maneira a
Amostragem Estratificada Proporcional.

d) Amostragem por Conglomerado, a população total é
subdividida em vários partes relativamente pequenas, e
algumas dessas subdivisões, ou conglomerados, são
selecionadas aleatoriamente para integrarem a amostra
global, e finalmente, toma-se todos os elementos das
subdivisões escolhidas.

Unopar Virtual
7
6.2 Amostragem Não-Probabilística
São as que não permitem a retirada de uma amostra de forma
aleatória, pois em algumas situações a amostragem se torna obrigatória, por
exemplo: ensaios de drogas, vacinas, técnicas cirúrgicas, pesquisa de opinião.
Destacam-se as amostragens por Conveniência, por
J ulgamento e por Quota.
a) Amostra por conveniência – o pesquisador seleciona os
membros da população dos quais é mais fácil obter informações.
Esse tipo de amostragem, embora não aleatória, é bastante
utilizada na área de marketing, geralmente são amostras obtidas em teatros,
cinemas, etc. Neste caso, é importante o senso crítico do pesquisador para
evitar vieses, por exemplo, não selecionar sempre pessoas de mesmo sexo, de
mesma faixa etária, etc.
b) Amostra por julgamento – o pesquisador utiliza seu
julgamento para selecionar os membros da população que apresentem boas
perspectivas de fornecerem as informações precisas.
c) Amostragem por quotas – o pesquisador encontra e
entrevista um número predeterminado de pessoas em cada uma das várias
categorias.
Observação:
⇒ A amostragem não-probabilística, geralmente é influenciada
por tendências, preferências e fatores subjetivos pessoais
diversos.
6.3 Cuidados com a Amostragem
Para que não haja erros na amostragem convém observar o
seguintes:
1) Definição do Universo que será amostrado, face aos
objetivos e definição do problema de pesquisa.
2) Definições das unidades amostram que será a base do
processo de seleção. Exemplo: em uma pesquisa,
poderíamos utilizar como unidade amostral o domicílio ou a
família, definido operacionalmente o que vem a ser a
família, por exemplo, só entrevistaríamos aqueles que
realmente se ajuste às definições adotadas. Ex.: uma
república de estudantes não é considerada família em
muitas pesquisas porque cada indivíduo isoladamente
decide o que consome, não existe geração conjunta de
recursos para ajudar no orçamento de despesas e o
processo decisório não é consistente como de uma família,
de marido, mulher e filhos.
3) Confiabilidade. Se aplicarmos o estudo com metodologia
semelhante, deveremos conseguir resultados similares.
Unopar Virtual
8
4) Tamanho da amostra. Apesar da existência de várias
fórmulas, a amostra varia muito de pesquisa para pesquisa.
Porém deve levar em conta o tamanho da população.

Todavia, algumas observações podem ser levadas em
considerações, a saber:
a) quanto maior o número de elementos numa amostra, menor
os desvios dos parâmetros em relação ao valor esperado da
população;
b) quanto maior o número de elementos, maior a aproximação
da distribuição amostral à curva normal;
c) quanto maior a homogeneidade da população, menor a
amostra a ser pesquisada.

6.4 Tamanho da Amostra

Determinação do tamanho da amostra com número mínimo de elementos
AMOSTRA (n)
POPULAÇÃO
(N)
MARGEM DE ERRO
D=3%
MARGEM DE ERRO
D=5%
100 91 79
1000 516 277
5000 879 356
20000 1013 377
100000 1055 383
500000 1064 384
1000000 1067 384
Fórmulas utilizadas para a colocação de “n”:
( )
N
n
n
n
D
p p Z
n
0
0
2
2
0
1
1 .
+
=

=

Sendo:
n
0
– Número dimensionado
Z – Distribuição normal
p – probabilidade
D – Margem de erro: 1% a 10%
n – Tamanho da amostra
N – Tamanho da população



Unopar Virtual
9

6.5 - Representação gráfica de variáveis quantitativas
Resultados referentes a variáveis contínuas freqüentemente
são organizadas em tabelas de distribuições de freqüências por intervalos. Três
tipos de gráficos geralmente são utilizadas neste caso: histograma, polígono de
freqüência e ogivas.

Avaliação em Bioquímica de 267 alunos de odontologia - UEL

Porcentagem Notas Freqüênci
a
absoluta
Simples Acumulada
P. médio
3,0 |-- 3,5 2 0,7 0,7 3,25
3,5 |-- 4,0 15 5,6 6,3 3,75
4,0 |-- 4,5 33 12,4 18,7 4,25
4,5 |-- 5,0 40 15 33,7 4,75
5,0 |-- 5,5 54 20,2 53,9 5,25
5,5 |-- 6,0 47 17,6 71,5 5,75
6,0 |-- 6,5 38 14,2 85,7 6,25
6,5 |-- 7,0 16 6 91,7 6,75
7,0 |-- 7,5 15 5,6 97,3 7,25
7,5 |-- 8,0 3 1,1 98,4 7,75
8,0 |-- 8,5 1 0,4 98,8 8,25
8,5 |-- 9,0 3 1,1 100 8,75
Total 267 100



a) Histograma
Aval i ação em Bi oquími ca
0
10
20
30
40
50
60
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9
Unopar Virtual
10
b) Polígono de Freqüências
c) Ogiva
Avaliação em Biopquímca
0
20
40
60
80
100
120
2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5


8 SÍ NTESE NUMÉRI CA

Além da construção de tabelas e gráficos, a análise
exploratória de dados, consiste também de cálculos de medidas que resumem
as informações que possibilitam uma visão global dos dados.
Esses valores são conhecidos como medidas descritivas, que
recebem o nome genérico de estatísticas quando calculadas com dados
amostrais e de parâmetros quando utilizados os dados populacionais.
Dentre as medidas descritivas a mais utilizadas são as de
tendência central e de dispersão (variabilidade).
8.1 Medidas de tendência central
As medidas de tendência central são aquelas que produzem
um valor em torno do qual os dados observados se distribuem, e que visam
Avaliação em Bioquímica
0
10
20
30
40
50
60
2,75 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 9,25
Unopar Virtual
11
sintetizar em um único número o conjunto de dados. As medidas de tendências
central são: médias aritmética, mediana e moda.
a) média aritmética
A média aritmética é calculada pela soma de todos os n
valores amostrados e dividida pelo número de valores adicionados (n), ou seja,
n
x
n
x x x
X
i
n
i n 1 2 1
X
....
=
Σ
=
+ +
=

Exemplo: Foram levantados os diâmetros de 10 peças (cm) da Empresa AA
Ltda. As médias foram as seguintes:
13,1 – 13,5 – 13,9 – 13,3 – 13,7 – 13,1 – 13,1 – 13,7 – 13,2 –
13,5.
O diâmetro médio é:
= X
A média aritmética possui algumas propriedades desejáveis e
não desejáveis e são as seguintes:
i. Unicidade. Para um conjunto de dados existe somente uma média
aritmética.
ii. Simplicidade. A média aritmética é fácil de ser interpretada e de ser
calculada.
iii. Todos os valores entram para o cálculo da média aritmética, porém, os
valores extremos afetam no valor calculado, e em alguns casos pode haver
uma grande distorção, tornando, neste caso, a média aritmética
indesejável como medida de tendência central.

b) Mediana
A mediana é o valor que ocupa a posição central de um
conjunto de valores ordenados, quando o conjunto possui quantidade par de
valores temos dois valores centrais, neste caso, a mediana é o valor médio dos
dois valores centrais do conjunto de dados ordenados.
Exemplo: Considere os diâmetros ordenados do exemplo
anterior:
13,1 – 13,1 – 13,1 – 13,2 – 13,3 – 13,5 – 13,5 – 13,7 – 13,7 –
13,9
Nesta série temos número par de observações logo, temos
dois valores centrais e são 13,3 e 13,5, então, a mediana é dada por:
Md =
Suponha, neste mesmo exemplo acrescentarmos o valor 14,0
o que torna um rol de número ímpar,
13,1 – 13,1 – 13,1 – 13,2 – 13,3 – 13,5 – 13,5 – 13,7 – 13,7 – 13,9 – 14,0
Neste caso, a série possui apenas um valor central logo, a
mediana é igual a 13,5 cm.
As propriedades da mediana incluem o seguinte:
i. Unicidade. Existe somente uma mediana para um conjunto de dados.
ii. Simplicidade. A mediana é fácil de ser calculada.
Unopar Virtual
12
iii. A mediana não é tão afetada pelos valores extremos como a média
aritmética, por isso, se diz que a mediana é uma medida robusta.

c) Moda
Moda de um conjunto de valores é o valor que ocorre com
maior freqüência. Se todos os valores forem diferentes não há moda, por outro
lado, um conjunto pode ter mais do que uma moda: bimodal, trimodal ou
multimodal.
Exemplo: Para os dados dos exemplos anteriores a moda é
igual a 13,1 cm.
A moda pode ser utilizada para descrever dados qualitativos.
Por exemplo, suponha que as empresas compradoras em uma região
metropolitana num determinado ano receberam uma das seguintes
classificações: pequeno, médio e grande. A classificação que ocorre com maior
freqüência no grupo das empresas pode ser chamada de classificação modal.
8.2 Medidas de Dispersão
A dispersão de conjunto de dados é a variabilidade que os
dados apresentam entre si. Se todos os valores forem iguais, não há dispersão;
se os dados não são iguais, existe dispersão. A dispersão é pequena quando
os valores são próximos uns dos outros. Se os valores são muito diferentes
entre si, a dispersão é grande, ou seja, as medidas de dispersão apresentam o
grau de agregação dos dados.
Tomemos por exemplo os valores das séries abaixo:
Repetição Série A
Série B Série C
1 1 1 1
2 1 44 8
3 2 45 11
4 3 46 14
5 5 48 28
6 6 48 30
7 6 49 37
8 7 50 48
9 93 50 52
10 94 51 62
11 94 52 70
12 95 52 72
13 97 54 84
14 98 55 91
15 98 55 92
16 100 100 100
Média 50 50 50
Mediana 50 50 50
Valor mínimo 1 1 1
Valor máximo 100 100 100

Unopar Virtual
13
As medidas descritivas mais comuns para quantificar a
dispersão são amplitude, variância e desvio-padrão.
a) Amplitude
Uma maneira de medir a variação em um conjunto de valores é
calcular a amplitude. A amplitude é a diferença entre o maior e o menor valor
de conjunto de observações.
At = n
o
maior – n
o
menor
A utilidade da amplitude é limitada. O fato dela levar em conta
somente dois valores torna-a uma medida pobre. A maior vantagem em usá-la
é a simplicidade do seu cálculo.
b) Variância
Quando os valores de um conjunto de observações são
próximos do seu valor médio, a dispersão é menor do que quanto estão mais
dispersos. O grau de dispersão pode ser medido pelos desvios em relação à
média usando a variância cuja fórmula é:

( )
( )
1
ou
1
2
2
2
2
2

Σ
− Σ
=

− Σ
=
n
n
X
X
s
n
X X
s


Esta estatística isolada tem difícil interpretação por apresentar
unidade de medida igual ao quadrado da unidade de medida dos dados.

c) Desvio Padrão
Devido à dificuldade de interpretação da variância, por ter
unidade de medida elevada ao quadrado, é usual na prática utilizar o desvio
padrão que é a raiz quadrada da variância, ou seja:


2
s s =

d) Coeficiente de variação
Uma pergunta que pode surgir é se um desvio-padrão é grande
ou pequeno; questão relevante, por exemplo, na avaliação da precisão de
Unopar Virtual
14
métodos. Um desvio-padrão pode ser considerado grande ou pequeno
dependendo da ordem de grandeza da variável. Por exemplo, um desvio-
padrão de 10 pode ser insignificante se a observação típica for 10.000, mas
será um valor bastante significativo para um conjunto de dados cuja
observação típica é 100.
Portanto, por vezes, é conveniente exprimir a dispersão em
termos relativos, ou seja, expressar a variabilidade dos dados tirando a
influência da ordem de grandeza da variável.
Pode-se obter um índice relativo de dispersão comparando-se
o desvio-padrão (s) com a média ( X ). A medida utilizada é denominada
coeficiente de variação e é definida por
100 .
X
s
CV =

O coeficiente de variação (CV) é adimensional, isto é, um
número puro e é usualmente expresso em porcentagem. É zero quando não
houver variabilidade entre os dados, ou seja, quando s = 0, o que ocorre
quando todos os valores da amostra são iguais.
Sua utilidade é fornecer uma medida para a homogeneidade do
conjunto de dados. Quanto menor o coeficiente de variação, mais homogêneo
é o conjunto.
Para exemplo apresentado na comparação das séries A, B e C.
CV =
O que indica um valor baixo, levando a concluir que a
dispersão em relação à média é pequena, mostrando que o conjunto tem uma
composição homogênea.
Se por um lado pode ser difícil classificar um coeficiente de
variação como baixo, médio, alto ou muito alto, esta medida pode ser bastante
útil na comparação de duas variáveis ou dois grupos que a princípio não são
comparáveis (por exemplo, com ordens de grandeza das variáveis diferentes).



Unopar Virtual
15
Exemplo: Comparação do colesterol em dois grupos
Em um grupo de jovens médicos residentes obteve-se, ao
medir o colesterol, a média de 205 mg/dl e um desvio-padrão de 22 mg/dl. Para
um grupo de médicos especialistas, entretanto, a média obtida foi de 244 mg/dl
e desvio-padrão de 45 mg/dl. O grupo de médicos mais idosos apresenta não
só uma média mais alta como também maior variabilidade em torno da média.
O coeficiente de variação capta esta diferença. Neste caso, o coeficiente de
variação é 10,7% para os residentes e 18,4% para os especialistas.
8.3 Escore padronizado
Vimos como relacionar a média e o desvio-padrão para
caracterizar a homogeneidade de um grupo. Pode-se também relacionar estas
duas estatísticas, mas para cada indivíduo.
A idéia é que, na comparação dos resultados de dois
indivíduos, é importante a padronização em relação ao grupo. A título de
ilustração, suponhamos que o exame final em curso de línguas estrangeira
consista de duas partes, vocabulário e gramática, e que um estudante obtenha
66 pontos no vocabulário e 80 pontos em gramática. À primeira vista, poderia
parecer que o estudante obteve resultado muito melhor em gramática que em
vocabulário, entretanto, a média da turma em vocabulário foi de 51 pontos com
desvio-padrão 12, e na gramática a média foi de 72 pontos com desvio-padrão
16.
Pode-se então, padronizar os resultados, utilizando-se.

s
X X
Z

=

Assim, podemos argumentar que a nota do estudante na parte de vocabulário
está a
25 , 1
12
51 66
=

= Z
desvios-padrão acima da média da turma, enquanto que sua nota na parte de
gramática está a apenas
50 , 0
16
72 80
=

= Z
desvios-padrão acima da média da turma.
Unopar Virtual
16
Embora a comparação das notas originais não tenha
significação, os novos escores expressos em termos de desvios-padrão,
podem ser comparados. Fica evidente que o estudante obteve classificação
muito mais alta do que o resto da turma, em vocabulário, de que em gramática.
O escore padronizado, ou escore Z, é o número de desvios-
padrão pelo qual um valor X desta média (para mais ou para menos).
Surge então o interesse em saber quando um escore Z deve
ser considerado grande ou incomum.
Para isso deve-se recorrer ao teorema de Tchebichev, que
afirma que, para qualquer conjunto de dados, ao menos 75% dos valores
devem estar a menos de dois desvios-padrão da média, de qualquer lado dela.
Poucas observações estão além de dois desvios-padrão e raramente há uma
observação além de três desvios-padrão.
Por exemplo, um grupo de 10 bebês recém nascidos, com
média de 3,1 Kg e desvio-padrão de 0,49 Kg, para o peso ao nascer. Um bebê
que nasça com peso de 4,1 Kg. Tem-se

04 , 2
49 , 0
1 , 3 1 , 4
=

= Z

O peso está praticamente dois desvios-padrão acima da média,
o que mostra que esse acontecimento é incomum acontecer.
Devem-se procurar razões substantivas para este fato.
O escore Z possibilita distinguir entre valores usuais e valores
incomuns, sendo que os que estiverem acima de dois desvios-padrão distantes
da média são considerados incomum ou raros.


Analisemos o seguinte exemplo sobre:


-3 -2 -1 0 1 2 3
Valores
incomuns
Valore
s
Valores
incomuns
Unopar Virtual
17
Dosagens Laboratoriais
A tabela abaixo apresenta os resultados de exames
laboratoriais solicitados a duas pacientes, mãe (A) e filha (B), com
respectivamente 60 e 40 anos de idade. Também são apresentados os
resultados padronizados pelo grupo de adultos do sexo feminino.
TABELA – Média ( X ) e desvio-padrão (s) para adultos do sexo feminino e
resultados de exames laboratoriais de mãe (A) e filha (B).
Exame
X
s Resultado
Original
Escore
Padronizado
A B A B
Glicemia em jejum 85 12,5 90 79 0,40 -0,48
Ácido úrico 4,2 0,9 3,5 3,1 -0,78 -1,22
Triglicérides 105 30 97 66 -0,27 -1,30
Colesterol total 200 25 251 185 2,04 -0,60

A paciente A apresentou um resultado de colesterol bastante
alto (dois desvios-padrão acima da média). A paciente B não apresentou
nenhum resultado preocupante.
8.4 Quartis, Decis e Percentis
Dados que produzem histogramas simétricos são
adequadamente descritos e sintetizados pela média e pelo desvio-padrão.
Neste caso, várias perguntas sobre o comportamento dos dados podem ser
respondidas usando-se somente estes dois números.
Isto não ocorre quando os dados são assimétricos. Neste caso,
a mediana identifica mais adequadamente o “centro” de um conjunto de dados
com distribuição assimétrica. Além disso, para entender bem uma distribuição,
precisamos conhecer valores acima ou abaixo dos quais se encontra uma
determinada porcentagem dos dados: os percentis, que permite dividir o
conjunto de dados em 100 grupos com cerca de 1% em cada grupo.
A mediana é o percentil de ordem 50. Pois, define-se a
mediana como o valor que pelo menos 50% das observações de acima de si e
pelo menos 50% abaixo.
Unopar Virtual
18
Os percentis de ordem 25, 50 e 75 são chamados,
respectivamente primeiro, segundo e terceiro quartis porque dividem a
distribuição em 1/4, 2/4 =1/2 e 3/4 . São representados por Q
1
, Q
2
e Q
3
e,
evidentemente, Q
2
é outra notação para a mediana.
Enquanto que os decis são os que coincidem com os percentis
que permitem dividir os dados em grupos com cerca de 10% deles, assim tem-
se D
1
, D
2
, ..., D
9
, que corresponde no D
1
a divisão dos dados em 10% menores
que seu valor e 90% acima.
O processo de determinação do percentil correspondente a um
valor X é dado pela seguinte expressão:

100 .
valores de total número
X a inferiores valores de número
X valor Percentil =

Tendo o seguinte exemplo de coeficientes de liquidez.
O coeficiente de liquidez obtido da análise financeira em 60
clinicas odontológicas de São Paulo em forma ordenada abaixo.
4,44 4,47 4,48 4,51 4,54 4,54 4,61 4,64 4,66 4,68
4,68 4,69 4,71 4,73 4,76 4,78 4,79 4,81 4,86 4,86
4,87 4,88 490 4,90 4,95 4,95 4,96 4,97 4,98 4,98
4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09
5,09 5,10 5,11 5,11 5,16 5,17 5,18 5,18 5,19 5,24
5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85

Para determinar o percentil dos coeficientes, 5,08, deve-se
organizar os dados em ordem crescente, e verificar quantos valores estão
abaixo de 5,08, que são 38 valores, então pede-se aplicar a expressão:
Percentil de 5,08 =
º 63 3 , 63 100 .
60
38
≅ =

O coeficiente de liquidez 5,08 é o 63º percentil, o que equivale
a dizer que aproximadamente 63% dos coeficientes têm valores menores que
5,08.
Unopar Virtual
19
Para o processo inverso, ou seja, determinar o valor
correspondente a um certo percentil, deve seguir a seguinte seqüência:
1) Ordenar os dados do menor para o maior.
2) Tabular o indicador de localização (L), dado por:

100
.n k
L =

onde
k é o percentual desejado
n é o número de valores do conjunto de dados.
Se o valor de L for decimal, arredonda o seu valor para o maior
inteiro mais próximo.
Quando o valor de L for inteiro, deve-se somar o valor
correspondente a L ao valor de L+1 e dividir o resultado por 2.
Por exemplo, para calcular o percentil 25, que corresponde ao
primeiro quartil, que deixa pelo menos 25% dos dados abaixo e pelo menos
75% dos dados acima dele, usa-se

15
100
60 . 25
= = L

Por se tratar de um número inteiro, deve-se usar os valores de
15º e 16º, ou seja, 4,76 e 4,78.

77 , 4
2
78 , 4 76 , 4
25
=
+
= P
, logo o primeiro quartil Q
1
é 4,77.
O percentil de ordem 78 (P
78
) deixa pelo menos 78% dos
dados abaixo, ou seja
8 , 46
100
60 . 78
= = L , sendo decimal
deve-se arredondar para 47, logo o valor de P
78
é o que ocupa essa posição no
conjunto, é 5,18, então P
78
=5,18.
Para finalizar, sabendo que o percentil 95 do coeficiente de
liquidez é igual a 7,25, isto é, P
95
=7,25. Isto significa que cerca de 5% dos
coeficientes da amostra têm valores acima de 7,25.
Unopar Virtual
20
8.5 Boxplot
Um tipo de gráfico muito útil para a descrição de dados,
visualização de sua variabilidade, comparação entre diferentes grupos é o
gráfico em caixas, boxplot, em inglês. Foi introduzido pelo estatístico americano
J ohn tukey em 1977.
Para a construção do boxplot obtêm-se primeiro as seguintes
estatísticas: 1
o
quartil (Q
1
), mediana (Q
2
), 3
o
quartil (Q
3
) e a distância
interquartílica (DQ), definida como DQ = Q
3
– Q
1
. O boxplot é obtido seguindo-
se os seguintes passos:
1. Numa reta são marcados o 1
o
quartil (Q
1
), a mediana (Q
2
) e o 3
o
quartil (Q
3
).
2. Acima dessa reta constrói-se um retângulo com limites iguais às posições
do primeiro e terceiro quartis, cortado por um segmento de reta na posição
relativa à mediana.
3. A partir dos limites do retângulo, traçam-se linhas até:
a) encontrar um extremo (valor máximo ou mínimo) ou
b) um valor correspondente a 1,5 DQ, se o extremo correspondente estiver
a mais de DQ do quartil respectivo.

Os pontos que estão mais de 1,5 DQ do quartil corresponde até 3,0 DQ,
são chamados de pontos externos e os que estão a mais de 3,0 DQ, pontos
soltos. Existem símbolos especiais para representar no boxplot os pontos
externos e soltos respectivamente. Um esquema de boxplot é apresentado na
Valore
Q
3 M Q
1
Ponto
0
Ponto
*
Valor
1,5 DQ
Valores
típicos
3,0 DQ
Unopar Virtual
21
figura abaixo:
Figura 2 – Esquema para construção do boxplot
O boxplot também fornece informações importantes sobre o
comportamento do conjunto de dados, como simetria e variabilidade. Se a
amplitude for muito maior que a distância interquartílica e a mediana estiver
mais próxima do 1
o
quartil do que do 3
o
quartil, há forte indicações de
assimetria positiva e de grande dispersão das observações.
Exemplo: Tendo a seguinte amostra:

3 15 17 18 21 21 22 25 27 30
38 49 68
X
min
=3 Q
1
=18 Md =22 Q
3
=30 X
max
=68 DQ =12






Observações atípicas (outlier)
É muito comum aparecerem entre os dados coletados,
observações atípicas (outliers), isto é, valores muito grande ou muito pequeno
em relação aos demais. Um conjunto de dados pode apresentar apenas um ou
vários outliers.
Observações atípicas alteram enormemente as médias e
variabilidade dos grupos a que pertencem e podem até mesmo distorcer as
conclusões obtidas através de uma análise estatística padrão. Portanto, é de
fundamental importância detectar e dar um tratamento adequado a elas. É
sempre boa a prática fazer-se uma inspeção dos dados no início da análise
estatística. Técnicas descritivas de dados têm um papel importante nesta fase.
Causas do aparecimento de outliers
Dentre as possíveis causas do aparecimento de outliers,
podem-se citar as seguintes:
3 15 17 18 21 22 25 27 30 38 49 68
* 0
Unopar Virtual
22
• Leitura, anotação ou transição incorreta dos dados.
• Erro na execução do experimento ou na tomada da medida.
• Mudanças não controláveis nas condições experimentais ou dos pacientes.
• Característica inerente à variável estudada (por exemplo, grande
instabilidade do que está sendo medido).

Como detectar outliers
As questões básicas são quais observações devem ser
consideradas como outliers e como detecta-los. Existem procedimentos para
responder a essas perguntas.
Os outliers podem ser detectados simplesmente por uma
verificação lógica dos dados, através de gráficos específicos ou ainda através
de teste apropriados. Uma forma gráfica usual é o boxplot.
Na verificação lógica dos dados, pode-se testar se as
observações estão dentro de faixa de valores esperados, confirma-se
classificações dos dados, entre outros procedimentos. Em conseqüência é
possível eliminar inconsistências e erros encontrados.

Exemplo:

TABELA – Distribuição do tempo de adaptação em uma atividade X
Porcentagem Tempo (meses) Freqüência
absoluta
Simples Acumulada
2 10 19,60 19,60
3 28 54,90 74,50
4 10 19,60 94,10
5 1 1,96 96,06
6 1 1,96 98,02
17 1 1,96 100,00
Total 51 100,00

O valor 17 meses está muito fora do padrão (3 meses segundo
a literatura), o que é confirmado no boxplot abaixo:





2 3 6 9 12 15 18
*
0
Unopar Virtual
23
Gráfico 4 – Boxplot da idade ao firmar a cabeça (meses)

Foram identificados dois outliers: um ponto externo (o valor 6) e
um ponto solto (o valor 17). Baseado na experiência, o primeiro valor detectado
não foi tido como aberrante e assim optou-se por não retira-lo da análise. O
funcionário que levou 17 meses para se adaptar à atividade apresentava
dificuldade motora.

Medidas a serem tomadas
Quando um outlier é detectado, duas medidas podem ser
tomadas abandona-lo ou conserva-lo. Existem justificativas para cada uma
dessas medidas e o tipo de análise pode variar, dependendo se o outlier foi ou
não eliminado.
Um outlier deve ser eliminado da análise quando houver uma
justificativa convincente para isto, por exemplo, quando a observação é
incorreta ou houve erro na execução do experimento ou na medida tomada.
Após a eliminação do outlier pode-se fazer a análise estatística usando-se
apenas as observações restantes, ou uma análise mais sofisticada, que foge
ao nível deste texto.
Por outro lado, se nenhuma explicação pode ser dada à
observação atípica, o outlier pode refletir uma característica do que está sendo
estudado. Neste caso, tal observação deve ser incluída na análise e um
tratamento especial deve ser dado aos dados. Por exemplo, pode-se usar uma
ponderação da influência das observações ou alternativamente uma
transformação ( x , log, x, etc.) da variável estudada.
8.6 Assimetria
Embora as medias de posição e de variação possibilitam
descrever estatisticamente um conjunto de dados, é necessário verificar como
está se comportando de forma geral essa distribuição, o que é possível através
da distribuição de freqüência e de histograma. Sendo que as distribuições
possam tomar praticamente qualquer forma, a maioria que se encontra na
prática são discretas por alguns tipos – padrão.
Unopar Virtual
24
É de suma importância que a distribuição seja em forma de
sino, ou seja, é uma distribuição simétrica, pois metade da esquerda do seu
histograma é aproximadamente a imagem-espelho da metade direita.
As distribuições consideradas assimétricas apresentam uma
“cauda” em uma das extremidades, quando está à direita, é positivamente
assimétrica, e se está à esquerda, é negativamente assimétrica.
Pode-se utilizar o coeficiente de assimetria de Pearson, que é
dado por:
padrão desvio
mediana média
SK


=
) ( 3

Para uma distribuição perfeitamente simétrica, o valor de SK é
zero, de modo geral, os valores SK situam-se entre –3 e 3.




Negativamente assimétrica
Simétrica em forma de Sino
Positivamente assimétrica
Unopar Virtual
25
9 CORRELAÇÃO E REGRESSÃO

9.1 Introdução

Em muitas situações de negócios, é razoável sugerir que existam relações entre as
variáveis. Por exemplo, seria lógico supor que as vendas de um item produzido em
massa estejam relacionadas com seu preço e despesas de propaganda.
Para propósitos de tomada de decisão, é útil identificar se
existe uma relação linear entre duas variáveis ou entre mais de duas variáveis
e, se apropriado, quantificar sua força. Uma relação entre duas variáveis pode
ser identificada por meio de um gráfico chamado diagrama de dispersão, e
sua força pode ser quantificada utilizando-se uma medida estatística chamada
de coeficiente de correlação.
Uma vez verificado que existe associação entre duas variáveis,
pode ser muito útil produzir um modelo de previsão que possa ser utilizado
para prever uma variável se a outra for conhecida, por exemplo, pode ser
possível prever as vendas se as despesas com propaganda forem conhecidas.
Pode-se, também, uma variável está associada com duas ou mais variáveis,
como por exemplo, os gastos da família em função da renda e do número de
dependentes.

Diagrama de dispersão
Um diagrama de dispersão é simplesmente uma representação
de pontos de dados em um gráfico X-Y.
O eixo y é utilizado para representar a variável dependente que
interessa a quem toma as decisões, enquanto o eixo x é para representar uma
variável que pode ser controlada ou mediada por quem toma as decisões,
chamada de variável independente, como mostra o diagrama abaixo.




Unopar Virtual
26


0
50
100
150
200
250
300
0 5 10 15 20 25 30 35
Propaganda (R$)
V
e
n
d
a
s

(
R
$
)

Diagrama de dispersão das vendas e dos gastos com propaganda


No diagrama de dispersão acima, nota-se que quanto mais
dinheiro for gasto em propaganda, maior será o valor das vendas. O padrão
dos pontos forma aproximadamente uma reta, sugerindo que é possível que
exista uma associação linear entre as duas variáveis (vendas e propaganda).
Dependendo das variáveis consideradas, a relação entre elas
pode ser fortemente linear, não linear ou mesmo inexistente. Portanto, um
diagrama de dispersão é uma primeira indicação útil da possível existência de
uma associação entre duas variáveis.

Relações causais
Antes de realizar uma análise mais profunda, é relevante
levantar hipóteses sobre a possibilidade da relação de causa e efeito entre as
variáveis envolvidas e identificar claramente qual é a variável dependente.
Logo é muito importante ser capaz de justificar com antecedência que a
variável y seja o efeito resultante das mudanças em x, a variável causa.



Unopar Virtual
27
9.2 Coeficientes de correlação

A análise de correlação é uma técnica matemática utilizada
para medir a força de associação entre duas variáveis. Essa medição leva em
consideração o “grau de dispersão” entre os valores dados. Quanto menos
dispersos estiverem os dados, mais forte será a relação, isto é, a correlação
entre as variáveis.
O coeficiente de correlação é denotado pelo símbolo r e
somente pode assumir um valor entre – 1 e +1 inclusive. Portanto;

Se r =1, a correlação é positiva perfeita;
Se r =-1, a correlação é negativa perfeita;
Se r =0, a correlação é nula.





















0
1
0
0
2
0
0
3
0
0
4
0
0
0 10 20 30 40 50 60
X
Y
0
100
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
0 10 20 30 40 50 60
X
Y
Correlação linear positiva r = 1 Correlação linear positiva
Correlação linear negativa Não há correlação r = 0
Unopar Virtual
28

Portanto, o coeficiente de correlação linear tem por objetivo
medir o grau de relação entre duas variáveis (X, Y) e é definido pela fórmula:

∑ ∑ ∑ ∑
∑ ∑ ∑
− −

=
] ) ( ].[ ) ( [
2 2 2 2
y y n x x n
y x y x n
r

onde -1 ≤ r ≤ 1


9.3 Regressão linear simples

Em pesquisas estatísticas, o objetivo principal é estabelecer
relações que possibilitem predizer uma ou mais variáveis em termos de outras.
Assim é que se fazem estudos para predizer as vendas futuras de um produto
em função do seu preço, ou vendas e os gastos com
propagandas.Naturalmente, o ideal seria que pudéssemos predizer uma
quantidade exatamente em termos de outra, mas isso raramente é possível. É
neste caso que a análise de regressão tem sua utilidade, já que ela tem por
objetivo descrever através de um modelo matemático, a relação entre duas
variáveis, partindo de n observações. Neste caso, a equação tem o formato:

y =a +bx, onde a e b são os parâmetros.
Uma vez que se trabalha com amostra, deve-se determinar os parâmetros a
e b, através do método dos mínimos quadrados, tal que;
∑ ∑
∑ ∑ ∑


=
2 2
) ( x x n
y x y x n
b

n
x b
n
y
a
∑ ∑
− = ou x b y a − =
Unopar Virtual
29
EXEMPLO

Certa empresa, estudando a variação de vendas de seus produtos em relação à
variação de despesas com propaganda, obteve a tabela:

Vendas (R$) 24 34 27 20 36 16 27 16 28 30
Despesas com propaganda (R$) 7 12 10 5 13 4 8 4 9 11

a) Estimar a equação de regressão;
b) Qual a Venda para despesas com propaganda de R$ 6;
c) Qual a Venda para despesas com propaganda de R$ 15;
d) Calcular o coeficiente de correlação.


SOLUÇÃO


a) y =8,647 +2,067 x

b) P/ x =R$ 6,00 y =R$ 21,00

c) P/ x =R$ 15,00 y =39,646

d) r =0,982


2 . - TESTES NÃO-PARAMÉTRICOS
Na área odontológica vimos que são muitos usados o teste t de
student, a análise de variância, o teste de tukey, a regressão linear,
etc.
Tais testes exigem, para sua aplicação que a variável em
análise seja numérica e as hipóteses sejam feitas sobre os
parâmetros, daí o nome: testes paramétricos. Mas os testes
paramétricos tem ainda outras exigências.
Os testes paramétricos exigem uma distribuição normal ou
aproximadamente normal, que seja simétrica, a pressuposição de
homogeneidade de variâncias (homocedasticia)
O teste de Tukey e outros paramétricos exigem as mesmas
pressuposições:(t, F, Duncan, Cheffé, etc.)
O problema existe quando estas exigências não são satisfeitas e
as amostras são pequenas.
Os testes não paramétricos são menos exigentes não exigindo
normalidade e podendo trabalhar com variáveis não numéricas assim
como pode trabalhar com os postos ocupados pelas variáveis ou com
suas freqüências.

Unopar Virtual
30
A lógica dos testes não-paramétricos

São de execução mais simples que os paramétricos, todavia é
necessário muito cuidado pois são menos poderosos (menos
robustos) possui menor probabilidade do que os paramétricos para a
rejeição da hipótese nula quando esta é falsa e muitas vezes não
permitem fazer inferências estatísticas na população.
Portanto quando o pesquisador optar pela utilização de um
teste não-paramétrico é porque as pressuposições para um teste
paramétrico não estão satisfeitos e o pesquisador estará limitado ao
uso de um teste com menor poder.

2- 1. 1 . Escolha do teste adequado

Quando dispomos de várias provas estatísticas para resolver
determinado problema, ou para determinado projeto de pesquisa,
como acostuma ocorrer, é necessário termos em critério a saber, “o
critério do poder”.

Uma prova estatística pode ser considerada boa se tem
pequena probabilidade de rejeitar H
0
quando H
0
é verdadeira., porém
grande probabilidade de rejeitar H
0
quando H
0
é falsa. Vale lembrar
que a hipótese a ser testada é H
0
e nunca H
1
que é a hipótese
alternativa.
Todavia há outros fatores, além do poder, a serem levados em
conta na escolha de uma estatística como por exemplo:
• A maneira como a amostra de valores foi extraída.
• A natureza da população da qual se extraiu a amostra.
• O tipo de mensuração ou escala empregada nas definições
operacionais das variáveis envolvidas. Isto é, o conjunto de
valores numéricos.
Todos esses aspectos devem ser levados em conta quando da
determinação da prova “ótima” ou mais adequada para analisar
determinado conjunto de dados de pesquisa.
Analisados os aspectos levantados anteriormente fazemos a
opção pela aplicação de testes paramétricos (mais fortes e robustos)
ou testes não paramétrico quando certas condições não são
satisfeitas tais como:
As observações não serem independentes a escolha de
determinado elemento na inclusão da amostra pode influir na escolha
de outros elementos.
A observações forem extraídas de populações que não possuem
uma aproximação com as distribuições normais .
As populações não possuem variâncias semelhantes e não
apresentam uma relação conhecida entre elas.
Unopar Virtual
31
As variáveis em estudo não apresentam medidas nem
intervalar de modo a não possibilitar o emprego de estatísticas como
o calculo de médias e de desvios.
Não possuem homocedasticidade não permitindo efetuar as
combinações lineares dos efeitos.

2.1.1 - Vantagens e Desvantagens da aplicação de testes
não paramétricos

2.1.1.1- Vantagens:
1) As afirmações probabilísticas decorrentes da maior parte das
provas estatísticas não-paramétricas são probabilidades exatas
(salvo no caso de grandes amostras, em que dispomos de
aproximações excelentes) independentemente da forma da
distribuição da população do qual se extraiu a amostra
aleatória. Em certos casos algumas provas não-paramétricas
admitem que a distribuição básica seja contínua – suposição
igualmente feita no caso de provas paramétricas;
2) Se utilizamos tamanho de amostras muito pequenas, como por
exemplo n=6, não existe alternativa para o emprego de uma
prova paramétrica a menos que conheçamos exatamente a
natureza da distribuição da população;
3) Há provas estatísticas não-paramétricas adequadas para o
tratamento de amostras constituídas de observações de várias
populações diferentes. Nenhuma das provas paramétricas
permite-nos tratar dados em tais condições, a não ser que
baseamos o estudo em suposições irreais;
4) As provas estatísticas não-paramétricas prestam-se não só ao
tratamento de dados apresentados em postos como também
àqueles cujos escores aparentemente numéricos têm na
realidade a força de postos.(ex. Ao estudar o nível de
ansiedade de dois indivíduos A e B, podemos concluir que A é
mais ansioso que B sem entretanto saber o quanto mais?). O
que se faz é efetuar uma classificação por postos, ou se podem
classificar como positivos e negativos (mais ou menos; melhor
ou pior). A aplicação de métodos paramétricos nestes cursos
não oferece uma análise (sustentável, consistente) pois
teremos de fazer suposições precárias e mesma irreais, sobre
as distribuições básicas o que levaria a um resultado totalmente
inviezado.
5) Os dados não-paramétricos aplicam-se ao tratamento
simplesmente classificatório, sendo mensurados em escala
nominal. Nenhuma técnica paramétrica pode aplicar-se a tais
dados;
Unopar Virtual
32
6) As provas estatísticas não-paramétricas são essencialmente
muito mais fáceis de aprender e de aplicar em relação as
provas paramétricas.


2.1.2 Desvantagens.

1) Se todas as suposições associadas ao modelo estatístico
paramétrico são satisfeitas pelos dados, e se as mensurações
têm o nível requerido, então o emprego de uma prova não-
paramétrica representa um desperdício de dados. O grau de
desperdício se exprime através do poder-eficiência do método
não-paramétrico;

2) Ainda não existem métodos não-paramétricos para testar
interações no modelo de análise de variância, a menos que se
façam suposições especiais quanto à aditividade.



3 - O Teste de χ
2


O teste de χ
2
serve para testar a hipótese de que duas variáveis
categóricas independentes ou, o que matematicamente é o mesmo,
testar a hipótese de que duas probabilidades são iguais. Preste
atenção nas exigências:
1. Independência dos grupos em comparação: os dois
grupos em comparação devem ser independentes como,
por exemplo, um grupo é controle e outro é experimental,
ou um grupo é constituído por portadores de uma doença
e outro por não-portadores.
2. Tamanho da amostra: a amostra deve ser de tamanho
igual ou maior do que 20. Se a amostra for menor que
40, as freqüências esperadas devem ser maiores que 5.
Nenhuma freqüência esperada pode ser inferior a 1.

Exemplo: É mais fácil entender como se faz o teste de χ
2
usando um
exemplo. Na tabela a seguir, estão apresentados os dados de um
estudo comparativo entre o tratamento não-operatório e a cirurgia
conservadora no trauma esplênico.
Tabela-6 : Participantes da pesquisa segundo tipo de tratamento e o
fato de ocorrerem ou não complicações



Unopar Virtual
33
Tratamento Complicações Sem ocorrência Total
Não-operatório 3 29 32
Cirurgia
conservadora
25 79 104
Total 28 108 136

Para fazer o teste χ
2
:
Primeiro passo: Estabeleça o nível de significância. Seja α=0,05. A
hipótese da nulidade é a de que a probabilidade de complicações é a
mesma, quer se faça tratamento não-operatório ou cirurgia
conservadora.
Segundo passo: Calcule os totais marginais e o total geral. Na tabela
6, os totais estão em negrito.
Terceiro passo: Calcule a proporção de participantes que tiveram
complicações. Foram 28 casos, no total de 136 pacientes. Logo:
20588 , 0
136
28
= =

p
Quarto passo: Sob a hipótese de que o método de tratamento não
tem efeito sobre a probabilidade de o paciente ter complicações,
espera-se que 0,20588 dos pacientes tratados por qualquer dos
métodos tenham complicações. Calcule, então, a freqüência esperada
de pacientes não-operados com complicações. Mas como: Basta
multiplicar 0,20588 por 32, que é o número de pacientes não-
operados. O resultado é 6,588.
Quinto passo: Calcule a freqüência esperada de pacientes operados
com complicações. Basta multiplicar 0,20588 por 104, que é o
número de pacientes operados. O resultado é 21,412.
Sexo passo: Calcule a proporção de participantes sem ocorrência, no
total de participantes. São 108 casos, no total de 136 pacientes.
Então:
79412 , 0
136
108
= =

q
Agora é fácil calcular a freqüência esperada de pacientes não-
operados sem ocorrência: basta multiplicar 0,79412 por 32. O
resultado é 25,412. A freqüência esperada de pacientes operados
sem ocorrência é 0,79412 x 104 = 82,576. Escreva as freqüências
esperadas em uma tabela.
Tabela-7 : Freqüência esperada de pacientes segundo o tipo de
tratamento e o fato de ocorrerem ou não complicações




Unopar Virtual
34
Tratamento Complicações Sem ocorrência Total
Não-operatório 6,588 25,412 32
Cirurgia
conservadora
21,412 82,588 104
Total 28 108 136

Sétimo passo: Se os eventos são independentes, as freqüências
esperadas apresentadas na tabela 7 devem ser iguais aos valores
apresentados na tabela 6. Você ficaria surpreso se as freqüências
observadas fossem exatamente iguais às esperadas, já que sempre
se onta com alguma diferença. Mas quanta diferença é razoável
esperar:
Para responder a essa pergunta você precisa medir a
discrepância entre as duas tabelas e testar se essa discrepância é
maior do que a esperada por simples acaso. A medida é o χ
2
de
Pearson, definido pela fórmula:
E
E O
2
2
) ( −
Σ = χ
que, no caso de uma tabela 2x2, está associado a (2-1)(2-1) = 1
grau de liberdade.
Para o exemplo que estamos desenvolvendo, vem:
588 , 82
) 588 , 82 79 (
412 , 21
) 412 , 21 25 (
412 , 25
) 412 , 25 29 (
588 , 6
) 5888 , 6 3 (
2 2 2 2
2

+

+

+

= χ
1504 , 0 6012 , 0 5066 , 0 9541 , 1
2
+ + + = χ
2124 , 3
2
= χ
Oitavo passo: Compare o valor calculado do χ
2
com o valor crítico,
com 1 grau de liberdade e ao nível de significância estabelecido. Para
o exemplo em discussão, o valor calculado de χ
2
é 3,21. O valor
crítico de χ
2
com 1 grau de liberdade e ao nível de significância de 5%
é 3,84. Como 3,21 < 3,84, a conclusão é de que os dados obtidos
nessa pesquisa não permitem rejeitar a hipótese de que tratamento
não-operatório e cirurgia conservadora, nos casos de trauma
esplênico, têm o mesmo risco de ocorrências.

Observação: Muitos estatísticos recomendam, nos casos de uma
tabela 2x2, calcular o valor de χ
2
com correção de continuidade. A
estatística conhecida como χ
2
corrigido de Yates em honra ao
estatístico que a propôs, Frank Yates, é:
E
E O
2
2
) 5 , 0 ( −
Σ = χ
Associada a (2-1)(2-1) = 1 grau de liberdade.
A correção de continuidade produz um teste mais conservador,
isto é, um teste que tem menor probabilidade de rejeitar a hipótese
de nulidade. Se a amostra é pequena, o efeito da correção de
continuidade é ainda maior, isto é, faz o pesquisador não rejeitar a
hipótese de nulidade mais vezes.
Unopar Virtual
35
Para os dados da tabela 6, o valor de χ
2
com correção de
continuidade é:
χ
2
= 2,38.

3.1- Medidas de Associação nas Tabelas 2x2

Os pesquisadores em geral consideram que a análise estatística
está pronta logo que terminam de aplicar o teste de χ
2
. Não deveria,
porque é importante estimar o grau de associação entre duas
variáveis. Afinal de contas, o teste de χ
2
serve para verificar a
significância da associação, mas não para medir o grau da associação
entre duas variáveis.
Por que isso acontece? É simples: a significância de todo teste
estatístico depende muito do tamanho da amostra. Com o teste de χ
2

não acontece diferente: a significância depende não só das diferenças
entre as proporções, mas também do tamanho da amostra. O grau
de associação, no entanto, independe do tamanho da amostra: é
função das proporções observadas. Veja como se o grau de
associação entre duas variáveis no caso de uma tabela 2x2.

3.1.1- O Coeficiente ϕ

O coeficiente ϕ (lê-se fi - ϕ é uma letra grega) é uma medida da
associação bastante conhecida e muito usado pelos pesquisadores
das áreas de psicologia e sociologia. É definido por:

n
2
χ
ϕ =



em que χ
2
é o valor não-corrigido do teste de χ
2

e n é o tamanho da
amostra.;
Você interpreta o resultado do coeficiente ϕ da seguinte forma:
1. Se for igual a 1 – o que, no caso de ϕ, só acontece quando as
amostras são de mesmo tamanho – a associação é perfeita;
2. Se for igual a zero, a associação é nula;
3. Quanto mais próximo estiver de 1, maior será o grau de
associação entre as variáveis, e, quanto mais próximo de zero,
menor é a associação. Como regra prática, valores de ϕ
menores que 0,30 ou 0,35 podem ser tomados como
indicadores de pequena associação.

Unopar Virtual
36
3.1.2 - O Coeficiente γ

O coeficiente γ (lê-se gama - γ é uma letra grega)
mede o grau de associação com que duas categorias ordenadas de
variáveis tendem a crescer e, portanto, decrescer – juntas. O
coeficiente γ é definido por:
( )
( ) bc ad
bc ad
+

= γ

Como o coeficiente γ varia entre –1 e +1, você interpreta o
resultado da mesma forma que interpreta o coeficiente de correlação:
1. Se for igual a 1 ou –1, a associação é perfeita, positiva ou
negativa;
2. Se for igual a zero, a associação é nula;
3. Quanto mais próximo estiver de 1, maior será o grau de
associação positiva entre as variáveis, e, quanto mais próximo
de –1, maior será o grau de associação negativa entre as
variáveis.


4 – ANÁLISE DE VARIÂNCIA


4.1 Introdução

Este estudo constitui uma extensão da seção diferenças entre médias,
considerando-se que as diferenças observadas de mais de duas médias
amostrais podem ser atribuídas ao acaso. Por exemplo, pode-se querer
determinar, com base em dados amostrais, se há realmente diferença na
eficácia de três variedades de soja, ou se há diferença na quilometragem
obtida com cinco tipos de gasolina, ou se existe alguma diferença na
durabilidade de seis marcas de tinta para pintura externa.
A análise de variância pode ser utilizada para abordar várias questões
simultaneamente. Quanto a variedade de soja, por exemplo, pode-se perguntar
também se os resultados observados são causados por tipos de sementes e
não por causa dos diferentes lotes de terra. A abordagem desses problemas
nos conduz ao Planejamento Experimental, que nos permite formular questões
de real significado e submetê-las a teste.
O experimento será designado como planejamento completamente
aleatorizado, pois a aleatorização nos protege contra os efeitos dos fatores que
não podem ser controlados de modo perfeito. O pesquisador não está isento da
responsabilidade de planejar cuidadosamente o experimento simplesmente
porque vai utilizar a aleatorização. Em síntese, deve-se utilizar a aleatorização
mesmo que o pesquisador ache que todos os efeitos estão cuidadosamente
controlados.


Unopar Virtual
37
4.2 Análise de Variância

A análise de variância é uma técnica que pode ser empregada para
testar as diferenças entre k médias. Uma suposição básica implícita na análise
de variância é que as diversas médias amostrais são obtidas de populações
normalmente distribuídas e que têm a mesma variância. O teste se baseia
numa amostra extraída de cada população e testa as seguintes hipóteses ao
nível de significância α.
Ho: As médias das populações são iguais
H
1
: As médias das populações não são iguais.

SUPOSIÇÕES:
• As amostras devem ser aleatórias independentes;
• As amostras devem ser extraídas de populações normais;
• As amostras devem ter variâncias iguais.

4.3 Análise de Variância com um Fator ou Inteiramente Casualizada

O modelo da análise de variância de um fator se relaciona com teste de
diferenças entre as médias amostrais, quando os sujeitos são colocados
aleatoriamente em cada um dos diversos grupos de tratamento.
A equação que representa o modelo da análise de variância de um fator
é:
X
i j
=µ +t
i
+e
i j
,
onde
µ =média geral do experimento;
t
i
=efeito do tratamento do grupo específico, do qual foi amostrado;
e
i j
=erro experimental, isto é, erro aleatório relacionado com o processo
de amostragem.

As observações de cada grupo ou tratamento são tabeladas para facilitar
a análise segundo as hipóteses lançadas.


Tratamentos (I)
Repetições (J) 1 2 . . . I

1 x
11
x
21
. . . x
i1

2 x
12
x
22
. . . x
i2

M M M M
J x
1j
X
2j
. . . x
ij

Total T
1
T
2
. . . T
I
G (Total
geral)
Médias
1 x 2 x
. . .
I x




Unopar Virtual
38
Onde:

=
=
J
1 j
J 1 1
X T


=
=
J
1 j
J 2 2
X T


=
=
J
j
IJ I
X T
1


∑ ∑
=
= =
I
1 i ij
ij i
X T G

Quadro de Análise de Variância e Teste F.

Para testar as hipóteses constrói-se o seguinte quadro de análise de
variância:
Fontes de
Variação (FV)
Graus de
liberdade (GL)
Soma de
Quadrados (SQ)
Quadrados
Médios (QM)

Fcal

Ftab
Tratamentos
GLT
SQT QMT QMT/QMR 5 %
Resíduos GLR SQR QMR
Total GLTo SRTo

GLT =I – 1 GLR =I(J -1) GLTo =IJ - 1

= ⇒ − =
ij
ij
J I
G
C C X SQTo
2
2

C
J
T
SQT
I
1 i
2
i
− =

=
SQR =SQTo – SQT

1 I
SQT
QMT

=

) 1 J ( I
SQR
QMR

=


QMR
QMT
F
cal
=
)] 1 ( ); 1 [( ; − − J I I F
tab
α


Assim se F
cal
<F
tab
⇒ Aceita-se a hipótese nula (Ho), assim conclui-se
que as médias das populações são iguais ao nível de significância α. Caso
contrário, isto é, F
cal
> F
tab
⇒ Rejeita-se (Ho), logo as médias populacionais
são diferentes.
No caso de rejeição de Ho, em nosso estudo, será utilizado o teste de
Tukey, para verificar onde existem diferenças das médias.

1 - α
α
F
5%
Unopar Virtual
39
4.4 Teste de Tukey

Quando no teste F rejeitar a hipótese nula (H
0
), pode-se fazer uma
comparação entre as médias, pois de acordo com hipótese alternativa (H
1
), as
médias populacionais não são iguais. Assim deverão ser encontradas as
diferenças consideradas significativas e, uma das maneiras é através do teste
de Tukey, o qual consiste comparar as médias duas as duas através de sua
diferença em valor absoluto:
,
i i
K
x x D − = , com a diferença mínima
significativa que é dada por:
J
QMR
q . = ∆ , onde q é a amplitude total estudentizada, cujo valor
é encontrado nas tabelas, em função do número de tratamento (I) e do número
de graus de liberdade do resíduo, geralmente ao nível 5% de probabilidade
q [I; I(J – 1)]

Se D
k
>∆, conclui-se que existe diferença significativa ao nível α de
probabilidade testada, indicando que as duas médias testadas diferem entre si
a esse nível de probabilidade.


4.5 Análise de Variância com dois Fatores ou Blocos Completos
Casualizados

A análise de variância com dois fatores está baseada em dois conjuntos
de classificações ou tratamentos. Por exemplo, analisar o rendimento de uma
safra de soja, poderia considerar ambos os efeitos, a variedade da semente
utilizada (Tratamentos) e os diferentes lotes de terra (Blocos).
A equação que representa o modelo da análise de variância de dois
fatores é:
X
i j
=µ +t
i
+ b
j
+e
i j
,
onde
µ =média geral do experimento;
t
i
=efeito do tratamento, do qual foi amostrado;
b
j
=efeito do bloco, do qual foi amostrado;
e
i j
=erro experimental, isto é, erro aleatório relacionado com o processo
de amostragem.

Neste delineamento, o controle local é representado pelos blocos, onde
cada um deles inclui todos os tratamentos.
• Os blocos devem ser os mais homogêneos possíveis, podendo haver
diferença entre eles.
• Ressaltamos aqui que dentro de cada bloco, os tratamentos são
casualizados.
Neste delineamento pode-se efetuar as seguintes hipóteses:
Unopar Virtual
40

a) Para o primeiro fator – Tratamentos
Ho: As médias das populações são todas iguais
H
1
: Pelo menos duas médias das populações diferem entre si.

b) Para o segundo fator – Blocos
Ho: As médias das populações são todas iguais
H
1
: Pelo menos duas médias das populações diferem entre si.

As observações de cada grupo ou tratamento são tabeladas para facilitar
a análise segundo as hipóteses lançadas.
Tratamentos (I)


Blocos (J)
1 2 . . . I
Total bloco
Médi as
1 x
11
x
21
. . . x
i1
B
1
1 x
2 x
12
x
22
. . . x
i2
B
2
2 x
M M M M M M
J x
1j
x
2j
. . . x
ij
B
j

J x
Total tratamento T
1
T
2
. . . T
I
G
Médi as 1 x 2 x
. . .
I x



Quadro de Análise de Variância e Teste F.

Para testar as hipóteses constrói-se o seguinte quadro de análise de
variância:
Fontes de
Variação (FV)
Graus de
liberdade (GL)
Soma de
Quadrados (SQ)
Quadrados
Médios (QM)

Fcal

Ftab
Tratamentos
GLT
SQT QMT QMT/QMR 5 %
Blocos
GLB
SQB QMB QMB/QMR 5 %
Resíduos GLR SQR QMR
Total GLTo SRTo
GLT =I – 1 GLB =J -1 GLR =(I-1)(J -1) GLTo =IJ - 1

= ⇒ − =
ij
ij
J I
G
C C X SQTo
2
2

Unopar Virtual
41
C
J
T
SQT
I
i
i
− =

=1
2
C
I
B
SQB
J
j
j
− =

=1
2
SQR =SQTo – SQT – SQB
1 −
=
I
SQT
QMT
1 −
=
J
SQB
QMB
) 1 )( 1 ( − −
=
J I
SQR
QMR
QMR
QMT
F
calT
= )] 1 )( 1 ( ); 1 [( − − − J I I F
T tab


QMR
QMB
F
calB
= )] 1 )( 1 ( ); 1 [( − − − J I J F
B tab

Assim se F
cal
<F
tab,
aceita-se a hipótese nula (Ho), conclui-se que as
médias das populações são iguais. Caso contrário, rejeita-se Ho, isto é, existe
pelo menos duas médias que diferem entre si. Neste caso deve-se aplicar o
teste de Tukey.

4.6 -Teste de Tukey
Como já visto, quando no teste F rejeitar a hipótese nula (H
0
), pode-se
fazer uma comparação entre as médias, pois de acordo com hipótese
alternativa (H
1
), as médias populacionais não são iguais. Assim deverão ser
encontradas as diferenças consideradas significativas e, uma das maneiras é
através do teste de Tukey, o qual consiste comparar as médias duas as duas
através de sua diferença em valor absoluto:
,
i i
K
x x D − = , com a diferença
mínima significativa que é dada por:

a) Para os tratamentos: Aplica-se o teste de Tukey, tomando suas
médias duas a duas para verificar se existe diferença significativa, tal que:
J
QMR
q . = ∆ , onde q [I; (I – 1)(J –1)]
b) Para os blocos: Aplica-se o teste de Tukey, tomando suas médias
duas a duas para verificar se existe diferença significativa, tal que:
I
QMR
q . = ∆ , onde q [J ; (I – 1)(J –1)]

O procedimento de Tukey é um complemento á ANOVA e visa a
identificar quais as médias que tomadas duas a duas, diferem
significativamente entre si O método de Tukey protege os testes de um
aumento no nível de significância devido ao grande número de comparações
efetuadas. O que ocorreria com o teste t conforme mostra tabela a seguir.



1 - α
α
F
Tab
Unopar Virtual
42

Tabela -1 Probabilidade de se cometer ao menos um erro do tipo I, usando
testes t para comparar duas a duas todas as médias de um
experimento com k grupos

Nível de significância usado no teste Número de
médias (K) 0,05 0,01 0,001
2
3
4
5
6
10
0,05
0,14
0,26
0,40
0,54
0,90
0,01
0,03
0,06
0,10
0,14
0,36
0,001
0,003
0,006
0,010
0,015
0.044
Fonte: Zar,1999; p.178.

Intervalo de confiança para a média de um tratamento µ, será dado por:

nr
síduo QM
resíduo t X
Re
) , (α ±

Exemplo: Plantam-se quatro tipos diferentes de semente de soja em cinco
lotes. A tabela abaixo indica a produção de soja em saca por alqueire. Ao nível
de 5%, teste se a produção varia significativamente devido à variedade da soja
(tratamento) e devido ao solo (bloco). Se houver variação, aplicar o teste de
Tukey.


Tratamento
Blocos I II III IV
A
B
C
D
E
150
190
180
160
170
120
150
140
110
160
100
120
150
120
110
140
110
120
160
140
Unopar Virtual
43
Exemplo: Resolvido usando o Excel:

Tabela 2 – Comparação entre três analgésicos na redução de dor pós-
operatória controlando por classe de idade dos pacientes.

Analgésico A B C Total bloco
Classe de
idade
I
II
II
IV

0
1
2
3

5
5
7
8

1
0
3
3

6
6
12
14
Total de
Tratamento
6 25 7 38

2
x
14 163 19 196
x 1,5 6,25 1,75

Efetuar a análise de variância e se necessário aplicar o
teste Tukey.

RESUMO
Grupo Contagem Soma Média Variância
A 4 6 1,5 1,666667
B 4 25 6,25 2,25
C 4 7 1,75 2,25


ANOVA
Fonte da
variação SQ gl MQ F valor-P F crítico
Entre grupos 57,16667 2 28,58333 13,90541 0,001767 4,256495
Dentro dos
grupos 18,5 9 2,055556

Total 75,66667 11
Unopar Virtual
44

Tabela 3 – tempo gasto por três estagiários comparados com tempos de
profissionais com 5anos de experiência.

Tratamento
A B C CONTROLE TOTAL
25
21
29
24
31
32
25
18
19
22
20
17
23
16



Anova: fator único

RESUMO
Grupo Contagem Soma Média Variância
A 3 75 25 16
B 3 87 29 19
C 4 84 21 10
CONTROLE 4 76 19 10

ANOVA
Fonte da
variação SQ gl MQ F valor-P F crítico
Entre grupos 200 3 66,66667 5,128205 0,021032 3,708265
Dentro dos
grupos 130 10 13

Total 330 13









Unopar Virtual
45

Tabela 15 – Número de repetições, d.m.s, de Tukey e valor absoluto da
diferença das médias dos estagiários e do controle.

Comparação N o de
repetições
d.m.s Valor absoluto da
diferença
A –B

A-C

A – Controle

B-C

B – Controle

C - Controle

3:3

3:4

3:4

3:4

3:4

4:4
9,01

8,43

8,43

8,43

8,43

7,83
4 29 25 = −

4 21 25 = −
6 19 25 = −

8 21 29 = −

*
10 19 29 = −
2 19 21 = −

Observe que apenas o tratamento B difere do controle os demais não
apresentam diferenças estatísticas significativas.
Teste de Tukey: d.m.s = q .
2
1 1 Qmr
rj ri








+