You are on page 1of 70

APONTAMENTOS DE

B I O E S T A T Í S T I C A




Bárbara Oliveiros, 2008

BioEstatística
3
1. INTRODUÇÃO À BIOESTATÍSTICA

A estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação
de eventos, estudos e experimentos. Tem por objectivo obter, organizar e analisar dados,
determinar as relações que estes apresentam, e avaliar as consequências para descrição e
explicação do que passou, e/ou para a previsão e organização do futuro.
A estatística é também uma ciência e prática de desenvolvimento de conhecimento humano
através do uso de dados empíricos. Baseia-se na teoria estatística, um ramo da matemática
aplicada. Na teoria estatística, a aleatoriedade e incerteza são modeladas pela teoria da
probabilidade. Algumas práticas estatísticas incluem, por exemplo, o planeamento, a
descrição e a interpretação de observações. Porque o objectivo da estatística é a produção da
"melhor" informação possível a partir dos dados disponíveis, alguns autores sugerem que a
estatística é um ramo da teoria da decisão.

Origem
O termo estatística surge da expressão em Latim statisticum collegium, palestra sobre os
assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem
de estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o
Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na
Universidade de Lena e adoptada pelo académico alemão Godofredo Achenwall. Aparece
como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de colecta e
classificação de dados, no início do século XIX.
Actualmente, é um ramo do conhecimento científico que tem por objectivo não só a
observação, classificação e análise dos fenómenos colectivos, mas também o estudo de
possibilidade de inferência indutiva a partir de dados observados.

A base da estatística e sua definição
A Estatística é uma ferramenta matemática que nos informa sobre o erro que as nossas
observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do
erro que existe entre a estimativa de quanto uma amostra representa adequadamente a
população da qual foi extraída. Assim o conhecimento de teoria de conjuntos, teoria de
probabilidades, análise combinatória e cálculo são indispensáveis para compreender como o
Engenharia Biomédica

4
erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da
observação e do delineamento experimental.

A probabilidade de um evento é frequentemente definida como um número entre zero e um.
Na realidade, porém, nunca há situações que tenham probabilidades 0 ou 1. Pode dizer-se que
o sol irá certamente nascer na manhã seguinte, mas… e se acontecer um evento extremamente
difícil de ocorrer que o destrua? E se ocorrer uma guerra nuclear e o céu ficar coberto de
cinzas e fumo?

Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque
elas são tão prováveis ou improváveis de ocorrer, que é fácil de reconhecê-las como
probabilidade de um ou zero.
Entretanto, isto normalmente leva a desentendimentos e comportamentos perigosos, porque as
pessoas não conseguem distinguir entre, uma probabilidade de 10
-4
e uma probabilidade de
10
-9
. Na prática, há uma grande diferença: imagine que vai atravessar a estrada numa
passadeira cerca de 10
5
ou 10
6
vezes na sua vida. Considerando que o risco de atropelamento
é 10
-9
, pode ficar seguro para o resto da sua vida; considerando que o risco de atropelamento é
de 10
-4
, é bastante provável que venha a ser atropelado, mesmo com o sentimento intuitivo
que 0,01% é um risco muito baixo.


Bioestatística – é a estatística aplicada ao estudo das características biológicas das
populações (humanas) ou, de forma genérica, às ciências da vida.
A Bioestatística é cada vez mais uma área independente da estatística, ainda que as suas bases
assentem na teoria de probabilidades, tal como a própria Estatística.
Inicialmente, considerou-se a Bioestatística como a “Estatística aplicada à Biologia Humana e
Medicina”. Uma definição mais actual, e mais abrangente, passou a ser “a ciência que foca o
desenvolvimento e utilização de métodos estatísticos para resolver problemas e questões que
surgem nas áreas da Biologia Humana e Medicina”.
Contudo, começa a considerar-se que, na Bioestatística, poderão caber temas tão diversos
como a avaliação de recursos faunísticos e florais, estudos da teoria de aprendizagem e
comportamento animal, questões de ecologia e, sobretudo, Planeamento de Experiências.
BioEstatística
5
Assim, a Bioestatística tem de ser uma área interdisciplinar, onde o raciocínio dedutivo e
indutivo devem estar integrados de forma a considerar que:
• a incerteza é fonte de conhecimento, quando a Probabilidade nos permite delimitá-la
caracterizando os seus padrões;
• a informação obtida “por acaso” pode ser enganadora, enquanto que a informação obtida
“ao acaso” tem uma variabilidade útil;
• mais importante do que a informação, é a transformação desta em conhecimento;
• a amostragem é boa mas o Planeamento Experimental é ainda melhor, por ser um
investimento na obtenção de dados de qualidade, que importam analisar;
• os problemas éticos não podem ser escamoteados na investigação experimental;
• o problema do passado (e actual, no caso das doenças raras) era a escassez de dados e,
actualmente, o problema é, frequentemente, a proliferação de dados, muitas vezes de má
qualidade.

Estatística

Descritiva Inferencial
Descrever dados através de Tomada de decisão baseada
indicadores (estatísticas)
nos elementos observados No conhecimento que o
Estimadores dos reais ou experimentados (intervalos de investigador tem sobre
Indicadores da população confiança e/ou testes estatísticos) o problema em causa



Engenharia Biomédica

6

Sumariar dados Estatística descritiva

Conhecimento da população
Extrapolar para a população as conclusões obtidas na amostra
Estimação de parâmetros
Inferência estatística Cálculo de Probabilidades
(estatística assenta na Testes de Hipóteses
teoria de probabilidades) Origem nos jogos de azar


Fenómeno aleatório – influenciado pelo acaso

Experiência aleatória – há possibilidade de ser repetida em condições idênticas
- é conhecido o conjunto de todos os resultados possíveis, embora não
se saiba, à priori, qual será o resultado
- existe regularidade estatística na repetição da experiência

Experiência determinística – o resultado é conhecido antes da sua realização (ex: temperatura
de congelação ou ebulição da água)


BioEstatística
7
2. RECOLHA DE DADOS E AMOSTRAGEM
Primários – levantados especialmente para determinada investigação
Dados
Secundários- se se utilizam dados já existentes

Censo – informação relativa a todos os elementos da população
Recolha de dados
Amostragem – analisa-se um subconjunto da população

Impossível a recolha de todos os elementos da população em
Populações infinitas
Com elevado nº de elementos
Quando o estudo das características de cada elemento conduz à sua destruição
O estudo cuidadoso de uma amostra conduz a resultados mais fidedignos do que o estudo
sumário de toda a população
Menor custo e obtenção de resultados em tempo oportuno
Problemas de ordem ética devem ser tidos em consideração
Estudo de novos medicamentos
Novas técnicas cirúrgicas
Técnicas invasivas

Amostra representativa da população
Não pode ser enviezada – definição correcta da população a inquirir e da técnica de
amostragem
Deve existir um controlo na obtenção de não respostas ou casos perdidos, o que pode
diminuir drasticamente a dimensão da amostra
Deve ter dimensão suficiente para que as conclusões a obter tenham um determinado grau
de confiança e nível de precisão

Amostras de conveniência são, muitas vezes, as únicas possíveis de obter, principalmente
quando se trata de populações raras, mal conhecidas, geograficamente mal determinadas

Perigo de tendenciosidade, logo inadequadas para produzir inferência
Dimensão mínima da amostra?
vantagens
Engenharia Biomédica

8
Amostragem aleatória, casual ou probabilística é a que garante melhor representatividade
É necessário possuir uma listagem de todos os elementos da população de modo a que a
probabilidade de qualquer elemento da população ser seleccionado seja conhecida à priori
(≠0.)

Extremamente difícil obter-se tal amostragem ⇒ possível obter uma aproximação

Amostragem aleatória
Simples – todos os elementos têm igual probabilidade de serem seleccionados (1/N) por
sorteio (bolas numeradas num saco, tabela de n
os
aleatórios
1
). Este método não é muito
usado dado que é difícil obter populações réplica

Estratificada – quando se conhece a estrutura da população. Conduz a amostras
representativas de menor dimensão. A população é dividida em estratos, grupos
homogéneos relativamente a uma característica (ex: sexo), e dentro de cada estrato
seleccionam-se os elementos duma forma aleatória simples, de acordo com a proporção de
cada grupo na população.

Sistemática ou quase aleatória – Apenas o 1º elemento da amostra é escolhido
aleatoriamente, e os restantes são determinados de modo sistemático pela razão N/n (N –
dimensão da população; n – dimensão da amostra). O 1º elemento pode ser obtido por
uma tabela de n
os
aleatórios no intervalo [1, N/n], e os restantes por adição de N/n (valores
arredondados ao menor inteiro).



1
Geradas por processos matemáticos que constituem um conjunto de números que não obedecem a nenhum
plano prévio (amostras sem reposição)
BioEstatística
9
3. VARIÁVEIS, PROBLEMAS DE INVESTIGAÇÃO E QUESTÕES

3.1 Variáveis
Os elementos chave de uma investigação são as variáveis – características dos participantes
ou da situação de um determinado estudo, que pode tomar diferentes valores. Uma variável
tem de ter a capacidade de variar, ou tomar diferentes valores. Se um conceito apenas toma
um valor num estudo, então não é uma variável (por exemplo, o género não é uma variável se
todos os indivíduos do estudo forem mulheres).
Na investigação quantitativa, as variáveis podem ser definidas como:


3.1.1 Variável Independente
Activa – a variável ou a situação em que esta é avaliada pode ser manipulada. A variável de
interesse “é dada” ao participante (ex: terapia nova/terapia tradicional, substância
activa/placebo). A existência deste tipo de variáveis independentes é necessária mas não
suficiente para tirar conclusões de causa-efeito, ou seja, fazer inferência. Os Estudos
Experimentais (randomizados ou não) exigem a existência deste tipo de variáveis.
Atributo – a variável independente é medida, não pode ser manipulada, embora seja um foco
importante do estudo (os valores da variável independente são atributos “pré-existentes”, que
não se alteram sistematicamente com o desenrolar do estudo. Ex: género feminino/masculino,
escalão etário). Estudos que apenas têm variáveis independentes do tipo atributo são não
experimentais.

3.1.2 Variável Dependente – mede ou avalia o efeito da variável independente; é assumida
como o resultado.
Variável
Independente ´Dependente

Estranha
Activa
*
Atributo
**

Engenharia Biomédica

10


3.1.3 Variável Estranha – não são de interesse em determinado estudo, mas podem
influenciar a variável dependente. Factores ambientais e características do experimentador são
variáveis estranhas que devem ser controladas

.
3.2 Amostras independentes versus amostras emparelhadas
Independentes – se não existe nenhum tipo de relação ou factor unificador entre os
elementos das amostras: a probabilidade de um sujeito pertencer a ambas é nula (ex: uma
variável é avaliada para cada um dos géneros sexuais)

Emparelhadas – as amostras são constituídas usando os mesmos sujeitos experimentais,
ou homólogos (ex: a mesma variável é medida antes e depois de um determinado
tratamento). A excepção é quando se utilizam Gémeos ou animais da mesma ninhada

A distinção entre amostras independentes e emparelhadas é particularmente importante para a
inferência estatística: a relação, ou ausência de relação, existente entre os elementos de uma
ou mais amostras.





BioEstatística
11
3.3 Questões, Hipóteses e Objectivos de Investigação
A única diferença entre as questões e as hipóteses de investigação está no formato de
apresentação das ideias a investigar (pergunta/frase). A partir do momento em que estão
definidas as questões ou as hipóteses de investigação, estas podem ser objectivadas num
capítulo: objectivos de investigação ou do estudo.


Exemplos:
Questões Hipóteses Objectivos
Será que este novo tratamento é
eficaz em comparação com o
placebo?
Pretende-se investigar a hipótese do
novo tratamento ser mais eficaz
que o placebo.
Comparar a eficácia do novo
tratamento versus a eficácia do
placebo.
Será que este novo tratamento é tão
seguro como o tratamento
standard?
Pretende-se investigar a hipótese
que o novo tratamento é tão seguro
como o tratamento standard.
Comparar a segurança do novo
tratamento versus a segurança do
tratamento standard.
Será que os expostos a
determinados factores de risco têm
efectivamente mais risco de doença
que os não expostos?
Pretende-se investigar a hipótese
que os expostos a determinados
factores de risco têm efectivamente
mais risco de doença que os não
expostos.
Comparar as incidências da doença
entre os expostos a factores de risco
e os não expostos.
Será que quem fez a terapia A tem
10 vezes menos risco de recidiva
que quem não fez?
Pretende-se investigar a hipótese
que quem fez a terapia A tem 10
vezes menos risco de recidiva que
quem não fez.
Comparar as taxas de recidiva entre
um grupo que faz a terapia A e um
grupo que não faz qualquer
tratamento.
Será que os casos de doença
estiveram mais expostos a deter-
minados factores de risco que os
controlos?
Pretende-se investigar a hipótese
que os casos de doença estiveram
mais expostos a determinados
factores de risco que os controlos.
Comparar casos com controlos
relativamente à exposição prévia a
factores de risco.

Será que esta doença apresenta um
prevalência ao nível nacional que
justifique que a mesma seja
considerada um problema de saúde
pública?
Pretende-se investigar a hipótese
desta doença apresentar uma
prevalência ao nível nacional que
não justifica que a mesma seja
considerada um problema de saúde
pública.
Determinar a taxa de prevalência
da doença a nível nacional.
Será que os acidentes de viação
apresentam um incidência anual
que justifique ser considerado um
problema de saúde pública?
Pretende-se investigar a hipótese
dos acidentes de viação
apresentarem uma incidência anual
que realmente justifica ser
considerado um problema de saúde
pública.
Determinar a taxa de incidência
anual média dos acidentes de
viação nos próximos 5 anos.



Engenharia Biomédica

12
3.3.1 Relação entre variáveis e Questões/hipóteses e objectivos da Investigação
As variáveis têm de ser observadas para se poderem analisar os objectivos da investigação. De
acordo com os exemplos anteriores, poder-se-ia ter:



3.4 Níveis de mensuração das variáveis
Existem variáveis Qualitativas e Quantitativas.
As primeiras, embora categorias, podem ser ordenáveis ou não, ainda que, por vezes, se
considere que as variáveis dicotómicas são sempre ordenáveis. As variáveis quantitativas
podem ser discretas (se tomam valores num conjunto finito ou infinito numerável) ou
contínuas (se tomam valores no conjunto n
os
reais).
Dado que as variáveis medem qualidades ou quantidades, podem ser classificadas quanto ao
seu nível de mensuração, sendo que a escolha do tratamento estatístico adequado exige a
identificação da escala e níveis de medida das variáveis.

Níveis de Mensuração
Nominal =, ≠
Ex: sexo, raça, religião, estado civil, nº na camisola do jogador de futebol
Os valores são atributos ou categorias; os úmeros apenas servem para identificar
categorias
Variáveis qualitativas – classificação dos indivíduos de acordo com as suas categorias
Nominal Dicotómica tem alguns privilégios
BioEstatística
13
Ordinal =, ≠, <, >
Ex: nível sócio-económico, ordem de preferências, faixas etárias, grau de escolaridade
Podem ser distinguidos diferentes graus de um atributo ou categoria, existindo entre eles
uma relação de ordem; categorias que podem ser ordenadas de forma
ascendente/descendente; os códigos numéricos atribuídos a estas categorias devem
obedecer a essa ordem

Intervalar =, ≠, <, >, valor das diferenças
Ex: temperatura, escala QI, medidas de atitudes e personalidade
Variáveis quantitativas – quanto valem as diferenças entre os valores: “Entre 10ºC e 30ºC
existe uma diferença idêntica à encontrada ente 70ºC e 90ºC.”… mas 90ºC não é 3 vezes
mais quente do que 30ºC! O zero é arbitrário e não ausência da característica!

Racional Todas as operações aritméticas
Ex: peso, altura, idade, velocidade, níveis de glicémia
O valor mínimo é o zero absoluto, que representa ausência da característica medida.

É possível passar de um nível de mensuração para outro inferior ⇒ Perda de informação


3.5. Plano de Operacionalização das variáveis
Desde o momento que estão definidas diferentes variáveis para um estudo, é de todo o
interesse definir um plano de operacionalização (ou informatização) de variáveis. Neste
plano deve constar qual a notação computacional da variável, assim como os seus possíveis
valores ou códigos, o tipo de variável e a sua importância na investigação. Por exemplo:
Engenharia Biomédica

14



3.6 Codificação das variáveis
3.6.1 Regras
- Todos os dados devem ser numéricos;
- Cada indivíduo ou participante corresponde a uma linha da base de dados;
- Cada variável de cada caso corresponde a uma coluna, na mesma linha, da base de dados;
- Os códigos de uma variável devem ser mutuamente exclusivos;
- Cada variável deve ser codificada de forma a que se obtenha o máximo de informação;
- Cada indivíduo deve estar codificado com um identificador único
- Os códigos devem ser consistentemente aplicados a todos os casos da base de dados

3.6.2 Controlo da Base de dados
É conveniente que se criem regras (escritas) para lidar com alguns problemas como: respostas
duplas, incompletas, em branco, não muito claras, etc.

Não respostas DEVEM ser células em branco, e não ZERO! Eventualmente, atribui-se um
valor superior ao máximo possível para aquela variável como, por exemplo, 99, 999, ...



BioEstatística
15
As não respostas podem
Resultar de erros de introdução ou de recolha de dados ⇒ devem ser eliminadas
Fazer parte da natureza intrínseca do fenómeno⇒ devem ser retidas

Caso estas atinjam ou ultrapassem 20% dos dados, devem ser analisadas com atenção pois, se
não tiverem um comportamento aleatório, irão enviezar os resultados do estudo, podendo
caracterizar o segmento da população que se negou a responder.




Engenharia Biomédica

16
4. REPRESENTAÇÃO DAS VARIÁVEIS
4.1 Indicadores numéricos
As estatísticas apropriadas dependem do nível de mensuração da variável.
Nível de mensuração
Medidas de Nominal Ordinal Intervalar/Ratio
Tendência central Moda
Moda
Mediana
Média aritmética
Moda
Mediana
Localização -
Quantis:
Quartis/decis/percentis...
Quantis:
Quartis/decis/percentis...
Dispersão - Amplitude inter-quartis Erro/Desvio-padrão
Indicadores da
distribuição
- -
Coeficiente de
Assimetria/Achatamento

Distribuição
Simétrica
- coef. assimetria = 0
- média=mediana=moda
Assimetria não confirmada
- 96 . 1
.

− padrão erro
assimetria coef

- moda ≈ mediana ≈ média
assimétrica
- 96 . 1
.
>
− padrão erro
assimetria coef

- assimétrica positiva ou à direita: x Md Mo < <
- assimétrica negativa ou à esquerda: Mo Md x < <


4.2 Representação gráfica
Gráfico de barras, Gráficos Circulares, Histograma de frequências ou de frequências
acumuladas, Polígono de frequências e ogiva de Galton são gráficos já conhecidos do aluno.

Diagrama de extremos e quartis ou caixa de bigodes - Outliers
A representação gráfica permite visualizar o comportamento da variável e identificar as
observações aberrantes ou outliers, que tendem a distorcer a média (aumentando-a ou
BioEstatística
17
diminuindo-a) e o desvio-padrão (aumentando-o). Nestes casos, Assim, estes devem ser
expressamente referidos e analisados aquando da interpretação dos resultados, analisando
ainda o efeito daqueles na distribuição através da comparação das estatísticas resultantes da
análise com e sem observações aberrantes.
Quando os outliers afectam significativamente os resultados, não se deve utilizar o desvio-
padrão como medida de dispersão, mas sim aplicar estatísticas mais robustas, como por
exemplo a amplitude inter-quartil ou a MAD (mediana dos desvios absolutos em relação à
mediana); alternativamente, podem transformar-se os dados de forma a obter a simetria.


Gráficos de Caule e Folhas – reúnem a informação dos
histogramas, mantendo o valor em cada observação.
Actualmente não são muito utilizados.


Diagrama de barras de erro: desvio-padrão, erro-padrão e
intervalo de confiança – muito úteis quando se pretende
comparar uma variável dependente intervalar/ratio em pelo
menos dois grupos independentes. Ilustram não só o valor da
média, mas também a dispersão observada ou o valor esperado
na população, para cada grupo.

Diagramas de Dispersão – Ilustram a relação, casuística ou de
mera associação, entre 2 variáveis; particularmente úteis para
verificar se a relação entre variáveis é do tipo linear.
Testemunha Controlo Estudo
Grupo
2.00
3.00
4.00
V
E
M
S

(
S
)

2
0
0
M
L
]
]
]
Engenharia Biomédica

18
4.3 Representação Tabular
Tabela de distribuição de frequências – 1 variável


Tabela de contingência - Representação simultânea de 2 variáveis



BioEstatística
19
Exemplo: Pretende-se avaliar uma possível relação entre a existência de cáries dentárias e o
sexo e o índice de massa corporal dos jovens portugueses. Pensa-se aidna que o IMC poderá
estar relacionado com a região de residência dos indivíduos.
1. Como planearia este estudo? Descreva sucintamente.
2. Suponha agora que já tinha colhido os dados referentes ao Sexo, Altura e existência de
cáries dentárias. Abra um livro do Microsoft Excel.
2.1. Na folha 1, crie um Plano de Operacionalização de Variáveis para os seguintes dados:
Id Sexo Altura Cáries Id Sexo Altura Cáries Id Sexo Altura Cáries
1 M 1.717 Sim 15 F 1.552 Sim 29 F 1.557 Sim
2 M 1.574 Sim 16 M 1.627 Não 30 F 1.535 Não
3 M 1.618 Sim 17 M 1.516 Sim 31 F 1.535 Não
4 F 1.402 Não 18 M 1.718 Sim 32 M 1.520 Não
5 F 1.427 Não 19 F 1.475 Não 33 1.577 Não
6 M 1.558 Não 20 F 1.505 Não 34 M 1.554 Sim
7 F 1.462 Sim 21 F 1.408 Sim 35 M 1.533 Sim
8 1.504 Sim 22 M 2.522 Sim 36 M 1.562 Sim
9 M 1.754 Não 23 M 1.527 Não 37 F 1.458 Sim
10 M 1.626 Não 24 M 1.622 Não 38 M 1.649 Sim
11 F 1.529 Não 25 F 1.481 Sim 39 M 1.629 Sim
12 F 1.521 Não 26 M 1.704 Não 40 M 1.533
13 M 1.711 Sim 27 F 1.449 Não 41 F 1.592 Não
14 M 1.623 Sim 28 F 1.595 42 F 1.494 Não

2.2. Na folha 2, introduza os dados
3. Abra o SPSS
3.1. Importe os dados do Microsoft Excel
3.2. Altere as propriedades das variáveis: Label, Values, Measure
4. Determine a média, desvio-padrão e amplitude de variação das variáveis altura, peso, e
IMC.
4.1. Detecta algum erro de introdução? Em caso afirmativo, corrija esse valor para 1.522,
e determine novamente os valores pedidos em 4.
4.2. Determine os quartis e amplitude inter-quartil destas variáveis, segundo o sexo.
4.2.1. Existem outliers? Justifique.
5. Qual a percentagem de indivíduos, na amostra, que:
5.1. são do sexo masculino?
5.2. têm dentes cariados?
5.3. são do sexo feminino e têm dentes cariados.
5.4. são do sexo feminino, sabendo que têm dentes cariados.
5.5. têm dentes cariados, sabendo que são do sexo masculino.
Engenharia Biomédica

20
6. Por lapso, não tinham sido registados os valores de peso, para cada indivíduo, nem a
região de residência. Acrescente estas variáveis ao plano de operacionalização das
variáveis, e na base de dados em SPSS introduza a variável peso logo após a variável
altura, e a variável regiao no final, alterando as suas propriedades adequadamente.
Id Peso Regiao Id Peso Regiao Id Peso Regiao
1 92.2 N 15 47.2 S 29 65.7 N
2 75.5 S 16 84.3 S 30 49.4 S
3 73.0 N 17 48.0 N 31 47.7 N
4 41.1 N 18 68.1 N 32 65.8 S
5 53.9 S 19 46.2 S 33 68.4 N
6 67.7 N 20 47.9 S 34 79.3 N
7 42.3 S 21 40.6 N 35 63.8 S
8 52.4 S 22 78.4 S 36 67.6 S
9 102.1 S 23 63.2 N 37 52.3 S
10 65.0 N 24 71.1 N 38 58.5 S
11 46.4 N 25 51.3 S 39 69.8 N
12 53.0 S 26 98.2 S 40 67.2 S
13 76.6 S 27 57.6 S 41 47.8 N
14 60.9 N 28 51.4 N 42 41.2 S

7. Crie a variável Índice de Massa Corporal (IMC), que será automáticamente calculada
como
2
altura peso .
7.1. Descreva sucintamente esta variável, em termos estatísticos.
8. Crie a variável IMC_cl, que representa o IMC em classes, de acordo com a seguinte
classificação:
1 IMC < 18 Magreza
2 18 < IMC < 25 Normal
3 25 < IMC < 30 Excesso de Peso
4 30 < IMC < 35 Obesidade I
5 35 < IMC < 40 Obesidade II
6 40 < IMC < 45 Obesidade III
9. Recodifique esta variável (IMC_cl) em 4 clases, aglutinando as classes 4, 5 e 6 numa só.
(não se esqueça de acrescentar estas variáveis ao Plano de Operacionalização de Variáveis).
9.1. Descreva esta variável, em termos estatísticos
9.2. Qual a taxa de indivíduos com excesso de peso e obesidade?
9.3. Qual a taxa de indivíduos obesos, com cárie dentária.
9.4. Qual a taxa de indivíduo normais, com cárie dentária.
9.5. Qual a taxa de indivíduos com e sem cáries dentárias, entre os indivíduos:
9.5.1. obesos.
BioEstatística
21
9.5.2. normais
9.5.3. Parece-lhe ser viável o objectivo definido?
9.6. Parece-lhe que a ocorrência de cáries é mais frequente no sexo masculino?
9.7. Para cada região, determine
9.7.1. Em que região é mais frequente haver cáries dentárias?
9.7.2. O IMC médio em cada região.
9.7.3. Fará sentido estudar o objectivo do estudo, em cada região?

Engenharia Biomédica

22
5. DISTRIBUIÇÕES DE PROBABILIDADES
Função densidade de probabilidade – função que determina a probabilidade do valor de cada
observação da amostra na população: f(x)
A partir do conhecimento desta função, e dum número infinito de amostras com a mesma
dimensão da amostra em estudo pode estimar-se a distribuição amostral, ou seja, na prática, é
possível testar se as observações da amostra em estudo se ajustam a uma distribuição teórica.

Função de distribuição – Função real de variável real: F(x)= P(X < x)
1. 0 < F(x) < 1
2. F é não decrescente
3. Para qualquer função de distribuição F tem-se que
a. 0 ) ( lim =
−∞ →
x F
x
; 1 ) ( lim =
+∞ →
x F
x

b. ) ( ) ( ) ( , : , a F b F b X a P b a b a − = ≤ < < ℜ ∈ ∀
c. F é contínua à direita

5.1 Algumas distribuições de variáveis aleatórias contínuas
Distribuição Uniforme ) , ( b a U
Esta é a mais simples das distribuições contínuas, mas uma das mais importantes. É utilizada
para representar quantidades que variam aleatoriamente no intervalo [a,b], e cuja
probabilidade de tomar valores num qualquer subintervalo de [a,b] é proporcional ao seu
comprimento, logo constante nesse subintervalo.

Distribuição normal ou de Gauss
2
) , (
2
σ µ N
Fenómenos físicos, medidas biológicas, erros de medição, etc.
Polígonos de frequências regulares com grau de simetria e achatamento próximos dos de uma
distribuição normal
Quando se passa da distribuição de frequências para a distribuição de probabilidades obtém-se

2
Descrita pela primeira vez por De Moivre em 1733; Gauss, séc. XVIII-XIX teve um papel decisivo no seu
desenvolvimento.
BioEstatística
23

Características:
A variável aleatória X pode tomar um qualquer valor dentro do intervalo de variação
A curva representativa da distribuição tem a forma de sino e é simétrica relativamente à
média
Os valores da média, mediana e moda são iguais
Devido à simetria, 5 . 0 ) ( ) ( = > = < µ µ X P X P

As curvas em forma de sino diferem apenas pelos valores de µ , centro da distribuição, e de
σ , variabilidade dos valores de X relativamente à média.

Geometricamente, a probabilidade da variável aleatória X, de média 0 e variância 1, assumir
valores no intervalo ]-1,96; 1,96[ é dada pela região a
sombreado na figura:
Para esta variável, existe uma tabela que fornece os valores
de probabilidade em intervalos sucessivos e de amplitude
suficientemente pequena de modo a que a aproximação a
efectuar no encontro da área apropriada é bastante boa.

MAS…há uma infinidade de curvas, consoante µ e σ . Nos restantes casos utiliza-se
e
x
b X a P
b
a
|
¹
|

\
| −
= < <

∫ σ
µ
σ π
2
2
1
2
1
) (
Engenharia Biomédica

24
Necessidade de padronizar:
σ
µ −
=
X
Z : Z é N(0,1)

A média amostral é uma das estatísticas mais importantes quer para a teoria da estimação quer
da decisão. Outra característica importante da distribuição de probabilidades é que, à medida
que a dimensão das amostras utilizadas para calcular a distribuição amostral da média
aumenta, a distribuição da média amostral tende para a distribuição normal,
independentemente do tipo de distribuição da variável em estudo – teorema do limite central.

Ex.: Distribuição da média das classificações a uma cadeira de estatística em 100 amostras
aleatórias de dimensão n

Inicialmente, a distribuição era claramente assimétrica à direita, mas à medida que a dimensão
das amostras aumenta, o histograma das frequências de X vai assumindo a “forma de sino”
típica da distribuição normal.



BioEstatística
25
Distribuição do Chi-quadrado χ
2
(n)
Uma variável aleatória X (

=
=
n
i
i Z
X
1
2
) obtida pela soma dos quadrados de n variáveis
aleatórias ) 1 , 0 ( ~ N Z
i
diz-se ter uma distribuição do tipo
χ
2
com n graus de liberdade
A representação gráfica da função densidade de
probabilidade é a seguinte, para 2, 4, 8 e 22 graus de
liberdade. Note-se que, à medida que o número de graus
de liberdade aumenta, a curva vai-se tornando mais
parecida com a curva normal.

Distribuição t-Sudent t(n)
Dadas ) 1 , 0 ( ~ N Z e Y~χ
2
(n) tais que Z e Y são
independentes, a variável
n
Y
Z
X = diz-se ter uma
distribuição t-Student com n graus de liberdade.
A representação gráfica da função densidade de
probabilidade é dada de seguida, para 3 e 6 graus de
liberdade.


Distribuição F-Snedecor F(n
1
,n
2
)
Sejam Y
1
, χ
2
(n
1
) e Y
2
, χ
2
(n
2
) duas variáveis aleatórias e
2
2
1
1
n
Y
n
Y
X = . X diz-se ter uma distribuição F-Snedecor com
n
1
e n
2
graus de liberdade. Na imagem seguinte
encontram-se representadas duas variáveis com (5,5)
graus de liberdade e (15,15) graus de liberdade.



Engenharia Biomédica

26
Distribuição Exponencial )
1
(
λ
E
Esta distribuição está associada a um processo de Poisson
3
, ou seja, a ocorrência de eventos
independentes a uma taxa constante, num intervalo de tempo ou numa região dos espaço, e
tem uma larga aplicação no estudo das filas de espera e da fiabilidade de sistemas complexos,
usando-se para representar o intervalo de tempo entre dois eventos. Tem-se:


5.2 Algumas distribuições de variáveis aleatórias discretas
Distribuição Discreta Uniforme ) , ( j i DU
É a mais simples de todas as distribuições discretas. Caracteriza-se por:
todos os valores possíveis são equiprováveis:

Aplicam-se, assim, à ocorrência de fenómenos aleatórios igualmente prováveis, ou como
primeiro modelo para quantidades que variam entre i e j, mas acerca da qual pouco é sabido.

Distribuição Binomial ) , ( p n Β
Sequência de experiências com as seguintes características:
cada prova tem como resultado um de dois acontecimentos mutuamente exclusivos
(sucesso/insucesso)
a probabilidade de sucesso p permanece constante nas várias provas e a probabilidade de
insucesso é q = 1-p
as provas são independentes, ou seja, o resultado de cada uma não afecta o resultado das
restantes


3
Ver distribuição de Poisson (discreta)
BioEstatística
27
À semelhança da distribuição χ
2
(n) e da t-Student, o teorema do limite central assegura
também que a distribuição binomial se aproxima da distribuição normal para valores elevados
de n e valores de p que produzam uma distribuição simétrica.
Na prática, consideramos uma aproximação correcta para
¦
¹
¦
´
¦
>
>
< <
5
5
9 . 0 1 . 0
nq
np
p

A padronização da variável X, B(n,p), para a variável Z, N(0,1) obtém-se através da seguinte
transformação, aplicando a correcção de continuidade:
npq
np X
Z
− ±
=
) 5 . 0 (
, dado que
¹
´
¦
=
=
npq
np
2
σ
µ



Distribuição de Poisson ) (λ P
Associada a processos de contagens de um determinado número de eventos independentes, ao
longo do tempo ou numa região do espaço:
o número de eventos que ocorrem em dois intervalos disjuntos são independentes
a probabilidade de ocorrer exactamente um evento em qualquer intervalo de amplitude t ∆
arbitrariamente pequena é aproximadamente t ∆ λ
a probabilidade de ocorrerem dois ou mais eventos em qualquer intervalo de amplitude t ∆
arbitrariamente pequena é aproximadamente igual a zero.
Também a distribuição de Poisson
pode ser aproximada a uma
distribuição normal, uma vez
que λ σ µ = =
2
, considerando que a
aproximação é correcta
quando
¹
´
¦

> ∨ <
5
9 . 0 1 . 0
λ
p p

A padronização da variável X, ) (λ P ,
para a variável Z, N(0,1) obtém-se
através da seguinte transformação:

λ
λ − ±
=
) 5 . 0 ( X
Z
Engenharia Biomédica

28

5.3 Relação entre as Distribuições Contínuas




5.4 Relação entre as Distribuições Discretas






BioEstatística
29
6. INTERVALOS DE CONFIANÇA E TESTES ESTATÍSTICOS EM POPULAÇÕES NORMAIS

6.1 Teoria da Estimação
A teoria da estimação tem como objectivo estimar parâmetros de uma população teórica a
partir de estatísticas obtidas numa amostra representativa dessa população.
Assim, se se extraírem n amostras de uma população cuja função densidade depende de um
parâmetro (por exemplo, a média) do qual se desconhece o verdadeiro valor, é necessário
estimá-lo, com um determinado grau de
Precisão - estimação por pontos
Confiança - estimação por intervalos
Fixada a dimensão da amostra, quanto mais precisa for a resposta, menor será a confiança
nela depositada.

Estimação por pontos:
x é o melhor estimador de µ
s
n
n
s ×

=
1
^
é o melhor estimador deσ

Estimativa ≠ Estimador
Estimador (θ ) é uma variável aleatória, função da amostra casual
Estimativa (
^
θ ) é o valor concreto do estimador para uma amostra em particular
Uma estimativa pontual de um parâmetro da população está fortemente dependente da
estimativa amostral. Se se extraírem n amostras da mesma população, é altamente improvável
obter amostras que tenham a mesma média amostral, ou seja, teria n estimativas diferentes da
média populacional. Dado que o valor da média populacional é único, uma estimativa pontual
pode ou não ser coincidente com o parâmetro populacional. Assim, este tipo de estimativa não
possui nenhum grau de certeza (ou incerteza) associado à estimativa obtida. A alternativa é
utilizar a estimação por intervalos.

Estimação por intervalos:
Há situações em que é preferível a estimação por intervalos. Esta pode obter-se associando
um determinado grau de confiança ao estimador pontual, uma vez conhecida a distribuição
amostral. Assim, em vez de propor uma estimativa isolada para um determinado parâmetro,
Engenharia Biomédica

30
faz-se acompanhar esta de um determinado intervalo (a, b) para significar que o verdadeiro
valor do parâmetro está, muito provavelmente, entre a e b. Ao associar um intervalo à
estimativa proposta, atribui-se ao mesmo intervalo um grau de confiança. Este intervalo pode
ser considerado uma medida da precisão ou do erro inerente à estimativa.
Normalmente, o que se pretende estimar é µ (média da população),
2
σ (variância da
população) ou π (proporção da população).

Tendo uma amostra particular, a partir da qual se determina a estimativa para um parâmetro
(ex: a média), o intervalo de confiança a (1-α αα α)100% para µ , dado por (a, b), traduz o grau
de confiança que se tem em que uma particular amostra dê origem a um intervalo (a,b).
Incorrecto dizer que (1-α) é a probabilidade de ) , ( b a ∈ θ dado que os extremos do intervalo, a
e b, não são aleatórios.





6.2 Teoria da Decisão
A teoria da decisão, através dos testes de hipóteses, é uma outra forma de inferir sobre o
parâmetro da população, associando a este processo um determinado nível de significância
(α). Contrariamente aos intervalos de confiança, o teste de hipóteses tem como objectivo
refutar (ou não) uma determinada hipótese acerca de um ou mais parâmetros da população, a
partir de uma ou mais estimativas obtidas nas amostras.
Ex: Testar se, por hipótese, a média populacional é igual a um determinado valor, ou se a
média de uma população é superior à de outra, se a variância de 5 populações são iguais, etc.

BioEstatística
31
Considere-se uma população com uma determinada função de distribuição (F). Uma hipótese
estatística é qualquer conjectura sobre aspectos desconhecidos de F. Quando a forma da
função de distribuição ou da função densidade (função probabilidade) é conhecida, e a
conjectura diz respeito apenas ao parâmetro, tem-se uma hipótese paramétrica.
Ex: A conjectura “X é uma variável aleatória com distribuição normal” é uma hipótese
estatística não paramétrica. Caso se saiba que X segue uma distribuição normal, a conjectura
“ 1 , 3
2
= = σ µ ” corresponde a uma hipótese paramétrica.

Estas questões são formuladas sob a forma de hipóteses referentes ao(s) valor(es) do(s)
parâmetro(s) e referentes a alternativa caso se rejeite aquela hipótese. Assim, a hipótese
inicial, mais restritiva, designa-se por hipótese nula e representa-se por H
0
, representando-se
a hipótese alternativa por H
1
ou H
a
. A hipótese nula só deve ser rejeitada caso exista
evidência suficiente, a um nível significativo, que de facto H
0
não é válida, ou seja, deve ser
defendida até a evidência mostrar o contrário, enquanto que a hipótese alternativa apenas é
adoptada se a hipótese nula for rejeitada.

Ex: A média dos efeitos de um determinado medicamento é nula
Teste bilateral
¹
´
¦

=
0 :
0 :
1
0
µ
µ
H
H

Teste unilateral à esquerda
¹
´
¦
<
=
0 :
0 :
1
0
µ
µ
H
H

Teste unilateral à direita
¹
´
¦
>
=
0 :
0 :
1
0
µ
µ
H
H


Assim, considerando-se uma amostra casual da população, (X
1
,X
2
,…,X
n
), com determinada
função densidade (probabilidade), o espaço-amostra é o conjunto de todas as amostras
particulares (x
1
,x
2
,…,x
n
). Um teste de hipóteses deve basear-se no comportamento
probabilístico de (X
1
,X
2
,…,X
n
), no espaço-amostra, e estabelecer um critério para determinar
quais as amostras concretas (x
1
,x
2
,…,x
n
) que levam à rejeição da hipótese nula (e,
consequentemente, à aceitação da alternativa). Assim, um teste de hipóteses é uma regra que
permite especificar um subconjunto R do espaço-amostra tal que

Engenharia Biomédica

32
se ( )
0 2 1
Re ,..., , H se jeita R x x x
n
− ⇒ ∈
( )
0 2 1
,..., , H se Aceita R x x x
n
− ⇒ ∉
A este conjunto R chama-se região crítica ou região de rejeição de H
0
.
A definição desta região depende do tipo de teste escolhido. No caso de um teste bilateral,
tem-se

Por outro lado, se o teste é unilateral à esquerda, a região crítica é definida à esquerda da
média, enquanto que num teste unilateral à direita define-se a região de rejeição à direita da
média:


Ao proceder ao teste de H
0
contra H
1
podem ser cometidos dois tipos de erros:
O erro de 1ª espécie ou erro tipo I que consiste em rejeitar H
0
quando esta é verdadeira
O erro de 2ª espécie ou erro tipo II que consiste em aceitar H
0
quando esta é falsa
Decisão tomada H
0
verdadeira H
0
falsa
Rejeitar H
0

Erro tipo I
) / (
0 0
verdadeira H rejeitarH P = α
Potência do teste
) / ( 1
0 0
falsa H rejeitarH P = − β
Aceitar H
0

Nível de confiança
1- α
Erro tipo II
) / (
0 0
falsa H aceitarH P = β
BioEstatística
33
Por exemplo, seja H0: Inocente; H1: Culpado
Então α=P(enviar um inocente para a cadeia) e β=P(não prender um culpado)
α e β estão inversamente relacionados. Só aumentando n se reduz simultaneamente
ambos.

Quando se emprega o teste de nível de significância α, associado à região crítica R, e se
observa a amostra concreta (x
1
,x
2
,…,x
n
), pode ocorrer uma das duas situações seguintes:
( ) R x x x
n
∉ ,..., ,
2 1
e não há motivo para rejeitar H
0
ao nível de α100%
( ) R x x x
n
∈ ,..., ,
2 1
e deve rejeitar-se H
0
ao nível de α100%

Passos de um teste estatístico
Identificação do tipo de distribuição amostral
Formulação das hipóteses a testar
Definição do nível de significância
Definição da região crítica ou região de rejeição de H
0

Calculo da estatística do teste (VC), sob H
0

Decisão estatística

Ao menor valor de α a partir do qual se rejeita H
0
chama-se probabilidade de significância
ou, mais simplesmente, valor-p. O teste de hipóteses permite obter a probabilidade de, em
qualquer experiência, ser encontrado o valor observado nesta amostra ou outro valor mais
extremo, sendo a hipótese nula verdadeira. Designando esta probabilidade por p:

p = prob(|valor| ≥ valor observado | H
0
)

Este valor representa uma medida complementar do grau de certeza a partir do qual
assumimos como real o resultado da estatística amostral dado que é a probabilidade de obter
este ou outro valor mais desfavorável para a hipótese nula, admitindo que esta hipótese é
verdadeira. Assim, o valor-p é uma medida da evidência que os dados fornecem a favor de H
0
.
Normalmente, situa-se o valor-p relativamente aos níveis de significância mais habituais
(0.05, 0.01), fixados previamente ao estudo, donde deve rejeitar-se a hipótese nula sempre que
se tem p<α αα α. Por exemplo, se 0.01 < p < 0.05 ⇒ a evidência contra H
0
não é significativa ao
nível de 0.01 (1%) mas já o é ao nível de 0.05 (5%), ou deve rejeitar-se H
0
ao nível de 5%
Engenharia Biomédica

34
mas não de 1%, ou seja, quanto menor for p menor é a consistência dos dados com a hipótese
a testar (H
0
). Abaixo de determinados valores ou limiares de significância (0,05 ou 0,01)
dizemos que existe forte evidência contra esta hipótese (H
0
) que por isso deve ser rejeitada.

Passos de um teste estatístico com recurso a uma aplicação estatística (ex: SPSS)
Identificação do tipo de distribuição amostral
Formulação das hipóteses a testar
Definição do nível de significância
Cálculo do valor-p, sob H
0

Decisão estatística


O problema que agora se coloca é saber a que nível de significância deve ser rejeitada H
0
.
Suponha que com determinada amostra é encontrado o valor p=0,03. Deve ou não rejeitar H
0
?
Estando este valor p compreendido entre os limiares de significância (ou níveis de
significância habitualmente considerados) 0,01 e 0,05 há autores que diriam ser de rejeitar ao
nível de significância de 5% mas não ao de 1%.
Outros autores consideram apenas a comparação do valor p observado com o nível de
significância estabelecido antes do estudo, dependente do critério do investigador. Se, por
exemplo, o nível fixado foi de 5%, dir-se-ia apenas que sendo p<0,05 rejeita-se H
0
ao nível de
significância de 5%. Se o nível fixado foi de 1%, dir-se-ia que sendo p>0,01 não pode
rejeitar-se H
0
ao nível de significância de 1%.


6.3 Intervalos de Confiança versus Testes de Hipóteses
Ambos são métodos de inferência estatística que têm associado uma determinada
probabilidade de erro;
Pode utilizar-se um intervalo de confiança a (1-α)100% para concluir acerca da rejeição
ou não de H
0
num teste de hipóteses bilateral para um nível de significância α.

Qual dos métodos usar?
Depende dos objectivos do estudo… em ensaios clínicos, pretende-se geralmente demonstrar
a eficácia (ou não) de um determinado tratamento ou medicamento. Se o tratamento tiver um
BioEstatística
35
efeito significativo, então a média das variações da variável sob estudo será
significativamente diferente de 0, isto é, pretendemos rejeitar 0 :
0
= µ H em favor de
0 :
1
≠ µ H , independentemente da magnitude de µ , sendo este tipo de inferência requerido
para publicação do estudo em revista científica.

Contudo, para o gestor do produto (medicamento), o intervalo de confiança para a média das
variações tem mais interesse, pois o gestor poderá concluir acerca da dimensão e credibilidade
do efeito do medicamento, o que será de maior peso em decisões administrativas do que o
facto do efeito médio ser (ou não) diferente de zero.

Pense no seguinte exemplo:
Uma companhia produtora de baterias para pacemakers garante que a vida média de cada
bateria é de, pelo menos, 3 anos. Se a data de operação cirúrgica, para substituição da bateria,
se basear na garantia do fabricante:
Como explicaria ao gestor da companhia as consequências do erro tipo I e erro tipo II?
Preferia utilizar um teste estatístico para averiguar se a vida média de cada bateria é, de
facto, 3 anos, ou utilizaria um Intervalo de Confiança? Porquê?


Engenharia Biomédica

36
7. POPULAÇÕES NORMAIS
7.1 Intervalo de Confiança e teste t de Student
Normalmente, quando se está a fazer um teste à média (
¹
´
¦

=
0 :
0 :
:
1
0
µ
µ
H
H
bilateral teste ) ou a
determinar um intervalo de confiança para a média populacional ( µ ), não se conhece a
variância da população (
2
σ ). Assim, utiliza-se
2
2
^
1
s
n
n
s ×

= como estimador de
2
σ , donde
a variável aleatória Z ( ) 1 , 0 ( ~ N
n
X
Z
σ
µ −
= ) deixa de poder ser utilizada uma vez que, para
além µ , se desconhece σ (parâmetro perturbador).
A variável que passa a ter condições para ser utilizada na determinação do intervalo de
confiança para µ ou na realização do teste estatístico é ) 1 ( ~
^


= n t
n s
X
T
µ
.

O intervalo de confiança é dado por
) ; (
^
2
^
2
n
s
t x
n
s
t x
α α
+ − , com
2 α
t a verificar P(T>
2
)
2
α
α
= t
Dado que esta variável aleatória (T) tem, também, uma distribuição simétrica relativamente à
origem, tem-se que a amplitude do intervalo varia de amostra para amostra, já que depende de
^
s e da dimensão da amostra.

Pense nos seguintes casos:
O que acontece ao intervalo de confiança quando aumenta o nível de confiança?
Se a variância da amostra aumentar para o dobro, o que acontece à amplitude do intervalo
de confiança?
Se a amostra passar a ter mais 100 casos, com valores iguais à média amostra, o que
acontece ao intervalo de confiança?
O que pode fazer se quiser reduzir para metade a amplitude de um intervalo de confiança?




BioEstatística
37
7.1.1 Duas Amostras emparelhadas
Neste caso, o intervalo de confiança pode ser determinado, baseando-nos na média das
diferenças de cada uma das variáveis. Constrói-se a variável Diferença, e determina-se o
Intervalo de Confiança para a nova variável. Para a realização do teste estatístico, procede-se
da mesma forma. Contudo, as aplicações estatísticas fazem-no automaticamente.
¦
¹
¦
´
¦

=

¦
¹
¦
´
¦
≠ −
= −

¦
¹
¦
´
¦

=
Depois Antes
Depois Antes
Depois Antes
Depois Antes
Dif
Dif
H
H
H
H
H
H
bilateral teste
µ µ
µ µ
µ µ
µ µ
µ
µ
:
:
0 :
0 :
0 :
0 :
:
1
0
1
0
1
0


Exemplo 1: Deseja-se saber se um programa de reabilitação após enfarte de miocárdio
diminui a frequência cardíaca de esforço. Para tal, 10 doentes com enfarte do miocárdio foram
submetidos a uma prova de esforço antes e depois do programa. Os resultados, expressos em
batimentos por minuto, estão no quadro seguinte. Indique se o programa de reabilitação foi
eficaz.
Doente 1 2 3 4 5 6 7 8 9 10
x
s
n s
Antes 147 122 127 141 150 132 157 147 157 155 143.5 12.63 4.00
Depois 132 117 142 125 116 130 122 118 135 117 125.4 8.99 2.84
Dif. 15 5 -15 16 34 2 35 29 18 38 18.1 17.03 5.38
Depois Antes
160
150
140
130
120
110
9
5
%

C
I
Média das diferenças: frequência cardíaca
40,00
30,00
20,00
10,00
0,00
9
5
%

C
I

f
c


Exemplo 2: Foi estudado o grau de satisfação (medido por questionário) de vários utentes de
uma clínica dentária antes e depois de lhes ser aplicada uma nova prótese total removível. Os
resultados, expressos em score de satisfação, foram os apresentados de seguida. Supondo que
os scores seguem uma distribuição normal, indique se aplicação da nova prótese influenciou o
grau de satisfação dos utentes.
Doente 1 2 3 4 5 6 7 8
x
s
n s
Antes 4 10 8 13 7 3 15 7 8.38 4.14 1.46
Depois 4 16 11 17 17 4 18 11 12.25 5.75 2.03
Dif. 0 -6 -3 -4 -10 -1 -3 -4 -3,88 3,09 1.09
Engenharia Biomédica

38
Depois Antes
17,5
15,0
12,5
10,0
7,5
5,0
9
5
%

C
I
Média das diferenças: Satisfação Prótese
0,00
-2,00
-4,00
-6,00
-8,00
9
5
%

C
I

p


7.1.2 Duas Amostras independentes
Neste caso, não é possível construir o intervalo de confiança fazendo a média das diferenças,
uma vez que cada indivíduo não tem um par de observações (tem-se a diferença de médias). O
mesmo se passa com o teste estatístico. Eventualmente, poderão existir grupos de dimensões
diferentes…
¹
´
¦

=

¹
´
¦
≠ −
= −
B A
B A
B A
B A
H
H
H
H
bilateral teste
µ µ
µ µ
µ µ
µ µ
:
:
0 :
0 :
:
1
0
1
0


Por outro lado, o que acontece se a variabilidade de cada grupo é diferente? Serão as médias
de dois grupos com variabilidade diferente comparáveis?

O teste de Levene (1960) é um dos testes mais potentes para testar a homogeneidade das
variâncias e é automaticamente efectuado pelo SPSS quando se efectua um teste t para
amostras independentes, sendo o intervalo de confiança determinado com base no resultado
daquele. As hipóteses estatísticas são as seguintes:
¦
¹
¦
´
¦

=
2 2
1
2 2
0
:
:
B A
B A
H
H
σ σ
σ σ


No caso de se desconhecer a variância populacional, a variável T tem condições para se
definir como variável fulcral, ficando o Intervalo de Confiança definido por
) ) ( ; ) ((
*
2
*
2
s t x x s t x x B A B A
α α
+ − − − , e P(T>
2
)
2
α
α
= t
com
*
s dado computacionalmente por uma qualquer aplicação estatística (SPSS).
BioEstatística
39
20-22 17-19
Escalão etário
30,00
25,00
20,00
15,00
9
5
%

C
I

I
M
C
Exemplo 1: Foi efectuado um estudo sobre o índice de massa corporal consoante o escalão
etário, em 16 estudantes do ensino superior, tendo-se obtido os seguintes dados:
Idade IMC
x
s
17-19 20,8 19,6 39 30,3 29,1 15,4 30,7 27 26.49 7.55
20-22 21,1 15,1 8,7 17,7 13,3 18,2 20,6 15,7 16.30 4.06

Observe agora os resultados obtidos no SPSS. O que conclui?
Levene's Test t-test for Equality of Means
95% Confidence Interval
of the Difference


F Sig. T df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
Lower Upper
IMC
Equal variances
assumed
2,82 ,115 3,36 14 ,005 10,18750 3,03053 3,68767 16,68733

Equal variances
not assumed


3,36 10,7 ,007 10,18750 3,03053 3,49811 16,87689

Pelo teste de Levene pode-se assumir a
igualdade de variâncias.
A leitura do teste t de Student para amostras
independentes e do Intervalo de confiança
para a diferença de médias é feita, assim, na 1ª
linha da tabela de resultados, ou pelo gráfico
seguinte:


Exemplo 2: Verificou-se ter havido um erro na introdução dos dados (IMC=8,7), pelo que
esse indivíduo será eliminado da amostra.
Suponha ainda que os critérios de inclusão/exclusão do estudo exigiam que os sujeitos
tivessem IMC entre 15 e 30, pelo que se excluíam 3 sujeitos no escalão dos 17-19 anos, e 2 do
outro grupo. Os resultados seriam os seguintes:
Levene's Test t-test for Equality of Means
95% Confidence Interval
of the Difference


F Sig. T df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
Lower Upper
IMC
Equal variances
assumed
5,49 ,044 1,71 9 ,121 4,31333 2,51796 -1,38269 10,00936

Equal variances
not assumed
1,59 5,28 ,168 4,31333 2,69781 -2,51350 11,14016
Engenharia Biomédica

40
Neste caso, não há homogeneidade de variância pelo que os resultados do teste t de Student
para amostras independentes têm de ser lidos na segunda linha, ou visualizados no gráfico que
se segue:
20-22 17-19
Escalão etário
30,00
28,00
26,00
24,00
22,00
20,00
18,00
16,00
9
5
%

C
I

I
M
C

1
5
-
3
0



7.2 K Populações Normais e Independentes (k>2): ANOVA
Uma das aplicações da Análise de Variância (ANOVA) é a comparação entre médias de m
populações normais, ou seja, testar a hipótese
{ }
¹
´
¦
≠ ≠ ∈ ∃
= = =
j i
m
j i m j i H
H
µ µ
µ µ µ
: , ,..., 2 , 1 , :
... :
1
2 1 0


A primeira hipótese que provavelmente colocaria seria comparar as médias duas a duas
através de um teste t-Student… Este procedimento, ainda que possível, não é válido, dado que
a estatística e o valor crítico deste teste só são válidos para comparar médias de 2, e apenas 2
populações, a partir das quais se extraíram duas amostras aleatórias.
De facto, enquanto que no teste a duas populações o erro tipo I não será superior a % 100 × α ,
utilizando esse mesmo teste para comparar mais m populações, duas a duas, ter-se-ia um erro
tipo I aproximadamente de % 100 ) 1 ( 1 × − −
m
α . Por exemplo, em 3 populações, para
05 . 0 = α , a probabilidade de um erro tipo I, ou seja, de concluir erradamente que existe
diferença entre as 3 populações é de 14.3%.
Assim, é necessário avaliar a forma como as m populações são definidas, com base num ou
mais critérios (ou factores) e a variabilidade patenteada pelas amostras de cada uma das
populações.
BioEstatística
41
Por exemplo, suponha que queria testar a igualdade da média em 3 populações (A, B e C), e
considerem-se as duas situações apresentadas na imagem seguinte, onde se podem observar 5
observações amostrais de cada uma das 3 populações:

Note-se que as médias amostrais relativas às várias populações são iguais nas duas situações.
Contudo, intuitivamente os gráficos sugerem conclusões diferentes; enquanto que no primeiro
caso se tende a rejeitar quase de imediato a hipótese de igualdade de médias, no segundo caso
a tendência é para aceitar, com alguma facilidade, a hipótese de igualdade de médias.

Assim, a variabilidade dos dados relativos a cada população é um aspecto fundamental a ter
em conta no teste de hipóteses de igualdade de médias.
Se a variabilidade em torno de cada uma das médias amostrais é grande,
comparativamente com a variabilidade entre as médias amostrais (2º caso), tende-se a
não rejeitar a hipótese nula;
Assim, parece aceitável fundamentar o teste de hipóteses na comparação entre estas
variabilidades ⇒ Análise de Variância (ANalysis Of VAriance).



Engenharia Biomédica

42
A ANOVA é relativamente robusta a desvios à normalidade desde que o número de
elementos em cada grupo seja relativamente grande, sendo que a não normalidade tem
consequência mínimas na interpretação dos resultados quando a distribuição não é muito
enviezada.
A distribuição F, na qual se baseia a ANOVA, é também robusta a violações da
homocedasticidade (homogeneidade de variâncias entre os grupos) desde que o número de
observações em cada grupo seja aproximadamente igual, considerando-se que os grupos são
de dimensão semelhante quando o quociente entre a dimensão do maior grupo e do menor for
inferior a 1,5.

7.2.1 ANOVA a 1 factor
A definição das m populações é feita com base num critério ou factor (por exemplo, definem-
se 3 populações segundo os escalões etários [20, 30[, [30, 40[, [40, 50[).
Caso se rejeite a hipótese H
0
de igualdade de médias, conclui-se, para um determinado nível
de significância α, que as m populações não apresentam comportamento idêntico perante o
critério ou factor que serviu para efectuar a classificação. Contudo, só é legítimo considerar
este factor a causa das diferenças entre as médias das populações se se puder garantir a
homogeneidade das populações relativamente a todos os outros factores que podiam ser
relevantes para a explicação do fenómeno.
Sejam m i X X X
i
in i i
,..., 2 , 1 , ,..., ,
2 1
= m amostras causais independentes com distribuição
normal de média desconhecida e variância comum desconhecida, isto é,
m i n j N X
i i ij
,..., 2 , 1 , ,..., 2 , 1 ), , ( ~
2
= = σ µ

Assim, ) , 0 ( ~ ,
2
σ ε ε α µ N X
ij ij i ij
+ + = , o que implica que
i i
α µ µ + =
Valor Observado = Média Geral + Efeito do nível i do factor + Variável Residual

Baseado no modelo teórico da ANOVA para a população, é possível escrever o modelo a
partir das observações amostrais:
( ) ) ( i
ij
i
ij
x x x x x x − + − + =



Observação ij
Média amostral (estimativa de µ)
Efeito do nível i do factor Resíduos
BioEstatística
43
O cálculo da estatística teste para a ANOVA requer o conhecimento das estimativas da
variabilidade dentro dos grupos (isto é, a variação residual ou dos erros de medida), estimada
a partir de ) ( i
ij
x x − e da variabilidade entre as amostras (variação factorial, devida ao factor)
que pode ser estimada a partir de ( ) x xi − . Em ambos os casos, determinam-se as somas dos
quadrados:
( ) ( )
∑ ∑∑
= = =
− = − =
m
i
i
i
m
i
n
j
i
ij
s n X X SQD
i
1
2
^
1 1
2
1
( )

=
− =
m
i
i
i
X X n SQE
1
2

Sendo assim, é possível obter uma estimativa da variabilidade total, dada por

Soma Quadrados Total = Soma Quadrados Dentro Amostras + Soma Quadrados Entre Amostras

A estatística teste da ANOVA é dada pela razão entre a variância do factor (ou entre as
amostras, estimada a partir de
1 − m
SQE
), e a variância dos erros (ou dentro das amostras,
estimada a partir de
m n
SQD

), ou seja, a partir da variável ) , 1 ( ~
) (
) 1 (
m n m F
m n
SQD
m
SQE
F − −


= .
Fonte de Variação
Soma dos
Quadrados
Graus de
Liberdade
Médias Quadráticas F
Entre Amostras SQE m-1 ) 1 ( − = m SQE MQE
Dentro das
amostras
SQD n-m ) ( m n SQD MQD − =
MQD MQE F =
Total SQT n-1

Este procedimento permite testar a existência de diferenças estatisticamente significativas
entre as médias das m populações.

Quando se conclui que tais diferenças existem é interessante qualificá-las, através:
Engenharia Biomédica

44
Do cálculo do intervalo de confiança para a média de cada população, usando a
distribuição t-Student com n-m graus de liberdade:
|
|
¹
|

\
|
+ −
i
i
i
i
n
MQD
t x
n
MQD
t x
2 /
0
2 /
0 ,
α α

No SPSS, efectuam-se comparações múltiplas das médias usando as comparações Post-
Hoc através dos testes de Tuckey, Fisher-LSD, Scheffé ou Bonferroni, entre outros.
O teste de Tuckey é um dos mais robustos a desvios à normalidade e homogeneidade de
variâncias para amostras grandes, enquanto que em amostras pequenas, o teste de
Bonferroni é um dos mais potentes.
Quando se compara um número reduzido de grupos, muitas vezes opta-se por testes mais
simples, como os de Fisher-LSD ou de Scheffé.
É possível, ainda que pouco provável, que a ANOVA e os testes de comparações
múltiplas cheguem a conclusões diferentes, isto é, pode rejeitar-se H
0
na ANOVA, sem
que um teste para comparações múltiplas detecte a diferença entre pares de médias… Tal
deve-se ao facto de a ANOVA ser um teste mais potente (ou seja, onde a probabilidade de
rejeitar H
0
correctamente é mais elevada), enquanto que os testes para comparações
múltiplas têm associado maiores probabilidades de erro tipo II) ⇒ repetição do estudo
com amostras de maior dimensão de modo a reduzir a probabilidade de erro tipo II.
Outra hipótese é realizar comparações à priori, ou seja, comparações planeadas,
usando contrastes. Estas comparações são mais potentes do que testes post-hoc, uma vez
que, de facto, serão testes t de Student que serão efectuados, mas exigem que a decisão
acerca das condições de interesse a testar sejam tomada à priori, daí serem menos
utilizados.
Os coeficientes do contraste são números positivos ou negativos (eventualmente nulos)
que definem as hipóteses a serem testadas, testando relações específicas entre grupos
através de uma combinação linear das médias cuja soma dos coeficientes se anula.
Por exemplo, se houver 5 grupos e pretender comparar os grupos 1 e 3 com o grupo 4,
basta definir os coeficientes do contraste como, por exemplo, 1, 0, 1, -2, 0; se quiser
comparar os grupos 1, 2 e 3 com o grupo 4 e 5 utiliza-se, por exemplo, 1, 1, 1, -1.5, -1.5.





BioEstatística
45
Exemplo 1: ANOVA a 1 factor ordinal.
Neste caso (factor ordinal), é possível fazer uma análise de
tendência. Suponha que as notas de Bioestatística da
Licenciatura de Medinina Dentária da UC, no ano lectivo de
2006/2007, foram as apresentadas no quadro seguinte,
consoante as condições motivacionais dos alunos.

Será a motivação um factor de diferenciação das notas nesta
disciplina?
Em caso afirmativo, quais os grupos com diferença
significativa?
Apresente um gráfico que lhe permita avaliar alguma
tendência.

Exemplo 2: ANOVA a 1 factor nominal
No quadro seguinte apresentam-se o número de acidentes segundo o tipo de bebida alcoólica
consumido pelo condutor, nas duas horas anteriores ao acidente.
Bebida Acidentes Bebida Acidentes Bebida Acidentes Bebida Acidentes
1 5 2 6 3 2 4 2
1 4 2 5 3 2 4 1
1 4 2 3 3 3 4 2
1 5 2 5 3 3 4 1
1 5 2 4 3 1 4 2
1 6 2 4 3 2 4 2
1 6 2 4 3 2 4 3
1 4 2 4 3 4 4 2
1 4 2 4 3 3 4 3
1 5 2 2 3 2 4 4
Bebidas: 1 = Aguardente; 2 = Vinho; 3 = Cerveja; 4 = Não bebe

Verifique se existe diferença estatisticamente significativa no número de acidentes, consoante
o tipo de bebida ingerida. Em caso afirmativo, identifique as diferenças através do teste de
Tuckey.
Indique ainda o que significam os contrastes seguintes, efectue-os e conclua:
a) 1/3 aguardente + 1/3 vinho + 1/3 cerveja – 1 Não bebem
b) 0,5 aguardente + 0,5 vinho – 0,5 cerveja – 0,5 não bebem


Baixa Média Alta
14 12 17
15 11 16
9 14 16
15 13 18
15 16 16
10 15 17
11 13 14
11 14 15
10 13 16
14 12 12
16 13 18
11 14 13
15 13 18
12 15 14
12 16 16
14 14 17
13 13 15
10 13 17
Engenharia Biomédica

46
7.2.2 Exemplos de outras Análises de Variância
ANOVA a mais do que 1 factor - 2 factores fixos
Amostra aleatória de 30 mães, tendo-se seleccionado aleatoriamente 5 por cada categoria de
parto e por continente de origem. Avaliar o efeito da origem (asiática, europeia, africana) e do
tipo de parto (eutócico, distócico) no peso dos recém-nascidos.
Asiática Europeia Africana
2.9 3.5 2.1
3.3 3.4 2.2
2.7 3.3 2.3
2.8 3.4 2.4
E
u
t
ó
c
i
c
o

3.2 3.3 2.3
2.9 3.9 2
3.3 4.1 2.3
3.1 4 2.2
3 4 2.1
D
i
s
t
ó
c
i
c
o

3.2 3.9 2

ANOVA a mais do que 1 factor - modelo aleatório: factores aleatórios – não tinha escolhido o
continente onde seriam seleccionadas as mães, nem tipo de parto, mas tinha seleccionado
aleatoriamente
ANOVA a mais do que 1 factor - efeitos mistos: inclui factores fixos, aleatórios, e variáveis
concomitantes

ANCOVA – ANalysis OF COVAriance
Avaliar a relação entre o tipo de acompanhamento que as crianças tiveram até aos 5 anos de
idade (infância) e as notas de matemática.
É lógico que crianças com maior QI tendam a originar melhores notas a matemática
- factor infância tem 3 níveis: 1 = jardim-infância; 2 = casa; 3 = ama
– QI é variável concomitante
Infância QI Notas Infância QI Notas Infância QI Notas
1 105.7 15.526 2 100.3 14.78 3 94 9
1 100.3 14.826 2 86.5 9.18 3 112 14
1 94.3 13.44 2 96.1 12.966 3 112 14
1 108.7 15.645 2 101.2 12.82 3 100 9
1 93.1 11.586 2 97.6 8.734 3 103 14
1 96.7 11.53 2 96.4 10.08 3 112 14
1 106.9 16.66 2 109.6 16.868 3 112 14



BioEstatística
47
MANOVA (Multiple ANalysis OF Variance) e MANCOVA (Multiple ANalysis OF COVariance)
A análise de variância multivariada (MANOVA) é um teste mais potente do que a realização
de várias análises de variância, quando se têm várias variáveis dependentes relacionadas. A
realização de várias ANOVS’s assenta no pressuposto que as várias variáveis dependentes
eram ortogonais, ou seja, independentes. De facto, em muitos casos, a MANOVA detecta
diferenças que não seriam detectadas por múltiplas ANOVAs, assim como a ANOVA pode
detectar diferenças não detectáveis pelos testes post-hoc.
Para ilustrar este facto, pode observar-se a figura seguinte, onde é visível a diferença existente
entre os dois grupos de pontos (escuros e claros), mas quando as funções densidade são
projectadas em cada um dos eixos, ou seja, em cada uma das variáveis, as diferenças já não
são aparentes:

Na MANOVA, as variáveis dependentes são consideradas em simultâneo, organizadas de
forma composta e com os efeitos associados a cada variável ponderados pela correlação
existente entre ambas, de forma a que o erro tipo I permaneça igual a α, uma vez que o erro
tipo I através de ANOVAs sucessivas em k amostras é igual a kα.
Engenharia Biomédica

48
7.3 Correlação linear
Quando se pretende estudar a relação ou associação entre 2 variáveis quantitativas aleatórias
X e Y, e sendo ambas provenientes de populações normais, determina-se o coeficiente de
correlação r de Pearson, coeficiente este que varia entre -1...0...1 e é dado por
( ) ( ) [ ]
( ) ( )
2 2
cov
∑ ∑

− × −
− × −
=
×
=
y y x x
y y x x
s s
r
i i
i i
y x
xy

O coeficiente de correlação r mede a força da associação entre as variáveis e o teste que lhe
está associado ( ) 2 ( ~ 2
1
2
− −

= n t n
r
r
t
o
) tem como hipóteses:
¦
¹
¦
´
¦

=
) 0 ( :
) 0 ( :
1
0
r as relacionad e linearment estão Y e X H
r Y e X entre linear relação existe Não H


Sempre que existe uma correlação estatisticamente significativa, é interessante avaliar o sinal
de r, dado que este indica o sentido da relação (Note-se que a significância estatística de r=0.7
ou r=-0.7 é a mesma, o que muda é o sentido da relação). Graficamente, através de um
diagrama de dispersão, pode observar-se uma tendência crescente ou decrescente consoante o
valor do coeficiente de correlação é positivo ou negativo.
400.00 200.00 0.00
Dose
1.00
0.80
0.60
0.40
0.20
0.00
F
r
a
c
ç
ã
o
d
e
S
o
b
r
e
v
iv
ê
n
c
ia

r > 0 r < 0

Normalmente há vantagem em ser efectuada uma análise de regressão em vez da correlação
simples, sendo necessário ter uma variável dependente e outra independente. Em termos
laboratoriais podemos dizer que uma das variáveis é manipulada pelo investigador enquanto
na outra são medidos os valores obtidos.


BioEstatística
49
7.4 Análise de Regressão Linear Simples
A regressão linear simples é um método para estudar a relação entre 2 variáveis quantitativas,
normalmente distribuídas, com o objectivo de estimar uma variável Y em função da outra X,
ou seja, de estudar como modificações numa variável independente produzem modificações
noutra variável dependente.
À equação que traduz a função y de x dá-se o nome de curva de regressão de y sobre x. Se
for uma regressão linear, tem-se uma recta: y* = a + bx
O coeficiente a é designado por intersecção ou ordenada na origem, e o coeficiente b por
inclinação ou declive da recta de regressão de y sobre x.
Contudo, nem todos os pontos do diagrama de dispersão
4
ficam sobre a recta
5
, ou seja, nem
sempre y coincide com y*. Isto significa que nem toda a variabilidade de y é explicada pela
regressão; parte da variabilidade de y não é explicada pela regressão - é a variabilidade
residual devida a outros factores ou ao erro ou resíduo: ε=y*-y.
Se esta variabilidade residual for devida a erros casuais não tem uma magnitude significativa
relativamente à variabilidade devida à regressão (tem-se, normalmente, 0 = ε ).
O objectivo é encontrar os valores de a e b que melhor traduzem a recta de regressão, ou seja,
que minimizam os erros cometidos entre o valor y* previsto pela recta e o seu valor
observado y, e de tal forma que ( ) y x, seja um ponto dessa recta.

7.4.1 Determinação dos coeficientes da recta de regressão
Baseando-nos nos valores amostrais, determina-se o declive da recta (b), através de
( ) ( )
( )
2 2
cov cov



− × −
=
×
=
x x
y y x x
s s s
b
i
i i
x
xy
x x
xy
ou de
x
y
s
s
r b × =
Conhecido o valor de b, o coeficiente a fica determinado se conhecermos um ponto da recta.
Ora, é suposto que ( ) y x, pertença à recta de regressão, donde x b y a − =

7.4.2 Hipóteses estatísticas para o declive da recta de regressão
¦
¹
¦
´
¦

=
) 0 ( :
) 0 ( :
1
0
b as relacionad e linearment estão Y e X H
b Y e X entre linear relação existe Não H
, para um nível de significância α

4
Pontos do diagrama de dispersão: (x,y); y é o valor observado na amostra
5
Pontos da recta de regressão: (x,y*); y* é a estimativa de y, determinada pela recta de regressão
Engenharia Biomédica

50
400.00 200.00 0.00
Dose
1.00
0.80
0.60
0.40
0.20
0.00
F
r
a
c
ç
ã
o

d
e

S
o
b
r
e
v
i
v
ê
n
c
i
a
Sempre que a recta de regressão está bem ajustada, é necessário calcular a força ou magnitude
da associação para determinar se esta é relevante, através do coeficiente de determinação r
2
:
[ ] 1 , 0
exp 2
∈ =
total
licada
SQ
SQ
r
r
2
= 0 recta de regressão coincidente com a recta y (ausência de associação)
r
2
reduzido: grande dispersão de valores em torno da recta de regressão (associação fraca)
r
2
elevado: pequena dispersão de valores em torno da recta de regressão (associação forte)
r
2
= 1 dispersão nula em torno da recta y (associação máxima)

7.4.3 Estimativa de valores de y pela recta de regressão:
A predição de valores da variável dependente pela equação de regressão só é legítima dentro
dos limites de variação dos valores observados na variável independente.
Trata-se de uma estimativa pontual... haveria necessidade de determinar o seu intervalo de
confiança a 1-α% usando
|
|
¹
|

\
|
× + × −
− − − −
* *
2 ,
2
1
*
2 ,
2
1
*
;
y
n
y
n
EP t y EP t y
α α


Exemplo 1: Na seguinte janela do SPSS pode visualizar-se a
fracção de sobrevivência f de um vírus sujeito a uma dose de
radiação d.
Usando um diagrama de dispersão, parece existir uma relação
linear entre a dose de radiação e a fracção de sobrevivência do
vírus:


De facto, parece que a fracção de
sobreviência do vírus diminui com o
aumento da dose de radiação. Assim, a
existir correlação estatisticamente
significativa, esta será negativa. Supondo
que a distribuição dos valores da dose de
radiação e racio de sobrevivência seguem
BioEstatística
51
distribuição normal, tem-se:
Correlação de Pearson Racio de Sobrevivência
r -.980
p .000 Dose
n 9

Assim, o que parecia óbvio no diagrama de dispersão confirma-se: existe uma correlação
estatisticamente significativa entre a dose de radiação administrada e o racio de sobrevivência
do vírus (p < 0.001), no sentido em que doses de radiação mais elevadas estão associadas a
racios de sobrevivência menores (r = -0.98 < 0).

Neste caso, para além da relação existente entre as duas variáveis, parece ser interessante
avaliar em que sentido é que a fracção de sobrevivência do vírus poderá depender da dose de
radiação administrada, ou seja, se existe uma relação de causa (dose) – efeito (sobrevivência),
o que se poderá obter por regressão linear simples.

O quadro sumário do modelo de regressão linear mostra que o r
2
é de 0.96, ou seja, 96% da
variabilidade encontrada no racio de sobrevivência é devida à variabilidade da dose
administrada, ou seja, a variabilidade conjunta é de 96%. Note-se que r, neste quadro, é de
0.98! O valor real da correlação deve ser avaliado através da matriz de correlação e não do
sumário do modelo de regressão.


Model Summary
R R Square Adjusted R Square Std. Error of the Estimate
.980 .960 .954 .07932

O valor de r
2
pode ser obtido fazendo 0.980
2
= 0.96 ou usando SQ do modelo da ANOVA:
0.96=1.044/0.044.
No quadro da ANOVA pode ainda observar-se que esta recta se ajusta bem aos dados (p <
0.001), sendo que a variabilidade devida à regressão é cerca de 166 vezes superior à
variabilidade residual.

ANOVA(b)
Sum of Squares df Mean Square F Sig.
Regression
1.044 1 1.044 165.989 .000(a)
Residual
.044 7 .006
Total
1.088 8
Engenharia Biomédica

52
No quadro seguinte podemos observar os valores determinados para a e b, coeficientes da
recta de regressão, assim como a confirmação de que existe uma relação linear entre a dose
adminsitrada e o racio de sobrevibvência do vírus (p < 0.001).

Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients

b Std. Error Beta
t

Sig.

(Constant)
1.001 .049 20.522 .000
Dose
-.003 .000 -.980 -12.884 .000

Tem-se assim que Sobrevivência*=1.001 – 0.003xDose:










Mais uma vez se pode confirmar a qualidade do ajustamento da recta de regressão ( 0 = ε ).

Podem assim prever-se valores para o racio de sobrevivência, a partir da recta de regressão
obtida. Por exemplo, para uma dose de 210, obtém-se uma previsão para o rácio
sobrevivência = 1.001-0.003*210 = 0.371.


7.5 Modelo de Regressão Linear Múltipla
O modelo de regressão linear múltipla é uma técnica estatística descritiva e inferencial que
permite analisar a relação entre uma variável dependente (Y) e um conjunto de variáveis
independentes (X’s).
Este modelo requer que as variáveis sejam intervalares ou rácio, e que as relações entre as
variáveis sejam lineares e aditivas, embora estas restrições não sejam absolutas.
Variáveis nominais podem ser introduzidas no modelo com recurso a variáveis dummy
(artificiais), e a transformação de equações pode conduzir a relações lineares. Muitas funções
Racio sobrevivênia Dose
(x) Observada (y) Prevista (y*) Erro (ε=y*-y)
.00 1.00 1.00051 .00
50.00 .96 .86858 -.09
100.00 .78 .73664 -.04
150.00 .57 .60471 .03
200.00 .38 .47278 .09
250.00 .25 .34084 .09
300.00 .16 .20891 .05
350.00 .10 .07698 -.02
400.00 .06 -.05496 -.11
N Min Max Mean SD
erro
9 -.11 .09 .0000 .0742
BioEstatística
53
não lineares são linearizáveis. Por exemplo, o seguinte modelo com duas variáveis
independentes não é linear e aditivo:
2 1
2 2 1 1 0
* *
k K
X c X c c Y =
Mas o modelo que se obtém fazendo ) * * ln( ) ln(
2 1
2 2 1 1 0
k K
X a X a a Y = conduz a
)) ln( ) (ln( )) ln( ) (ln( ) ln( ) ln(
2 2 2 1 1 1 0
X k c X k c c Y + + + + = , que é transformável e equivalente a
*
2 2
*
1 1 0
*
X t X t t Y + + = .

Por outro lado, não deve existir multicolinearidade, ou seja, as variáveis independentes
devem ser independentes. Caso este pressuposto não se verifique, então a lista de variáveis
independentes deve ser analisada, pois existem, com certeza, variáveis redundantes. Pode
recorrer-se à correlação bivariada para observar quais as variáveis com maior correlação entre
si, ou observar a Tolerância ou a VIF de cada variável, obtidas computacionalmente em
qualquer aplicação estatística. A tolerância mede o grau em que uma variável X é explicada
por todas as outras variáveis independentes, ou seja, a proporção da sua variância que não é
explicada por todas as outras variáveis independentes. Esta varia entre 0 e 1, e quanto mais
próxima estiver de 0 maior será a multicolinearidade, considerando-se como limite inferior
para que não exista multicolinearidade o valor de 0.10. Todas as variáveis com valores de
tolerância < 0.1 devem ser excluídas do modelo.
Define-se VIF (variance inflaction factor) como o inverso da tolerância (1/Tol), pelo que não
existirá multicolinearidade quando VIF < 10.

Métodos de procura do “melhor modelo”
Um dos objectivos principais da regressão linear múltipla é a previsão da variável dependente
a partir de um conjunto de variáveis independentes.
Num problema de regressão linear múltipla, o investigador pode conhecer à partida quais as
variáveis independentes a incluir no modelo. Contudo, nas fases exploratórias da análise de
regressão, o investigador desconhece quais as variáveis que conduzem ao “melhor modelo”.
Existem vários métodos de procura do melhor modelo, e nenhum deles conduz ao modelo
óptimo. A análise do coeficiente de determinação é geralmente o nivelados da qualidade do
modelo.
No método forward o modelo inicial apenas inclui a constante, sendo as variáveis
independentes acrescentadas ao modelo de forma a que, em cada passo, é incluída a que maior
correlação apresenta com a variável dependente. Assim, em cada passo, entra a variável que
Engenharia Biomédica

54
maior alteração provoca no valor do F da ANOVA, ou, de modo semelhante, a variável que
produza um maior aumento no valor de r
2
, enquanto esta alteração for significativa.
No método backwards o modelo inicial a constante e todas as variáveis seleccionadas pelo
investigador, sendo as variáveis independentes retiradas do modelo, em cada passo, de acordo
com o menor valor de F associado a cada variável (de forma inversa à anterior).
O método stepwise é um híbrido dos anteriores, e é o que é, normalmente, utilizado.

Exemplo 1: Suponha que está a efectuar a previsão da
sua nota de Bioestatística (Y), a partir das variáveis
número médio de horas de estudo semanal (HORAS),
número de refeições diárias do aluno (REFEIÇÃO) e
do curso que o aluno frequenta (medicina ou dentária).
Esta última variável terá de ser recodificada em duas
variáveis artificiais: o aluno frequenta o curso de
Medicina (MED, sim/não) ou de Medicina dentária
(DENT, sim/não).

Model Summary
Change Statistics
Model R R
2

Adjusted
R
2

Std. Error
of the
Estimate
R Square
Change
F
Change
df1 df2
Sig. F
Change
1 ,823(a) ,677 ,670 1,3670 ,677 90,139 1 43 ,000
2 ,915(b) ,837 ,829 ,9828 ,160 41,186 1 42 ,000
3 ,941(c) ,885 ,876 ,8359 ,048 17,059 1 41 ,000
4 ,951(d) ,904 ,894 ,7736 ,019 7,871 1 40 ,008
a Predictors: (Constant), horas
b Predictors: (Constant), horas, refeição
c Predictors: (Constant), horas, refeição, med
d Predictors: (Constant), horas, refeição, med, dent

ANOVA(e)
Model SS df MS F Sig.
Regression 168,445 1 168,445 90,139 ,000(a)
Residual 80,355 43 1,869 1
Total 248,800 44
… … … … … … …
Regression 224,860 4 56,215 93,928 ,000(d)
Residual 23,940 40 ,598 4
Total 248,800 44
a Predictors: (Constant), horas
b Predictors: (Constant), horas, refeição
c Predictors: (Constant), horas, refeição, med
d Predictors: (Constant), horas, refeição, med, dent
e Dependent Variable: notas
BioEstatística
55
Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients
T Sig. Collinearity Statistics
Model
B Std. Error Beta Tolerance VIF
(Constant) 10,294 ,447 23,050 ,000
1
horas 3,329 ,351 ,823 9,494 ,000 1,000 1,000
… … … … … … … … …
(Constant) 11,376 ,600 18,949 ,000
horas 1,464 ,348 ,362 4,203 ,000 ,325 3,080
refeição ,425 ,102 ,256 4,154 ,000 ,634 1,578
med -1,787 ,376 -,358 -4,755 ,000 ,423 2,361
4
dent 1,055 ,376 ,211 2,806 ,008 ,423 2,361
a Dependent Variable: notas


Nestes casos, pode-se comparar a variância explicada por cada variável, no modelo (r
2
), e é
interessante observar os valores de β e não de b, no quadro dos coeficientes de regressão. Os
coeficientes b reflectem a escala em que a variável foi medida, enquanto que β são os
coeficientes b padronizados. Assim, as variáveis com peso na predição do modelo podem ser
comparadas e avaliadas. No quadro anterior pode observar-se que o peso relativo de cada
variável na nota final, comparando os valores absolutos de β.


7.6 Outros Modelos de Regressão
Em bioestatística é comum usar outros tipos de regressão, para além dos modelos de regressão
linear múltipla. Entre eles destacam-se a estimativa de curvas e o modelo de regressão
logística, utilizado frequentemente para identificar preditores de risco de determinadas
situações.

Curve Estimation
The Curve Estimation procedure produces curve estimation regression statistics and related
plots for 11 different curve estimation regression models. A separate model is produced for
each dependent variable. You can also save predicted values, residuals, and prediction
intervals as new variables.
Example: An Internet service provider tracks the percentage of virus-infected e-mail traffic on
its networks over time. A scatterplot reveals that the relationship is nonlinear. You might fit a
quadratic or cubic model to the data and check the validity of assumptions and the goodness
of fit of the model.
Engenharia Biomédica

56
Logistic Regression
Logistic regression is useful for situations in which you want to be able to predict the
presence or absence of a characteristic or outcome based on values of a set of predictor
variables. It is similar to a linear regression model but is suited to models where the
dependent variable is dichotomous. Logistic regression coefficients can be used to estimate
odds ratios for each of the independent variables in the model. Logistic regression is
applicable to a broader range of research situations than discriminant analysis.

Example: What lifestyle characteristics are risk factors for coronary heart disease (CHD)?
Given a sample of patients measured on smoking status, diet, exercise, alcohol use, and CHD
status, you could build a model using the four lifestyle variables to predict the presence or
absence of CHD in a sample of patients. The model can then be used to derive estimates of
the odds ratios for each factor to tell you, for example, how much more likely smokers are to
develop CHD than nonsmokers.




BioEstatística
57
8. TESTES NÃO PARAMÉTRICOS

A comparação de parâmetros populacionais a partir de amostras aleatórias é uma das
necessidades fulcrais em estatística inferencial, principalmente quando se pretende testar a
significância de tratamentos ou factores que são capazes de influenciar a resposta da variável
medida e, em que se pretende testar se o tratamento teve ou não um efeito significativo.
Assim, existem basicamente duas metodologias para efectuar estes tipos de testes: os testes
paramétricos que exigem que a forma da distribuição amostral seja conhecida (sendo a
distribuição Normal a mais utilizada…); os testes não paramétricos não exigem que seja
conhecida a distribuição amostral (embora possuam outras condições de aplicação), e devem
ser aplicados em alternativa aos testes não paramétricos.
Porque não utilizar, então, sempre testes não paramétricos? Porque a potência dos testes
paramétricos, ou seja, a probabilidade de rejeitar correctamente H
0
é superior num teste
paramétrico
6
, devendo os testes não paramétricos ser, assim, utilizados, apenas quando não
existe alternativa, ou quando o nível de mensuração da variável dependente é ordinal ou
nominal (situação em que apenas se podem utilizar testes não paramétricos).

8.1 Condições Gerais de aplicação dos testes paramétricos
A variável dependente é quantitativa e segue uma distribuição normal
As variâncias populacionais são homogéneas, caso estejamos a comparar 2 ou mais
populações

8.1.1 Testes estatísticos mais utilizados para testar a
Normalidade da distribuição: Teste de Kolmogorov-Smirnov

¹
´
¦
normal ão distribuiç segue não X H
N X H
:
) , ( ~ :
1
0
σ µ


Em alternativa ao teste de Kolmogorov-Smirnov, o SPSS efectua também o teste de
Shapiro-Wilk quando n < 50 para testar se a variável em estudo na amostra aleatória
possui ou não distribuição normal, sendo este teste particularmente apropriado e preferível
ao teste de Kolmogorov-Smirnov sempre que n<30.



6
Embora, em amostras de pequena dimensão seja, muitas vezes, preferível utilizar testes não paramétricos
Engenharia Biomédica

58
Homogeneidade de variâncias: Teste de Levene
{ }
¦
¹
¦
´
¦
≠ ≠ ∈ ∃
= = =
2 2
1
2 2
2
2
1 0
: , ,..., 2 , 1 , :
... :
j i
k
j i k j i H
H
σ σ
σ σ σ


8.1.2 Quadro de Decisão para variáveis Intevalares/Racio
Variáveis Intervalar/Rácio (Scale) Variáveis Ordinais


Avaliar distribuição:
Teste de Kolmogorov-Smirnov


Aceitar H
0
Rejeitar H
0

H
0
: Distribuição = Normal H
1
: Distribuição ≠ Normal


Avaliar homogeneidade de variâncias
se nº grupos > 3: Teste de Levene


Aceitar H
0
Rejeitar H
0

H
0
: Variâncias homogéneas H
1
: Distribuição ≠ Normal


TESTES PARAMÉTRICOS TESTES NÃO PARAMÉTRICOS
Será o IMC da população de estudantes do ensino superior português = 20.5 kg/m
2
?
t 1 média Wilcoxon / Sinal (variável constante)
H
0
: µ = 20.5 H
0
: md = 20.5
H
1
: µ ≠ 20.5 H
1
: md ≠ 20.5
Há alteração significativa nos valores de TAS antes e depois de um tratamento?
t amostras emparelhadas Wilcoxon / Sinal
H
0
: µ
A
= µ
D
H
0
: md
A
= med
D

H
1
: µ
A
≠ µ
D
H
1
: md
A
≠ med
D

O tratamento é eficaz na redução dos valores de TAS (relativamente ao placebo)?
t amostras independentes Mann-Whitney
H
0
: µ
SA
= µ
P
H
0
: md
SA
= md
P

H
1
: µ
SA
≠ µ
P
H
1
: md
SA
≠ md
P

Há diferença nos valores de glicémia relativamente aos escalões de IMC?
ANOVA (1-factor) Kruskal-Wallis
H
0
: µ
1
= µ
2
= ... = µ
6
H
0
: md
1
= md
2
= ... = md
6

D
I
F
E
R
E
N
Ç
A

H
1
: ∃µ
i
≠ µ
j
, i ≠ j H
1
: ∃md
i
≠ md
j
, i ≠ j
Haverá relação entre os valores de TAS antes e depois de um tratamento?
Estarão os valores de TAD relacionados com o IMC? E com o IMC em escalões?
Coeficiente de correlação
Pearson (r) Spearman (ρ ρρ ρ) / Kendall (τ ττ τ)
H
0
: r=0 H
0
: ρ=0 / τ=0
R
E
L
A
Ç
Ã
O

H
1
: r≠0 H
1
: ρ≠0 / τ≠0
BioEstatística
59
Exemplos:
1. Suponha que se pretende avaliar se as condições de temperatura e humidade influenciam o
tempo demorado a adormecer dos recém-nascidos, assim como a duração da sesta. Assim,
observaram-se 3 amostras independentes de recém-nascidos, em 3 maternidades com
diferentes condições de temperatura e humidade nos quartos, sendo cada amostra
constituída por 10 elementos.
Qual o teste estatístico que utilizaria neste caso, para cada uma das variáveis dependentes
estudadas, após observar o seguinte quadro?
Kolmogorov-Smirnov(a) Shapiro-Wilk
Tests of
Normality
Maternidade
Statistic df Sig. Statistic df Sig.
MDM .214 10 .200(*) .938 10 .531
MBB .228 10 .152 .907 10 .262
Tempo a
adormecer
CSS .216 10 .200(*) .845 10 .051
MDM .196 10 .200(*) .872 10 .107
MBB .244 10 .092 .774 10 .007 Duração da sesta
CSS .247 10 .083 .928 10 .424
* This is a lower bound of the true significance.
a Lilliefors Significance Correction

Test of Homogeneity of Variance
Levene
Statistic
df1 df2 Sig.
Based on Mean .188 2 27 .830
Based on Median .171 2 27 .844
Based on Median and with adjusted df .171 2 24.650 .844
Tempo a
adormecer
Based on trimmed mean .186 2 27 .831
Based on Mean 1.569 2 27 .227
Based on Median .698 2 27 .506
Based on Median and with adjusted df .698 2 18.685 .510
Duração da
sesta
Based on trimmed mean 1.287 2 27 .292

Observe agora os resultados obtidos e comente-os:
Tempo a adormecer
95% Confidence Interval for Mean
N Mean
Std.
Deviation
Std.
Error
Lower Bound Upper Bound
Minimum Maximum
MDM 10 5.4000 1.83787 .58119 4.0853 6.7147 2.00 9.00
MBB 10 5.7000 1.56702 .49554 4.5790 6.8210 3.00 9.00
CSS 10 7.4000 1.77639 .56174 6.1292 8.6708 4.00 9.00
Total 30 6.1667 1.89525 .34602 5.4590 6.8744 2.00 9.00

Duração da sesta
95% Confidence Interval for Mean
N Mean
Std.
Deviation
Std.
Error
Lower Bound Upper Bound
Minimum Maximum
MDM 10 224.000 18.25133 5.7716 210.9438 237.0562 198.00 245.00
MBB 10 227.800 41.46431 13.112 198.1382 257.4618 123.00 265.00
CSS 10 222.100 34.07981 10.777 197.7208 246.4792 159.00 268.00
Total 30 224.63 31.6734 5.783 212.8063 236.4604 123.00 268.00
Engenharia Biomédica

60
CSS MBB MDM
Maternidade
7.50
7.00
6.50
6.00
5.50
5.00
M
e
a
n

o
f

T
e
m
p
o

a

a
d
o
r
m
e
c
e
r
CSS MBB MDM
Maternidade
228.00
227.00
226.00
225.00
224.00
223.00
222.00
M
e
a
n

o
f

D
u
r
a
ç
ã
o

d
a

s
e
s
t
a


Tempo a Adormecer
ANOVA: Tempo a adormecer








Multiple Comparisons: Dependent Variable: Tempo a adormecer; Tukey HSD
95% Confidence Interval (I)
Maternidade
(J)
Maternidade
Mean Difference
(I-J)
Std. Error Sig.
Lower Bound Upper Bound
MBB -.30000 .77412 .921 -2.2194 1.6194
MDM
CSS -2.00000(*) .77412 .040 -3.9194 -.0806
MBB MDM .30000 .77412 .921 -1.6194 2.2194
CSS -1.70000 .77412 .090 -3.6194 .2194
MDM 2.00000(*) .77412 .040 .0806 3.9194
CSS
MBB 1.70000 .77412 .090 -.2194 3.6194
* The mean difference is significant at the .05 level.

Duração da Sesta
Ranks
Maternidade N Mean Rank
MDM 10 13.85
MBB 10 17.70
CSS 10 14.95
Duração da sesta
Total 30

Test Statistics(a,b)

Duração da
sesta
Chi-Square 1.017
df 2
Asymp. Sig. .602
a Kruskal Wallis Test
b Grouping Variable: Maternidade


Sum of
Squares
df
Mean
Square
F Sig.
Between Groups 23.267 2 11.633 3.883 .033
Within Groups 80.900 27 2.996
Total 104.167 29
BioEstatística
61
2. Suponha agora que se seleccionava a maternidade que demonstrava ter melhores
condições de temperatura e humidade nos quartos das parturientes, e que, nesta, se
estudava o tempo médio demorado a adormecer e a duração da sesta de 30 recém-
nascidos. Estará o tempo médio da sesta relacionado com o tempo demorado a
adormecer?
9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00
Tempo a adormecer
260.00
240.00
220.00
200.00
180.00
160.00
140.00
120.00
D
u
r
a
ç
ã
o

d
a

s
e
s
t
a

Observando os coeficientes de correlação de Pearson e de Spearman, para um nível de
significância de 0.05, concluímos que ... !!!
Tempo a Adormecer vs
Duração da Sesta
r (Pearson) rho (Spearman)
Correlation coefficient -.303 -.372
Sig. (2-tailed) .103 .043
N 30 30

Qual dos coeficientes de correlação devemos utilizar? As conclusões a que se chega são
opostas, ainda que o coeficiente de correlação seja fraco. Com o coeficiente de correlação de
Pearson, conclui-se que não existe relação significativa entre a duração da sesta e o tempo
demorado a adormecer dos recém-nascidos (p = 0.103), enquanto que quando se utiliza um
coeficiente de correlação não paramétrico conclui-se que existe relação entre ambas (p =
0.043), no sentido em que sestas mais prolongadas estão relacionadas com menor tempo
demorado a adormecer (rho < 0).
Qual dos dois coeficientes deve ser utilizado?

Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk

Statistic df Sig. Statistic df Sig.
Tempo a adormecer .164 30 .038 .924 30 .034
Duração da sesta .167 30 .032 .885 30 .004
a Lilliefors Significance Correction
b Calculated from data

Engenharia Biomédica

62
3. Numa das outras maternidades, seleccionaram-se 30 recém-nascidos ao acaso, e foram
aleatoriamente divididos em dois grupos iguais: num grupo colocou-se no berço uma peça
da roupa da mãe, enquanto que no outro colocou-se uma peça de roupa de outro familiar.
Quais os testes estatísticos que poderia utilizar para avaliar a influência do cheiro da mãe
no sono dos recém-nascidos?
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk

Peça de roupa
da mãe
Statistic df Sig. Statistic df Sig.
Sim .171 15 .200(*) .962 15 .725
Tempo a
adormecer
Não .210 15 .073 .839 15 .012
Sim .128 15 .200(*) .961 15 .704
Duração da
sesta
Não .189 15 .153 .921 15 .199
* This is a lower bound of the true significance.
a Lilliefors Significance Correction

Observe e comente os resultados:
Descriptive Statistics
Peça de roupa da mãe N Minimum Maximum Mean Std. Deviation
Tempo a adormecer 15 2.00 9.00 5.2667 1.70992
Sim
Duração da sesta 15 223.00 268.00 243.8000 12.36470
Tempo a adormecer 15 5.00 9.00 7.0667 1.66762
Não
Duração da sesta 15 123.00 255.00 205.4667 33.73397

Tempo a Adormecer
Ranks
Peça de Roupa
da mãe
N
Mean
Rank
Sum of
Ranks
Sim 15 11.50 172.50
Tempo a
adormecer
Não 15 19.50 292.50

Test Statistics(b)
Tempo a
adormecer
Mann-Whitney U 52.500
Exact Sig. [2*(1-tailed Sig.)] .011(a)
a Not corrected for ties.
b Grouping Variable: Peça de roupa da mãe

Duração da Sesta
Independent Samples Test
Levene's Test
for Equality of
Variances
t-test for Equality of Means
95% Confidence
Interval of the
Difference

F Sig. t df
Sig.
(2-tailed)
Mean
Differenc
Std. Error
Differenc
Lower Upper
Equal variances
assumed
4.132 28 .000 38.333 9.277 19.331 57.336
Duração
da sesta
Equal variances
not assumed
6.213 .019
4.132 17.695 .001 38.333 9.277 18.819 57.847
BioEstatística
63
9. VARIÁVEIS QUALITATIVAS

9.1 Testes Qui-quadrado (Tabelas de Contingência)
Cáries

Não Sim
Total
Normal
10 10 20
Excesso Peso
7 6 13
Classes
de IMC
Obesidade
3 4 7
Total
20 20 40


Teste Qui-Quadrado: testes de homogeneidade (diferença de proporções); Testes de
independência:
H
0
: As proporções são iguais ou
Não existe associação entre as variáveis/As variáveis são independentes
H1: As proporções são diferentes/
Existe associação entre as variáveis/As variáveis não são independentes

O teste Chi
2
não pode ser utilizado em qualquer tabela de contingência. É necessário que
cumpra as Regras de Cochran para aplicação do teste Chi
2


Tabelas de 2x2:
1. Se n ≥ 40 pode usar o teste do qui-quadrado, de preferência corrigido; Os valores
esperados têm de ser ≥ 5;
2. Se 20 ≤ n ≤ 40 deve usar o teste do qui-quadrado corrigido; Os valores esperados têm de
ser ≥ 5; caso contrário terá de usar o teste exacto de Fisher;
3. Se n < 20 não deve usar o teste do qui-quadrado mas o teste exacto de Fisher.

Tabelas LxC, com L>2 ou C>2:
1. Pelo menos 80% dos valores esperados têm de ser ≥ 5 e nenhum deve ser < 1
Se as condições impostas anteriormente não existirem, deve combinar-se linhas ou colunas
para aumentar os valores esperados; isto terá como resultado a diminuição dos graus de
liberdade.


Exemplo 1: Considere a seguinte tabela de contingência relativa a 145 sujeitos classificados
Engenharia Biomédica

64
em dois grupos segundo os valores de tensão arterial (N: normal; HTA: hipertensão arterial) e
a existência de patologia cardio-vascular (N: normal; DCV: doença cardiovascular).

Doença Cardiovascular * Hipertensão Crosstabulation
TA

HTA Normal
Total
Count 43 33
DCV
Expected Count 30,9 45,1
76
Count 16 53
Doença
Cardiovascular
Normal
Expected Count 28,1 40,9
69
Total Count 59 86 145

Se avaliarmos o resíduo, ou seja, a diferença entre os valores observados e esperados, em cada
célula, observamos o seguinte:
TA
N HTA
N 12.1 -12.1 Doença
CV DCV -12.1 12.1

Assim, aparentemente, encontramos mais casos normais para as duas patologias do que
esperávamos encontrar se as proporções fossem todas iguais, assim como mais casos com
ambas as patologias do que esperávamos encontrar, o que nos poderá indicar que é mais
frequente um sujeito normal para uma das patologias também o ser para a outra, e que quando
têm uma das doenças, muito provavelmente também terá a outra. Assim, este parece ser um
indicador da existência de relação entre a hipertensão arterial e a doença cardiovascular.

Aplicando o teste Chi
2
, dado que se cumprem as regras de Cochran para tabelas 2x2...

Chi-Square Tests
Value df
Asymp. Sig.
(2-sided)
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Pearson Chi-Square 16,708 1 ,000
Continuity Correction(a) 15,353 1 ,000
Likelihood Ratio 17,184 1 ,000
Fisher's Exact Test ,000 ,000
Linear-by-Linear Association 16,593 1 ,000
N of Valid Cases 145
a Computed only for a 2x2 table
b 0 cells (,0%) have expected count less than 5. The minimum expected count is 28,08.

Verifica-se que parece existir uma associação significativa entre a ocorrência de doença
cardio-vascular e a existência de hipertensão (Chi
2
(1)=16.708; p<0.001).
9.2 Teste de McNemar – 2 variáveis qualitativas emparelhadas, tabelas 2x2
BioEstatística
65
Este teste, também denominado de teste da mudança de opinião, baseia-se na comparação das
proporções das respostas dicotomizadas de duas variáveis (A e B), ou seja, classificando as
respostas em positivas ou sucessos, e em negativas ou insucessos.
A aplicação de A e B a n indivíduos dá origem a n pares de respostas agrupadas nas 4
combinações seguintes:
B
- +
- a b
A
+ c d

As hipóteses
7
a testar são, assim,
¹
´
¦
+ ≠ +
+ = +
) ( ) ( :
, ), ( ) ( :
1
0
B A
B A
p p H
B em sucessos de proporção à igual é A em sucessos de proporção a ie p p H


Muitas vezes, a variável A significa Antes e a B Depois de um determinado acontecimento
8
.
Neste caso, a rejeição de H
0
pode ser uma indicação do efeito desse acontecimento.

Exemplo 1: Relação entre os valores de TAS iniciais e após tratamento
Suponha agora que os todos os sujeitos hipertensos (positivos: 59) se submetiam a tratamento
para a tensão arterial e que, 6 meses após a avaliação inicial, os 145 casos eram, de novo,
avaliados relativamente à sua tensão arterial. Será que houve alteração significativa na
proporção de casos inicialmente hipertensos, ou, terá o tratamento surtido efeito?
Esta análise pode ser efectuada através de um teste de McNemar, desde que a principal fonte
de discórdia seja a passagem de hipertensos a normais, e não o contrário.

Hipertensão * HTA após tratamento Crosstabulation
TA após tratamento

Normal HTA
Total
Normal Count 80 6 86
TA
HTA Count 31 28 59
Total Count 111 34 145



9.3 Teste Binomial

7
As células b e c são aquelas onde se opera a mudança de opinião de sucesso para insucesso ou vice-versa. Se
b+c>20, a estatística deste teste é um chi2; se b+c<20, a estatística dos teste é uma binomial.
8
No SPSS, a variáveis devem ser codificadas da mesma forma, atribuindo-se o valor 0 ao insucesso e 1 ao
sucesso
Engenharia Biomédica

66
BINOMIAL tests whether the observed distribution of a dichotomous variable is the same as
what is expected from a specified binomial distribution. By default, each named variable is
assumed to have only two values, and the distribution of each named variable is compared to
a binomial distribution with p (the proportion of cases expected in the first category) equal to
0.5. The default output includes the number of valid cases in each group, the test proportion,
and the two-tailed probability of the observed proportion.

Exemplo 1: A proporção de indivíduos que tem cáries, na amostra, é idêntica à que não tem
cáries?
Binomial Test Category N
Observed
Prop. Test Prop.
Asymp. Sig.
(2-tailed)
Group 1
Sim 20 .50 .50 1.000(a)
Group 2
Não 20 .50
Cáries
Total
40 1.00
a Based on Z Approximation.

Exemplo 2: pode-se afirmar que existem 15% de obsesos na população?
Binomial Test Category N
Observed
Prop. Test Prop.
Asymp. Sig.
(1-tailed)
Group 1
<= 3 35 .83 .85 .445(a,b)
Group 2
> 3 7 .17
Classes de IMC
Total
42 1.00
a Alternative hypothesis states that the proportion of cases in the first group < .85.
b Based on Z Approximation.


9.4 Teste de Cochran
COCHRAN calculates Cochran’s Q, which tests whether the distribution of values is the same
for k related dichotomous variables. The output shows the frequency distribution for each
variable in the Cochran Frequencies table and the number of cases, Cochran’s Q, degrees of
freedom, and probability in the Test Statistics table.






Exemplos:
BioEstatística
67
1. Num estudo sobre a importância do “efeito placebo” entraram 200 doentes. Foram
divididos em dois grupos: ao grupo P foi administrado placebo e ao grupo S uma substância
activa suporífera. Os doentes foram inquiridos sobre o efeito do “medicamento” ao fim de 15
dias: 30 dos 150 doentes do grupo P sentiram efeito benéfico e bem como 40 do grupo S.
Verifique as condições de aplicabilidade do teste Chi
2
e, em caso afirmativo, indique se a
substância administrada está ou não relacionada com o efeito sentido pelos sujeitos.
Efeito
Substância * Efeito Crosstabulation
Efeito
Benéfico
Sem efeito
Total
Count 40 10 50
Expected Count 17.5 32.5 50.0 Subs. Activa
Residual 22.5 -22.5
Count 30 120 150
Expected Count 52.5 97.5 150.0
Substância
Placebo
Residual -22.5 22.5
Count 70 130 200
Total
Expected Count 70.0 130.0 200.0

Dado não existirem frequências esperadas inferiores a 5, e n= 200 > 40, permite aplicar o teste
Chi
2
. O facto de os resíduos serem iguais na diagonal principal (simétricos na diagonal
secundária) poderá indicar a existência de uma associação entre as duas variáveis.
Chi-Square Tests Value df
Asymp. Sig.
(2-sided)
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Pearson Chi-Square 59.341(b) 1 .000
Continuity Correction(a) 56.733 1 .000
Likelihood Ratio 58.818 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear Association 59.044 1 .000
N of Valid Cases 200
a Computed only for a 2x2 table
b 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.50.

De facto, existe uma associação significativa (Chi2(1)=59.241; p < 0.001 rejeita-se H
0
)
entre a substância administrada e o efeito sentido.

Analisando as estimativas de risco, verifica-se que é cerca de 16 vezes mais provável que o
efeito sentido seja benéfico quando se administra substância activa do que quando se
administra placebo, sendo este valor significativamente diferente
9
de 1 (para α = 0.05), e
superior, dado que o intervalo de confiança a 95% para o odds ratio é (7.2; 36.6).

9
Um odds ratio de 1 indica ausência de risco/associação
Engenharia Biomédica

68
95% Confidence Interval
Risk Estimate Value
Lower Upper
Odds Ratio for Substância (Subs. Activa / Placebo) 16.000 7.188 35.614
For cohort Efeito = Efeito Benéfico 4.000 2.822 5.669
For cohort Efeito = Sem efeito .250 .143 .438
N of Valid Cases 200

Poderá, neste caso, ser interessante analisar as “% within substância”, “% within efeito” e “%
of total”. Analise-as e estabeleça relações com o risco relativo apresentado no quadro anterior.
Efeito
Substância * Efeito Crosstabulation
Efeito
Benéfico
Sem efeito
Total
% within Substância 80.0% 20.0% 100.0%
% within Efeito 57.1% 7.7% 25.0%
Subs.
Activa
% of Total 20.0% 5.0% 25.0%
% within Substância 20.0% 80.0% 100.0%
% within Efeito 42.9% 92.3% 75.0%
Substância
Placebo
% of Total 15.0% 60.0% 75.0%
% within Substância 35.0% 65.0% 100.0%
% within Efeito 100.0% 100.0% 100.0% Total
% of Total 35.0% 65.0% 100.0%


BioEstatística
69
Exemplo 2: Os dados que se seguem foram obtidos de um ensaio clínico de estreptomicina
para tratamento de tuberculose pulmonar em 107 sujeitos. Avalie as condições de
aplicabilidade do teste chi
2
a este conjunto de dados:
Substância
Efeito * Substância Crosstabulation
Estreptomicina Placebo
Total
Count 28 4 32
Muito melhor
Expected Count 16.4 15.6 32.0
Count 10 13 23
Melhor
Expected Count 11.8 11.2 23.0
Count 2 3 5
Sem alteração
Expected Count 2.6 2.4 5.0
Count 5 12 17
Ligeiramente pior
Expected Count 8.7 8.3 17.0
Count 6 6 12
Pior
Expected Count 6.2 5.8 12.0
Count 4 14 18
Efeito
Morte
Expected Count 9.3 8.7 18.0
Count 55 52 107
Total
Expected Count 55.0 52.0 107.0

Temos uma tabela de contingência 2 6× logo, com 12 células. Entre estas, tem-se 5 <
ij
E em
2 células (16.7%), pelo que se pode aplicar o teste Chi
2
a este conjunto de dados.
Caso houvesse 3 células com 5 <
ij
E , não teríamos pelo menos 80% das células com
5 ≥
ij
E pelo que seria necessário proceder à junção de linhas ou colunas. Neste caso, talvez
fizesse sentido juntar as categorias “muito melhor” com “melhor”, ou “ligeiramente pior” com
“pior”; contudo, as 5 <
ij
E aparecem na categoria “sem alteração”. No meu entender dever-
se-ìa juntar “sem alteração” com “ligeiramente pior”, dado que “sem alteração” indica que
não houve efeito benéfico da estreptomicina.

Analise se o facto de a administração de estreptomicina está associada a uma melhoria da
situação clínica de tuberculosae pulmonar - interprete os resultados obtidos:
Chi-Square Tests Value df Asymp. Sig. (2-sided)
Pearson Chi-Square 26.966(a) 5 .000
Likelihood Ratio 29.612 5 .000
Linear-by-Linear Association 17.761 1 .000
N of Valid Cases 107
a 2 cells (16.7%) have expected count less than 5. The minimum expected count is 2.43.



Engenharia Biomédica

70
Substância
Efeito * Substância Crosstabulation
Estreptomicina Placebo
Total
% within Efeito 87.5% 12.5% 100.0%
% within Substância 50.9% 7.7% 29.9% Muito melhor
% of Total 26.2% 3.7% 29.9%
% within Efeito 43.5% 56.5% 100.0%
% within Substância 18.2% 25.0% 21.5% Melhor
% of Total 9.3% 12.1% 21.5%
% within Efeito 40.0% 60.0% 100.0%
% within Substância 3.6% 5.8% 4.7% Sem alteração
% of Total 1.9% 2.8% 4.7%
% within Efeito 29.4% 70.6% 100.0%
% within Substância 9.1% 23.1% 15.9% Ligeiramente pior
% of Total 4.7% 11.2% 15.9%
% within Efeito 50.0% 50.0% 100.0%
% within Substância 10.9% 11.5% 11.2% Pior
% of Total 5.6% 5.6% 11.2%
% within Efeito 22.2% 77.8% 100.0%
% within Substância 7.3% 26.9% 16.8%
Efeito
Morte
% of Total 3.7% 13.1% 16.8%
% within Efeito 51.4% 48.6% 100.0%
% within Substância 100.0% 100.0% 100.0% Total
% of Total 51.4% 48.6% 100.0%


BioEstatística

1. INTRODUÇÃO À BIOESTATÍSTICA

A estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objectivo obter, organizar e analisar dados, determinar as relações que estes apresentam, e avaliar as consequências para descrição e explicação do que passou, e/ou para a previsão e organização do futuro. A estatística é também uma ciência e prática de desenvolvimento de conhecimento humano através do uso de dados empíricos. Baseia-se na teoria estatística, um ramo da matemática aplicada. Na teoria estatística, a aleatoriedade e incerteza são modeladas pela teoria da probabilidade. Algumas práticas estatísticas incluem, por exemplo, o planeamento, a descrição e a interpretação de observações. Porque o objectivo da estatística é a produção da "melhor" informação possível a partir dos dados disponíveis, alguns autores sugerem que a estatística é um ramo da teoria da decisão.

Origem O termo estatística surge da expressão em Latim statisticum collegium, palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Lena e adoptada pelo académico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de colecta e classificação de dados, no início do século XIX. Actualmente, é um ramo do conhecimento científico que tem por objectivo não só a observação, classificação e análise dos fenómenos colectivos, mas também o estudo de possibilidade de inferência indutiva a partir de dados observados.

A base da estatística e sua definição A Estatística é uma ferramenta matemática que nos informa sobre o erro que as nossas observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro que existe entre a estimativa de quanto uma amostra representa adequadamente a população da qual foi extraída. Assim o conhecimento de teoria de conjuntos, teoria de probabilidades, análise combinatória e cálculo são indispensáveis para compreender como o

3

estudos da teoria de aprendizagem e comportamento animal. de forma genérica.Engenharia Biomédica erro se comporta e a magnitude do mesmo. 4 .01% é um risco muito baixo. sobretudo. Na prática. passou a ser “a ciência que foca o desenvolvimento e utilização de métodos estatísticos para resolver problemas e questões que surgem nas áreas da Biologia Humana e Medicina”. Contudo. Entretanto. porém. mas… e se acontecer um evento extremamente difícil de ocorrer que o destrua? E se ocorrer uma guerra nuclear e o céu ficar coberto de cinzas e fumo? Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque elas são tão prováveis ou improváveis de ocorrer. Inicialmente. Pode dizer-se que o sol irá certamente nascer na manhã seguinte. Considerando que o risco de atropelamento é 10-9. tal como a própria Estatística. É o erro (erro amostral) que define a qualidade da observação e do delineamento experimental. Na realidade. é bastante provável que venha a ser atropelado. começa a considerar-se que. Bioestatística – é a estatística aplicada ao estudo das características biológicas das populações (humanas) ou. e mais abrangente. A Bioestatística é cada vez mais uma área independente da estatística. questões de ecologia e. na Bioestatística. poderão caber temas tão diversos como a avaliação de recursos faunísticos e florais. nunca há situações que tenham probabilidades 0 ou 1. que é fácil de reconhecê-las como probabilidade de um ou zero. Planeamento de Experiências. há uma grande diferença: imagine que vai atravessar a estrada numa passadeira cerca de 105 ou 106 vezes na sua vida. A probabilidade de um evento é frequentemente definida como um número entre zero e um. pode ficar seguro para o resto da sua vida. considerou-se a Bioestatística como a “Estatística aplicada à Biologia Humana e Medicina”. Uma definição mais actual. porque as pessoas não conseguem distinguir entre. ainda que as suas bases assentem na teoria de probabilidades. uma probabilidade de 10-4 e uma probabilidade de 10-9. considerando que o risco de atropelamento é de 10-4. às ciências da vida. isto normalmente leva a desentendimentos e comportamentos perigosos. mesmo com o sentimento intuitivo que 0.

o problema do passado (e actual. frequentemente. onde o raciocínio dedutivo e indutivo devem estar integrados de forma a considerar que: • • • • • • a incerteza é fonte de conhecimento. actualmente. a amostragem é boa mas o Planeamento Experimental é ainda melhor.BioEstatística Assim. a Bioestatística tem de ser uma área interdisciplinar. quando a Probabilidade nos permite delimitá-la caracterizando os seus padrões. os problemas éticos não podem ser escamoteados na investigação experimental. Estatística Descritiva Descrever dados através de indicadores (estatísticas) nos elementos observados Estimadores dos reais Inferencial Tomada de decisão baseada No conhecimento que o investigador tem sobre o problema em causa ou experimentados (intervalos de Indicadores da população confiança e/ou testes estatísticos) 5 . mais importante do que a informação. no caso das doenças raras) era a escassez de dados e. que importam analisar. a proliferação de dados. o problema é. a informação obtida “por acaso” pode ser enganadora. por ser um investimento na obtenção de dados de qualidade. enquanto que a informação obtida “ao acaso” tem uma variabilidade útil. é a transformação desta em conhecimento. muitas vezes de má qualidade.

qual será o resultado .existe regularidade estatística na repetição da experiência Experiência determinística – o resultado é conhecido antes da sua realização (ex: temperatura de congelação ou ebulição da água) 6 .Engenharia Biomédica Sumariar dados Estatística descritiva Conhecimento da população Extrapolar para a população as conclusões obtidas na amostra Estimação de parâmetros Inferência estatística (estatística assenta na teoria de probabilidades) Origem nos jogos de azar Cálculo de Probabilidades Testes de Hipóteses Fenómeno aleatório – influenciado pelo acaso Experiência aleatória – há possibilidade de ser repetida em condições idênticas .é conhecido o conjunto de todos os resultados possíveis. à priori. embora não se saiba.

o que pode diminuir drasticamente a dimensão da amostra Deve ter dimensão suficiente para que as conclusões a obter tenham um determinado grau de confiança e nível de precisão Amostras de conveniência são. logo inadequadas para produzir inferência 7 . muitas vezes. principalmente quando se trata de populações raras. geograficamente mal determinadas Perigo de tendenciosidade. mal conhecidas. RECOLHA DE DADOS E AMOSTRAGEM Primários – levantados especialmente para determinada investigação Dados Secundários.se se utilizam dados já existentes Censo – informação relativa a todos os elementos da população Recolha de dados Dimensão mínima da amostra? Amostragem – analisa-se um subconjunto da população vantagens Impossível a recolha de todos os elementos da população em Populações infinitas Com elevado nº de elementos Quando o estudo das características de cada elemento conduz à sua destruição O estudo cuidadoso de uma amostra conduz a resultados mais fidedignos do que o estudo sumário de toda a população Menor custo e obtenção de resultados em tempo oportuno Problemas de ordem ética devem ser tidos em consideração Estudo de novos medicamentos Novas técnicas cirúrgicas Técnicas invasivas Amostra representativa da população Não pode ser enviezada – definição correcta da população a inquirir e da técnica de amostragem Deve existir um controlo na obtenção de não respostas ou casos perdidos. as únicas possíveis de obter.BioEstatística 2.

n – dimensão da amostra). e os restantes são determinados de modo sistemático pela razão N/n (N – dimensão da população. O 1º elemento pode ser obtido por uma tabela de nos aleatórios no intervalo [1.) Extremamente difícil obter-se tal amostragem ⇒ possível obter uma aproximação Amostragem aleatória Simples – todos os elementos têm igual probabilidade de serem seleccionados (1/N) por sorteio (bolas numeradas num saco. Este método não é muito usado dado que é difícil obter populações réplica Estratificada – quando se conhece a estrutura da população. de acordo com a proporção de cada grupo na população. e dentro de cada estrato seleccionam-se os elementos duma forma aleatória simples. e os restantes por adição de N/n (valores arredondados ao menor inteiro). Geradas por processos matemáticos que constituem um conjunto de números que não obedecem a nenhum plano prévio (amostras sem reposição) 8 1 . Conduz a amostras representativas de menor dimensão. N/n]. A população é dividida em estratos. grupos homogéneos relativamente a uma característica (ex: sexo). casual ou probabilística é a que garante melhor representatividade É necessário possuir uma listagem de todos os elementos da população de modo a que a probabilidade de qualquer elemento da população ser seleccionado seja conhecida à priori (≠0.Engenharia Biomédica Amostragem aleatória. tabela de nos aleatórios1). Sistemática ou quase aleatória – Apenas o 1º elemento da amostra é escolhido aleatoriamente.

A variável de interesse “é dada” ao participante (ex: terapia nova/terapia tradicional. A existência deste tipo de variáveis independentes é necessária mas não suficiente para tirar conclusões de causa-efeito. que pode tomar diferentes valores.2 Variável Dependente – mede ou avalia o efeito da variável independente.1. o género não é uma variável se todos os indivíduos do estudo forem mulheres).BioEstatística 3. escalão etário). Os Estudos Experimentais (randomizados ou não) exigem a existência deste tipo de variáveis. não pode ser manipulada. Na investigação quantitativa. Estudos que apenas têm variáveis independentes do tipo atributo são não experimentais.1. 3. então não é uma variável (por exemplo. que não se alteram sistematicamente com o desenrolar do estudo. VARIÁVEIS. Se um conceito apenas toma um valor num estudo.1 Variáveis Os elementos chave de uma investigação são as variáveis – características dos participantes ou da situação de um determinado estudo. Ex: género feminino/masculino. Uma variável tem de ter a capacidade de variar. é assumida como o resultado. as variáveis podem ser definidas como: Variável Independente ´Dependente Estranha Activa* Atributo ** 3. embora seja um foco importante do estudo (os valores da variável independente são atributos “pré-existentes”. ou seja. ou tomar diferentes valores. substância activa/placebo). 9 . PROBLEMAS DE INVESTIGAÇÃO E QUESTÕES 3.1 Variável Independente Activa – a variável ou a situação em que esta é avaliada pode ser manipulada. Atributo – a variável independente é medida. fazer inferência.

Factores ambientais e características do experimentador são variáveis estranhas que devem ser controladas .2 Amostras independentes versus amostras emparelhadas Independentes – se não existe nenhum tipo de relação ou factor unificador entre os elementos das amostras: a probabilidade de um sujeito pertencer a ambas é nula (ex: uma variável é avaliada para cada um dos géneros sexuais) Emparelhadas – as amostras são constituídas usando os mesmos sujeitos experimentais.1. ou ausência de relação. 10 . A excepção é quando se utilizam Gémeos ou animais da mesma ninhada A distinção entre amostras independentes e emparelhadas é particularmente importante para a inferência estatística: a relação. mas podem influenciar a variável dependente. existente entre os elementos de uma ou mais amostras.3 Variável Estranha – não são de interesse em determinado estudo.Engenharia Biomédica 3. ou homólogos (ex: a mesma variável é medida antes e depois de um determinado tratamento). 3.

Pretende-se investigar a hipótese desta doença apresentar uma prevalência ao nível nacional que não justifica que a mesma seja considerada um problema de saúde pública. Determinar a taxa de incidência anual média dos acidentes de viação nos próximos 5 anos. estas podem ser objectivadas num capítulo: objectivos de investigação ou do estudo. Hipóteses e Objectivos de Investigação A única diferença entre as questões e as hipóteses de investigação está no formato de apresentação das ideias a investigar (pergunta/frase). 11 . Comparar a segurança do novo tratamento versus a segurança do tratamento standard. Comparar as incidências da doença entre os expostos a factores de risco e os não expostos. Comparar casos com controlos relativamente à exposição prévia a factores de risco.BioEstatística 3. Exemplos: Questões Será que este novo tratamento é eficaz em comparação com o placebo? Será que este novo tratamento é tão seguro como o tratamento standard? Será que os expostos a determinados factores de risco têm efectivamente mais risco de doença que os não expostos? Será que quem fez a terapia A tem 10 vezes menos risco de recidiva que quem não fez? Será que os casos de doença estiveram mais expostos a determinados factores de risco que os controlos? Será que esta doença apresenta um prevalência ao nível nacional que justifique que a mesma seja considerada um problema de saúde pública? Será que os acidentes de viação apresentam um incidência anual que justifique ser considerado um problema de saúde pública? Hipóteses Pretende-se investigar a hipótese do novo tratamento ser mais eficaz que o placebo. Pretende-se investigar a hipótese dos acidentes de viação apresentarem uma incidência anual que realmente justifica ser considerado um problema de saúde pública. Objectivos Comparar a eficácia do novo tratamento versus a eficácia do placebo. Pretende-se investigar a hipótese que o novo tratamento é tão seguro como o tratamento standard. Pretende-se investigar a hipótese que os expostos a determinados factores de risco têm efectivamente mais risco de doença que os não expostos. Pretende-se investigar a hipótese que quem fez a terapia A tem 10 vezes menos risco de recidiva que quem não fez. Comparar as taxas de recidiva entre um grupo que faz a terapia A e um grupo que não faz qualquer tratamento.3 Questões. Determinar a taxa de prevalência da doença a nível nacional. A partir do momento em que estão definidas as questões ou as hipóteses de investigação. Pretende-se investigar a hipótese que os casos de doença estiveram mais expostos a determinados factores de risco que os controlos.

religião. Níveis de Mensuração Nominal Ex: sexo. ainda que. raça. As primeiras. podem ser classificadas quanto ao seu nível de mensuração.1 Relação entre variáveis e Questões/hipóteses e objectivos da Investigação As variáveis têm de ser observadas para se poderem analisar os objectivos da investigação. os úmeros apenas servem para identificar categorias Variáveis qualitativas – classificação dos indivíduos de acordo com as suas categorias Nominal Dicotómica tem alguns privilégios 12 =. embora categorias. sendo que a escolha do tratamento estatístico adequado exige a identificação da escala e níveis de medida das variáveis. por vezes. Dado que as variáveis medem qualidades ou quantidades. estado civil. ≠ . De acordo com os exemplos anteriores. poder-se-ia ter: 3. As variáveis quantitativas podem ser discretas (se tomam valores num conjunto finito ou infinito numerável) ou contínuas (se tomam valores no conjunto nos reais).3. nº na camisola do jogador de futebol Os valores são atributos ou categorias.4 Níveis de mensuração das variáveis Existem variáveis Qualitativas e Quantitativas. se considere que as variáveis dicotómicas são sempre ordenáveis. podem ser ordenáveis ou não.Engenharia Biomédica 3.

faixas etárias. Por exemplo: 13 . > Ex: nível sócio-económico. altura.5. <. o tipo de variável e a sua importância na investigação. que representa ausência da característica medida. >. escala QI. Plano de Operacionalização das variáveis Desde o momento que estão definidas diferentes variáveis para um estudo. ≠. valor das diferenças Variáveis quantitativas – quanto valem as diferenças entre os valores: “Entre 10ºC e 30ºC existe uma diferença idêntica à encontrada ente 70ºC e 90ºC. grau de escolaridade Podem ser distinguidos diferentes graus de um atributo ou categoria.”… mas 90ºC não é 3 vezes mais quente do que 30ºC! O zero é arbitrário e não ausência da característica! Racional Ex: peso. <. ordem de preferências. idade. ≠. os códigos numéricos atribuídos a estas categorias devem obedecer a essa ordem Intervalar Ex: temperatura. assim como os seus possíveis valores ou códigos. níveis de glicémia Todas as operações aritméticas O valor mínimo é o zero absoluto. medidas de atitudes e personalidade =. É possível passar de um nível de mensuração para outro inferior ⇒ Perda de informação 3. categorias que podem ser ordenadas de forma ascendente/descendente. Neste plano deve constar qual a notação computacional da variável. existindo entre eles uma relação de ordem. é de todo o interesse definir um plano de operacionalização (ou informatização) de variáveis.BioEstatística Ordinal =. velocidade.

6 Codificação das variáveis 3.6. da base de dados.. incompletas. 99. Cada variável de cada caso corresponde a uma coluna. 999. Não respostas DEVEM ser células em branco.6. . etc.Engenharia Biomédica 3. na mesma linha.2 Controlo da Base de dados É conveniente que se criem regras (escritas) para lidar com alguns problemas como: respostas duplas. não muito claras. atribui-se um valor superior ao máximo possível para aquela variável como.1 Regras Todos os dados devem ser numéricos. Os códigos de uma variável devem ser mutuamente exclusivos. Cada variável deve ser codificada de forma a que se obtenha o máximo de informação. e não ZERO! Eventualmente. por exemplo.. Cada indivíduo ou participante corresponde a uma linha da base de dados. 14 . em branco. Cada indivíduo deve estar codificado com um identificador único Os códigos devem ser consistentemente aplicados a todos os casos da base de dados 3.

irão enviezar os resultados do estudo. se não tiverem um comportamento aleatório. podendo caracterizar o segmento da população que se negou a responder.BioEstatística As não respostas podem Resultar de erros de introdução ou de recolha de dados ⇒ devem ser eliminadas Fazer parte da natureza intrínseca do fenómeno⇒ devem ser retidas Caso estas atinjam ou ultrapassem 20% dos dados. devem ser analisadas com atenção pois. 15 .

assimetria ≤ 1..média=mediana=moda Assimetria não confirmada coef .assimétrica negativa ou à esquerda: x < Md < Mo 4.96 erro − padrão Nominal Moda Intervalar/Ratio Média aritmética Moda Moda Mediana Mediana Quantis: Quantis: Quartis/decis/percentis.assimetria > 1.96 erro − padrão . Amplitude inter-quartis Erro/Desvio-padrão Coeficiente de Assimetria/Achatamento Nível de mensuração Ordinal . assimetria = 0 . que tendem a distorcer a média (aumentando-a ou 16 . Medidas de Tendência central Localização Dispersão Indicadores da distribuição Distribuição Simétrica ..coef.Engenharia Biomédica 4.moda ≈ mediana ≈ média assimétrica coef .1 Indicadores numéricos As estatísticas apropriadas dependem do nível de mensuração da variável. Quartis/decis/percentis.assimétrica positiva ou à direita: Mo < Md < x .Outliers A representação gráfica permite visualizar o comportamento da variável e identificar as observações aberrantes ou outliers. Histograma de frequências ou de frequências acumuladas. Polígono de frequências e ogiva de Galton são gráficos já conhecidos do aluno. Diagrama de extremos e quartis ou caixa de bigodes ..2 Representação gráfica Gráfico de barras.. REPRESENTAÇÃO DAS VARIÁVEIS 4. Gráficos Circulares.

Quando os outliers afectam significativamente os resultados. estes devem ser expressamente referidos e analisados aquando da interpretação dos resultados. mas sim aplicar estatísticas mais robustas. ] 2. como por exemplo a amplitude inter-quartil ou a MAD (mediana dos desvios absolutos em relação à mediana). Assim. 17 . mantendo o valor em cada observação. particularmente úteis para verificar se a relação entre variáveis é do tipo linear. Nestes casos. Ilustram não só o valor da média. Gráficos de Caule e Folhas – reúnem a informação dos histogramas. mas também a dispersão observada ou o valor esperado na população. analisando ainda o efeito daqueles na distribuição através da comparação das estatísticas resultantes da análise com e sem observações aberrantes. podem transformar-se os dados de forma a obter a simetria. Diagrama de barras de erro: desvio-padrão. Actualmente não são muito utilizados. erro-padrão e intervalo de confiança – muito úteis quando se pretende VEMS (S) 200ML ] 4. casuística ou de mera associação. alternativamente.00 3. para cada grupo. não se deve utilizar o desviopadrão como medida de dispersão. entre 2 variáveis.00 comparar uma variável dependente intervalar/ratio em pelo menos dois grupos independentes.BioEstatística diminuindo-a) e o desvio-padrão (aumentando-o).00 ] Testemunha Controlo Estudo Grupo Diagramas de Dispersão – Ilustram a relação.

Engenharia Biomédica

4.3 Representação Tabular Tabela de distribuição de frequências – 1 variável

Tabela de contingência - Representação simultânea de 2 variáveis

18

BioEstatística

Exemplo: Pretende-se avaliar uma possível relação entre a existência de cáries dentárias e o sexo e o índice de massa corporal dos jovens portugueses. Pensa-se aidna que o IMC poderá estar relacionado com a região de residência dos indivíduos. 1. Como planearia este estudo? Descreva sucintamente. 2. Suponha agora que já tinha colhido os dados referentes ao Sexo, Altura e existência de cáries dentárias. Abra um livro do Microsoft Excel. 2.1. Na folha 1, crie um Plano de Operacionalização de Variáveis para os seguintes dados:
Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Sexo M M M F F M F M M F F M M Altura 1.717 1.574 1.618 1.402 1.427 1.558 1.462 1.504 1.754 1.626 1.529 1.521 1.711 1.623 Cáries Sim Sim Sim Não Não Não Sim Sim Não Não Não Não Sim Sim Id 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Sexo F M M M F F F M M M F M F F Altura 1.552 1.627 1.516 1.718 1.475 1.505 1.408 2.522 1.527 1.622 1.481 1.704 1.449 1.595 Cáries Sim Não Sim Sim Não Não Sim Sim Não Não Sim Não Não Id 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Sexo F F F M M M M F M M M F F Altura 1.557 1.535 1.535 1.520 1.577 1.554 1.533 1.562 1.458 1.649 1.629 1.533 1.592 1.494 Cáries Sim Não Não Não Não Sim Sim Sim Sim Sim Sim Não Não

2.2. Na folha 2, introduza os dados 3. Abra o SPSS 3.1. Importe os dados do Microsoft Excel 3.2. Altere as propriedades das variáveis: Label, Values, Measure 4. Determine a média, desvio-padrão e amplitude de variação das variáveis altura, peso, e IMC. 4.1. Detecta algum erro de introdução? Em caso afirmativo, corrija esse valor para 1.522, e determine novamente os valores pedidos em 4. 4.2. Determine os quartis e amplitude inter-quartil destas variáveis, segundo o sexo. 4.2.1. Existem outliers? Justifique. 5. Qual a percentagem de indivíduos, na amostra, que: 5.1. são do sexo masculino? 5.2. têm dentes cariados? 5.3. são do sexo feminino e têm dentes cariados. 5.4. são do sexo feminino, sabendo que têm dentes cariados. 5.5. têm dentes cariados, sabendo que são do sexo masculino.

19

Engenharia Biomédica

6. Por lapso, não tinham sido registados os valores de peso, para cada indivíduo, nem a região de residência. Acrescente estas variáveis ao plano de operacionalização das variáveis, e na base de dados em SPSS introduza a variável peso logo após a variável altura, e a variável regiao no final, alterando as suas propriedades adequadamente.
Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Peso 92.2 75.5 73.0 41.1 53.9 67.7 42.3 52.4 102.1 65.0 46.4 53.0 76.6 60.9 Regiao N S N N S N S S S N N S S N Id 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Peso 47.2 84.3 48.0 68.1 46.2 47.9 40.6 78.4 63.2 71.1 51.3 98.2 57.6 51.4 Regiao S S N N S S N S N N S S S N Id 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Peso 65.7 49.4 47.7 65.8 68.4 79.3 63.8 67.6 52.3 58.5 69.8 67.2 47.8 41.2 Regiao N S N S N N S S S S N S N S

7. Crie a variável Índice de Massa Corporal (IMC), que será automáticamente calculada como peso altura 2 . 7.1. Descreva sucintamente esta variável, em termos estatísticos. 8. Crie a variável IMC_cl, que representa o IMC em classes, de acordo com a seguinte classificação: 1 2 3 4 5 6 IMC < 18 18 < IMC < 25 25 < IMC < 30 30 < IMC < 35 35 < IMC < 40 40 < IMC < 45 Magreza Normal Excesso de Peso Obesidade I Obesidade II Obesidade III

9. Recodifique esta variável (IMC_cl) em 4 clases, aglutinando as classes 4, 5 e 6 numa só. (não se esqueça de acrescentar estas variáveis ao Plano de Operacionalização de Variáveis). 9.1. Descreva esta variável, em termos estatísticos 9.2. Qual a taxa de indivíduos com excesso de peso e obesidade? 9.3. Qual a taxa de indivíduos obesos, com cárie dentária. 9.4. Qual a taxa de indivíduo normais, com cárie dentária. 9.5. Qual a taxa de indivíduos com e sem cáries dentárias, entre os indivíduos: 9.5.1. obesos.

20

Fará sentido estudar o objectivo do estudo.3. Parece-lhe que a ocorrência de cáries é mais frequente no sexo masculino? 9. Para cada região.BioEstatística 9.1.7.3. Parece-lhe ser viável o objectivo definido? 9. normais 9. O IMC médio em cada região.7.6.7.5. Em que região é mais frequente haver cáries dentárias? 9. 9. em cada região? 21 .2.2.7. determine 9.5.

∀a. Para qualquer função de distribuição F tem-se que a. Função de distribuição – Função real de variável real: F(x)= P(X < x) 1. b ) Esta é a mais simples das distribuições contínuas.σ 2 ) Distribuição normal ou de Gauss 2 Fenómenos físicos.b] é proporcional ao seu comprimento. na prática. Polígonos de frequências regulares com grau de simetria e achatamento próximos dos de uma distribuição normal Quando se passa da distribuição de frequências para a distribuição de probabilidades obtém-se Descrita pela primeira vez por De Moivre em 1733. x → −∞ lim F ( x) = 0 . etc. mas uma das mais importantes. e cuja probabilidade de tomar valores num qualquer subintervalo de [a. e dum número infinito de amostras com a mesma dimensão da amostra em estudo pode estimar-se a distribuição amostral. 0 < F(x) < 1 2.Engenharia Biomédica 5. ou seja. F é não decrescente 3. logo constante nesse subintervalo. é possível testar se as observações da amostra em estudo se ajustam a uma distribuição teórica. erros de medição.1 Algumas distribuições de variáveis aleatórias contínuas Distribuição Uniforme U ( a. b ∈ ℜ : a < b.b]. N (µ . lim F ( x) = 1 x → +∞ b. F é contínua à direita 5. P ( a < X ≤ b) = F (b) − F ( a ) c. É utilizada para representar quantidades que variam aleatoriamente no intervalo [a. DISTRIBUIÇÕES DE PROBABILIDADES Função densidade de probabilidade – função que determina a probabilidade do valor de cada observação da amostra na população: f(x) A partir do conhecimento desta função. séc. Gauss. XVIII-XIX teve um papel decisivo no seu desenvolvimento. medidas biológicas. 22 2 .

e de σ . Geometricamente. assumir valores no intervalo ]-1. mediana e moda são iguais Devido à simetria. existe uma tabela que fornece os valores de probabilidade em intervalos sucessivos e de amplitude suficientemente pequena de modo a que a aproximação a efectuar no encontro da área apropriada é bastante boa. 1. MAS…há uma infinidade de curvas. centro da distribuição. de média 0 e variância 1. Nos restantes casos utiliza-se P ( a < X < b) = ∫ b 1 2π σ a e − 1 2  x−µ     σ  2 23 .96[ é dada pela região a sombreado na figura: Para esta variável. consoante µ e σ .BioEstatística Características: A variável aleatória X pode tomar um qualquer valor dentro do intervalo de variação A curva representativa da distribuição tem a forma de sino e é simétrica relativamente à média Os valores da média.96. variabilidade dos valores de X relativamente à média.5 As curvas em forma de sino diferem apenas pelos valores de µ . a probabilidade da variável aleatória X. P ( X < µ ) = P ( X > µ ) = 0.

mas à medida que a dimensão das amostras aumenta. 24 . a distribuição da média amostral tende para a distribuição normal. a distribuição era claramente assimétrica à direita. o histograma das frequências de X vai assumindo a “forma de sino” típica da distribuição normal. à medida que a dimensão das amostras utilizadas para calcular a distribuição amostral da média aumenta.: Distribuição da média das classificações a uma cadeira de estatística em 100 amostras aleatórias de dimensão n Inicialmente.Engenharia Biomédica Necessidade de padronizar: Z = X −µ σ : Z é N(0. independentemente do tipo de distribuição da variável em estudo – teorema do limite central.1) A média amostral é uma das estatísticas mais importantes quer para a teoria da estimação quer da decisão. Ex. Outra característica importante da distribuição de probabilidades é que.

25 . para 3 e 6 graus de liberdade. Distribuição t-Sudent Dadas Z ~ N (0. χ2(n1) e Y2.n2) Y1 X = Y2 n1 n2 .1) e Y~χ2(n) tais que Z e Y são independentes. a curva vai-se tornando mais parecida com a curva normal.BioEstatística Distribuição do Chi-quadrado n 2 χ2(n) Uma variável aleatória X ( X = ∑ Z i ) obtida pela soma dos quadrados de n variáveis i =1 aleatórias Z i ~ N (0.15) graus de liberdade. à medida que o número de graus de liberdade aumenta.1) diz-se ter uma distribuição do tipo χ2 com n graus de liberdade A representação gráfica da função densidade de probabilidade é a seguinte. Note-se que. χ2(n2) duas variáveis aleatórias e F(n1. Distribuição F-Snedecor Sejam Y1.5) graus de liberdade e (15. 4. 8 e 22 graus de liberdade. A representação gráfica da função densidade de probabilidade é dada de seguida. Na imagem seguinte encontram-se representadas duas variáveis com (5. para 2. a variável X = Z Y n t(n) diz-se ter uma distribuição t-Student com n graus de liberdade. X diz-se ter uma distribuição F-Snedecor com n1 e n2 graus de liberdade.

num intervalo de tempo ou numa região dos espaço.Engenharia Biomédica Distribuição Exponencial E( 1 ) λ Esta distribuição está associada a um processo de Poisson3. e tem uma larga aplicação no estudo das filas de espera e da fiabilidade de sistemas complexos.2 Algumas distribuições de variáveis aleatórias discretas Distribuição Discreta Uniforme É a mais simples de todas as distribuições discretas. o resultado de cada uma não afecta o resultado das restantes 3 Ver distribuição de Poisson (discreta) 26 . mas acerca da qual pouco é sabido. p ) cada prova tem como resultado um de dois acontecimentos mutuamente exclusivos (sucesso/insucesso) a probabilidade de sucesso p permanece constante nas várias provas e a probabilidade de insucesso é q = 1-p as provas são independentes. usando-se para representar o intervalo de tempo entre dois eventos. à ocorrência de fenómenos aleatórios igualmente prováveis. Caracteriza-se por: todos os valores possíveis são equiprováveis: DU (i. ou como primeiro modelo para quantidades que variam entre i e j. assim. j ) Aplicam-se. Tem-se: 5. ou seja. a ocorrência de eventos independentes a uma taxa constante. Distribuição Binomial Sequência de experiências com as seguintes características: Β ( n. ou seja.

a uma uma vez distribuição que µ = σ 2 = λ . aplicando a correcção de continuidade: Z= ( X ± 0. consideramos uma aproximação correcta para np > 5 nq > 5  A padronização da variável X. P (λ ) .1 < p < 0. o teorema do limite central assegura também que a distribuição binomial se aproxima da distribuição normal para valores elevados de n e valores de p que produzam uma distribuição simétrica.1) obtém-se através da seguinte transformação: Z= ( X ± 0. Também a distribuição de Poisson pode ser aproximada normal. para a variável Z.BioEstatística À semelhança da distribuição χ2(n) e da t-Student. N(0.9  Na prática.1) obtém-se através da seguinte transformação. considerando que a aproximação é correcta  p < 0.9 quando  λ ≥ 5 A padronização da variável X. 0.1 ∨ p > 0. para a variável Z.5) − λ λ 27 .5) − np npq µ = np . dado que  2 σ = npq Distribuição de Poisson P (λ ) Associada a processos de contagens de um determinado número de eventos independentes.p). ao longo do tempo ou numa região do espaço: o número de eventos que ocorrem em dois intervalos disjuntos são independentes a probabilidade de ocorrer exactamente um evento em qualquer intervalo de amplitude ∆t arbitrariamente pequena é aproximadamente λ∆t a probabilidade de ocorrerem dois ou mais eventos em qualquer intervalo de amplitude ∆t arbitrariamente pequena é aproximadamente igual a zero. N(0. B(n.

3 Relação entre as Distribuições Contínuas 5.4 Relação entre as Distribuições Discretas 28 .Engenharia Biomédica 5.

é altamente improvável obter amostras que tenham a mesma média amostral. Assim. 29 . Dado que o valor da média populacional é único.BioEstatística 6. a média) do qual se desconhece o verdadeiro valor. com um determinado grau de Precisão .estimação por intervalos Fixada a dimensão da amostra. A alternativa é utilizar a estimação por intervalos. ^ Estimação por intervalos: Há situações em que é preferível a estimação por intervalos.estimação por pontos Confiança . se se extraírem n amostras de uma população cuja função densidade depende de um parâmetro (por exemplo. teria n estimativas diferentes da média populacional. em vez de propor uma estimativa isolada para um determinado parâmetro. Assim. menor será a confiança nela depositada. função da amostra casual Estimativa ( θ ) é o valor concreto do estimador para uma amostra em particular Uma estimativa pontual de um parâmetro da população está fortemente dependente da estimativa amostral.1 Teoria da Estimação A teoria da estimação tem como objectivo estimar parâmetros de uma população teórica a partir de estatísticas obtidas numa amostra representativa dessa população. ou seja. Esta pode obter-se associando um determinado grau de confiança ao estimador pontual. INTERVALOS DE CONFIANÇA E TESTES ESTATÍSTICOS EM POPULAÇÕES NORMAIS 6. uma vez conhecida a distribuição amostral. Assim. é necessário estimá-lo. quanto mais precisa for a resposta. este tipo de estimativa não possui nenhum grau de certeza (ou incerteza) associado à estimativa obtida. Estimação por pontos: x é o melhor estimador de µ s= ^ n × s é o melhor estimador de σ n −1 Estimativa ≠ Estimador Estimador ( θ ) é uma variável aleatória. Se se extraírem n amostras da mesma população. uma estimativa pontual pode ou não ser coincidente com o parâmetro populacional.

muito provavelmente. Contrariamente aos intervalos de confiança. por hipótese. o teste de hipóteses tem como objectivo refutar (ou não) uma determinada hipótese acerca de um ou mais parâmetros da população. Tendo uma amostra particular. entre a e b. através dos testes de hipóteses. ou se a média de uma população é superior à de outra. Normalmente.2 Teoria da Decisão A teoria da decisão. não são aleatórios. o intervalo de confiança a (1-α)100% para µ . Ex: Testar se. σ 2 (variância da população) ou π (proporção da população). a partir de uma ou mais estimativas obtidas nas amostras. traduz o grau de confiança que se tem em que uma particular amostra dê origem a um intervalo (a. b) dado que os extremos do intervalo. Ao associar um intervalo à estimativa proposta. a partir da qual se determina a estimativa para um parâmetro (ex: a média). o que se pretende estimar é µ (média da população). se a variância de 5 populações são iguais. 6. b) para significar que o verdadeiro valor do parâmetro está. a média populacional é igual a um determinado valor. dado por (a. b). Este intervalo pode ser considerado uma medida da precisão ou do erro inerente à estimativa. atribui-se ao mesmo intervalo um grau de confiança. 30 . associando a este processo um determinado nível de significância (α).b). é uma outra forma de inferir sobre o parâmetro da população. Incorrecto dizer que (1-α) é a probabilidade de θ ∈ (a. etc.Engenharia Biomédica faz-se acompanhar esta de um determinado intervalo (a. a e b.

no espaço-amostra. tem-se uma hipótese paramétrica. mais restritiva.X2. ou seja. designa-se por hipótese nula e representa-se por H0.…. e estabelecer um critério para determinar quais as amostras concretas (x1. Estas questões são formuladas sob a forma de hipóteses referentes ao(s) valor(es) do(s) parâmetro(s) e referentes a alternativa caso se rejeite aquela hipótese. Ex: A conjectura “X é uma variável aleatória com distribuição normal” é uma hipótese estatística não paramétrica.Xn).xn) que levam à rejeição da hipótese nula (e. σ 2 = 1 ” corresponde a uma hipótese paramétrica. e a conjectura diz respeito apenas ao parâmetro.….x2.…. Caso se saiba que X segue uma distribuição normal. Ex: A média dos efeitos de um determinado medicamento é nula H 0 : µ = 0 Teste bilateral  H 1 : µ ≠ 0 H 0 : µ = 0 Teste unilateral à esquerda  H 1 : µ < 0 H 0 : µ = 0 Teste unilateral à direita  H 1 : µ > 0 Assim. Um teste de hipóteses deve basear-se no comportamento probabilístico de (X1. a hipótese inicial. considerando-se uma amostra casual da população. (X1. com determinada função densidade (probabilidade).x2.X2. Uma hipótese estatística é qualquer conjectura sobre aspectos desconhecidos de F. Quando a forma da função de distribuição ou da função densidade (função probabilidade) é conhecida. à aceitação da alternativa).….xn). Assim. enquanto que a hipótese alternativa apenas é adoptada se a hipótese nula for rejeitada. deve ser defendida até a evidência mostrar o contrário. Assim.BioEstatística Considere-se uma população com uma determinada função de distribuição (F). um teste de hipóteses é uma regra que permite especificar um subconjunto R do espaço-amostra tal que 31 .Xn). a conjectura “ µ = 3. a um nível significativo. que de facto H0 não é válida. A hipótese nula só deve ser rejeitada caso exista evidência suficiente. consequentemente. o espaço-amostra é o conjunto de todas as amostras particulares (x1. representando-se a hipótese alternativa por H1 ou Ha.

.....α Aceitar H0 β = P(aceitarH 0 / H 0 falsa ) 32 . a região crítica é definida à esquerda da média. A definição desta região depende do tipo de teste escolhido. xn ) ∉ R ⇒ Aceita − se H0 A este conjunto R chama-se região crítica ou região de rejeição de H0.Engenharia Biomédica se (x1 . No caso de um teste bilateral. tem-se Por outro lado.. x n ) ∈ R ⇒ Re jeita − se H 0 (x1 . x 2 .. enquanto que num teste unilateral à direita define-se a região de rejeição à direita da média: Ao proceder ao teste de H0 contra H1 podem ser cometidos dois tipos de erros: O erro de 1ª espécie ou erro tipo I que consiste em rejeitar H0 quando esta é verdadeira O erro de 2ª espécie ou erro tipo II que consiste em aceitar H0 quando esta é falsa Decisão tomada Rejeitar H0 H0 verdadeira Erro tipo I H0 falsa Potência do teste 1 − β = P(rejeitarH 0 / H 0 falsa ) Erro tipo II α = P (rejeitarH 0 / H 0 verdadeira) Nível de confiança 1.. se o teste é unilateral à esquerda. x 2 .

sob H0 Decisão estatística Ao menor valor de α a partir do qual se rejeita H0 chama-se probabilidade de significância ou.. fixados previamente ao estudo. Quando se emprega o teste de nível de significância α.x2.05. e se observa a amostra concreta (x1. H1: Culpado Então α=P(enviar um inocente para a cadeia) e β=P(não prender um culpado) α e β estão inversamente relacionados... sendo a hipótese nula verdadeira. O teste de hipóteses permite obter a probabilidade de. associado à região crítica R.05 (5%). xn ) ∈ R e deve rejeitar-se H0 ao nível de α100% Passos de um teste estatístico Identificação do tipo de distribuição amostral Formulação das hipóteses a testar Definição do nível de significância Definição da região crítica ou região de rejeição de H0 Calculo da estatística do teste (VC). valor-p.. admitindo que esta hipótese é verdadeira. situa-se o valor-p relativamente aos níveis de significância mais habituais (0. x2 . o valor-p é uma medida da evidência que os dados fornecem a favor de H0.01 < p < 0. donde deve rejeitar-se a hipótese nula sempre que se tem p<α. seja H0: Inocente.01). Assim..xn).. ser encontrado o valor observado nesta amostra ou outro valor mais extremo. Só aumentando n se reduz simultaneamente ambos.01 (1%) mas já o é ao nível de 0. pode ocorrer uma das duas situações seguintes: (x1 .BioEstatística Por exemplo. 0.05 ⇒ a evidência contra H0 não é significativa ao nível de 0.…. xn ) ∉ R e não há motivo para rejeitar H0 ao nível de α100% (x1 . em qualquer experiência. mais simplesmente. se 0. Normalmente. x2 . Por exemplo. Designando esta probabilidade por p: p = prob(|valor| ≥ valor observado | H0) Este valor representa uma medida complementar do grau de certeza a partir do qual assumimos como real o resultado da estatística amostral dado que é a probabilidade de obter este ou outro valor mais desfavorável para a hipótese nula... ou deve rejeitar-se H0 ao nível de 5% 33 .

o nível fixado foi de 5%. 6. quanto menor for p menor é a consistência dos dados com a hipótese a testar (H0). sob H0 Decisão estatística O problema que agora se coloca é saber a que nível de significância deve ser rejeitada H0. dependente do critério do investigador. Deve ou não rejeitar H0? Estando este valor p compreendido entre os limiares de significância (ou níveis de significância habitualmente considerados) 0.05 há autores que diriam ser de rejeitar ao nível de significância de 5% mas não ao de 1%. dir-se-ia apenas que sendo p<0. Se o nível fixado foi de 1%. Pode utilizar-se um intervalo de confiança a (1-α)100% para concluir acerca da rejeição ou não de H0 num teste de hipóteses bilateral para um nível de significância α. Outros autores consideram apenas a comparação do valor p observado com o nível de significância estabelecido antes do estudo.05 rejeita-se H0 ao nível de significância de 5%.3 Intervalos de Confiança versus Testes de Hipóteses Ambos são métodos de inferência estatística que têm associado uma determinada probabilidade de erro. Passos de um teste estatístico com recurso a uma aplicação estatística (ex: SPSS) Identificação do tipo de distribuição amostral Formulação das hipóteses a testar Definição do nível de significância Cálculo do valor-p. dir-se-ia que sendo p>0. ou seja.01 e 0. Se. Abaixo de determinados valores ou limiares de significância (0.Engenharia Biomédica mas não de 1%. Suponha que com determinada amostra é encontrado o valor p=0. pretende-se geralmente demonstrar a eficácia (ou não) de um determinado tratamento ou medicamento.05 ou 0. Qual dos métodos usar? Depende dos objectivos do estudo… em ensaios clínicos.03. por exemplo.01 não pode rejeitar-se H0 ao nível de significância de 1%. Se o tratamento tiver um 34 .01) dizemos que existe forte evidência contra esta hipótese (H0) que por isso deve ser rejeitada.

para o gestor do produto (medicamento). se basear na garantia do fabricante: Como explicaria ao gestor da companhia as consequências do erro tipo I e erro tipo II? Preferia utilizar um teste estatístico para averiguar se a vida média de cada bateria é. o que será de maior peso em decisões administrativas do que o facto do efeito médio ser (ou não) diferente de zero.BioEstatística efeito significativo. para substituição da bateria. 3 anos. pois o gestor poderá concluir acerca da dimensão e credibilidade do efeito do medicamento. de facto. Contudo. sendo este tipo de inferência requerido para publicação do estudo em revista científica. pelo menos. o intervalo de confiança para a média das variações tem mais interesse. 3 anos. independentemente da magnitude de µ . pretendemos rejeitar H 0 : µ = 0 em favor de H 1 : µ ≠ 0 . Pense no seguinte exemplo: Uma companhia produtora de baterias para pacemakers garante que a vida média de cada bateria é de. ou utilizaria um Intervalo de Confiança? Porquê? 35 . Se a data de operação cirúrgica. isto é. então a média das variações da variável sob estudo será significativamente diferente de 0.

1 Intervalo de Confiança e teste t de Student H 0 : µ = 0 Normalmente. também. o que acontece à amplitude do intervalo de confiança? Se a amostra passar a ter mais 100 casos. x + tα 2 s n ) . quando se está a fazer um teste à média ( teste bilateral :  ) ou a H 1 : µ ≠ 0 determinar um intervalo de confiança para a média populacional ( µ ). tem-se que a amplitude do intervalo varia de amostra para amostra. o que acontece ao intervalo de confiança? O que pode fazer se quiser reduzir para metade a amplitude de um intervalo de confiança? 36 . utiliza-se s = a variável aleatória Z ( Z = ^2 n × s 2 como estimador de σ 2 . A variável que passa a ter condições para ser utilizada na determinação do intervalo de confiança para µ ou na realização do teste estatístico é T = X −µ ^ ~ t (n − 1) . POPULAÇÕES NORMAIS 7.1) ) deixa de poder ser utilizada uma vez que. já que depende de ^ s e da dimensão da amostra. s n O intervalo de confiança é dado por ^ ^ ( x − tα 2 s n .Engenharia Biomédica 7. Pense nos seguintes casos: O que acontece ao intervalo de confiança quando aumenta o nível de confiança? Se a variância da amostra aumentar para o dobro. com valores iguais à média amostra. para além µ . não se conhece a variância da população ( σ 2 ). donde n −1 X −µ σ n ~ N (0. uma distribuição simétrica relativamente à origem. Assim. se desconhece σ (parâmetro perturbador). com tα 2 a verificar P(T> tα 2 ) = α 2 Dado que esta variável aleatória (T) tem.

Supondo que os scores seguem uma distribuição normal. 1 4 4 0 2 10 16 -6 3 8 11 -3 4 13 17 -4 5 7 17 -10 6 3 4 -1 7 15 18 -3 8 7 11 -4 x 8. Doente Antes Depois Dif. indique se aplicação da nova prótese influenciou o grau de satisfação dos utentes.00 8 147 118 29 9 157 135 18 10 155 117 38 x 143. Os resultados.03 1.38 12. Constrói-se a variável Diferença. foram os apresentados de seguida. 10 doentes com enfarte do miocárdio foram submetidos a uma prova de esforço antes e depois do programa.75 3.14 5. Para tal. expressos em batimentos por minuto. Indique se o programa de reabilitação foi eficaz.88 s 4.03 s n 4.00 0. Para a realização do teste estatístico.BioEstatística 7.84 5.00 140 95% CI fc 130 120 110 Antes Depois 95% CI 20. o intervalo de confiança pode ser determinado.5 125.09 s n 1. expressos em score de satisfação.00 Média das diferenças: frequência cardíaca Exemplo 2: Foi estudado o grau de satisfação (medido por questionário) de vários utentes de uma clínica dentária antes e depois de lhes ser aplicada uma nova prótese total removível.1 s 12.00 2.09 37 .  H 0 : µ Dif = 0  H 0 : µ Antes − µ Depois = 0  H 0 : µ Antes = µ Depois    teste bilateral :  ⇔ ⇔ H 1 : µ Dif ≠ 0 H 1 : µ Antes − µ Depois ≠ 0    H 1 : µ Antes ≠ µ Depois    Exemplo 1: Deseja-se saber se um programa de reabilitação após enfarte de miocárdio diminui a frequência cardíaca de esforço. 160 1 147 132 15 2 122 117 5 3 127 142 -15 4 141 125 16 5 150 116 34 6 132 130 2 7 157 122 35 40.25 -3. e determina-se o Intervalo de Confiança para a nova variável. baseando-nos na média das diferenças de cada uma das variáveis.63 8. Contudo.99 17.1 Duas Amostras emparelhadas Neste caso.38 150 30.1.46 2.4 18.00 10. as aplicações estatísticas fazem-no automaticamente. Os resultados. procede-se da mesma forma. estão no quadro seguinte. Doente Antes Depois Dif.

00 10.Engenharia Biomédica 0.00 5.1.5 -6. o que acontece se a variabilidade de cada grupo é diferente? Serão as médias de dois grupos com variabilidade diferente comparáveis? O teste de Levene (1960) é um dos testes mais potentes para testar a homogeneidade das variâncias e é automaticamente efectuado pelo SPSS quando se efectua um teste t para amostras independentes. a variável T tem condições para se definir como variável fulcral.00 17.0 7. Eventualmente.5 95% CI p Antes Depois 95% CI -4. O mesmo se passa com o teste estatístico. As hipóteses estatísticas são as seguintes: H 0 : σ A 2 = σ B 2   2 2  H 1 : σ A ≠ σ B No caso de se desconhecer a variância populacional. e P(T> tα 2 ) = α 2 com s * dado computacionalmente por uma qualquer aplicação estatística (SPSS). ( x A − x B ) + tα 2 s * ) .5 15. uma vez que cada indivíduo não tem um par de observações (tem-se a diferença de médias). 38 .2 Duas Amostras independentes Neste caso.0 -8. ficando o Intervalo de Confiança definido por (( x A − x B ) − tα 2 s * .00 12. não é possível construir o intervalo de confiança fazendo a média das diferenças. sendo o intervalo de confiança determinado com base no resultado daquele. poderão existir grupos de dimensões diferentes… H 0 : µ A − µ B = 0 H 0 : µ A = µ B teste bilateral :  ⇔ H 1 : µ A − µ B ≠ 0 H 1 : µ A ≠ µ B Por outro lado.00 Média das diferenças: Satisfação Prótese 7.0 -2.

18750 3.7 30.69781 -1.30 s 7.00 20.044 1.87689 F Sig.2 30.00936 11.38269 -2.14016 F Sig.115 3.6 15.7 x 26.36 14 10.1 39 8.18750 10. pelo que se excluíam 3 sujeitos no escalão dos 17-19 anos. tendo-se obtido os seguintes dados: Idade 17-19 20-22 20.7 20. T df 39 .BioEstatística Exemplo 1: Foi efectuado um estudo sobre o índice de massa corporal consoante o escalão etário. pelo que esse indivíduo será eliminado da amostra.3 15.1 13. O que conclui? Levene's Test t-test for Equality of Means 95% Confidence Interval of the Difference Lower IMC Equal variances assumed Equal variances not assumed 2. em 16 estudantes do ensino superior. (2-tailed) Mean Difference Std. Suponha ainda que os critérios de inclusão/exclusão do estudo exigiam que os sujeitos tivessem IMC entre 15 e 30.49 16.51796 2.03053 3.7).71 1. Os resultados seriam os seguintes: Levene's Test Sig.00 15. e 2 do outro grupo.68733 16.121 .55 4. (2-tailed) t-test for Equality of Means Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower IMC Equal variances assumed Equal variances not assumed 5.51350 Upper 10.00 A leitura do teste t de Student para amostras independentes e do Intervalo de confiança para a diferença de médias é feita.36 3.007 10. T df Sig.7 .03053 3. 95% CI IMC 30.3 17.8 21.59 9 5.82 . assim.49811 Upper 16.28 .168 4. ou pelo gráfico seguinte: 25.31333 2. Error Difference Pelo teste de Levene pode-se assumir a igualdade de variâncias.7 IMC 29.00 17-19 20-22 Escalão etário Exemplo 2: Verificou-se ter havido um erro na introdução dos dados (IMC=8.49 .31333 4. na 1ª linha da tabela de resultados.68767 3.06 Observe agora os resultados obtidos no SPSS.6 27 15.1 19.4 18.005 .

Por exemplo... ter-se-ia um erro tipo I aproximadamente de 1 − (1 − α ) m × 100% . 40 . a probabilidade de um erro tipo I. ainda que possível. duas a duas. ou visualizados no gráfico que se segue: 30.00 20. utilizando esse mesmo teste para comparar mais m populações..2 K Populações Normais e Independentes (k>2): ANOVA Uma das aplicações da Análise de Variância (ANOVA) é a comparação entre médias de m populações normais. não é válido.00 22. enquanto que no teste a duas populações o erro tipo I não será superior a α × 100% .. ou seja.00 95% CI IMC 15-30 24. = µ m  1  H 1 : ∃i. de concluir erradamente que existe diferença entre as 3 populações é de 14. para α = 0. i ≠ j : µ i ≠ µ j A primeira hipótese que provavelmente colocaria seria comparar as médias duas a duas através de um teste t-Student… Este procedimento. ou seja.Engenharia Biomédica Neste caso.00 18.00 26.00 16.. em 3 populações.00 17-19 20-22 Escalão etário 7.. Assim. j ∈ { . e apenas 2 populações. é necessário avaliar a forma como as m populações são definidas.3%. testar a hipótese  H 0 : µ1 = µ 2 = . não há homogeneidade de variância pelo que os resultados do teste t de Student para amostras independentes têm de ser lidos na segunda linha. com base num ou mais critérios (ou factores) e a variabilidade patenteada pelas amostras de cada uma das populações.00 28. m}.05 .2. dado que a estatística e o valor crítico deste teste só são válidos para comparar médias de 2. De facto. a partir das quais se extraíram duas amostras aleatórias.

intuitivamente os gráficos sugerem conclusões diferentes. B e C). enquanto que no primeiro caso se tende a rejeitar quase de imediato a hipótese de igualdade de médias. com alguma facilidade. 41 .BioEstatística Por exemplo. no segundo caso a tendência é para aceitar. a hipótese de igualdade de médias. Contudo. a variabilidade dos dados relativos a cada população é um aspecto fundamental a ter em conta no teste de hipóteses de igualdade de médias. parece aceitável fundamentar o teste de hipóteses na comparação entre estas variabilidades ⇒ Análise de Variância (ANalysis Of VAriance). onde se podem observar 5 observações amostrais de cada uma das 3 populações: Note-se que as médias amostrais relativas às várias populações são iguais nas duas situações. suponha que queria testar a igualdade da média em 3 populações (A. Se a variabilidade em torno de cada uma das médias amostrais é grande. comparativamente com a variabilidade entre as médias amostrais (2º caso). e considerem-se as duas situações apresentadas na imagem seguinte. Assim. Assim. tende-se a não rejeitar a hipótese nula.

é também robusta a violações da homocedasticidade (homogeneidade de variâncias entre os grupos) desde que o número de observações em cada grupo seja aproximadamente igual. conclui-se.2. ni . j = 1... 7. para um determinado nível de significância α. Sejam X i1 .2... 30[. o que implica que µ i = µ + α i Valor Observado = Média Geral + Efeito do nível i do factor + Variável Residual Baseado no modelo teórico da ANOVA para a população...5... só é legítimo considerar este factor a causa das diferenças entre as médias das populações se se puder garantir a homogeneidade das populações relativamente a todos os outros factores que podiam ser relevantes para a explicação do fenómeno. Contudo.. é possível escrever o modelo a partir das observações amostrais: xij = x + x i − x + ( xij − x i ) Observação ij Média amostral (estimativa de µ) Efeito do nível i do factor Resíduos ( ) 42 . i = 1. [40. Caso se rejeite a hipótese H0 de igualdade de médias. 40[. ε ij ~ N (0..Engenharia Biomédica A ANOVA é relativamente robusta a desvios à normalidade desde que o número de elementos em cada grupo seja relativamente grande. X i 2 . isto é. m Assim. sendo que a não normalidade tem consequência mínimas na interpretação dos resultados quando a distribuição não é muito enviezada. i = 1.. σ 2 ). na qual se baseia a ANOVA.2. [30.2. considerando-se que os grupos são de dimensão semelhante quando o quociente entre a dimensão do maior grupo e do menor for inferior a 1... X ij ~ N ( µ i . que as m populações não apresentam comportamento idêntico perante o critério ou factor que serviu para efectuar a classificação. σ 2 ) .1 ANOVA a 1 factor A definição das m populações é feita com base num critério ou factor (por exemplo. A distribuição F.. X ij = µ + α i + ε ij . m m amostras causais independentes com distribuição normal de média desconhecida e variância comum desconhecida. definemse 3 populações segundo os escalões etários [20. X ini .. 50[)..

n − m) . devida ao factor) que pode ser estimada a partir de x i − x . é possível obter uma estimativa da variabilidade total. estimada a partir de ( xij − x i ) e da variabilidade entre as amostras (variação factorial. através: 43 . estimada a partir de SQE ). a variação residual ou dos erros de medida). ou seja. Quando se conclui que tais diferenças existem é interessante qualificá-las. determinam-se as somas dos quadrados: ( ) SQD = ∑∑ X ij − X i i =1 j =1 m m ni ( ) =∑ (n 2 m i =1 i − 1) s i ^2 SQE = ∑ ni X i − X i =1 ( ) 2 Sendo assim. e a variância dos erros (ou dentro das amostras. dada por Soma Quadrados Total = Soma Quadrados Dentro Amostras + Soma Quadrados Entre Amostras A estatística teste da ANOVA é dada pela razão entre a variância do factor (ou entre as amostras. estimada a partir de SQD n−m ( n − m) Fonte de Variação Entre Amostras Dentro das amostras Soma dos Quadrados SQE SQD Graus de Liberdade m-1 n-m Médias Quadráticas F MQE = SQE (m − 1) MQD = SQD (n − m) F = MQE MQD Total SQT n-1 Este procedimento permite testar a existência de diferenças estatisticamente significativas entre as médias das m populações.BioEstatística O cálculo da estatística teste para a ANOVA requer o conhecimento das estimativas da variabilidade dentro dos grupos (isto é. Em ambos os casos. m −1 SQE (m − 1) SQD ). a partir da variável F = ~ F (m − 1.

2 e 3 com o grupo 4 e 5 utiliza-se. onde a probabilidade de rejeitar H0 correctamente é mais elevada). -2. sem que um teste para comparações múltiplas detecte a diferença entre pares de médias… Tal deve-se ao facto de a ANOVA ser um teste mais potente (ou seja. que a ANOVA e os testes de comparações múltiplas cheguem a conclusões diferentes. mas exigem que a decisão acerca das condições de interesse a testar sejam tomada à priori. se houver 5 grupos e pretender comparar os grupos 1 e 3 com o grupo 4. ainda que pouco provável. comparações planeadas. x i 0 + tα / 2  ni ni    No SPSS. 1. daí serem menos utilizados. por exemplo. Quando se compara um número reduzido de grupos. Os coeficientes do contraste são números positivos ou negativos (eventualmente nulos) que definem as hipóteses a serem testadas. Outra hipótese é realizar comparações à priori. entre outros. isto é. -1. efectuam-se comparações múltiplas das médias usando as comparações Post- Hoc através dos testes de Tuckey. o teste de Bonferroni é um dos mais potentes. Scheffé ou Bonferroni. por exemplo. 1. 1. pode rejeitar-se H0 na ANOVA. se quiser comparar os grupos 1. É possível. Por exemplo. enquanto que os testes para comparações múltiplas têm associado maiores probabilidades de erro tipo II) ⇒ repetição do estudo com amostras de maior dimensão de modo a reduzir a probabilidade de erro tipo II. usando a  MQD MQD   distribuição t-Student com n-m graus de liberdade:  x i 0 − tα / 2 . Fisher-LSD. testando relações específicas entre grupos através de uma combinação linear das médias cuja soma dos coeficientes se anula. 0. como os de Fisher-LSD ou de Scheffé. 1. basta definir os coeficientes do contraste como. 44 . O teste de Tuckey é um dos mais robustos a desvios à normalidade e homogeneidade de variâncias para amostras grandes. uma vez que.5. Estas comparações são mais potentes do que testes post-hoc. enquanto que em amostras pequenas. 1. muitas vezes opta-se por testes mais simples.5.Engenharia Biomédica Do cálculo do intervalo de confiança para a média de cada população. 0. ou seja. -1. serão testes t de Student que serão efectuados. de facto. usando contrastes.

5 cerveja – 0. Em caso afirmativo. identifique as diferenças através do teste de Tuckey. quais os grupos com diferença significativa? Apresente um gráfico que lhe permita avaliar alguma tendência. 4 = Não bebe Verifique se existe diferença estatisticamente significativa no número de acidentes. Baixa 14 15 9 15 15 10 11 11 10 14 16 11 15 12 12 14 13 10 Média 12 11 14 13 16 15 13 14 13 12 13 14 13 15 16 14 13 13 Alta 17 16 16 18 16 17 14 15 16 12 18 13 18 14 16 17 15 17 Exemplo 2: ANOVA a 1 factor nominal No quadro seguinte apresentam-se o número de acidentes segundo o tipo de bebida alcoólica consumido pelo condutor. efectue-os e conclua: a) 1/3 aguardente + 1/3 vinho + 1/3 cerveja – 1 Não bebem b) 0. 3 = Cerveja. Neste caso (factor ordinal).BioEstatística Exemplo 1: ANOVA a 1 factor ordinal. Bebida 1 1 1 1 1 1 1 1 1 1 Acidentes 5 4 4 5 5 6 6 4 4 5 Bebida 2 2 2 2 2 2 2 2 2 2 Acidentes 6 5 3 5 4 4 4 4 4 2 Bebida 3 3 3 3 3 3 3 3 3 3 Acidentes 2 2 3 3 1 2 2 4 3 2 Bebida 4 4 4 4 4 4 4 4 4 4 Acidentes 2 1 2 1 2 2 3 2 3 4 Bebidas: 1 = Aguardente.5 vinho – 0. consoante as condições motivacionais dos alunos. é possível fazer uma análise de tendência.5 aguardente + 0. foram as apresentadas no quadro seguinte. Suponha que as notas de Bioestatística da Licenciatura de Medinina Dentária da UC. 2 = Vinho. consoante o tipo de bebida ingerida. no ano lectivo de 2006/2007. Será a motivação um factor de diferenciação das notas nesta disciplina? Em caso afirmativo.5 não bebem 45 . nas duas horas anteriores ao acidente. Indique ainda o que significam os contrastes seguintes.

6 96.3 3.2 97.44 15.645 11.82 8.factor infância tem 3 níveis: 1 = jardim-infância.2 Europeia 3. africana) e do tipo de parto (eutócico.2 factores fixos Amostra aleatória de 30 mães.4 3. distócico) no peso dos recém-nascidos.3 2.868 Infância 3 3 3 3 3 3 3 QI 94 112 112 100 103 112 112 Notas 9 14 14 9 14 14 14 46 Distócico Eutócico .2 2.53 16. É lógico que crianças com maior QI tendam a originar melhores notas a matemática . Asiática 2. Avaliar o efeito da origem (asiática.modelo aleatório: factores aleatórios – não tinha escolhido o continente onde seriam seleccionadas as mães.9 Notas 15.1 101.9 Africana 2.1 2 ANOVA a mais do que 1 factor .3 108.1 96.3 94.5 3.5 96.826 13.4 2.4 109.586 11.6 Notas 14.7 93.Engenharia Biomédica 7. 2 = casa.2. europeia.966 12.3 3.3 86.7 106.efeitos mistos: inclui factores fixos.18 12.3 2.9 3.526 14.1 4 4 3.1 3 3. nem tipo de parto.1 2.3 3. aleatórios.2 Exemplos de outras Análises de Variância ANOVA a mais do que 1 factor .7 100.4 3.9 3.08 16.3 2 2.78 9.2 2.2 2.3 2. e variáveis concomitantes ANCOVA – ANalysis OF COVAriance Avaliar a relação entre o tipo de acompanhamento que as crianças tiveram até aos 5 anos de idade (infância) e as notas de matemática.9 4.8 3.7 2. mas tinha seleccionado aleatoriamente ANOVA a mais do que 1 factor .66 Infância 2 2 2 2 2 2 2 QI 100. tendo-se seleccionado aleatoriamente 5 por cada categoria de parto e por continente de origem.734 10. 3 = ama – QI é variável concomitante Infância 1 1 1 1 1 1 1 QI 105.

A realização de várias ANOVS’s assenta no pressuposto que as várias variáveis dependentes eram ortogonais. a MANOVA detecta diferenças que não seriam detectadas por múltiplas ANOVAs. pode observar-se a figura seguinte. assim como a ANOVA pode detectar diferenças não detectáveis pelos testes post-hoc. quando se têm várias variáveis dependentes relacionadas. as diferenças já não são aparentes: Na MANOVA. as variáveis dependentes são consideradas em simultâneo. uma vez que o erro tipo I através de ANOVAs sucessivas em k amostras é igual a kα. organizadas de forma composta e com os efeitos associados a cada variável ponderados pela correlação existente entre ambas. ou seja.BioEstatística MANOVA (Multiple ANalysis OF Variance) e MANCOVA (Multiple ANalysis OF COVariance) A análise de variância multivariada (MANOVA) é um teste mais potente do que a realização de várias análises de variância. 47 . independentes. Para ilustrar este facto. onde é visível a diferença existente entre os dois grupos de pontos (escuros e claros). em cada uma das variáveis. em muitos casos. ou seja. De facto. de forma a que o erro tipo I permaneça igual a α. mas quando as funções densidade são projectadas em cada um dos eixos.

00 Dose r>0 r<0 Normalmente há vantagem em ser efectuada uma análise de regressão em vez da correlação simples.7 ou r=-0. 1. coeficiente este que varia entre -1.Engenharia Biomédica 7.7 é a mesma. é interessante avaliar o sinal de r..00 0. determina-se o coeficiente de correlação r de Pearson.60 0.1 e é dado por r= cov xy sx × s y = ∑ [(x − x )× (y − y )] ∑ (x − x ) × ∑ (y − y ) i i 2 i i 2 O coeficiente de correlação r mede a força da associação entre as variáveis e o teste que lhe está associado ( t o = r 1− r 2 n − 2 ~ t (n − 2) ) tem como hipóteses:  H 0 : Não existe relação linear entre X e Y (r = 0)    H 1 : X e Y estão linearmente relacionadas (r ≠ 0)  Sempre que existe uma correlação estatisticamente significativa.20 0. Graficamente..0. dado que este indica o sentido da relação (Note-se que a significância estatística de r=0.80 Fracção de Sobrevivência 0..00 0. através de um diagrama de dispersão. o que muda é o sentido da relação).40 0. sendo necessário ter uma variável dependente e outra independente. 48 .00 400.3 Correlação linear Quando se pretende estudar a relação ou associação entre 2 variáveis quantitativas aleatórias X e Y. Em termos laboratoriais podemos dizer que uma das variáveis é manipulada pelo investigador enquanto na outra são medidos os valores obtidos. e sendo ambas provenientes de populações normais..00 200. pode observar-se uma tendência crescente ou decrescente consoante o valor do coeficiente de correlação é positivo ou negativo.

ou seja. y seja um ponto dessa recta. Ora. normalmente. y é o valor observado na amostra Pontos da recta de regressão: (x. Contudo. tem-se uma recta: y* = a + bx O coeficiente a é designado por intersecção ou ordenada na origem. donde a = y − b x ( ) 7. ε = 0 ). parte da variabilidade de y não é explicada pela regressão . o coeficiente a fica determinado se conhecermos um ponto da recta. de estudar como modificações numa variável independente produzem modificações noutra variável dependente. e o coeficiente b por inclinação ou declive da recta de regressão de y sobre x. ( ) 7.BioEstatística 7. À equação que traduz a função y de x dá-se o nome de curva de regressão de y sobre x. nem sempre y coincide com y*.4. Isto significa que nem toda a variabilidade de y é explicada pela regressão. nem todos os pontos do diagrama de dispersão4 ficam sobre a recta5. ou seja. determinada pela recta de regressão 49 . O objectivo é encontrar os valores de a e b que melhor traduzem a recta de regressão. determina-se o declive da recta (b).4 Análise de Regressão Linear Simples A regressão linear simples é um método para estudar a relação entre 2 variáveis quantitativas.1 Determinação dos coeficientes da recta de regressão Baseando-nos nos valores amostrais. para um nível de significância α   H 1 : X e Y estão linearmente relacionadas (b ≠ 0)  4 5 Pontos do diagrama de dispersão: (x. com o objectivo de estimar uma variável Y em função da outra X.4. ou seja. y* é a estimativa de y. que minimizam os erros cometidos entre o valor y* previsto pela recta e o seu valor observado y.é a variabilidade residual devida a outros factores ou ao erro ou resíduo: ε=y*-y.y). e de tal forma que x. através de b= cov xy sx × sx = cov xy s 2 x ∑ (x − x )× (y − y ) ou de b = r × s s ∑ (x − x ) i i 2 i y x Conhecido o valor de b. normalmente distribuídas.2 Hipóteses estatísticas para o declive da recta de regressão  H 0 : Não existe relação linear entre X e Y (b = 0)  .y*). Se esta variabilidade residual for devida a erros casuais não tem uma magnitude significativa relativamente à variabilidade devida à regressão (tem-se. é suposto que x. y pertença à recta de regressão. Se for uma regressão linear.

40 0.00 200. Assim. y * + t α × EPy*    1− .00 0.00 que a distribuição dos valores da dose de 0. esta será negativa. Supondo 0.Engenharia Biomédica Sempre que a recta de regressão está bem ajustada.3 Estimativa de valores de y pela recta de regressão: A predição de valores da variável dependente pela equação de regressão só é legítima dentro dos limites de variação dos valores observados na variável independente. n − 2 1− .60 sobreviência do vírus diminui com o aumento da dose de radiação. Usando um diagrama de dispersão..1] recta de regressão coincidente com a recta y (ausência de associação) grande dispersão de valores em torno da recta de regressão (associação fraca) pequena dispersão de valores em torno da recta de regressão (associação forte) dispersão nula em torno da recta y (associação máxima) 7. n − 2 2 2   Exemplo 1: Na seguinte janela do SPSS pode visualizar-se a fracção de sobrevivência f de um vírus sujeito a uma dose de radiação d.00 Dose radiação e racio de sobrevivência seguem 50 .. parece existir uma relação linear entre a dose de radiação e a fracção de sobrevivência do vírus: 1. parece que a fracção de 0. através do coeficiente de determinação r2: r2 = r2 = 0 r2 reduzido: r elevado: r2 = 1 2 SQexp licada SQtotal ∈ [0.4. haveria necessidade de determinar o seu intervalo de confiança a 1-α% usando  *  y −t α × EPy* .00 400. é necessário calcular a força ou magnitude da associação para determinar se esta é relevante. Trata-se de uma estimativa pontual.20 significativa. a existir correlação estatisticamente 0.80 Fracção de Sobrevivência De facto.

960 Adjusted R Square . ANOVA(b) Regression Residual Total Sum of Squares 1. . se existe uma relação de causa (dose) – efeito (sobrevivência).044.98! O valor real da correlação deve ser avaliado através da matriz de correlação e não do sumário do modelo de regressão. 96% da variabilidade encontrada no racio de sobrevivência é devida à variabilidade da dose administrada.07932 O valor de r2 pode ser obtido fazendo 0.989 Sig. Error of the Estimate .96=1. para além da relação existente entre as duas variáveis. sendo que a variabilidade devida à regressão é cerca de 166 vezes superior à variabilidade residual. a variabilidade conjunta é de 96%. O quadro sumário do modelo de regressão linear mostra que o r2 é de 0. Note-se que r.9802= 0. tem-se: Correlação de Pearson Dose r p n Racio de Sobrevivência -.001).96 ou usando SQ do modelo da ANOVA: 0. neste quadro.088 df 1 7 8 Mean Square 1. Neste caso. no sentido em que doses de radiação mais elevadas estão associadas a racios de sobrevivência menores (r = -0. o que se poderá obter por regressão linear simples.044 .98 < 0).954 Std.044 .000(a) 51 .001). ou seja. o que parecia óbvio no diagrama de dispersão confirma-se: existe uma correlação estatisticamente significativa entre a dose de radiação administrada e o racio de sobrevivência do vírus (p < 0.000 9 Assim.044/0. parece ser interessante avaliar em que sentido é que a fracção de sobrevivência do vírus poderá depender da dose de radiação administrada.980 . No quadro da ANOVA pode ainda observar-se que esta recta se ajusta bem aos dados (p < 0.044 1. ou seja. ou seja.BioEstatística distribuição normal.980 R Square . é de 0.96. Model Summary R .006 F 165.

00 300.05496 -.00 250.000 (Constant) Dose Tem-se assim que Sobrevivência*=1.049 -.06 -. Podem assim prever-se valores para o racio de sobrevivência.03 .5 Modelo de Regressão Linear Múltipla O modelo de regressão linear múltipla é uma técnica estatística descritiva e inferencial que permite analisar a relação entre uma variável dependente (Y) e um conjunto de variáveis independentes (X’s).02 .Engenharia Biomédica No quadro seguinte podemos observar os valores determinados para a e b.003xDose: Dose (x) . Coefficients(a) Unstandardized Coefficients b Std.00 50.0000 SD .11 Min -.09 .09 Mean .96 . Por exemplo.00 100. assim como a confirmação de que existe uma relação linear entre a dose adminsitrada e o racio de sobrevibvência do vírus (p < 0.10 . a partir da recta de regressão obtida.78 .00051 .001 .09 .522 -12.00 .34084 .20891 . e que as relações entre as variáveis sejam lineares e aditivas. e a transformação de equações pode conduzir a relações lineares.003 . para uma dose de 210.980 t 20.00 erro N 9 Racio sobrevivênia Observada (y) Prevista (y*) Erro (ε=y*-y) 1.38 . Este modelo requer que as variáveis sejam intervalares ou rácio.16 .00 150.11 Max . . embora estas restrições não sejam absolutas.00 1.001 – 0.884 Sig.0742 Mais uma vez se pode confirmar a qualidade do ajustamento da recta de regressão ( ε = 0 ).000 .001).003*210 = 0.04 .000 Standardized Coefficients Beta -. Error 1. obtém-se uma previsão para o rácio sobrevivência = 1.05 .57 .73664 -.47278 .00 350. 7. Variáveis nominais podem ser introduzidas no modelo com recurso a variáveis dummy (artificiais).371.25 .60471 .86858 -. Muitas funções 52 .09 .001-0.00 400. coeficientes da recta de regressão.07698 -.00 200.

o investigador pode conhecer à partida quais as variáveis independentes a incluir no modelo. sendo as variáveis independentes acrescentadas ao modelo de forma a que. nas fases exploratórias da análise de regressão. pois existem. A análise do coeficiente de determinação é geralmente o nivelados da qualidade do modelo. considerando-se como limite inferior para que não exista multicolinearidade o valor de 0. as variáveis independentes devem ser independentes. Num problema de regressão linear múltipla. * * Por outro lado. Pode recorrer-se à correlação bivariada para observar quais as variáveis com maior correlação entre si. é incluída a que maior correlação apresenta com a variável dependente. obtidas computacionalmente em qualquer aplicação estatística. o investigador desconhece quais as variáveis que conduzem ao “melhor modelo”. Todas as variáveis com valores de tolerância < 0. entra a variável que 53 . então a lista de variáveis independentes deve ser analisada.1 devem ser excluídas do modelo. No método forward o modelo inicial apenas inclui a constante. e quanto mais próxima estiver de 0 maior será a multicolinearidade. a proporção da sua variância que não é explicada por todas as outras variáveis independentes. variáveis redundantes. em cada passo. Por exemplo. que é transformável e equivalente a Y * = t 0 + t1 X 1 + t 2 X 2 . pelo que não existirá multicolinearidade quando VIF < 10. Define-se VIF (variance inflaction factor) como o inverso da tolerância (1/Tol). Esta varia entre 0 e 1. Caso este pressuposto não se verifique. e nenhum deles conduz ao modelo óptimo. Métodos de procura do “melhor modelo” Um dos objectivos principais da regressão linear múltipla é a previsão da variável dependente a partir de um conjunto de variáveis independentes. Existem vários métodos de procura do melhor modelo. Assim. Contudo. não deve existir multicolinearidade.10. ou seja. ou seja. com certeza.BioEstatística não lineares são linearizáveis. ou observar a Tolerância ou a VIF de cada variável. A tolerância mede o grau em que uma variável X é explicada por todas as outras variáveis independentes. em cada passo. o seguinte modelo com duas variáveis independentes não é linear e aditivo: Y = c 0 * c1 X 1 1 * c 2 X 2 K k2 Mas o modelo que se obtém fazendo ln(Y ) = ln(a 0 * a1 X 1 1 * a 2 X 2 2 ) K k conduz a ln(Y ) = ln(c 0 ) + (ln(c1 ) + k1 ln( X 1 )) + (ln(c 2 ) + k 2 ln( X 2 )) .

refeição Predictors: (Constant).445 1. refeição.915(b) .941(c) .000(a) … 93. a variável que produza um maior aumento no valor de r2. horas Predictors: (Constant). sim/não) ou de Medicina dentária (DENT. refeição. horas.445 1 1 Residual 80. refeição.139 Sig. sendo as variáveis independentes retiradas do modelo. número de refeições diárias do aluno (REFEIÇÃO) e do curso que o aluno frequenta (medicina ou dentária).869 … 56.355 43 Total 248.860 4 4 Residual 23. dent ANOVA(e) Model a b c d e SS df Regression 168. No método backwards o modelo inicial a constante e todas as variáveis seleccionadas pelo investigador.139 41. F df1 df2 Change 1 43 .019 F Change 90. med. . med Predictors: (Constant). sim/não).048 .000 1 40 .160 .951(d) . horas Predictors: (Constant). med. horas.823(a) . utilizado.Engenharia Biomédica maior alteração provoca no valor do F da ANOVA. e é o que é.186 17. horas. em cada passo.9828 3 . de modo semelhante. ou. dent Dependent Variable: notas MS 168. Exemplo 1: Suponha que está a efectuar a previsão da sua nota de Bioestatística (Y).871 Change Statistics Sig.904 . med Predictors: (Constant).059 7.8359 4 . enquanto esta alteração for significativa.829 .008 a b c d 1 . horas. de acordo com o menor valor de F associado a cada variável (de forma inversa à anterior). horas.000 1 42 .940 40 Total 248.677 .677 . a partir das variáveis número médio de horas de estudo semanal (HORAS).894 .670 1.215 . Esta última variável terá de ser recodificada em duas variáveis artificiais: o aluno frequenta o curso de Medicina (MED.928 … . normalmente.837 .3670 2 .800 44 Predictors: (Constant). refeição Predictors: (Constant). horas. refeição.000(d) 54 . Model Summary Model R R2 Adjusted R2 Std.800 44 … … … … Regression 224. Error of the Estimate R Square Change .7736 Predictors: (Constant).598 F 90.876 . O método stepwise é um híbrido dos anteriores.885 .000 1 41 .

080 1.351 … .000 . pode-se comparar a variância explicada por cada variável. Collinearity Statistics Tolerance 1.000 … . enquanto que β são os coeficientes b padronizados.203 4.BioEstatística Coefficients(a) Model Unstandardized Coefficients B (Constant) 10. and prediction intervals as new variables.000 .361 Nestes casos.806 .376 horas 1. Assim. A separate model is produced for each dependent variable. residuals. as variáveis com peso na predição do modelo podem ser comparadas e avaliadas.000 .055 a Dependent Variable: notas 1 Std. comparando os valores absolutos de β.425 4 med -1.787 dent 1.578 2.325 .755 2.000 … .008 T Sig.348 .823 … .050 9.423 VIF 1.000 .294 horas 3. 7.256 -.447 . Example: An Internet service provider tracks the percentage of virus-infected e-mail traffic on its networks over time. para além dos modelos de regressão linear múltipla.376 . No quadro anterior pode observar-se que o peso relativo de cada variável na nota final. A scatterplot reveals that the relationship is nonlinear. Error . Curve Estimation The Curve Estimation procedure produces curve estimation regression statistics and related plots for 11 different curve estimation regression models.102 .464 refeição .494 … 18.329 … … … (Constant) 11.000 . no quadro dos coeficientes de regressão.000 … 3.423 . utilizado frequentemente para identificar preditores de risco de determinadas situações.949 4. Os coeficientes b reflectem a escala em que a variável foi medida. You can also save predicted values. 55 .376 Standardized Coefficients Beta . e é interessante observar os valores de β e não de b.362 .634 . Entre eles destacam-se a estimativa de curvas e o modelo de regressão logística.361 2.6 Outros Modelos de Regressão Em bioestatística é comum usar outros tipos de regressão.358 .211 23. no modelo (r2). You might fit a quadratic or cubic model to the data and check the validity of assumptions and the goodness of fit of the model.154 -4.600 .

Logistic regression coefficients can be used to estimate odds ratios for each of the independent variables in the model.Engenharia Biomédica Logistic Regression Logistic regression is useful for situations in which you want to be able to predict the presence or absence of a characteristic or outcome based on values of a set of predictor variables. and CHD status. exercise. diet. for example. 56 . Example: What lifestyle characteristics are risk factors for coronary heart disease (CHD)? Given a sample of patients measured on smoking status. Logistic regression is applicable to a broader range of research situations than discriminant analysis. alcohol use. you could build a model using the four lifestyle variables to predict the presence or absence of CHD in a sample of patients. It is similar to a linear regression model but is suited to models where the dependent variable is dichotomous. The model can then be used to derive estimates of the odds ratios for each factor to tell you. how much more likely smokers are to develop CHD than nonsmokers.

σ )   H 1 : X não segue distribuição normal Em alternativa ao teste de Kolmogorov-Smirnov. 6 Embora. ou quando o nível de mensuração da variável dependente é ordinal ou nominal (situação em que apenas se podem utilizar testes não paramétricos).1. apenas quando não existe alternativa. principalmente quando se pretende testar a significância de tratamentos ou factores que são capazes de influenciar a resposta da variável medida e. sempre testes não paramétricos? Porque a potência dos testes paramétricos. caso estejamos a comparar 2 ou mais populações 8. a probabilidade de rejeitar correctamente H0 é superior num teste paramétrico6.1 Condições Gerais de aplicação dos testes paramétricos A variável dependente é quantitativa e segue uma distribuição normal As variâncias populacionais são homogéneas. os testes não paramétricos não exigem que seja conhecida a distribuição amostral (embora possuam outras condições de aplicação). 8. em amostras de pequena dimensão seja. preferível utilizar testes não paramétricos 57 . então. ou seja.1 Testes estatísticos mais utilizados para testar a Normalidade da distribuição: Teste de Kolmogorov-Smirnov H 0 : X ~ N ( µ . utilizados. muitas vezes.BioEstatística 8. existem basicamente duas metodologias para efectuar estes tipos de testes: os testes paramétricos que exigem que a forma da distribuição amostral seja conhecida (sendo a distribuição Normal a mais utilizada…). sendo este teste particularmente apropriado e preferível ao teste de Kolmogorov-Smirnov sempre que n<30. assim. o SPSS efectua também o teste de Shapiro-Wilk quando n < 50 para testar se a variável em estudo na amostra aleatória possui ou não distribuição normal. TESTES NÃO PARAMÉTRICOS A comparação de parâmetros populacionais a partir de amostras aleatórias é uma das necessidades fulcrais em estatística inferencial. e devem ser aplicados em alternativa aos testes não paramétricos. devendo os testes não paramétricos ser. Assim. em que se pretende testar se o tratamento teve ou não um efeito significativo. Porque não utilizar.

5 H1: µ ≠ 20.2 Quadro de Decisão para variáveis Intevalares/Racio Variáveis Intervalar/Rácio (Scale) Variáveis Ordinais Avaliar distribuição: Teste de Kolmogorov-Smirnov Aceitar H0 H0: Distribuição = Normal Rejeitar H0 H1: Distribuição ≠ Normal Avaliar homogeneidade de variâncias se nº grupos > 3: Teste de Levene Aceitar H0 H0: Variâncias homogéneas Rejeitar H0 H1: Distribuição ≠ Normal TESTES PARAMÉTRICOS TESTES NÃO PARAMÉTRICOS Será o IMC da população de estudantes do ensino superior português = 20. = µ6 H1: ∃µi ≠ µ j. j ∈ { .1. = md6 H1: ∃mdi ≠ mdj.Engenharia Biomédica Homogeneidade de variâncias: Teste de Levene 2 2 2   H 0 : σ 1 = σ 2 = ...5 H1: md ≠ 20. i ≠ j Coeficiente de correlação Spearman (ρ) / Kendall (τ) H0: ρ=0 / τ=0 H1: ρ≠0 / τ≠0 Há alteração significativa nos valores de TAS antes e depois de um tratamento? O tratamento é eficaz na redução dos valores de TAS (relativamente ao placebo)? Há diferença nos valores de glicémia relativamente aos escalões de IMC? Haverá relação entre os valores de TAS antes e depois de um tratamento? Estarão os valores de TAD relacionados com o IMC? E com o IMC em escalões? Pearson (r) H0: r=0 H1: r≠0 58 ... i ≠ j : σ i ≠ σ j  8. = σ k  2 2 1  H 1 : ∃i.2. k }...5 DIFERENÇA t amostras emparelhadas H0: µA= µD H1: µA≠ µD t amostras independentes H0: µSA= µP H1: µSA≠ µ P ANOVA (1-factor) H0: µ1= µ2= .. i ≠ j RELAÇÃO Wilcoxon / Sinal (variável constante) H0: md = 20.5 kg/m2? t 1 média H0: µ = 20...5 Wilcoxon / Sinal H0: mdA = medD H1: mdA ≠ medD Mann-Whitney H0: mdSA = md P H1: mdSA ≠ md P Kruskal-Wallis H0: md1 = md2 = ..

00 123.244 df 10 10 10 10 10 10 Sig.00 2. Deviation 1.1292 5.34602 95% Confidence Interval for Mean Lower Bound Upper Bound 4.4000 5.107 .650 27 27 27 18.00 Maximum 245.510 . Suponha que se pretende avaliar se as condições de temperatura e humidade influenciam o tempo demorado a adormecer dos recém-nascidos. .8744 Minimum 2.200(*) .BioEstatística Exemplos: 1.49554 .928 df 10 10 10 10 10 10 Sig.00 268.227 .56174 .4604 Minimum 198.0853 6.4000 6.907 .092 .46431 34.569 . Error 5. observaram-se 3 amostras independentes de recém-nascidos.07981 31.6734 Std.262 .196 .63 Std.292 Based on Median and with adjusted df Based on trimmed mean Based on Mean Based on Median Based on Median and with adjusted df Based on trimmed mean Duração da sesta Observe agora os resultados obtidos e comente-os: Tempo a adormecer N MDM MBB CSS Total 10 10 10 30 Mean 5.8210 8.831 . após observar o seguinte quadro? Tests of Normality Tempo a adormecer Maternidade MDM MBB CSS MDM Duração da sesta MBB Kolmogorov-Smirnov(a) Statistic .830 .00 Duração da sesta N MDM MBB CSS Total 10 10 10 30 Mean 224.171 .000 227. em 3 maternidades com diferentes condições de temperatura e humidade nos quartos.00 265.00 268.5790 6.00 159.00 9.287 df1 2 2 2 2 2 2 2 2 df2 27 27 24.171 .00 59 .00 9.228 .424 CSS . Deviation 18.00 9. para cada uma das variáveis dependentes estudadas.89525 Std. .7147 4.777 5.58119 .4590 6.7716 13. a Lilliefors Significance Correction Test of Homogeneity of Variance Based on Mean Tempo a adormecer Based on Median Levene Statistic .112 10.247 * This is a lower bound of the true significance. Error .685 27 Sig.531 .4618 246.844 .00 4.506 .4792 236.7208 212.938 .152 .188 .200(*) .77639 1.00 3.6708 6.051 .007 .844 .186 1. sendo cada amostra constituída por 10 elementos. Assim.56702 1.25133 41. .8063 257.698 .774 .083 Shapiro-Wilk Statistic .0562 198.9438 237.83787 1.800 222.00 Maximum 9.100 224.1667 Std.872 .7000 7.845 .783 95% Confidence Interval for Mean Lower Bound Upper Bound 210.698 1.216 . Qual o teste estatístico que utilizaria neste caso.214 .00 123. assim como a duração da sesta.1382 197.200(*) .

00 MDM MBB CSS Maternidade Maternidade Tempo a Adormecer ANOVA: Tempo a adormecer Sum of Squares Between Groups Within Groups Total 23.921 .b) Duração da sesta Chi-Square df 1.00 5.6194 CSS -1.9194 3.2194 -3.900 104.77412 .602 a Kruskal Wallis Test b Grouping Variable: Maternidade 60 .77412 .996 F 3.05 level.0806 -.633 2.9194 -1.00 Mean of Tempo a adormecer Mean of Duração da sesta MDM MBB CSS 226.77412 .883 Sig.6194 -. Tukey HSD (I) Maternidade MDM MBB (J) Maternidade MBB CSS MDM Mean Difference (I-J) -.2194 Upper Bound 1.2194 3.77412 . Error .00000(*) CSS MBB 1.95 Asymp.6194 -3.0806 2.00 222.30000 Std.6194 .267 80.090 95% Confidence Interval Lower Bound -2.Engenharia Biomédica 7.85 17.70000 MDM 2.017 2 N 10 10 10 30 Mean Rank 13.70000 * The mean difference is significant at the .2194 . .00 227.00 224.00 6.50 223. .50 225.090 .50 228.167 df 2 27 29 Mean Square 11.00 7.77412 Sig.00000(*) . Duração da Sesta Ranks Maternidade MDM Duração da sesta MBB CSS Total Test Statistics(a.30000 -2.00 6.77412 .040 .921 .00 5.033 Multiple Comparisons: Dependent Variable: Tempo a adormecer.040 .70 14. Sig. .

885 Shapiro-Wilk Statistic df 30 30 Sig.034 .00 2. para um nível de significância de 0. e que.00 Duração da sesta 220.043).00 120. Suponha agora que se seleccionava a maternidade que demonstrava ter melhores condições de temperatura e humidade nos quartos das parturientes.00 4.00 200.103 30 rho (Spearman) -.05.00 160. !!! Tempo a Adormecer vs Duração da Sesta Correlation coefficient Sig. Qual dos dois coeficientes deve ser utilizado? Tests of Normality Kolmogorov-Smirnov(a) Statistic Tempo a adormecer .00 5. ainda que o coeficiente de correlação seja fraco.00 3. Com o coeficiente de correlação de Pearson.00 180.00 Tempo a adormecer Observando os coeficientes de correlação de Pearson e de Spearman. Estará o tempo médio da sesta relacionado com o tempo demorado a adormecer? 260.103).. .303 ..164 Duração da sesta . no sentido em que sestas mais prolongadas estão relacionadas com menor tempo demorado a adormecer (rho < 0).00 140.043 30 Qual dos coeficientes de correlação devemos utilizar? As conclusões a que se chega são opostas.00 9.00 8.004 61 .032 .167 a Lilliefors Significance Correction b Calculated from data df 30 30 Sig.00 6.00 240.372 .924 .038 . enquanto que quando se utiliza um coeficiente de correlação não paramétrico conclui-se que existe relação entre ambas (p = 0. conclui-se que não existe relação significativa entre a duração da sesta e o tempo demorado a adormecer dos recém-nascidos (p = 0. nesta. . (2-tailed) N r (Pearson) -. se estudava o tempo médio demorado a adormecer e a duração da sesta de 30 recémnascidos.00 7. concluímos que .BioEstatística 2.

695 .00 9.73397 Tempo a Adormecer Ranks Tempo a adormecer Peça de Roupa da mãe Sim Não N 15 15 Mean Rank 11.00 268. a Lilliefors Significance Correction Observe e comente os resultados: Descriptive Statistics Peça de roupa da mãe Sim Não Tempo a adormecer Duração da sesta Tempo a adormecer Duração da sesta N 15 15 15 15 Minimum 2.073 .839 .)] .819 57.0667 205. .011(a) a Not corrected for ties.333 9.4667 Std. t df Sig.200(*) .70992 12.Engenharia Biomédica 3.199 Não .00 223.8000 7.50 19.331 Upper 57. Numa das outras maternidades.725 . Error Differenc 62 .962 . e foram aleatoriamente divididos em dois grupos iguais: num grupo colocou-se no berço uma peça da roupa da mãe.847 28 .333 9. enquanto que no outro colocou-se uma peça de roupa de outro familiar.000 38. b Grouping Variable: Peça de roupa da mãe Duração da Sesta Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Duração da sesta Equal variances assumed Equal variances not assumed 4.00 255.50 Tempo a adormecer 52.153 .50 292.019 4. Deviation 1.189 15 * This is a lower bound of the true significance.132 17.277 18.00 Mean 5.200(*) .500 Sum of Ranks 172.36470 1. .704 .210 .336 F Sig.001 38.00 5. Quais os testes estatísticos que poderia utilizar para avaliar a influência do cheiro da mãe no sono dos recém-nascidos? Tests of Normality Peça de roupa da mãe Tempo a adormecer Duração da sesta Sim Não Sim Kolmogorov-Smirnov(a) Statistic .171 .00 123. seleccionaram-se 30 recém-nascidos ao acaso.50 Test Statistics(b) Mann-Whitney U Exact Sig. (2-tailed) Mean Differenc Std.213 .132 6.2667 243.00 Maximum 9. [2*(1-tailed Sig.012 .961 .128 df 15 15 15 Sig.921 Shapiro-Wilk Statistic df 15 15 15 15 Sig.277 19.66762 33.

1 Testes Qui-quadrado (Tabelas de Contingência) Cáries Não Classes de IMC Total Normal Excesso Peso Obesidade 10 7 3 20 Sim 10 6 4 20 Total 20 13 7 40 Teste Qui-Quadrado: testes de homogeneidade (diferença de proporções). isto terá como resultado a diminuição dos graus de liberdade. com L>2 ou C>2: 1.BioEstatística 9. 2. de preferência corrigido. deve combinar-se linhas ou colunas para aumentar os valores esperados. Os valores esperados têm de ser ≥ 5. caso contrário terá de usar o teste exacto de Fisher. VARIÁVEIS QUALITATIVAS 9. Se n ≥ 40 pode usar o teste do qui-quadrado. Se 20 ≤ n ≤ 40 deve usar o teste do qui-quadrado corrigido. Testes de independência: H0: As proporções são iguais ou Não existe associação entre as variáveis/As variáveis são independentes H1: As proporções são diferentes/ Existe associação entre as variáveis/As variáveis não são independentes O teste Chi2 não pode ser utilizado em qualquer tabela de contingência. Os valores esperados têm de ser ≥ 5. 3. Se n < 20 não deve usar o teste do qui-quadrado mas o teste exacto de Fisher. Tabelas LxC. É necessário que cumpra as Regras de Cochran para aplicação do teste Chi2 Tabelas de 2x2: 1. Exemplo 1: Considere a seguinte tabela de contingência relativa a 145 sujeitos classificados 63 . Pelo menos 80% dos valores esperados têm de ser ≥ 5 e nenhum deve ser < 1 Se as condições impostas anteriormente não existirem.

este parece ser um indicador da existência de relação entre a hipertensão arterial e a doença cardiovascular. e que quando têm uma das doenças.000 . Sig. tabelas 2x2 64 .2 Teste de McNemar – 2 variáveis qualitativas emparelhadas. 9.000 16.1 12.184 df 1 1 1 Asymp. em cada célula. Doença Cardiovascular * Hipertensão Crosstabulation TA HTA DCV Doença Cardiovascular Normal Total Count Expected Count Count Expected Count Count 43 30.000 . Aplicando o teste Chi2.1 59 Normal 33 45.000 . observamos o seguinte: TA Doença CV N DCV N 12. (2-sided) Exact Sig. DCV: doença cardiovascular). dado que se cumprem as regras de Cochran para tabelas 2x2.9 16 28. ou seja.1 HTA -12.1 Assim.9 86 Total 76 69 145 Se avaliarmos o resíduo. HTA: hipertensão arterial) e a existência de patologia cardio-vascular (N: normal. o que nos poderá indicar que é mais frequente um sujeito normal para uma das patologias também o ser para a outra. a diferença entre os valores observados e esperados. (2-sided) .593 1 .0%) have expected count less than 5. encontramos mais casos normais para as duas patologias do que esperávamos encontrar se as proporções fossem todas iguais.1 53 40. assim como mais casos com ambas as patologias do que esperávamos encontrar.. Chi-Square Tests Value Pearson Chi-Square Continuity Correction(a) Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association 16. p<0. (1-sided) N of Valid Cases 145 a Computed only for a 2x2 table b 0 cells (.. aparentemente.001). The minimum expected count is 28.000 .708 15.Engenharia Biomédica em dois grupos segundo os valores de tensão arterial (N: normal.353 17.08.1 -12.000 Exact Sig. Verifica-se que parece existir uma associação significativa entre a ocorrência de doença cardio-vascular e a existência de hipertensão (Chi2(1)=16. muito provavelmente também terá a outra.708. Assim.

3 Teste Binomial 7 As células b e c são aquelas onde se opera a mudança de opinião de sucesso para insucesso ou vice-versa. a rejeição de H0 pode ser uma indicação do efeito desse acontecimento. os 145 casos eram.BioEstatística Este teste. terá o tratamento surtido efeito? Esta análise pode ser efectuada através de um teste de McNemar.  H 0 : p A (+ ) = p B (+). de novo. atribuindo-se o valor 0 ao insucesso e 1 ao sucesso 65 . se b+c<20. baseia-se na comparação das proporções das respostas dicotomizadas de duas variáveis (A e B). avaliados relativamente à sua tensão arterial. Exemplo 1: Relação entre os valores de TAS iniciais e após tratamento Suponha agora que os todos os sujeitos hipertensos (positivos: 59) se submetiam a tratamento para a tensão arterial e que. 8 No SPSS. assim. classificando as respostas em positivas ou sucessos. desde que a principal fonte de discórdia seja a passagem de hipertensos a normais. Se b+c>20. A aplicação de A e B a n indivíduos dá origem a n pares de respostas agrupadas nas 4 combinações seguintes: B A + a c + b d As hipóteses7 a testar são. ie. Neste caso. a estatística dos teste é uma binomial. a proporção de sucessos em A é igual à proporção de sucessos em B   H 1 : p A (+ ) ≠ p B (+) Muitas vezes. e em negativas ou insucessos. ou. ou seja. Hipertensão * HTA após tratamento Crosstabulation TA após tratamento Normal TA Normal HTA Total Count Count Count 80 31 111 HTA 6 28 34 Total 86 59 145 9. a variável A significa Antes e a B Depois de um determinado acontecimento8. Será que houve alteração significativa na proporção de casos inicialmente hipertensos. a variáveis devem ser codificadas da mesma forma. a estatística deste teste é um chi2. e não o contrário. 6 meses após a avaliação inicial. também denominado de teste da mudança de opinião.

and the distribution of each named variable is compared to a binomial distribution with p (the proportion of cases expected in the first category) equal to 0. .Engenharia Biomédica BINOMIAL tests whether the observed distribution of a dichotomous variable is the same as what is expected from a specified binomial distribution. The output shows the frequency distribution for each variable in the Cochran Frequencies table and the number of cases.50 1. degrees of freedom. The default output includes the number of valid cases in each group. .4 Teste de Cochran COCHRAN calculates Cochran’s Q. Sig.17 1. é idêntica à que não tem cáries? Binomial Test Cáries Group 1 Group 2 Total a Based on Z Approximation. (2-tailed) 1. Exemplos: 66 . Cochran’s Q. and probability in the Test Statistics table.85. and the two-tailed probability of the observed proportion. (1-tailed) .50 . each named variable is assumed to have only two values. Category Sim Não N 20 20 40 Observed Prop. . Exemplo 1: A proporção de indivíduos que tem cáries. Sig. b Based on Z Approximation. the test proportion.b) a Alternative hypothesis states that the proportion of cases in the first group < . which tests whether the distribution of values is the same for k related dichotomous variables.50 Asymp.5.85 Asymp.00 Test Prop.000(a) Exemplo 2: pode-se afirmar que existem 15% de obsesos na população? Binomial Test Classes de IMC Category Group 1 Group 2 Total <= 3 >3 N 35 7 42 Observed Prop.00 Test Prop. . 9. na amostra.83 .445(a. By default.

permite aplicar o teste Chi2.5 70 70.5 30 52.05).BioEstatística 1.5 -22.5 22.2. Sig. Foram divididos em dois grupos: ao grupo P foi administrado placebo e ao grupo S uma substância activa suporífera. Num estudo sobre a importância do “efeito placebo” entraram 200 doentes.0 200 200. Chi-Square Tests Value df Asymp. Efeito Substância * Efeito Crosstabulation Count Subs. 36. O facto de os resíduos serem iguais na diagonal principal (simétricos na diagonal secundária) poderá indicar a existência de uma associação entre as duas variáveis.0 Total Sem efeito 10 32. em caso afirmativo.000 .000 Linear-by-Linear Association 59.5 120 97.000 De facto. p < 0. .5 -22.818 1 Fisher's Exact Test .000 N of Valid Cases 200 a Computed only for a 2x2 table b 0 cells (. (2-sided) .5 22.001 entre a substância administrada e o efeito sentido.0 Dado não existirem frequências esperadas inferiores a 5.000 Exact Sig. existe uma associação significativa (Chi2(1)=59. sendo este valor significativamente diferente9 de 1 (para α = 0.0%) have expected count less than 5. (2-sided) Exact Sig.341(b) 1 Continuity Correction(a) 56. rejeita-se H0) Analisando as estimativas de risco.50. Verifique as condições de aplicabilidade do teste Chi2 e. The minimum expected count is 17. e n= 200 > 40.241. indique se a substância administrada está ou não relacionada com o efeito sentido pelos sujeitos.6). (1-sided) Pearson Chi-Square 59. dado que o intervalo de confiança a 95% para o odds ratio é (7. verifica-se que é cerca de 16 vezes mais provável que o efeito sentido seja benéfico quando se administra substância activa do que quando se administra placebo. Os doentes foram inquiridos sobre o efeito do “medicamento” ao fim de 15 dias: 30 dos 150 doentes do grupo P sentiram efeito benéfico e bem como 40 do grupo S.0 50 50.733 1 Likelihood Ratio 58. Activa Substância Placebo Expected Count Residual Count Expected Count Residual Total Count Expected Count Efeito Benéfico 40 17.5 130 130.044 1 .0 150 150. e superior.000 . 9 Um odds ratio de 1 indica ausência de risco/associação 67 .

669 .0% 80.000 .0% 100.0% 65.Engenharia Biomédica 95% Confidence Interval Risk Estimate Odds Ratio for Substância (Subs.614 5.0% Total Sem efeito 20.250 200 7.7% 5.0% 100.0% 100.0% 25. Activa Substância Placebo % within Efeito % of Total % within Substância % within Efeito % of Total % within Substância Total % within Efeito % of Total Efeito Benéfico 80.0% 100. “% within efeito” e “% of total”.0% 57.0% 100.0% 75.9% 15.0% 65.0% 75.1% 20.0% 68 .0% 35.0% 42.0% 20.0% 92.0% 35.0% 100.188 2.0% 100.0% 25.143 Upper 35. neste caso.822 . Analise-as e estabeleça relações com o risco relativo apresentado no quadro anterior.0% 7. Efeito Substância * Efeito Crosstabulation % within Substância Subs. Activa / Placebo) For cohort Efeito = Efeito Benéfico For cohort Efeito = Sem efeito N of Valid Cases Value Lower 16.3% 60.438 Poderá. ser interessante analisar as “% within substância”.000 4.

6 13 11.2 3 2.BioEstatística Exemplo 2: Os dados que se seguem foram obtidos de um ensaio clínico de estreptomicina para tratamento de tuberculose pulmonar em 107 sujeitos.0 18 18.0 Placebo 4 15.6 5 8.761 1 . No meu entender deverse-ìa juntar “sem alteração” com “ligeiramente pior”. com 12 células. Entre estas.7%) have expected count less than 5.43. Analise se o facto de a administração de estreptomicina está associada a uma melhoria da situação clínica de tuberculosae pulmonar .000 Likelihood Ratio 29. as Eij < 5 aparecem na categoria “sem alteração”.966(a) 5 .3 55 55. talvez fizesse sentido juntar as categorias “muito melhor” com “melhor”.4 12 8.0 17 17.8 2 2. não teríamos pelo menos 80% das células com Eij ≥ 5 pelo que seria necessário proceder à junção de linhas ou colunas.0 Total Temos uma tabela de contingência 6 × 2 logo. tem-se Eij < 5 em 2 células (16. The minimum expected count is 2.612 5 . dado que “sem alteração” indica que não houve efeito benéfico da estreptomicina.8 14 8.2 4 9.7 52 52.0 32 32. contudo.7%).000 Linear-by-Linear Association 17. Caso houvesse 3 células com Eij < 5 .0 23 23.7 6 6. 69 .0 12 12.0 107 107. pelo que se pode aplicar o teste Chi2 a este conjunto de dados.4 10 11. Avalie as condições de aplicabilidade do teste chi2 a este conjunto de dados: Substância Efeito * Substância Crosstabulation Estreptomicina Muito melhor Melhor Sem alteração Efeito Ligeiramente pior Pior Morte Total Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count 28 16. Sig.interprete os resultados obtidos: Chi-Square Tests Value df Asymp. (2-sided) Pearson Chi-Square 26.0 5 5.3 6 5.000 N of Valid Cases 107 a 2 cells (16. Neste caso. ou “ligeiramente pior” com “pior”.

9% 100.0% 4.0% 100.1% 60.7% 3.7% 4.3% 40.5% 50.7% 51.6% 23.0% 21.0% 15.6% 22.4% Placebo 12.2% 100.5% 100.7% 50.0% Total 70 .2% 43.0% 12.0% 16.9% 100.6% 100.4% 9.8% 26.6% 100.0% 11.9% 29.8% 100.0% 3.9% 26.7% 56.1% 11.Engenharia Biomédica Substância Efeito * Substância Crosstabulation Estreptomicina % within Efeito Muito melhor % within Substância % of Total % within Efeito Melhor % within Substância % of Total % within Efeito Sem alteração Efeito Ligeiramente pior % within Substância % of Total % within Efeito % within Substância % of Total % within Efeito Pior % within Substância % of Total % within Efeito Morte % within Substância % of Total % within Efeito Total % within Substância % of Total 87.6% 77.2% 7.8% 2.2% 11.8% 16.5% 7.5% 5.2% 9.1% 4.0% 29.0% 11.0% 5.5% 25.9% 5.4% 100.5% 18.0% 10.8% 70.7% 100.9% 15.0% 48.5% 21.1% 48.0% 100.3% 3.0% 51.9% 13.9% 29.6% 1.2% 50.