You are on page 1of 50

FUNDAO UNIVERSIDADE FEDERAL DO RIO GRANDE

DEPARTAMENTO DE MATEMTICA
ESPECIALIZAO EM AGENTES INFECTO-PARASITRIOS

BIOESTATSTICA

Profa. Ana Maria V. Azambuja da Silva

2009

1. CONCEITOS BSICOS DE ESTATSTICA

Estatstica: uma parte da Matemtica Aplicada que fornece mtodos para a coleta,
organizao, descrio, anlise e interpretao de dados e para utilizao dos mesmos
na tomada de decises (CRESPO, 1993).
A Estatstica divide-se em:
Estatstica Descritiva: Coleta, organizao e descrio dos dados;
Estatstica Indutiva (ou Inferncia Estatstica): Anlise e Interpretao dos dados.
Fases do Mtodo Estatstico
a) Definio do Problema: saber o que se quer pesquisar;
b) Planejamento: procedimento necessrio para desenvolver a pesquisa;
c) Coleta de Dados: refere-se obteno, reunio e registro sistemtico de dados,
com um objetivo determinado. A coleta de dados estatsticos pode ser direta
(obtida diretamente da fonte) ou indireta (os dados obtidos de outras fontes de
informao);
d) Apurao dos Dados: resumo dos dados, atravs de sua contagem ou
agrupamento;
e) Apresentao dos Dados: pode ser atravs de tabelas ou grficos;
f) Anlise e Interpretao dos Dados: tira-se concluses que auxiliem na resoluo
do problema.
Populao: Conjunto de elementos que tm, em comum, pelo menos uma caracterstica.
As populaes podem ser finitas (ex.: n de camares dentro de um tanque, n de uma
espcie de animais dentro de uma reserva, n de habitantes em um municpio) ou
infinitas (exs.: n de pesagens que podem ser feitas em um animal, n de exames que
podem ser feitos em um paciente).
Amostra: Todo subconjunto no vazio e com menor nmero de elementos do que o
conjunto definido como populao.
Varivel: Varivel , convencionalmente, o conjunto de resultados possveis de um
fenmeno. Exs.: sexo, idade, altura. Uma varivel pode ser classificada em:
Varivel Qualitativa: apresenta como possvel resultado uma qualidade ou atributo do
ente pesquisado. Exs.: espcies de uma determinada planta, classificar indivduos como:
magros, dentro do peso, gordos.
Varivel Quantitativa: quando mensurvel, isto , quando expressa numericamente.
As variveis quantitativas ainda podem ser classificadas como:
- Contnuas: pode assumir, teoricamente, qualquer valor num certo intervalo de medida,
podendo ser associadas ao conjunto dos nmeros reais. Exs.: medidas de tempo,
comprimento, espessura, rea, volume, peso e velocidade.
- Discretas: quando uma varivel s pode assumir valores pertencentes a um conjunto
enumervel. Em geral, representam inteiros resultantes do processo de contagem. Exs.:
n de plantas dentro de uma estufa, nmero de animais de determinada espcie em uma
rea, n de pacientes atendidos em um posto de sade, n de exames realizados por um
laboratrio.
2

De modo geral, as medies do origem a variveis contnuas e as contagens ou


enumeraes, s variveis discretas.
As variveis ainda podem se apresentar nas seguintes escalas:
- Nominal: caracterizado por dados que consistem apenas em nomes, rtulos ou
categorias. Exs.: espcies de formigas que habitam determinado ambiente, tipos
sanguneos, presena ou ausncia de fatores de risco, portador ou no de determinada
enfermidade, fumante ou no, etnia, naturalidade, sexo, faixa etria, etc.
Operaes admissveis: contagens de freqncia, moda, teste do 2, distribuio
binomial. Esses dados no podem ser utilizados em clculos como mdia.
- Ordinal (por Postos): os dados podem ser dispostos em alguma ordem, mas as
diferenas entre os valores dos dados no podem ser determinadas ou no tm sentido.
Exs.: avaliao clnica: tima, boa, regular, ruim, nveis de infestao por protozorios:
alto, mdio ou baixo, grau de instruo, fumante: no fuma, fuma pouco, fuma
moderadamente, fuma muito; classe social: A, B, C, D e E, carcinoma cervical: 0 in situ
(melhor) a 4 alm dos limites da pelve ou envolve a mucosa vesical e o reto (pior),
artrite reumatide: classe 1 normal a classe 4 restrio cadeira de rodas, ndice de
Apgar: 0 10 (as diferenas entre os ndices 8 e 9 no tem a mesma importncia que a
diferena entre os ndices 0 e 1, ndices mltiplos que determinam um ndice total (risco
de complicaes cardacas em procedimentos cirrgicos ndice de Goldman)
Operaes admissveis: mediana. Esses dados no podem ser utilizados em
clculos como mdia e desvio padro.
- Intervalar: anlogo ao nvel ordinal, todavia se podem determinar diferenas
significativas entre os dados. Contudo o zero no significa que no h quantidade
presente. Por exemplo, podem-se determinar diferenas entre as temperaturas (distncia
entre os dois valores); contudo, o valor zero no representa ausncia de temperatura.
Exs.: temperaturas, anos (zero arbitrrio).
Operaes admissveis: mdia, desvio-padro, correlaes, teste t, teste F, etc.
- Razo: o nvel de intervalo modificado de modo a incluir o ponto de partida zero
inerente (onde zero significa nenhuma quantidade presente). Para valores nesse nvel,
tanto as diferenas como as razes tm significado. Exs.: peso de um animal, idade,
altura de uma planta, rea de uma leso, tempo de sobrevida, glicemia, cido rico, etc.
Operaes admissveis: qualquer prova estatstica. Alm daquelas j mencionadas em
escalas intervalares, pode-se calcular mdia geomtrica e coeficiente de variao
(estatsticas que exigem o conhecimento do ponto zero verdadeiro).
2. TABELAS
Tabela um quadro que resume um conjunto de observaes. Uma tabela compe-se de:
Ex.:
3

CORPO
Nmero de Aves que migraram de uma regio para outra, nos meses de outubro,
RODAP novembro e dezembro em 2003
TTULO
COLUNA
CABEALHO
NUMRICA
Meses
N
de
Aves
que
migraram de uma regio
para outra
Corpo
Outubro
235
Novembro
347
LINHAS
Dezembro
509
FONTE: Fictcia
A Tabela pode ser composta por variveis qualitativas ou quantitativas.
Tabelas com Variveis Qualitativas
Exs.:
N de recm-nascidos por sexo em uma amostra de 1.000 pronturios de uma
Maternidade
Sexo
N de Recm-nascidos
Feminino
497
Masculino
503
Total
1000
FONTE: Maternidade do Hospital X

Site: http://www.abep.nepo.unicamp.br

FONTE: http://www.imes.edu.br/revistasacademicas/caderno/caderno_sau02.pdf

Tabelas com Variveis Quantitativas


Um conjunto de dados referentes a uma varivel quantitativa pode se apresentar
na forma bruta, em rol ou em tabelas de freqncias.
a) Dados Brutos: quando os dados originais (coletados) ainda no se encontram
prontos para anlise, por no estarem numericamente organizados.
Ex.:
Peso (em kg) de recm-nascidos
1,8
2,7
3,2
3,2

3,6
4,5
1,8
3,2

1,8
3,6
3,2
2,7

2,7
2,3
2,7
2,3

3,6
4,1
3,6
4,5

2,7
2,7
3,6
3,6

3,2
1,5
4,1
4,1

3,2
3,2
5,0
3,2

3,2
2,7
3,6
2,3

3,6
1,8
3,2
2,7

4,5
3,2
4,5
2,3

4,1
2,7
3,6

3,2
4,1
2,3

FONTE: Daz e Lpez (2007) Bioestatstica

b) Rol: uma lista em que os valores esto dispostos em uma determinada ordem,
crescente ou decrescente,
Ex.:
Peso (em kg) de recm-nascidos
1,5
2,7
3,2
3,6
4,5

1,8
2,7
3,2
3,6
5,0

1,8
2,7
3,2
3,6

1,8
2,7
3,2
3,6

1,8
2,7
3,2
4,1

2,3
2,7
3,2
4,1

2,3
2,7
3,2
4,1

2,3
3,2
3,6
4,1

2,3
3,2
3,6
4,1

2,3
3,2
3,6
4,5

2,7
3,2
3,6
4,5

2,7
3,2
3,6
4,5

FONTE: Daz e Lpez (2007) Bioestatstica

c) Tabelas de Freqncias: so representaes nas quais os valores se apresentam em


correspondncia com suas repeties, evitando-se, assim, que eles apaream mais de
uma vez na tabela, como ocorre com o rol. Pode-se ter tabelas para:
- Dados No-agrupados ou No-tabulados em Classes: este tipo de tabela no
aconselhvel quando estamos trabalhando com amostragens grandes, pois pode ficar
muito extensa, dificultando, alm de sua elaborao, as anlises e concluses dos dados
pesquisados. Contudo, neste de tipo de tabela no h perda de informao.
Exs.:
Peso (kg)
1,5
1,8
2,3
2,7
3,2
3,6
4,1
4,5
5,0

Peso (em kg) de recm-nascidos


Freqncia
1
4
5
9
12
9
5
4
1
50

FONTE: Daz e Lpez (2007) Bioestatstica


Distribuio do Nmero de Filhos por Me entrevistada no ambulatrio de Pediatria de
julho 2002 a abril de 2004
N de Filhos
Freqncia
0
22
1
10
2
11
3
2
4
2
5
1
Total
48
FONTE: Trabalho de Concluso no Curso de Medicina de Brbara
Falcone Universidade Federal de Santa Catarina 2005
Nmero de Nascimentos por dia na Pediatria de um Hospital no ms de janeiro de 2007
N de Nascimentos/dia
Freqncia
0
3
1
10
2
8
3
5
4
4
5
1
Total
31
FONTE: Fictcia

- Dados Agrupados ou Tabulados em Classes: ao se agrupar os valores das variveis em


classes, se ganha em simplicidade, mas se perde em detalhes. Neste tipo de tabela
realado o que h de essencial nos dados.
Exs.:
Peso (em kg) de recm-nascidos
Peso (kg)
1,5
2,0
2,0
2,5
2,5
3,0
3,0
3,5
3,5
4,0
4,0
4,5
4,5
5,0

Freqncia
5
5
9
12
9
5
5
50

FONTE: Daz e Lpez (2007) Bioestatstica

Nascidos Vivos segundo o peso ao nascer (em Kg)


Classe
Freqncia
3
1,5
2,0
16
2,0
2,5
31
2,5
3,0
34
3,0
3,5
11
3,5
4,0
4
4,0
4,5
1
4,5
5,0
Total
100
FONTE: Introduo Bioestatstica Snia Vieira
Mulheres com 30 anos segundo a presso sangunea sistlica
Classe
Freqncia
6
85
100
11
100
105
12
105
110
17
110
115
18
115
120
11
120
125
9
6
125
130
4
130
135
4
135
140
2
140
145
145
150
Total
100
7

FONTE: Introduo Bioestatstica Snia Vieira


Exerccios:
1. De acordo com o IBGE (1988), a distribuio de suicdios ocorridos no Brasil em 1986,
segundo a causa atribuda, foi a seguinte: 263 por alcoolismo, 198 por dificuldade
financeira, 700 por doena mental, 189 por outro tipo de doena, 416 por desiluso
amorosa e 217 por outras causas. Apresente essa distribuio em uma tabela.
2. Construa uma tabela de Distribuio de Freqncias para apresentar os dados da
tabela abaixo, usando intervalos de classe iguais.
Tempo de Internao, em dias, de pacientes acidentados no trabalho em um dado
hospital
7
8
1
7
13
6
12
12
3
17
4
2
4
15
2
14
3
5
10
8
9
8
5
3
2
7
14
12
10
8
1
6
4
7
7
11

3. REPRESENTAO GRFICA
O grfico estatstico uma forma de apresentao dos dados estatsticos, cujo
objetivo o de produzir, no investigador ou no pblico em geral, uma impresso mais
rpida e viva do fenmeno em estudo, j que os grficos falam mais rpido
compreenso que as tabelas.
Os principais tipos de grficos so os diagramas, os cartogramas e os
pictogramas.
3.1.DIAGRAMAS
3.1.1. Grficos em Barras
Os grficos em barras tm por finalidade comparar grandezas, por meio de
retngulos de igual largura e alturas proporcionais s respectivas grandezas.
Ex.:
Incidncia de doenas infecto-contagiosas no Estado de So Paulo, 1998
Doenas
N de casos
Ttano
29.000
Pneumonia
22.000
Tuberculose
19.000
Hepatite
12.000
Leptospirose
10.000
FONTE: Secretaria de Sade SP (Bioestatstica Pedro C.
Rodrigues)
8

FONTE: Secretaria de Sade SP (Bioestatstica Pedro C. Rodrigues)


Num grfico indispensvel o ttulo e a fonte
3.1.2. Grficos em Colunas
Os grficos em colunas ou grficos em barras verticais prestam-se mesma
finalidade que os grficos em barras horizontais, sendo, entretanto, preferveis a esses
ltimos quando as legendas a se inscreverem sob os retngulos forem breves.
Sempre que os dizeres a serem inscritos so extensos, devemos dar preferncia
ao grfico de barras. Porm, se ainda assim preferirmos o grfico em colunas, os dizeres
devero ser dispostos de baixo para cima.
Os grficos em colunas prestam-se em especial a dados relacionados com sries
temporais. Sendo assim, as colunas devero estar dispostas em ordem cronolgica.
Ex.:
Produo leiteira (milhares de litros) do municpio de Cordeiro RJ, no segundo
semestre de 1996
Meses
Litros (milhares)
Julho
125
Agosto
135
Setembro
145
Outubro
160
Novembro
170
Dezembro
150
FONTE: Disciplina de Bioestatstica F.V. UFF

FONTE: Disciplina de Bioestatstica F.V. UFF

FONTE: http://www.imes.edu.br/revistasacademicas/caderno/caderno_sau02.pdf

10

3.
FONTE:

http://www.publicacoesacademicas.uniceub.br/index.php/cienciasaude/article/viewFile/9/38

3.1.3. Grfico em Linha ou em Curva


Grfico usado principalmente quando um dos fatores o tempo. Marcam-se os
pontos correspondentes e unem-se os mesmos por meio de um trao contnuo.
As linhas so particularmente mais eficientes do que as colunas, quando existem
intensas flutuaes nas sries ou quando h necessidade de se representarem vrias
sries em um mesmo grfico.
Ex.:

11

FONTE:

http://www.campinas.sp.gov.br/saude/vigilancia/series_hist/doenca_meningo/grafico_doen_meningo.htm

3.1.4. Grficos em Setores


Os grficos em setores so usados para representar valores absolutos ou
porcentagens complementares. Tambm conhecido como grfico circular. Tem por
finalidade comparar a parte com o todo. O total representado pelo crculo que fica
dividido em tantos setores quantas so as partes.
Para constru-lo, parte-se do fato de que o nmero total de graus de um arco de
circunferncia 360. Assim, o nmero total de valores analisados corresponder a 360.
Cada uma das parcelas componentes do total dos valores ser, ento, expressa em
graus, e a correspondncia feita atravs de uma regra de trs simples.
Com o auxlio do transferidor, faz-se a marcao dos ngulos correspondentes s
quantidades, partindo de um ponto qualquer da circunferncia e seguindo o sentido
horrio.

Ex.:
12

Populao residente no Brasil segundo a situao do domiclio

22%

urbano
rural

78%

Fonte: Anurio Estatstico do Brasil, IBGE, 1995


A legenda poderia ser evitada inscrevendo-se no interior de cada setor a
porcentagem ou a quantidade correspondente de cada um.
O grfico em setores s deve ser empregado quando h, no mximo, sete dados.
3.2. Cartograma
O cartograma a representao sobre uma carta geogrfica.
Este grfico empregado quando o objetivo o de figurar os dados estatsticos
diretamente relacionados com reas geogrficas ou polticas.

Ex.:
13

FONTE: http://164.41.105.58/farmacologiaclinica/bioestatisticafarmacoleila.pdf
3.3. Pictogramas
Ex.:

FONTE: www.cp.utfpr.edu.br/armando

14

3.4. Grficos Representativos de Distribuio de Freqncias


A representao da distribuio de freqncias simples feita atravs do
histograma, da Poligonal Caracterstica ou do Polgono de Freqncias.
3.4.1. Histogramas
O histograma um grfico formado por um conjunto de retngulos justapostos,
representados em um sistema de coordenadas cartesianas, cujas bases so os intervalos
de classe e cujas alturas so valores proporcionais s freqncias simples
correspondentes.
Ex.: Peso (em kg) de Recm-Nascidos
3.4.2. Poligonal Caracterstica
a representao do contorno do histograma.
Polgono de Freqncias
Constri-se este grfico unindo-se os pontos mdios das bases superiores dos
retngulos do histograma.
OBSERVAES

Os grficos transmitem informaes rpidas, mas imprecisas; as tabelas, valores


precisos, mas de difcil compreenso. Assim, dependendo do que se quer retratar,
s vezes interessante se utilizar uma combinao entre tabelas e grficos.

Um cuidado importante na confeco de um grfico a escala de medida.


Dependendo da escala pode-se ter uma viso distorcida do problema que se quer
representar.

4. MEDIDAS DE TENDNCIA CENTRAL


A Medida de Tendncia Central representa ou resume todos os valores obtidos
pelo grupo por um nico valor, descrevendo o grupo como um todo. um valor no centro
ou no meio de um conjunto de dados. As principais medidas de tendncia central so:
a) Mdia
b) Moda
c) Mediana
4.1. Mdia Aritmtica ( x )
15

xi

i 1

x - mdia aritmtica simples;


xi - valores da varivel;
n - nmero de observaes.

Propriedades da Mdia Aritmtica:


1. Definido o conjunto de dados, a mdia aritmtica nica;
2. uma medida sensvel a todos os valores do conjunto dos dados; qualquer
mudana num deles modifica a mdia;
3. A soma dos desvios dos valores individuais do conjunto em relao mdia
igual a zero, isto : x i x 0 ;
4. uma medida que tende a se aproximar dos pontos de grande acmulo de
valores. Porm afetada por valores extremos.
4.2 Moda (Mo)
o valor mais freqente de um conjunto de dados. Esse conjunto pode ser:
- amodal: no apresenta uma moda, isto , todos os valores da varivel em estudo
ocorreram com a mesma freqncia.
- plurimodal ou multimodal: quando houver mais de um valor predominante.
4.3 Mediana (Me)
Mediana o valor central de um rol (valores colocados em ordem crescente ou
decrescente), ou seja, uma medida que divide este conjunto em duas partes iguais.
muito utilizada na anlise de dados estatsticos, especialmente quando se atribui pouca
importncia aos valores extremos da varivel.
Ordenam-se os valores de uma srie. Se:
- o nmero de valores mpar, a mediana o valor localizado exatamente no meio da
lista.
- o nmero de valores par, a mediana a mdia dos dois valores centrais.
Usos da Mediana:
a) Quando se quer exatamente o valor que divide a metade da distribuio;
b) Quando a distribuio tem resultados discrepantes e pairam dvidas sobre sua
validade e correo.
Obs.1: a mediana depende da posio e no dos valores dos elementos na srie
ordenada. Em geral, dado um conjunto de valores, a mdia a medida de posio central
mais adequada, quando se supe que estes valores tenham uma distribuio
razoavelmente simtrica, enquanto que a mediana surge como uma alternativa para
representar a posio central em distribuies muito assimtricas. Muitas vezes se
calculam ambas as medidas para avaliar a posio central sob dois enfoques diferentes,
como tambm para se ter uma primeira avaliao sobre a assimetria da distribuio.
16

Obs.2: Das diferentes medidas de tendncia central, a moda a nica que pode ser
usada com dados em nvel nominal de mensurao.
Exerccios:
1. Os valores abaixo se referem ao peso (gramas) de ratos, calcule o peso mdio e a
mediana.
76,2

81,5

50,0

47,5

63,5

65,1

63,2

64,5

2. Calcular a mdia aritmtica, a mediana e a moda para os dados relativos dosagem


de hemoglobina verificada em 12 animais bovinos (mg):
15

14

13

11

13

14

13,5

12

16

14,5

12

3. Para uma amostra de 13 animais com cirrose heptica, foram constatados os


seguintes valores de colinesterase srica (mg). Determine a mdia aritmtica, a mediana
e a moda.
1,17

0,78

0,83

0,51

1,06

0,88

0,69

0,58

0,48

0,82

0,63

0,41

0,68

5. MEDIDAS DE DISPERSO
Quando a variabilidade em um conjunto de dados muito grande, a mdia desse
conjunto de dados ter um grau de confiabilidade to pequeno que se torna insuficiente
para descrev-lo.
As medidas de disperso permitem um conhecimento mais completo do fenmeno
a ser analisado, mostrando o quanto estes valores esto afastados da mdia. Isso
significa que elas informam sobre o grau de heterogeneidade do grupo. As medidas de
disperso podem ser:
-

Medidas de Disperso Absoluta


Medidas de Disperso Relativa

5.1. Medidas de Disperso Absoluta


5.1.1. Amplitude Total
a diferena entre o maior e o menor dos valores de uma distribuio.
17

AT = Vmx. - Vmn.
onde: Vmx maior valor de uma distribuio;

Vmn menor valor de uma distribuio.

um ndice bastante simples, porm, bastante grosseiro, porque se baseia nos


dois valores extremos da escala que, geralmente, so menos freqentes, ignorando
totalmente a distribuio entre esses dois pontos. Ainda, no indica (nem permite
verificar) se h concentrao de dados em torno de algum ponto.
Utilizada:

- Temperaturas dirias: mnima de 18C e mxima de 28C


- Tempo: vero - de 21/12 a 20/3
- Dia: nascente: 5:58h; poente: 18:41h.

5.1.2. Varincia
A Varincia calcula o quadrado dos desvios em relao mdia. Desvio em
relao mdia a diferena entre cada dado e a mdia do conjunto.

s2

(x i ) 2
N
2
x i x

n 1

x
i 1

Populao

N
n

xi

x i 1
n

Amostra

5.1.3. Desvio Padro


a raiz quadrada da Varincia de um conjunto de dados.

- Populao

ou

s2

Amostra

5.2. Medidas de Disperso Relativa


A disperso relativa permite ainda comparar duas ou mais distribuies, mesmo
que essas se refiram diferentes fenmenos e sejam expressas em unidades de
medidas distintas. As medidas de disperso relativas resultam, em geral, de comparao
entre uma medida de disperso absoluta e um promdio (mdia, mediana e outros)
sendo seu resultado expresso em termos percentuais. Uma dessas medidas o
coeficiente de variao.
5.2.1. Coeficiente de Variao (CV)

18

uma medida de disperso relativa que indica a relao percentual entre o desvio
padro e a mdia dos dados. Serve de termo de comparao entre duas ou mais
situaes diferentes.
CV

100 - Populao

CV

onde: CV Coeficiente de Variao;


- desvio padro da populao;
s- desvio padro da amostra;

s
100 - Amostra
x

- mdia da populao;
x - mdia da amostra.

Para:
CV < 15% baixa disperso
15% CV 30% mdia disperso
CV > 30% alta disperso
Exerccios
1. Calcule a mdia aritmtica, o desvio padro e o coeficiente de variao para os dados
relativos dosagem de hemoglobina verificada em 12 animais bovinos (mg):
15

14

13

11

13

14

13,5

12

16

14,5

12

2. Calcule a mdia, o desvio padro e o coeficiente de variao para o peso (kg) e o


comprimento (cm) de ces:
Peso (Kg) e Comprimento (cm) de 10 ces
Peso
23,0 22,7 21,2 21,5
Comprimento
104
107
103
105

17,0
100

28,4
104

19,0
108

14,5
91

19,0
102

19,5
99

6. TEORIA DA PROBABILIDADE
O clculo das probabilidades de importncia fundamental para o estudo da
Estatstica Indutiva ou Inferencial. Os fenmenos estudados pela estatstica so
fenmenos cujo resultado, mesmo em condies normais de experimentao varia de
uma observao para outra, dificultando dessa maneira a previso de um resultado
futuro.
19

Como um estudo geralmente baseado em uma amostra, deseja-se generalizar os


resultados encontrados nessa amostra para toda a populao. Por se tratar de uma
amostra, no se pode afirmar que os resultados encontrados nessa amostra tambm
sero encontrados na populao, mas pode-se descobrir a probabilidade de ocorrncia
de cada resultado.
A teoria das probabilidades objetiva mensurar as chances de ocorrncia dos
diversos resultados que um experimento aleatrio pode apresentar. Ex.: probabilidade de
resposta positiva a determinado tratamento, probabilidade de determinado indivduo ser
Rh-, probabilidade de sobrevida.
Para tanto os mtodos mais utilizados so o clssico e o das freqncias relativas.
No mtodo clssico, as probabilidades so tericas e determinadas a priori,
independentemente de se realizar o experimento. Nesse caso, a probabilidade de ocorrer
determinado resultado na realizao de um experimento igual ao quociente entre o
nmero de casos favorveis ao sucesso e o nmero de casos possveis. Isto :
P( A )

N( A )
N(S)

onde:
N(A) o nmero de elementos de A;

N(S) o nmero de elementos de S.

No mtodo das freqncias relativas, as probabilidades so obtidas aps a


realizao dos experimentos e a ocorrncia dos eventos. Nesse caso, a probabilidade de
um evento ocorrer no futuro tende s freqncias anotadas nos experimentos ou
observaes passadas. Isso :
P(A) = fr (A)
Ex.:
Peso (em kg) de recm-nascidos
Peso (kg)
Fi
5
1,5
2,0
5
2,0
2,5
9
2,5
3,0
12
3,0
3,5
9
3,5
4,0
5
4,0
4,5
5
4,5
5,0
50

Fr
0,10
0,10
0,18
0,24
0,18
0,10
0,10
1,00

FONTE: Daz e Lpez (2007) Bioestatstica


Lei dos Grandes Nmeros
Quando se repete um experimento um grande nmero de vezes a probabilidade
calculada atravs da freqncia relativa se aproxima da probabilidade clssica.
Por exemplo, se fazemos uma pesquisa entrevistando apenas algumas pessoas,
os resultados podem acusar grande erro, mas se entrevistamos milhares de pessoas
selecionadas aleatoriamente, os resultados amostrais estaro muito mais prximos dos
verdadeiros valores populacionais.
20

Ex.:

6.3. Probabilidade Condicional


Dados dois eventos A e B, denota-se P(B/A) a probabilidade do evento B ocorrer,
uma vez que A tenha ocorrido.
P(A e B) = P(A) P(B/A)
Ex.1: Jogar um dado:
a) Probabilidade de sair o nmero 5?
b) Probabilidade de sair o nmero 5 sabendo que saiu um nmero mpar?

Ex.2: Uma urna contm duas bolas brancas e uma vermelha. Retiram-se duas bolas da
urna ao acaso, uma em seguida da outra e sem que a primeira tenha sido recolocada.
Qual a probabilidade de as duas serem brancas?
6.4. Probabilidade para Eventos Independentes
Dois eventos A e B so ditos independentes, quando a probabilidade da ocorrncia de B
no afetada pela ocorrncia de A, sendo a recproca verdadeira.
P(A e B) = P(A) P(B)
Ex.1: Um casal tem dois filhos. Qual a probabilidade de:
21

a) o primognito ser homem?


b) Os dois filhos serem homens?
c) Pelo menos um dos filhos ser homem?

Ex.2: Suponha que a probabilidade de uma pessoa ser do tipo sanguneo O 40%, ser A
30% e ser B 20%. Suponha ainda que a probabilidade de Rh + de 90% e que o fator
Rh independe do tipo sanguneo. Nestas condies, qual a probabilidade de uma
pessoa tomada ao acaso da populao ser:
a) O, Rh+?
b) AB, Rh-?

Ex.3: A probabilidade de determinado teste para a AIDS dar resultado negativo em


portadores de anticorpos contra o vrus (falso negativo) 10%. Supondo que falsos
negativos ocorrem independentemente, qual a probabilidade de um portador de
anticorpos contra o vrus da AIDS que se apresentou trs vezes para o teste, ter tido, nas
trs vezes, resultado negativo?

6.5. Teorema da Soma


Se os eventos A e B no podem ocorrer ao mesmo tempo:
P(A ou B) = P(A) + P(B)
Ex.: Suponha que uma urna contm duas bolas brancas, uma azul e uma vermelha.
Retira-se uma bola da urna ao acaso. Qual a probabilidade de ter sado bola colorida,
isto , azul ou vermelha?

Se a e B podem ocorrer ao mesmo tempo:


P(A ou B) = P(A) + P(B) P(A e B)
Ex.: Uma carta retirada de ao acaso de um baralho. Qual a probabilidade de sair uma
carta de espadas ou um s?

22

7. DISTRIBUIES DE PROBABILIDADES
H uma variedade de tipos de distribuies de probabilidades na estatstica. Cada
qual tem o seu prprio conjunto de hipteses que definem as condies sob as quais o
tipo de distribuio pode ser utilizado validamente. A essncia da anlise estatstica
confrontar as hipteses de uma distribuio de probabilidades com as especificaes de
determinado problema.
Para que se possa definir a distribuio a ser empregada importante verificar o
tipo de varivel aleatria, que pode ser discreta ou contnua.
Quando a varivel aleatria envolvida discreta (enumervel ou contvel) como,
por exemplo, nmero de nascimentos por ano, nmero de peas defeituosas por lote,
nmero de funcionrios em uma empresa, etc, trabalha-se com Distribuies de
Probabilidades Discretas. A soma das probabilidades associadas a todos os valores
possveis de uma varivel aleatria sempre igual a 1.
Para variveis aleatrias contnuas, no existe interesse em atribuir probabilidades
a cada particular valor, mas sim, para eventos formados por intervalos de valores. Por
exemplo, ao observar a altura de um indivduo, tomado ao acaso, no importa a
probabilidade de ele medir 1,682333... metros, mas sim a probabilidade de ele ter altura
no intervalo de 1,60 a 1,80m; ou acima de 1,90m, e assim por diante.
Assim, a anlise das variveis contnuas tende a focalizar a probabilidade de uma
varivel aleatria tomar um valor num determinado intervalo.
Como a probabilidade de uma varivel aleatria contnua assumir exatamente um
valor aproximadamente igual a zero, no preciso fazer distino entre os sinais < e
ou > e , como se faz com as variveis discretas.
A distribuio discreta que estudaremos a Distribuio Binomial. A distribuio
contnua mais utilizada a Distribuio Normal.
7.1. Distribuio Binomial
Usa-se o termo binomial para designar situaes em que os resultados de uma
varivel aleatria podem ser agrupados em duas classes ou categorias. As categorias
devem ser mutuamente exclusivas, de modo a deixar perfeitamente claro a qual categoria
pertence determinada observao; e as classes devem ser coletivamente exaustivas, de
forma que nenhum outro resultado fora delas seja possvel. Exs.: testes do tipo V ou F;
respostas do tipo SIM ou NO a um questionrio, exames do tipo "positivo ou negativo",
sexo masculino ou feminino, funcionrios ausentes ou presentes, etc.
Alm disso, variveis com resultados mltiplos podem, freqentemente, serem
tratadas como binomiais, quando apenas um dos resultados de interesse.
Exs.: - respostas a um teste de mltipla escolha podem ser do tipo correta ou errada;
- cinco candidatos a um emprego podem ter como resultado final contratado ou
no-contratado;
- chamadas telefnicas: locais ou interurbanas;
- determinada espcie de animal habitando a regio A ou outra regio.
23

Mesmo os resultados de uma varivel contnua podem reduzir-se a duas classes


excludentes.
Exs.: - velocidade de um automvel: dentro do limite legal ou excedendo o referido
limite;
- altura de uma pessoa: mais que 1,60m ou no.
7.1.1. Frmula Binomial
P( X x ) C xn p x q n x

onde:
P(X = x) - probabilidade binomial de a varivel X assumir o valor "x";
Cxn - o nmero de combinaes de "n" elementos tomados "x" a "x", ou seja:
Cxn

n!
x !( n x )!

p - probabilidade de sucesso;
x - nmero de sucessos;

q - probabilidade de fracassos;
n - nmero de observaes.

p+q=1
7.1.2. Mdia para a Distribuio Binomial
=n.p
onde: - mdia;
p - probabilidade de sucesso.

n - nmero de observaes;

7.1.3. Varincia da Distribuio Binomial


2 = n . p . q
onde: 2 - varincia;
p - probabilidade de sucesso;

n - nmero de observaes;
q - probabilidade de falha.

Ex.: A probabilidade de um menino ser daltnico 8%. Qual a probabilidade de serem


daltnicos todos os 4 meninos que se apresentaram, em determinado dia, para um
exame oftalmolgico?

7.2. Distribuio Normal

24

A Distribuio Normal uma distribuio terica, podendo ser aplicada em grande


nmero de fenmenos. caracterizada por uma funo, cujo grfico descreve uma curva
em forma de sino. Esta distribuio depende de dois parmetros, a saber: e .
Assim, suas principais caractersticas so:
1.
2.
3.
4.
5.
6.
7.

8.

A curva normal tem forma de sino;


simtrica em relao mdia;
Prolonga-se de - a +;
Cada distribuio normal fica completamente especificada por sua mdia e seu
desvio-padro; h uma distribuio normal distinta para cada combinao de
mdia e desvio-padro;
A rea total sob a curva normal considerada como 100%;
A rea sob a curva entre dois pontos a probabilidade de uma varivel
normalmente distribuda tomar um valor entre esses dois pontos;
Como h um nmero ilimitado de valores no intervalo de - a +, a probabilidade
de uma varivel aleatria normalmente distribuda tomar exatamente determinado
valor aproximadamente zero. Assim, as probabilidades se referem sempre a
intervalos de valores;
A rea sob a curva entre a mdia e um ponto arbitrrio funo do nmero de
desvios padres entre a mdia e aquele ponto.

7.2.1. Distribuio Normal Padronizada


Se uma varivel tem distribuio normal, cerca de 68% de seus valores estaro no
intervalo de um desvio padro a contar de cada lado da mdia; cerca de 95,5% no
intervalo de dois desvios padres a contar da mdia e cerca de 99,7% dentro de trs
desvios padres a contar da mdia. Isto vlido para todas as distribuies normais.
Assim, podemos converter os valores reais, para valores relativos. Isto equivale a
tomar a mdia como ponto de referncia (origem) e o desvio padro como medida de
afastamento a contar daquele ponto (unidade de medida). Esta nova escala comumente
conhecida como escala z.
Convertendo-se a diferena efetiva entre a mdia e algum outro valor da
distribuio para uma diferena relativa e expressando em termos do nmero de desvios
padres a contar da mdia, tem-se:
z

onde:

z nmero de desvios padres a contar da mdia;


mdia da distribuio normal;

x valor arbitrrio;
- desvio padro.

Ex.: Suponha que a quantidade de colesterol em 100ml de plasma sanguneo humano


tem distribuio normal com mdia 200mg e desvio padro 200mg. Calcule a
probabilidade de uma pessoa apresentar colesterol por 100ml de plasma:
a)
b)
c)
d)

entre 200 e 225mg;


entre 180 e 220mg.
menor do que 190mg;
maior do que 230mg.
25

Exerccios:
1. Suponha que determinado medicamento usado para diagnstico precoce da gravidez
capaz de confirmar casos positivos em apenas 90% das gestantes muito jovens. Isto
porque, em 10% das gestantes muito jovens, ocorre uma escamao do epitlio do tero,
que confundida com a mestruao. Nestas condies, qual a probabilidade de 2, de 3
gestantes muito jovens que fizeram uso desse medicamento, no terem confirmado
precocemente a gravidez?
2. Em homens, a quantidade de hemoglobina por 100ml de sangue uma varivel
aleatria com distribuio normal de mdia = 16g e desvio padro = 1g. Calcule a
probabilidade de um homem apresentar:
a) de 16 a 18g de hemoglobina por 100ml de sangue;
b) mais de 18g de hemoglobina por 100ml de sangue.
3. A probabilidade de um casal heterozigoto para o gene da fenilcetonria (Aa x Aa) ter
um filho afetado (aa) 1/4. Se o casal tem 3 filhos, qual a possibilidade de apenas um
dos filhos ter a doena?
4. Suponha que a taxa de glicose no sangue humano uma varivel aleatria com
distribuio normal de mdia = 100mg por 100ml de sangue e desvio padro = 6mg
por 100ml de sangue. Calcule a probabilidade de um indivduo apresentar taxa:
a) superior a 110mg por 100ml de sangue;
b) entre 90 e 100mg por 100ml de sangue.
5. Se a probabilidade de um indivduo ter sangue Rh - 10%, qual a possibilidade de 5
indivduos que se apresentaram para exame de sangue serem todos Rh -?
6. Suponha que a estatura de recm-nascidos do sexo masculino uma varivel
aleatria com distribuio aproximadamente normal de mdia = 50 cm e desvio padro
= 2,50cm. Calcule a probabilidade de um recm-nascido do sexo masculino ter
estatura:
a) inferior a 48cm;
b) superior a 52cm.

26

8. TEORIA ELEMENTAR DA AMOSTRAGEM


Amostragem o processo de seleo de uma amostra, que possibilita o estudo das
caractersticas da populao. A amostra difere da populao somente quanto ao nmero
de elementos. Exs.: amostra de sangue, bipsia, n de portadores do vrus HIV.
A amostragem pode ser:
- Amostragem com Reposio: quando extramos um objeto de uma urna, e o
repomos antes da prxima extrao; este objeto pode aparecer repetidas vezes.
- Amostragem sem Reposio: quando extramos um objeto de uma urna, e no o
repomos antes da prxima extrao; o objeto s pode aparecer uma vez.
8.1. Alguns Conceitos
Parmetro: uma medida populacional (, , )
Estimador (Estatstica): uma caracterstica numrica determinada na amostra ( x , s, p),
utilizada para obter uma aproximao de um parmetro populacional.
Estimativa: valor especfico, ou um intervalo de valores, usado para aproximar um
parmetro populacional.
8.2. Tipos de Amostragem
8.2.1. Amostragem Aleatria
A amostragem aleatria exige que cada elemento da populao tenha a mesma
probabilidade de ser includo na amostra. Assim, se N for o tamanho da populao, a
probabilidade de cada elemento ser 1/N. Trata-se do mtodo que garante
cientificamente a aplicao das tcnicas estatsticas de inferncias. Somente com base
em amostragens probabilsticas que se podem realizar inferncias ou indues sobre a
populao a partir do conhecimento da amostra. A seguir so apresentados formas de
obteno de uma amostra aleatria.
8.2.1. Amostragem Aleatria Simples
o processo mais elementar e freqentemente utilizado. Atribui-se a cada elemento
da populao um nmero distinto. Se a populao for numerada, utilizam-se esses
rtulos. Efetuam-se sucessivos sorteios at se completar o tamanho da amostra: n.
8.2.2. Amostragem Sistemtica
Trata-se de uma variao da amostragem aleatria simples, conveniente quando a
populao est ordenada segundo algum critrio, como fichas em um fichrio, listas
telefnicas...
27

Calcula-se o intervalo de amostragem N/n aproximando-o para o inteiro mais prximo:


a. Sorteia-se um nmero x entre 1 e a, formando-se a amostra dos elementos
correspondentes aos nmeros x; x+a; x+2a ... .
8.2.3. Amostra Estratificada
No caso de populao heterognea, em que se podem distinguir subpopulaes mais
ou menos homogneas denominadas estratos, possvel utilizar o processo de
amostragem estratificada.
Aps a determinao dos estratos, seleciona-se uma amostra aleatria de cada
subpopulao (estrato). Se os tamanhos das subamostras forem proporcionais aos
respectivos nmeros de elementos dos estratos, obtm-se uma estratificao tima.
As variveis de estratificao mais comuns so: classe social, idade, sexo, profisso...
ou qualquer outro atributo que revele os estratos dentro da populao.
8.2.4. Amostragem por Conglomerados (ou Agrupamentos)
Pressupe a disposio dos itens de uma populao em subgrupos heterogneos
representativos da populao global (minipopulaes). Algumas populaes no
permitem, ou tornam extremamente difcil que se identifiquem seus elementos. Porm,
pode ser relativamente fcil identificar alguns subgrupos da populao. Em tais casos,
uma amostra aleatria simples desses subgrupos (conglomerados) pode ser colhida, e
uma contagem completa deve ser feita para os conglomerados sorteados. Exs:
quarteires, organizaes, agncias, edifcios, fazendas, etc.
8.3. Amostragem No probabilstica
So aquelas amostras que representam especificamente certos segmentos da
populao. No possvel generalizar os resultados das pesquisas para a populao,
pois as amostras no probabilsticas no garantem a representatividade da populao.
Ex.: quando num conjunto indagamos quais indivduos so voluntrios para realizar tal
tarefa. Com este procedimento, identificamos um estrato de voluntrios e outro de novoluntrios.
8.3.1. Amostragem Acidental
Trata-se de uma amostragem formada por aqueles elementos que vo aparecendo,
que so possveis de se obter at completar o nmero de elementos da amostra.
Geralmente utilizada em pesquisas de opinio, em que os entrevistados so
acidentalmente escolhidos.
7.3.1. Amostragem por Julgamento
De acordo com determinado critrio, escolhido intencionalmente um grupo de
elementos que iro compor a amostra. Ex.: seleo de portadores de determinada
enfermidade.
O pesquisador deve ter muito cuidado com amostras no-probabilsticas, pois os
dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por
28

desidratao no se deve recorrer aos dados de um hospital. Como s so internados os


casos graves, possvel que a mortalidade entre pacientes internados seja muito maior
do que pacientes no internados. Essa amostra seria tendenciosa.
8.4. Distribuies Amostrais
8.4.1. Distribuio Amostral de Mdias
Amostras

Clculo

n1

x1

n2

x2

Populao

.
.

Distribuio
Amostral
das Mdias

.
n3

x3

O Teorema do Limite Central diz que:


Dado que uma varivel aleatria possui uma distribuio normal ou no, com mdia
e desvio padro e amostras de tamanho n so extradas aleatoriamente dessa
populao.
Teorema 1: A mdia da distribuio amostral de mdias ( x ) igual a mdia
populacional .
x

Teorema 2: Se a populao infinita, ou se a amostragem com reposio, ento o


desvio padro da distribuio amostral de mdias ( x ) dado por:
x

onde: desvio padro da populao;

n tamanho da amostra.

Teorema 3: Se a populao tem tamanho N (finita) ou se a amostragem sem reposio,


ento o desvio padro da distribuio amostral das mdias ( x ) :
x

Nn
N 1
29

onde: N tamanho da populao.


Teorema 4: medida que o tamanho da amostra aumenta (n 30), a distribuio das
mdias amostrais x tende a uma distribuio normal.
z

x
x

Obs: o fator de correo

Nn
N 1

pode ser omitido sempre que n < 5% de N.

Assim, para amostras de tamanho n > 30, a distribuio das mdias amostrais
pode ser aproximada satisfatoriamente por uma distribuio normal. A aproximao
melhora na medida em que aumenta o tamanho da amostra n.
8.4.2. Distribuio Amostral de Propores
Se de uma populao do tipo binomial com parmetros e 1 - , retiramos todas
as amostras possveis de tamanho n e calculamos a estatstica p, o conjunto dessas
propores ser dito Distribuio Amostral das Propores e sero vlidos os seguintes
teoremas:
Teorema 1:
p =

Teorema 2:
p

(1 )
n

(1 )
n

Amostragens com Reposio ou Populaes Infinitas


Nn
N 1

Amostragens sem Reposio ou Populaes Finitas

Teorema 3: A distribuio padronizada ser (n 30):


z

p
p

30

9. TEORIA ESTATSTICA DA ESTIMAO


A estimao o processo que consiste em utilizar dados amostrais para estimar os
valores de parmetros populacionais desconhecidos. Exs: estimao da percentagem de
casos positivos para determinada doena; peso mdio de recm nascidos; tempo mdio
para resposta de um medicamento, etc.
9.1. Estimativa Pontual
A estimativa de um parmetro populacional dada por um nico nmero chamada
estimativa pontual de parmetro.
9.2. Estimativa Intervalar
D um intervalo de valores possveis, no qual se admite esteja o parmetro
populacional. Exs: o tempo mdio de resposta 30min 5 min, isto , o tempo de
resposta deve estar compreendido entre 25 e 35 min.
9.3. Intervalo de Confiana
Um intervalo de confiana d um intervalo de valores, centrado na estatstica
amostral, no qual julgamos, com um risco conhecido de erro, estar o parmetro da
populao.
9.3.1. Intervalos de Confiana para a Mdia Populacional
A questo de quo prxima determinada mdia amostral pode estar da mdia da
distribuio amostral, em unidades efetivas, depende da variabilidade na distribuio
amostral (isto , do desvio padro da distribuio amostral). medida que aumenta o
tamanho amostral, o desvio padro da distribuio amostral diminui. Logo, grandes
amostras tendero a produzir mdias amostrais que esto mais prximas da mdia
populao do que pequenas amostras. Alm disso, quanto maior a variabilidade na
populao, maior a variabilidade na distribuio amostral.
Utilizando a Distribuio Normal:
a) n 30 (Grandes Amostras), conhecido
b) n < 30 (Pequenas Amostras), conhecido
x z .x ,
x

sendo:
Populao Infinita ou Amostragem com Reposio
31

Nn
N 1

Populao Finita ou Amostragem sem Reposio

c) n 30, desconhecido
x z sx ,
sx

s
n

sx

s
n

sendo:
Populao Infinita ou Amostragem com Reposio

Nn
N 1

Populao Finita ou Amostragem sem Reposio

onde:
- mdia da populao;
x - mdia da amostra;
z nmero de desvios padres utilizando a distribuio normal;
x , s x - desvio padro da distribuio amostral de mdias;
- desvio padro da populao;
n tamanho da amostra;
N tamanho da populao;
s desvio padro da amostra.
Ex.1: Determinam-se os nveis de creatinina do sangue perifrico de 35 estudantes
universitrios, escolhidos de modo randmico e cujas idades variam de 18 a 23 anos,
obtendo-se, como mdia amostral, 1,41mg/dl. O desvio padro da populao
conhecido, cujo valor igual a 0,2729mg/dl. Efetuar as estimativas de ponto e de
intervalos de confiana de 95% e 99%.

Ex.2: Um departamento de sade coletou dados amostrais referentes a 1525 mulheres


com idades de 18 a 24 anos. Esse grupo amostral tem nvel mdio de colesterol srico
(medido em mg/100ml) de 191,7 com desvio padro de 41,0. Com esses dados
amostrais, determine o intervalo de 95% de confiana para o nvel mdio de colesterol
srico de todas as mulheres nessa faixa etria. Se um mdico afirma que o nvel mdio
de colesterol srico para as mulheres naquela faixa etria 200, tal afirmao se afigura
compatvel com o intervalo de confiana?

Ex.3: O ndice de soro-proteo de uma amostra de cem vacinados com hidrxido de


alumnio apresenta um valor mdio igual a 3,50 e a varincia 0,36. Determinar os limites
de confiana no nvel de 5% de significncia.
32

Pequenas Amostras (Distribuio de Student (t))


A forma da distribuio t bastante parecida com a normal. A principal diferena
entre as duas distribuies que a distribuio t tem maior rea nas caudas. Isto
significa que, para um dado nvel de confiana, o valor t ser um pouco maior que o
correspondente valor z.
Propriedades da Distribuio t de Student
1. A distribuio t aproxima-se da distribuio normal medida que n aumenta.
Para n > 30 as diferenas so to pequenas que podemos utilizar os valores
crticos z;
2. A distribuio t tem a mesma forma geral simtrica (forma de sino) que a
distribuio normal, mas reflete a maior variabilidade (com distribuies mais
amplas) que esperada em pequenas amostras.
Condies para utilizao da Distribuio t de Student
1. O tamanho da amostra pequeno (n < 30)
2. desconhecido
3. A populao original tem distribuio essencialmente normal (Como a
distribuio da populao original em geral desconhecida, estimamo-la
construindo um histograma de dados amostrais).
Assim:
x t sx ,
s
n
s
sx
n
sx

sendo:
Populao Infinita ou Amostragem com Reposio

Nn
N 1

Populao Finita ou Amostragem sem Reposio

onde:
t nmero de desvio padres utilizando a distribuio de Student (t).
Para usar uma tabela t devemos conhecer o nvel de confiana desejado e o
nmero de graus de liberdade ().
=n1
Ex.1: Em um estudo de utilizao da hipnose para aliviar a dor, obtiveram-se as taxas
sensoriais para 16 indivduos. Com os dados amostrais abaixo, construa o intervalo de
confiana de 95% para a taxa sensorial mdia da populao da qual se extraiu a
amostra.
33

8,8
8,7

6,6
11,3

8,4
8,1

6,5
5,2

8,4
6,3

7,0
8,7

9,0
6,2

10,3
7,9

Ex.2: Uma amostra aleatria de 19 mulheres acusou altura mdia de 162cm. E desvio
padro de 6,4cm. Construa o intervalo de confiana de 98% para a altura mdia de todas
as mulheres.

9.3.2. Intervalos de Confiana para Propores


Seja a estatstica a proporo de sucessos em uma amostra de tamanho n 30
extrada de uma populao binomial. Se:
- n 30

p z . sP

n.p5

ento:

sendo:
sp

pq
n

sp

pq
n

Populao Infinita ou Amostragem com Reposio


Nn
N 1

Populao Finita ou Amostragem sem Reposio

onde:
p proporo de sucessos na amostra;
proporo de sucessos na populao.
Ex.1: Um levantamento efetuado em hospital especializado em doenas neoplsicas
revelou que em uma amostra de 12000 mulheres, cujas idades variavam entre 40 e 50
anos, o nmero de pacientes com cncer mamrio foi igual a 420. Efetuar estimativas de
ponto e de intervalos de confiana de 95% e 99%.

Ex.2 (Triola, pg. 160): Um estudo de sade envolve 1000 mortes selecionadas
aleatoriamente, dentre as quais 331 causadas por doenas cardacas. Com os dados
34

amostrais, construa um intervalo de confiana de 99% para a proporo de todas as


mortes causadas por doenas cardacas.

9.4. Dimensionamento do Tamanho da Amostra


A determinao do tamanho de uma amostra um problema de grande
importncia, porque amostras desnecessariamente grandes acarretam desperdcio de
tempo e dinheiro; e amostras demasiadamente pequenas podem levar a resultados no
confiveis.
Em dimensionamento de amostras arredonde o resultado sempre para o nmero
inteiro imediatamente superior.

9.4.1. Para Mdia


z .

Populao Infinita ou Amostragem com Reposio

z 2 2 N
Populao Finita ou Amostragem sem Reposio
e2 ( N 1) z 2 2

onde:
n tamanho da amostra;
z escala da distribuio normal padronizada;
- desvio padro da populao;
e erro amostral (mxima diferena admitida entre e x ).
N tamanho da populao.
Ex.1: Qual o tamanho de amostra necessrio para estudar o nvel mdio de colesterol em
mulheres com idades entre 40 e 50 anos. Deseja-se ter um nvel de confiana de 98%
com um erro mximo de 15 mg/100ml. O desvio padro igual a 41,0 mg/100ml.

Ex.2 (Freund & Simon, pg.224): O fabricante de um novo tranqilizante afirma que o
remdio reduz em ,ao menos, 1,5 batidas por minuto a taxa de batimentos cardacos de
35

uma pessoa. Qual deve ser o tamanho da amostra necessrio para investigar essa
afirmao, considerando um erro de, no mximo, 0,2 batidas/minuto com um nvel de
90% de confiana? Considere = 0,38 batidas por minuto.

9.4.2. Para a Proporo


z2 p q
n
e2
n

Populao Infinita ou Amostragem com Reposio

z2 p q N
e2( N 1) z 2 p q

Populao Finita ou Amostragem com Reposio

onde:
p proporo populacional (estimada);
q = 1 p;
N tamanho da populao.
Ex.1: Um estudo de sade envolve 1000 mortes selecionadas aleatoriamente, dentre as
quais 331 causadas por doenas cardacas. Utilizando os dados amostrais como estudo
piloto, determine o tamanho da amostra necessrio para estimar a proporo de todas as
mortes causadas por doenas cardacas. Admita um nvel de confiana de 98%, em que o
erro da estimativa no supere 0,01.

Ex.2 (Freund & Simon, pg. 253, ex. 31): Um mdico afirma que apenas 10% de todas as
pessoas expostas a certa dosagem de radiao sofrem efeitos negativos. Qual o
tamanho de amostra necessrio para confirmarmos essa afirmao se quisermos ter 95%
de confiana com um erro mximo de 1%?

10. TEORIA DA DECISO ESTATSTICA


O teste de significncia e a estimao so dois ramos principais da inferncia
estatstica. Enquanto que o objetivo da estimao estimar algum parmetro
populacional, o objetivo dos testes de significncia decidir se determinada afirmao
sobre um parmetro populacional verdadeira.
36

Quando quisermos avaliar um parmetro populacional, sobre o qual no


possumos nenhuma informao com respeito a seu valor, no resta outra alternativa a
no ser estim-lo atravs do intervalo de confiana. No entanto, se tivermos alguma
informao com respeito ao valor do parmetro que desejamos avaliar, podemos testar
esta informao no sentido de aceit-la como verdadeira ou rejeit-la.
Nesta teoria estuda-se a tomada de decises a respeito de populaes, com base
em amostras.
Em estatstica, uma hiptese uma alegao, ou afirmao, sobre uma
propriedade de uma populao. Ex.:
-

Pesquisadores mdicos afirmam que a temperatura mdia do corpo humano no


igual a 36,5C;
A percentagem de motoristas hospitalizados em conseqncia de acidentes
menor no caso de carros equipados com airbag do que no caso de carros sem
esse equipamento
Quantidade de determinada droga em uma medicao
Percentagem de pessoas curadas aps o uso de determinada medicao
Peso mdio de crianas recm nascidas
Efeitos colaterais de uma medicao

10.1. Componentes de um Teste de Hiptese


Para tomar-se uma deciso, formulam-se as hipteses.
H0 hiptese nula a afirmao sobre um valor do parmetro populacional. Deve
conter o sinal de igualdade. a hiptese conservadora, abrangendo a maior
probabilidade em torno do parmetro da populao que se est testando.
Ha hiptese alternativa a hiptese que contraria a hiptese H 0 de alguma maneira
que interesse ao pesquisador e tem uma probabilidade pequena de ser provada (>, < ou
).
Ao se tomar uma deciso estatstica podemos estar cometendo dois tipos bsicos
de erros:
Erro do Tipo I (erro primrio): consiste em rejeitar a hiptese nula quando ela
verdadeira. O erro tipo I no um clculo malfeito ou uma fase de processo mal
desempenhada; um erro que pode ocorrer como conseqncia casual de um evento
raro. A probabilidade de rejeitar a hiptese nula quando ela verdadeira chamada nvel
de significncia e se denota por .
Erro do Tipo II (erro secundrio): consiste em no rejeitar a hiptese nula quando ela
falsa. Usa-se o smbolo para representar a probabilidade de um erro tipo II.
Poder de um teste (1 ): a probabilidade de rejeitar uma hiptese nula falsa ou, de
modo equivalente, a concluso de que a hiptese alternativa verdadeira quando o de
fato.
Um alto poder um valioso atributo para um estudo, porque todos os
pesquisadores querem detectar um resultado significativo caso ele realmente exista. O
37

Poder do teste est intimamente relacionado com o tamanho da amostra utilizado no


estudo.
Ex.:

- Deciso de um Mdico sobre uma Cirurgia:

Deciso

Estado da Natureza
Precisa Operar

Opera

DECISO CORRETA

No opera

ERRO TIPO I
(rejeio de uma hiptese DECISO CORRETA
nula verdadeira)

No precisa operar
ERRO TIPO II
(No rejeio de
hiptese nula falsa)

uma

Ex.2: Erro Tipo I: condenar uma pessoa inocente


Erro Tipo II: absolver uma pessoa culpada

Ex.3: Erro Tipo I: Falso Positivo


Erro Tipo II: Falso Negativo
O modo de reduzir simultaneamente os erros Tipo I e Tipo II aumentando o
tamanho da amostra.
Obs.: Se aceitamos ou no rejeitamos H 0, no estamos provando a hiptese nula;
estamos apenas dizendo que a evidncia amostral no suficientemente forte para
recomendar a rejeio da hiptese nula.
Tipos de Testes:

Tipos de Testes
Bilateral
Unilateral Superior (Direito)
Unilateral Inferior (Esquerdo)

Hipteses
H0: =
Ha:
H0: =
Ha: >
H0: =
Ha: <

Uma verificao bilateral (ou bicaudal) adequada quando os pesquisadores no


tem uma expectativa a priori do valor da amostra; eles querem saber se a estatstica da
amostra difere do parmetro da populao em qualquer direo.
A verificao unicaudal (ou direcional) pode ser utilizada quando os pesquisadores
tem uma expectativa sobre o valor da amostra e querem testar apenas se ele maior ou
menor do que o parmetro na populao.
Um teste de hipteses unicaudal mais sensvel diferenas significativas do que
um teste bicaudal.
38

10.2. Etapas Bsicas em um Teste de Hiptese


O procedimento para realizao dos testes de significncia resumido nos
seguintes passos:
1. enunciar as hipteses H0 e Ha;
2. fixar o limite do erro () e identificar a varivel do teste;
3. com o auxlio das tabelas estatsticas, considerando e a varivel do teste,
determinar as regies crtica (RC) e de aceitao (RA) para H 0;
4. com os elementos amostrais, calcular o valor da varivel do teste;
5. concluir pela aceitao ou rejeio de H 0 pela comparao do valor obtido no 4
passo com RA e RC.

9.3.

Teste de uma Mdia utilizando a Distribuio Normal

A distribuio normal de probabilidade pode ser utilizada para testar um valor


hipottico da mdia da populao quando n 30 ou n < 30 (no caso de a populao ser
normalmente distribuda e ser conhecido).
z

x
x

Populao Infinita ou Amostragem com Reposio

Nn
N 1

Populao Finita ou Amostragem sem Reposio

onde:
z - nmero de desvios padres ou valor da varivel na curva padro;
x - mdia da amostra;
- valor suposto da mdia da populao (na hiptese nula);
x - desvio padro da distribuio amostral de mdias;
- desvio padro da populao;
n tamanho da amostra;
N - tamanho da populao.
Ex.: (Fonseca e Martins, pg. 219, ex.: 4): As estaturas de 20 recm-nascidos foram
tomadas no Departamento de Pediatria da FMRP, cujos resultados (em cm) so:
41

50

52

49

49

54

50

47

52

49

50

52

50

47

49

51

46

50

49

50

Suponha que a populao das estaturas normal com varincia 1,41 cm. Teste a
hiptese de que a estatura mdia dos recm-nascidos de 50 cm. Use = 0,05.
39

10.4. Teste de uma Mdia utilizando a Distribuio t de Student


Quando n < 30, a populao normalmente distribuda e desconhecido, utilizase a distribuio t de Student.
t

x
sx

sx

=n1

sx

Populao Infinita ou Amostragem com Reposio

n
s
n

Nn
N 1

Populao Finita ou Amostragem sem


Reposio

onde:
t = valor da varivel na distribuio t.
Ex.: Relacionam-se, a seguir, os pesos, ao nascer (em kg) de meninos nascidos de mes
que ingeriram um suplemento especial de vitaminas. Ao nvel de 0,05 de significncia,
teste a afirmao de que o peso mdio, ao nascer, de todos os meninos de mes que
tomaram o suplemento de vitaminas igual a 3,39kg, que a mdia da populao de
todos os recm-nascidos. Com base no resultado, o suplemento de vitaminas parece ter
algum efeito sobre o peso da criana ao nascer?
3,73

4,37

3,73

4,33

3,39

3,68

4,68

3,52

3,02

4,09

2,47

4,13

4,47

3,22

3,43

2,54

10.5. Teste de Significncia da Diferena entre duas Mdias, utilizando a


Distribuio Normal

( x1 x 2 )
x1 x2

x1 x2

12 22

n1 n2

Populao Infinita ou Amostragem com


Reposio

x1 x2

12 N 1 n1 22 N 2 n2

Populao Finita ou
n1 N 1 1 n2 N 2 1

Amostragem sem Reposio


Ex.: Um laboratrio deseja testar o Dozenol, um remdio novo contra resfriado para uso
noturno. No grupo de tratamento, 50 pessoas tomam o remdio; o grupo controle
composto por 100 pessoas. Mede-se a presso sistlica de cada pessoa obtendo-se as
estatsticas amostrais mostradas. O chefe da pesquisa afirma que o Dozenol no afeta a
40

presso sangunea, ou seja, a mdia populacional do grupo tratado e a mdia


populacional do grupo controle so iguais. Teste a afirmao, no nvel de significncia de
0,01. Com base no resultado, recomendaria anunciar que o Dozenol no afeta a presso
sangunea?
Grupo de
Tratamento

Grupo controle

n1 = 50

n2 = 100

x 1 =203,4

x 2 =189,4

s1 = 39,4

s2 = 39,0

10.7. Teste da Diferena entre Duas Mdias, usando a Distribuio t de Student


Neste caso, a populao deve ser normalmente distribuda, n < 30 e
desconhecido.
t

x1 x2
s x1 x2

s x1 x2

s12 s 22

n1 n2

Populao Infinita ou Amostragem com


Reposio

s x1 x2

s12 N1 n1 s 22 N 2 n2


n1 N1 1 n2 N 2 1

Populao Finita ou

Amostragem sem Reposio


= o menor dos dois

n1 1

n2 - 1

Ex.: Para os dados abaixo, ao nvel de 5% de significncia, teste a afirmao de que a


quantidade mdia de alcatro em cigarros com filtro menor do que a quantidade mdia
de alcatro em cigarros sem filtro.
Alcatro (mg)
Com filtro
Sem filtro
n1 = 21
n2 = 8
x1 = 13,3
x 2 =24,0
s1 = 3,7
s2 = 1,7

10.8. Teste de Significncia para a Diferena entre duas Mdias, usando a


Distribuio t de Student para Amostras Dependentes
Ao trabalharmos com duas amostras dependentes, baseamos nossos clculos na
diferena (d) entre os pares de dados. A simples comparao entre as mdias das
41

amostras acarretaria perda de informaes importantes sobre os dados emparelhados.


Assim:
t

d d
sd

=n1

d
d

sd

n d 2 d

n n 1

onde:
d mdia das diferenas d para a populao de dados emparelhados;
d - valor mdio das diferenas d para os dados amostrais emparelhados;
sd desvio padro das diferenas d para os dados amostrais emparelhados;
n nmero de pares de dados.
Ex.: Em um grupo de 10 pacientes infectados pelo P. vivax, contou-se o nmero de
plaquetas por ml do sangue perifrico em duas ocasies: no momento do diagnstico e
aps o tratamento. Os dados so mostrados a seguir. Ao nvel de 0,05 de significncia,
teste se a infeco malrica altera o nmero de plaquetas no sangue perifrico do
homem.
Plaquetas (antes):

80300
132000

217000
149600

102000
158400

101000
125000

115000
122000

Plaquetas (depois): 109000


164220

312000
207900

138000
187500

175000
178000

179400
146900

10.9. Teste de uma Proporo usando a Distribuio Normal


A distribuio normal pode ser utilizada como uma aproximao da distribuio
binomial quando n 30 e tanto n . p 5. Dessa forma:
z

p
P

(1 )
n

Populao Infinita ou Amostragem com


Reposio

(1 ) N n
n
N 1

Populao Finita ou Amostragem sem


Reposio

onde:
p proporo de sucesso na amostra de tamanho n;
- proporo de sucesso na populao;
42

P desvio padro da distribuio amostral de propores.


Ex.: Um mdico afirma que apenas 10% de todas as pessoas expostas a certa dosagem
de radiao sofrem efeitos negativos. Se, em uma amostra aleatria, 5 dentre 30 pessoas
expostas a radiao sentem algum efeito negativo, teste, ao nvel de 0,05 de
significncia, a hiptese nula.

10.10. Teste da Diferena entre duas Propores Populacionais


Quando desejamos testar a hiptese de que as propores em duas populaes
no so diferentes, as duas propores amostrais so combinadas para determinar o
erro padro da diferena entre propores. A estimativa da proporo populacional,
baseada nas propores obtidas em duas amostras independentes, :
z

p1 p 2
p1 p2

P1 P2

(1 ) (1 )

n1
n2

n1 p1 n2 p 2
n1 n2

onde:
p1 proporo de sucesso da amostra retirada da populao 1;
p2 proporo de sucesso da amostra retirada da populao 2.
p p
- desvio padro da distribuio amostral de diferena de propores;
proporo de sucesso populacional estimada;
n1 tamanho da amostra retirada da populao 1;
n2 tamanho da amostra retirada da populao 2.
1

O teste da diferena entre propores pode ser desenvolvido tanto como um teste
unilateral quanto como um teste bilateral.
Ex. Atravs de uma pesquisa feita em uma empresa constatou-se que de 30 funcionrias
que lidavam com ter-glicol, 10 tiveram aborto espontneo. De 750 que no estavam
expostas ao ter-glicol, 120 abortaram. No nvel de 0,01 de significncia, teste a
afirmao de que as mulheres expostas ao ter-glicol apresentam maior taxa de aborto.

11. TESTES DE ADERNCIA E TABELAS DE CONTINGNCIA


11.1. Testes de Aderncia

43

Os procedimentos de testes de hipteses at aqui discutidos so projetados para


problemas em que a populao ou distribuio de probabilidades seja conhecida e as
hipteses envolvam os parmetros da distribuio. Outra situao quando no
conhecemos a distribuio da populao considerada e desejamos testar a hiptese de
que uma distribuio particular ser satisfatria como um modelo para a populao.
Assim, utiliza-se um teste de aderncia para testar a hiptese de que uma distribuio de
freqncias observadas se ajuste (ou adere) a determinada distribuio terica.
O procedimento requer uma amostra aleatria de tamanho n, proveniente da
populao cuja distribuio de probabilidades desconhecida. Essas n observaes
so arranjadas em um histograma de freqncia, tendo k intervalos de classe.
A estatstica de teste :
k

Oi Ei 2

i 1

Ei

2
onde:

Oi - freqncia observada no i-simo intervalo de classe;


Ei - freqncia esperada no i-simo intervalo de classe;
O 2 calculado comparado com o 2 tabelado. Se 2 = 0, as freqncias
observada e esperada so iguais, enquanto que, se 2 > 0 elas no coincidem. Quanto
maior o valor de 2, maior a discrepncia entre as freqncias observada e esperada.
Pode-se aproximar essas diferenas pela distribuio qui-quadrado se as
freqncias esperadas so pelo menos iguais a 5, melhorando para valores maiores.
Quando as freqncias esperadas so menores do que 5, combinam-se as freqncias
esperadas de dois intervalos de classes. As freqncias observadas correspondentes
tambm devem ser combinadas.
O nmero de graus de liberdade definido como:
=kp1
onde:
= graus de liberdade;
k nmero de intervalos de classe;
p nmero de parmetros da distribuio utilizada na hiptese.
Ex. 1: H um acasalamento entre indivduos cujos pares de gens Aa e Bb determinam, na
segunda gerao, os seguintes fentipos e suas freqncias. Testar, ao nvel de
significncia de 5%, se as observaes de aderem a uma distribuio uniforme.
Fentipos
AB
Ab
aB
ab

Freqncia
Observada
87
30
35
8
44

Ex.2: Em casais com grupos sanguneos AB x AB, testou-se o fentipo de 80


descendentes no que diz respeito a esse sistema, observando-se que 18 pertenciam ao
grupo A, 36 ao AB e 26 ao B. Pela teoria gentica as propores esperadas seriam: 1:2:1
(25%:50%:25%), dos grupos A, AB e B, respectivamente. Testar se as propores
fenotpicas observadas concordam com as esperadas pela teoria gentica. = 0,05.

11.2. Tabelas de Contingncia


uma tabela em que as freqncias correspondem a duas variveis: uma varivel
categoriza as linhas e a outra categoriza as colunas.
Aqui, testa-se a hiptese nula de que a varivel linha e a varivel coluna no esto
relacionadas, isto , so independentes. Para realizar esse teste no necessrio supor
que a populao original tenha distribuio normal nem qualquer outro tipo de
distribuio. A estatstica a mesma utilizada no teste de aderncia, onde os graus de
liberdade e a freqncia esperada so calculados da seguinte forma:
E ij

= (r - 1) (c - 1)
k

i 1

ij

E ij

total

de linhas total de colunas


total geral

E ij

onde: r - nmero de linhas;


Eij - freqncia esperada na linha i e coluna j;
Oij freqncia observada na linha i e coluna j.

c - nmero de colunas;

Obs.1: Os testes de independncia com tabelas de contingncia envolvem, apenas,


regies crticas unilaterais direita.
Obs.2: Para cada clula na tabela de contingncia, a freqncia esperada "E" deve ser,
no mnimo, igual a 5. No h tal exigncia para as freqncias observadas.
Pequenos valores da estatstica de teste 2 indicam acentuada concordncia entre
as freqncias observadas e as freqncias esperadas, com variveis: linha e coluna
45

independentes. Grandes valores de 2 encontram-se direita da distribuio quiquadrado e refletem diferenas significativas entre freqncias observadas e esperadas.

Ex.1: Os porcos em certa fazenda experimental podem contrair gripe suna durante o
inverno. Como parte de um experimento, alguns porcos (selecionados aleatoriamente)
foram vacinados contra a gripe, enquanto outros foram deixados sem vacina. Registrouse, ento, quais deles contraram a doena durante o inverno, conforme tabela abaixo.
Determine se a vacina tem efeito significativo. Tome o nvel de 0,05 de significncia.
Vacinados
No
Sim

Contraiu gripe suna?


Sim
No
46
56
28
77

Total
102
105

Ex.2: Certa cirurgia pode ser feita com anestesia local ou geral. Aplicar o teste do 2 para
verificar se existe associao entre o tipo de anestesia e o nmero de bitos ocorridos.
Determinar o coeficiente de Contingncia.
Anestesia
Local
Geral

Vivos
501
175

Mortos
27
23

12. CORRELAO E REGRESSO LINEAR SIMPLES


A regresso e a correlao so duas tcnicas estreitamente relacionadas que
envolvem uma forma de estimao. A diferena entre essas tcnicas e o tipo de
estimao discutido anteriormente que aquelas tcnicas anteriores foram utilizadas
para estimar um nico parmetro populacional, enquanto que estas tcnicas se referem
estimao de uma relao que possa existir na populao. Mais especificamente, a
anlise de correlao e regresso compreende a anlise de dados amostrais para saber
se e como duas ou mais variveis esto relacionadas uma com a outra numa
populao.
12.1. Correlao Linear Simples

46

O objetivo do estudo correlacional a determinao da fora do relacionamento


entre duas variveis. H muitos casos em que pode existir um relacionamento entre duas
variveis. Exs.:
-

A idade e a resistncia fsica esto correlacionados?


O peso est correlacionado com a altura de uma pessoa?
Esses problemas se prestam a anlise de correlao.
Essa tcnica s vlida se pudermos levantar as seguintes hipteses:
1. Tanto x como y so variveis aleatrias, isto , tanto y como x devem variar
livremente;
2. A distribuio de freqncias conjunta (isto , a distribuio de valores dos pares
x, y) normal.

12.1.1. Caractersticas da Correlao


1. -1,00 Coeficiente de Correlao +1,00;
2. Uma correlao pode ser:
linear positiva

linear negativa

no-linear

sem correlao

3. O sinal do Coeficiente de Correlao Linear sempre o mesmo sinal do Coeficiente


Angular
12.1.2. Coeficiente de Correlao Linear de Pearson (r)

n xy x y

n x x n y y
2

onde:
n - nmero de pares de dados;
x - valores da varivel "x";
47

y - valores da varivel "y";


r - coeficiente de correlao linear para uma amostra.
0,00 < | r | < 0,25 - correlao muito fraca;
0,25 < | r | < 0,50 correlao fraca;
0,50 < | r | < 0,75 correlao boa;
0,75 < | r | < 1,00 correlao muito boa.
Ex: Deseja-se determinar se h alguma relao entre o comprimento (em cm) e o peso
(em kg) de ces. Os dados amostrais de uma amostra aleatria de 20 ces so
apresentados na tabela abaixo:
Dados de uma amostra de 20 ces
Co i
Compr.(cm) Peso (Kg)
1
104
23,5
2
107
22,7
3
103
21,1
4
105
21,5
5
100
17,0
6
104
28,5
7
108
19,0
8
91
14,5
9
102
19,0
10
99
19,5

Co i
11
12
13
14
15
16
17
18
19
20

Compr.(cm)
98
95
92
104
94
99
98
98
104
100

Peso (Kg)
15,0
14,9
15,1
22,2
13,6
16,1
18,0
16,0
20,0
18,3

Os dados da tabela acima esto grafados na figura abaixo a fim de se decidir se


uma reta descreve adequadamente os dados.

48

12.1.3. Inferncias sobre o Coeficiente de Correlao Linear


O coeficiente de correlao linear (r) apenas uma estimativa do parmetro
correspondente . O que r mede em amostra mede em populao. Assim, pode-se
verificar se a correlao linear entre as duas variveis significativa. As hipteses so:
H0: = 0
H1: 0

(No h correlao linear significativa)


(Correlao linear significativa)

Para a estatstica de teste, pode-se utilizar a distribuio "t" de Student da forma:


t

r
1 r2
n2

=n-2

12.2. Regresso Simples


Sempre que possvel, pode-se expressar, em termos de equao matemtica, as
relaes entre duas variveis aleatrias. A finalidade de uma equao de regresso
estimar valores de uma varivel (dependente), com base em valores conhecidos da outra
varivel (independente). A regresso ainda pode predizer valores futuros de uma
varivel.
Para se chegar a uma equao matemtica que descreva a relao entre duas
variveis processo conhecido como ajustamento de curvas, deve-se:
-

Decidir que tipo de curva (reta, parbola, ...) descreve melhor o padro geral dos
dados e, da, que tipo de equao de predio deve ser utilizada. Em geral, analisase o Diagrama de Disperso (grfico no qual cada ponto plotado representa um par
observado de valores para as variveis: dependente e independente).

Estimar a melhor equao.

12.2.1. Regresso Linear Simples


A Regresso Linear Simples constitui uma tentativa de estabelecer uma equao
matemtica linear (linha reta) que descreva o relacionamento entre duas variveis. Uma
equao linear tem a forma:
y = a + bx
onde:
a ponto de interseco da linha de regresso linear com o eixo y (ponto no qual x = 0);
b declividade da linha de regresso (coeficiente angular);
y valor estimado da varivel dependente, dado um valor especfico da varivel
independente x;
x valor especfico da varivel independente.

49

A equao importante por proporcionar um grau de preciso muito mais elevado


do que o grfico. No obstante, os grficos so importantes porque criam uma imagem
mental do relacionamento. Alm disso, na fase inicial da anlise, podem auxiliar a decidir
se determinada relao linear apropriada.
As equaes lineares so teis e importantes no s porque muitas relaes tm
efetivamente esta forma, mas tambm porque, em geral, constituem boas aproximaes
de relaes que, de outro modo, seriam difceis de descrever em termos matemticos.
12.2.1.1. Estimao dos Coeficientes utilizando o Mtodo dos Mnimos Quadrados
a

( y )( x 2 ) ( x )( xy )
n( x 2 ) ( x ) 2

n( xy ) ( x )( y )
N ( x 2 ) ( x )2

onde:
n n de pares de observaes.
Obs.:
-

A equao de regresso se trata de uma relao mdia; assim, um co


com determinado comprimento no obter necessariamente o peso exato
indicado pela equao.

muito arriscado extrapolar essa equao para comprimentos e pesos


fora do mbito dos dados.

Os coeficientes a e b so apenas estimativas baseadas em dados amostrais e


isso implica a existncia dos correspondentes valores reais, denotados, em geral, por e
e chamados coeficientes de regresso. Conseqentemente, h tambm uma reta real
de regresso:
Y = + x1
Onde Y a verdadeira mdia de y para um dado valor de x.
A disperso existe pelo fato de no existir um relacionamento perfeito entre as
duas variveis na populao. H outras variveis que influenciam os valores da varivel
dependente, talvez mesmo um nmero surpreendentemente grande de outras variveis
que no entram na anlise de regresso. Mas a influncia dessas outras variveis
provavelmente pequena, e o custo de incluso de tais fatores no estudo supera o
benefcio que poderia incorrer de tal incluso. Alm disso, um ou dois fatores geralmente
respondem por quase toda a variao da varivel dependente. Por isso que sempre
haver uma disperso. E tal disperso significa que as estatsticas amostrais tendem a
diferir dos parmetros efetivos da populao.

50