Notas de aula - Estatística III 32

UNIDADE II. ANÁLISE BIDIMENSIONAL
1. VARIÁVEIS BIDIMENSIONAIS

Até agora vimos como organizar e resumir informações pertinentes a uma única variável, mas
freqüentemente estamos interessados em analisar o comportamento conjunto de duas ou mais
variáveis. Aqui também a distribuição conjunta de freqüências será um poderoso instrumento para
ajudar a compreensão dos dados, é o que faremos através da análise bidimensional, isto é análise de
duas variáveis conjuntamente.

Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter três situações:
(a) as duas variáveis são qualitativas;
(b) as duas variáveis são quantitativas; e
(c) uma variável é qualitativa e a outra é quantitativa.

As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são
qualitativas, os dados são resumidos em tabelas de dupla entrada ( ou de contingência), onde
aparecerão as freqüências absolutas ou contagens de indivíduos que pertencem simultaneamente a
categorias de uma e outra variável. Quando as duas variáveis são quantitativas, as observações são
provenientes de mensurações, e técnicas como gráficos de dispersão ou de quantis são apropriados.
Quando temos uma variável qualitativa e outra quantitativa, em geral analisamos o que acontece com
a variável quantitativa quando os dados são categorizados de acordo com diversos atributos da
variável qualitativa.

VARIÁVEIS QUALITATIVAS
Exemplo 1: Suponhamos que queremos analisar o comportamento conjunto das variáveis grau de
educação (X) e a região de procedência (Y) , contidas no quadro 1.1. A distribuição conjunta de
freqüências é dada numa tabela de dupla entrada, e está apresentada na Tabela A , a seguir:

TABELA 4.1 - Distribuição conjunta das freqüências das variáveis grau
de instrução (X) e região de procedência (Y)
Grau de Educação X
Y
1
o
grau 2
0
grau Superior Total (↓)
Capital 4 5 2 11
Interior 3 7 2 12
O. Região 5 6 2 13
Total (→) 12 18 6 36
Fonte: Quadro 1.1 (Unidade II)
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 33


Cada célula no corpo da tabela fornece a freqüência absoluta observada das realizações conjuntas de X e
Y. Assim, observamos 4 empregados da capital com instrução de 1
0
grau, 5 da capital com o 2
0
grau, etc.
A Linha Total (→) fornece a distribuição da variável X (grau de instrução), enquanto que, a Coluna
Total (↓) fornece a distribuição da variável Y (região de procedência), denominadas tecnicamente de
distribuições marginais de X e de Y, ao passo que a Tabela A constitui a distribuição conjunta de X e Y.

- FREQUÊNCIAS PERCENTUAIS OU PROPORÇÕES
Em vez de trabalharmos com as freqüências com as freqüências absolutas , podemos construir tabelas
com as freqüências percentuais, com foi feito no caso unidimensional. Mas aqui existem três
possibilidades de expressarmos a freqüência percentual de cada célula ou casela:
a) Em relação ao total geral (n total de observações) - Ex.: Tabela 4.2;
b) Em relação ao total de cada coluna (Total → ) ou a variável coluna - Ex.: Tabela 4.3;
c) Em relação ao total de cada linha (Total ↓ ) ou a variável linha - Ex.: Tabela 4.4;
De acordo com o objetivo do problema em estudo, uma delas será mais conveniente.

TABELA 4.2 - Distribuição conjunta das freqüências das variáveis X e Y
(Percentual em relação ao Total Geral)

Grau de Educação X
Y 1
o
grau 2
0
grau Superior Total (↓)
Capital 4 (11%) 5 (14%) 2 (6%) 11 (31%)
Interior 3 (8%) 7 (19%) 2 (6%) 12 (33%)
O. Região 5 (14%) 6 (17%) 2 (5%) 13 (36%)
Total (→) 12 (33%) 18 (50%) 6 (17%) 36 (100%)
Fonte: Quadro 1.1

Assim, podemos afirmar na Tabela 4.2 acima, que 11% dos empregados vêm da capital e têm instrução
de 1
0
grau. Os totais marginais fornecem as distribuições unidimensionais de cada uma das variáveis.
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 34


TABELA 4..3 - Distribuição conjunta das freqüências das variáveis X e Y
(Percentual em relação à X (grau de educação) - Variável Coluna)

Grau de Educação X
Y 1
o
grau 2
0
grau Superior Total (↓)
Capital 4 (33%) 5 (28%) 2 (33%) 11 (31%)
Interior 3 (25%) 7 (39%) 2 (33%) 12 (33%)
O. Região 5 (42%) 6 (33%) 2 (34%) 13 (36%)
Total (→) 12 (100%) 18 (100%) 6 (100%) 36 (100%)
Fonte: Quadro 1.1

Podemos afirmar que, entre os empregados com instrução até 1
0
grau, 33% vêm da capital, enquanto que
dos empregados com instrução de 2
0
grau, 28% vêm da capital.


De modo análogo, podemos construir a distribuição conjunta de freqüências percentuais em relação à
variável linha ou considerando o Total das Linhas (↓)

TABELA 4..4 - Distribuição conjunta das freqüências das variáveis X e Y
(Percentual em relação à Y (região de procedência) - Variável Linha)

Grau de Educação X
Y 1
o
grau 2
0
grau Superior Total (↓)
Capital 4 (36%) 5 (45%) 2 (19%) 11 (100%)
Interior 3 (25%) 7 (58%) 2 (17%) 12 (100%)
O. Região 5 (38%) 6 (46%) 2 (16%) 13 (100%)
Total (→) 12 (33%) 18 (50%) 6 (17%) 36 (100%)
Fonte: Quadro 1.1
Podemos dizer que, entre os empregados provenientes da Capital, 36% têm nível de educação de 1
0
grau,
enquanto que entre os empregados do Interior, 25% têm instrução de 1
0
grau.
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 35


3. ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUALITATIVAS
Um dos principais objetivos de se construir uma distribuição conjunta de freqüências de duas
variáveis qualitativas é descrever a associação ou relação entre elas, isto é, queremos conhecer o grau
de dependência entre elas, de modo que possamos prever melhor o resultado de uma delas quando
conhecermos a realização da outra.
Por exemplo, se quisermos estimar qual a renda média de uma família moradora da cidade de
João Pessoa, a informação adicional sobre a classe social a que ela pertence nos permite estimar com
maior precisão essa renda, pois sabemos que existe uma dependência entre as duas variáveis: renda
familiar e classe social. Ou, ainda, suponhamos que um estudante seja sorteado aleatoriamente na
UFPB e devamos adivinhar o sexo desse estudante. Se soubermos que o estudante é do curso de
enfermagem, nossa resposta mais provável será dizer que a pessoa é de sexo feminino. Ou seja, há um
grau de dependência grande entre as variáveis sexo e escolha de área de estudos.
Vejamos, agora, como identificar a dependência ou não entre duas variáveis através da
distribuição conjunta.
Exemplo 2. Queremos verificar se existe ou não associação entre o sexo (X) e a escolha de curso (Y)
por universitários. Para tal, foi tomada uma amostra aleatória de 200 universitários, e considere os
resultados apresentados nas respectivas tabelas conjuntas, Tabela 4.5 e Tabela 4.6 a seguir:

Tabela 4.5 – Distribuição conjunta dos estudantes Tabela 4.6 – Distribuição conjunta dos
estudantes segundo o sexo (X) e o curso escolhido (Y) segundo o sexo (X) e o curso
escolhido (Y)
X
Y

Masculino

Feminino

Total (↓)
X
Y

Masculino

Feminino

Total (↓)
Economia 85 (61%) 35 (58%) 120 (60%) Física 100 (71%) 20 (33%) 120 (60%)
Administ. 55 (39%) 25 (42%) 80 (40%) C. Sociais 40 (29%) 40 (67%) 80 (40%)
Total (→) 140 (100%) 60 (100%) 200 (100%) Total (→) 140 (100%) 60 (100%) 200 (100%)

Observando os percentuais ou proporções em relação a coluna total (↓) na Tabela 4.5, verificamos
que, independentemente do sexo 60% dos estudantes preferem Economia e 40% Administração. Não
havendo dependência entre as variáveis, esperaríamos essas mesmas proporções para cada sexo.
Observando a Tabela 4.5, vemos que os percentuais do sexo masculino (61% e 39%) e do sexo
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 36

feminino (58% e 42%) são próximas do totais(↓) marginais (60% e 40%). Esses resultados parecem
indicar não haver dependência entre as duas variáveis, para o conjunto de estudantes considerado.
Concluímos então que, neste caso, as variáveis sexo e escolha do curso parecem ser não associadas.

Vamos considerar, agora, a situação semelhante, mas envolvendo alunos de Física e Ciências Sociais,
cuja distribuição conjunta está na Tabela 4.6 .

Comparando agora a distribuição dos percentuais ou proporções, pelos cursos, independentemente do
sexo (coluna de totais), com as distribuições diferenciadas por sexo (colunas de masculino e
feminino), observamos uma disparidade bem acentuada nas proporções. Parece, pois, haver maior
concentração de homens no curso de Física e de mulheres no curso de Ciências Sociais. Portanto,
nesse caso, as variáveis sexo e curso escolhido parecem ser associadas.

Quando existe associação entre variáveis, sempre é interessante quantificar essa associação, o que
será objeto de estudo a seguir.

4. MEDIDAS ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS
De um modo geral, a quantificação do grau de associação ou dependência entre duas variáveis é feita
pelos chamados coeficientes de associação ou correlação. Essas são medidas que descrevem, por
meio de um único número, a associação (ou dependência) entre duas variáveis. Para maior facilidade
de compreensão, esses coeficientes usualmente variam entre 0 e 1, ou entre –1 e +1, e a proximidade
de zero indica falta de associação.
Existem muitas medidas que quantificam essa associação entre variáveis qualitativas, apresentaremos
apenas duas delas: o chamado coeficiente de contingência, devido a K. Pearson e uma modificação
desse.

Exemplo 3. Desejamos investigar se há alguma relação entre as notas de um teste qualificação (X) de
pessoas que passaram por um programa de treinamento e seu desempenho(Y) subsequente em um
emprego. E, para tal, tomou-se uma amostra de 400 casos extraídos de um arquivo muito extenso.

Tabela 4.7 – Distribuição conjunta Notas do teste de qualificação (X) e Desempenho no emprego (Y).
Desempenho no emprego (Y) Nota do teste (X)
Fraco Razoável Bom
Total
abaixo da Média 67 (43,0%) 64 (41,0%) 25 (16,0%) 156 (100,0%)
Média 42 (24,1%) 76 (43,7%) 56 (32,2%) 174 (100,0%)
acima da Média 10 (14,3%) 23 (32,9%) 37 (52,8%) 70 (100,0%)
Total 119 (29,8%) 163 (40,7%) 118 (29,5%) 400 (100,0%)

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 37


A análise da tabela 4.7 mostra a existência de certa dependência entre as variáveis. Caso não houvesse
associação, esperaríamos que para qualquer que fosse a nota do teste tivéssemos 29,8% de empregados
com desempenho fraco, 40,7% dos empregados com desempenho razoável e 29,5 com desempenho
bom.

Sob a suposição de não existir associação ou dependência entre as variáveis X e Y, a freqüência
esperada de empregados com desempenho fraco e nota abaixo da média seria 156 x 0,298 = 46 e para
nota igual a média seria 174 x 0,298 = 52 (ver Tabela 4.8).


Tabela 4.8 – Freqüências esperadas na Tabela 4.7 assumindo a independência entre as duas variáveis
Desempenho no emprego (Y)
Nota do teste (X) Fraco Razoável Bom

Total
abaixo da Média 46 (29,8%) 64 (40,7%) 46 (29,5%) 156 (100,0%)
Média 52 (29,8%) 71 (40,7%) 51 (29,5%) 174 (100,0%)
acima da Média 21 (29,8%) 28 (40,7%) 21 (29,5%) 70 (100,0%)
Total 119 (29,8%) 163 (40,7%) 118 (29,5%) 400 (100,0%)


Um procedimento para tomar as freqüências esperadas ou teóricas (f
e
) em cada casela no corpo da tabela
(sob a suposição de independência entre as variáveis), é dada pela expressão abaixo:
(Exp. 1)
P. ex , 1
a
casela f
e
= (119 x 156)/400 ⇒ f
e
= 46
E, assim sucessivamente.
geral Total
coluna da Total linha da Total ∗
=
e
f

Comparando as duas tabelas, podemos verificar as discrepâncias existentes entre os valores ou
freqüências observadas (Tabela 4.7) e os valores ou freqüências esperadas (Tabela 4.8), caso as variáveis
não fossem associadas. Na Tabela 4.9, a seguir, resumimos os desvios : valores observados ( f
o
) –
valores esperados (f
e
) e tomamos, para efeito, de construção de uma medida de associação entre as duas
variáveis os desvios relativos para cada casela através da seguinte medida

(
e
e o
f
f f
2
− )
, onde f
o
é a freqüência observada e f
e
é a freqüência esperada. (Exp. 2)
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 38


Tabela 4.9 – Desvios entre os valores observados (f
o
) e as freqüências esperadas (f
e
)
Desempenho no emprego (Y)
Nota do teste (X) Fraco Razoável Bom
abaixo da Média 21 (9,59) 0 (0,00) -21 (9,59)
Média -10 (1,92) 5 (0,35) 5 (0,49)
acima da Média -11 (5,76) -5 (0,89) 16 (12,19)

Obs.: A soma dos desvios ou resíduos é nula. Isso pode ser verificado facilmente somando-se cada linha.
Uma medida do afastamento global pode ser dada pela soma de todos os desvios relativos (Exp. 2). Essa
medida é denominada χ
2
(qui-quadrado) de Pearson, e é dada pela expressão abaixo:
( )


=
e
e o
f
f f
2
2
χ
(Exp. 3). E, no nosso exemplo, teremos:

χ
2
= 9,59 + 0,00 + 9,59 +1,92 + 0,35 + 0,49 + 5,76 + 0,89 + 12,19 ⇒ χ
2
= 40,78
Um valor grande de χ
2
indica associação entre as variáveis, o que parece ser o caso do exemplo
considerado.
K. Pearson definiu uma medida de associação, baseada na Exp. 3, chamada coeficiente de contingência,
dada por
,
n
C
+
=
2
2
χ
χ
Exp. 4

que se interpreta de forma análoga ao coeficiente de correlação , a ser definido mais adiante. Este
coeficiente assume valores entre 0 (correspondente a independência) e um valor máximo menor do que 1.
O valor máximo de C depende do n
0
linhas (l) e do n
o
colunas (c ). Para evitar esse inconveniente,
costuma-se definir um outro coeficiente de associação, dado por
( )( )
,
1 1
2
− −
=
c l
n
T
χ
Exp. 5

que atinge valor máximo igual a 1(um) se n
o
linhas (l ) = n
o
colunas (c ).
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 39


Para o exemplo 3 temos para coeficientes de associação entre as variáveis Notas do teste de qualificação
(X) e Desempenho no emprego (Y) :
( )( )
16 0
1 3 1 3
400 78 40
304 0
400 78 40
78 40
,
,
,
,
,
= ⇒
− −
= = ⇒
+
= T T C C e


EXERCÍCIOS DE APLICAÇÃO:

Exerc 1. Se a análise de uma tabela de contingência mostra que há associação entre as duas variáveis
qualitativas em estudo, a intensidade da relação pode ser avaliada pelo coeficiente de contingência C. O
máximo valor que o coeficiente C pode assumir numa tabela de contingência l x c , (onde l : n
o
de
nhas e c : n
o
de colunas), é dado por li


,
t
t
C máx
1 −
= ) (
onde t = mínimo entre o n
o
de linhas (l ) e o n
o
de colunas (c )da tabela.
Verifique o máximo valor que C pode assumir no caso do exemplo 3, dado anteriormente.

Exer2. Em um estudo para determinar se há relação ou associação entre o padrão de vestuário de
empregados de bancos e seu progresso profissional, uma amostra de tamanho n = 300 acusou os
resultados da tabela abaixo:

Velocidade do Desenvolvimento (Y)
Padrão do Vestuário (X) Lento Médio Rápido

Total ( ↓ )
Muito bem trajado 32 56 32
Bem trajado 28 69 22
Maltrajado 15 33 13
Total ( → ) 75 158 67

Verifique se existe associação ou dependência entre o padrão de traje (X) e o desenvolvimento
profissional (Y). Em caso positivo, quantifique através de uma medida de associação.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 40


4. ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUANTITATIVAS

Podemos analisar conjuntamente duas variáveis quantitativas X e Y, como no caso do estudo de duas
variáveis qualitativas. De modo análogo, a distribuição conjunta pode ser resumida em tabelas de dupla
entrada e, por meio das distribuições marginais, é possível estudar a associação das variáveis. Algumas
vezes, para evitar um grande número de entradas, faz-se a grupamento dos dados marginais em intervalos
de classes, de maneira semelhante ao resumo feito no caso do estudo unidimensional. Entretanto, além
desse tipo de análise, as variáveis quantitativas são passíveis de procedimentos análiticos e gráficos mais
refinados.

O DIAGRAMA DE DISPERSÃO
Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas (ou
entre dois conjuntos de dados), é considerar o gráfico ou diagrama de dispersão, tomado sob os eixos
cartesianos XY, para n pares de valores (X
i
,Y
i
) i = 1, 2, . . ., n. Para efeito de entendimentos de
associação entre as duas variáveis, consideremos a análise conjunta das seguintes variáveis abaixo:

a) Peso (X) e altura (Y) dos alunos do 1
º
período de Administração;
b) Acuidade visual (Y) e idade(X) de um grupo de pessoas;
c) Renda familiar (X) e porcentagem dela (Y) gasta com alimentação;
d) Número de peças montadas (X) e resultado de um teste de inglês (Y) por operário.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 41


Como vê-se, os diagramas de dispersão para as variáveis X e Y definidas nos itens de (a) a (d)
seriam apresentados como tal e, indicando que:
a) existe de uma associação linear positiva entre peso (X) e altura (Y) dos alunos;
b) existência de uma associação linear negativa idade (X) e acuidade visual (Y) das pessoas
c) existência de uma associação linear negativa entre renda (X) e % gastos (Y) com alimentação;
d) não existência de associação entre n
o
de peças montadas (X) e resultado de teste de inglês (Y).
OBS:
i) Associação linear positiva indica que, quando a variável X cresce Y também cresce (e vice-versa).
ii) Associação linear negativa indica que, quando X cresce Y decresce (e vice-versa).
A partir dos gráficos de dispersão apresentados, verificamos que a representação gráfica das variáveis
quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à
existência ou não de associação entre elas.
Contudo, é muito útil quantificar essa associação. Existem muitos tipos de associação possíveis, mas
aqui apresentaremos o tipo de relação mais simples, que é a linear. Isto é, iremos definir uma medida
que avalia quanto uma nuvem de pontos no diagram de dispersão aproxima-se de uma reta. Esta
medida será definida de modo a assumir valores no intervalo de –1 a +1.

O COEFICIENTE DE CORRELAÇÃO LINEAR - r de Pearson
Definição: Dados n pares de valores (x
1
, y
1
) , (x
2
, y
2
) , . . . , (x
n
, y
n
), denominaremos de coeficiente
de correlação entre as duas variáveis X e Y, a seguinte medida

=



⋅ = =
|
|
.
|

\
|
|
|
.
|

\
| n
i
dp
y i
y
dp
x i
x
n
Y X corr
Y X
XY
r
1
1
) ( ) (
) , ( , satisfzendo -1 ≤ r
XY
≤ +1. Eq. (1)
ou seja, r
XY
é a média dos produtos dos valores ou escores padronizados das variáveis.
A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes fórmulas:

( ) ( )
(2) Eq. ou
(
¸
(

¸

(
¸
(

¸

|
.
|

\
|

|
.
|

\
|
∑ ∑
− ⋅ ⋅
∑ ∑
− ⋅
∑ ∑ ∑
⋅ −
=
∑ ∑



=
2
2
2
2 2 2 2 2
Y Y n X X n
Y X XY n
r
y x n x
y x n
i
y
i
x
r
XY
y n
i i
XY
.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 42

O numerador da Eq. (1) fornece o sinal ou sentido da correlação e dá origem a uma medida bastante
usada e que definimos a seguir.
Definição: Dados n pares de valores (x
1
, y
1
) , (x
2
, y
2
) , . . . , (x
n
, y
n
), chamaremos de covariância
entre as variáveis X e Y a medida
( ) ( )
n
n
i
y
i
y x
i
x
Y X

=
− ⋅ −
=
1
) , cov( , ou seja, a média dos produtos dos valores centrados das
variáveis.
Com essa definição, o coeficiente de correlação pode ser escrito como
) ( ) (
) , cov(
) , (
Y X
XY
dp dp
Y X
Y X corr r

= =

PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR
1. Este coeficiente é adimensional, logo não é afetado pelas unidades adotadas.
Além disso, apresenta duas propriedades que caracterizam a natureza da relação linear entre as
duas variáveis. Uma é o sinal (+ ou -) e a outra é a magnitude.
2. O sinal é o mesmo que o do coeficiente angular ou declividade de uma reta imaginária que se
“ajusta” aos dados se fossem traçados num diagrama de dispersão.
3. A magnitude indica quão próximo da reta imaginária estão os pontos individuais.
4. O valor de r ∈[-1 , +1]. Se r = -1, dizemos que há uma correlação linear negativa perfeita e se
r = +1, uma correlação linear positiva perfeita. É importante assinalar que um coeficiente de
correlação linear igual a zero (r = 0), não implica em ausência de relação entre as duas variáveis, e
sim há uma ausência de relação linear entre elas.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 43


Exemplo 4: Com o intuito de verificar uma associação entre as variáveis número de anos de serviço
(X) por número de clientes (Y), tomou-se uma amostra de 10 agentes de uma Cia. de seguros. Os
dados estão apresentados na tabela abaixo.
Agente Anos- serviço N
o
de clientes X
2
Y
2
XY
A 2 48 4 2.304 96
B 3 50 9 2.500 150
C 4 56 16 3.136 224
D 5 52 25 2.704 260
E 4 43 16 1.849 172
F 6 60 36 3.600 360
G 7 62 49 3.844 434
H 8 58 64 3.364 464
I 8 64 64 4.096 512
J 10 72 100 5.184 720
Soma 57 565 383 32.581 3.392
a) Construa o diagrama de
dispersão correspondente.

b) Determine o coeficiente
de correlação linear r de
Pearson.

a) Figura 4.3 – Gráfico de Dispersão para Anos de serviço (X)
e Número de clientes (Y)
Anos serviço
12 10 8 6 4 2 0
N
ú
m
e
r
o

c
l
i
e
n
t
e
s
80
70
60
50
40



b) Coeficiente de correlação linear - r de Pearson

( ) ( )
0,88 ou 0,8768
1715
≅ =

=
∑ ∑
− ⋅
∑ ∑

∑ ∑ ∑
⋅ −
=
(
¸
(

¸

(
¸
(

¸

XY XY
r
Y Y n X X n
Y X XY n
r
6585 581
2 2 2 2
,
indicando um moderado grau de linearidade positiva.
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatística III 44

Para analisar dois conjuntos de dados podemos recorrer, também, aos métodos utilizados
anteriormente para analisar um conjunto de dados, exibindo as análises feitas separadamente, para
efeito de comparação. Por exemplo, podemos exibir os desenhos esquemáticos (box-plots) ou
ramos-e-folhas para os dois conjuntos de observações.

5. ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS
Como informado na seção anterior, é comum nessas situações analisar o que acontece com a
variável quantitativa dentro de cada categoria da variável qualitativa. Essa análise pode ser conduzida
por meio de medidas descritivas, histogramas, box-plots. Ilustraremos com um exemplo.

Exemplo 5 : Consideremos os dados do Quadro 1.1 (Unidade II), para os quais desejamos analisar o
comportamento dos salários (S) dos funcionários da Cia. fictícia Milsa dentro de cada categoria de
grau de instrução (Y), ou seja, investigar o comportamento conjunto das variáveis S e Y.

Tabela 4.10 – Medidas resumo para a variável salário (S), segundo grau de instrução, na Cia. Milsa.
Grau de Instrução n
s

dp(S)
S
(1)
Q
1
Q
2
Q
3 S
(n)
Fundamental 12 7,84 2,79 4,00 6,01 7,13 9,16 13,65
Médio 18 11,54 3,62 5,73 8,84 10,91 14,48 19,40
Superior 6 16,48 4,11 10,53 13,65 16,74 18,38 23,30
Total 36 11,12 4,52 4,00 7,55 10,17 14,06 23,30

Figura 4.4 – Box Plots de Salário segundo Grau de Instrução
6 18 12 N =
Grau de Instrução (X)
Superior Médio Fundamental
S
a
l
á
r
i
o
s

(
S
)
30
20
10
0

A leitura dos resultados acima sugere
uma dependência dos salários em
relação ao grau de instrução: o salário
aumenta conforme aumenta o grau de
instrução do indivíduo. O salário médio
de um funcionário é 11,12 s.m, já para
uma funcionário com curso superior o
salário médio passa a ser 16,48 ,
enquanto funcionários com nível
fundamental completo recebem, em
média, 7,84 s.m.
UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

TABELA 4.Ex. enquanto que. 1 grau 4 3 5 12 (11%) (8%) (14%) (33%) o Grau de Educação 20 grau 5 7 6 18 (14%) (19%) (17%) (50%) Superior 2 2 2 6 (6%) (6%) (5%) (17%) Total (↓) 11 12 13 (31%) (33%) (36%) 36 (100%) UNID II .3. Assim. com foi feito no caso unidimensional.Distribuição conjunta das freqüências das variáveis X e Y (Percentual em relação ao Total Geral) X Y Capital Interior O.: Tabela 4. que 11% dos empregados vêm da capital e têm instrução de 10 grau. A Linha Total (→) fornece a distribuição da variável X (grau de instrução). denominadas tecnicamente de distribuições marginais de X e de Y. Mas aqui existem três possibilidades de expressarmos a freqüência percentual de cada célula ou casela: a) Em relação ao total geral (n total de observações) Ex. etc. 5 da capital com o 20 grau. ao passo que a Tabela A constitui a distribuição conjunta de X e Y. FREQUÊNCIAS PERCENTUAIS OU PROPORÇÕES Em vez de trabalharmos com as freqüências com as freqüências absolutas . .: Tabela 4. a Coluna Total (↓) fornece a distribuição da variável Y (região de procedência). Região Total (→) Fonte: Quadro 1. De acordo com o objetivo do problema em estudo.33 Notas de aula . observamos 4 empregados da capital com instrução de 10 grau.2. b) Em relação ao total de cada coluna (Total → ) ou a variável coluna c) Em relação ao total de cada linha (Total ↓ ) ou a variável linha .1 Assim.: Tabela 4.4. Os totais marginais fornecem as distribuições unidimensionais de cada uma das variáveis. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . podemos afirmar na Tabela 4. podemos construir tabelas com as freqüências percentuais. uma delas será mais conveniente.Ex.2 acima.Estatística III Cada célula no corpo da tabela fornece a freqüência absoluta observada das realizações conjuntas de X e Y.2 .

Variável Coluna) X Y Capital Interior O. enquanto que entre os empregados do Interior. 25% têm instrução de 10 grau. 36% têm nível de educação de 10 grau. 28% vêm da capital.4 . De modo análogo..3 . entre os empregados com instrução até 10 grau.1 Podemos afirmar que. Região Total (→) Fonte: Quadro 1. 33% vêm da capital. Região Total (→) Fonte: Quadro 1.Variável Linha) X Y Capital Interior O.Distribuição conjunta das freqüências das variáveis X e Y Grau de Educação 1o grau 4 3 5 12 (33%) (25%) (42%) (100%) 20 grau 5 7 6 18 (28%) (39%) (33%) (100%) Superior 2 2 2 6 (33%) (33%) (34%) (100%) Total (↓) 11 12 13 (31%) (33%) (36%) 36 (100%) (Percentual em relação à Y (região de procedência) . 1o grau 4 3 5 12 (36%) (25%) (38%) (33%) Grau de Educação 20 grau 5 (45%) 7 6 18 (58%) (46%) (50%) Superior 2 2 2 6 (19%) (17%) (16%) (17%) Total (↓) 11 12 13 (100%) (100%) (100%) 36 (100%) UNID II ..1 Podemos dizer que.Distribuição conjunta das freqüências das variáveis X e Y (Percentual em relação à X (grau de educação) . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . enquanto que dos empregados com instrução de 20 grau. podemos construir a distribuição conjunta de freqüências percentuais em relação à variável linha ou considerando o Total das Linhas (↓) TABELA 4.Estatística III TABELA 4. entre os empregados provenientes da Capital.34 Notas de aula .

Vejamos. Ou seja. suponhamos que um estudante seja sorteado aleatoriamente na UFPB e devamos adivinhar o sexo desse estudante.5 – Distribuição conjunta dos estudantes estudantes segundo o sexo (X) e o curso escolhido (Y) escolhido (Y) X Y Economia Administ. e considere os resultados apresentados nas respectivas tabelas conjuntas. ainda. independentemente do sexo 60% dos estudantes preferem Economia e 40% Administração. se quisermos estimar qual a renda média de uma família moradora da cidade de João Pessoa. a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda.6 – Distribuição conjunta dos segundo o sexo (X) e o curso 35 (58%) 120 (60%) 25 (42%) 80 (40%) 100 (71%) 20 (33%) 40 (29%) 40 (67%) 140 (100%) 60 (100%) 200 (100%) Total (→) 140 (100%) 60 (100%) 200 (100%) Observando os percentuais ou proporções em relação a coluna total (↓) na Tabela 4.Estatística III 3. Não havendo dependência entre as variáveis. queremos conhecer o grau de dependência entre elas. esperaríamos essas mesmas proporções para cada sexo. Sociais X Masculino Feminino Total (↓) 120 (60%) 80 (40%) Tabela 4. agora. isto é. como identificar a dependência ou não entre duas variáveis através da distribuição conjunta. Ou.6 a seguir: Tabela 4. pois sabemos que existe uma dependência entre as duas variáveis: renda familiar e classe social.35 Notas de aula . Se soubermos que o estudante é do curso de enfermagem. vemos que os percentuais do sexo masculino (61% e 39%) e do sexo UNID II . verificamos que. Queremos verificar se existe ou não associação entre o sexo (X) e a escolha de curso (Y) por universitários. de modo que possamos prever melhor o resultado de uma delas quando conhecermos a realização da outra. Total (→) Masculino 85 (61%) 55 (39%) Feminino Total (↓) Y Física C. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos .5 e Tabela 4. Para tal. Observando a Tabela 4. nossa resposta mais provável será dizer que a pessoa é de sexo feminino. Por exemplo. foi tomada uma amostra aleatória de 200 universitários. Tabela 4.5. ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUALITATIVAS Um dos principais objetivos de se construir uma distribuição conjunta de freqüências de duas variáveis qualitativas é descrever a associação ou relação entre elas. Exemplo 2. há um grau de dependência grande entre as variáveis sexo e escolha de área de estudos.5.

0%) UNID II .0%) 25 (16. Tabela 4. Nota do teste (X) abaixo da Média Média acima da Média Total Desempenho no emprego (Y) Fraco Razoável Bom 67 (43. para o conjunto de estudantes considerado. haver maior concentração de homens no curso de Física e de mulheres no curso de Ciências Sociais. Vamos considerar. E.5%) Total 156 (100. as variáveis sexo e curso escolhido parecem ser associadas. mas envolvendo alunos de Física e Ciências Sociais.7%) 118 (29.8%) 119 (29. esses coeficientes usualmente variam entre 0 e 1.8%) 163 (40. nesse caso. Comparando agora a distribuição dos percentuais ou proporções. pois. Existem muitas medidas que quantificam essa associação entre variáveis qualitativas. pelos cursos. as variáveis sexo e escolha do curso parecem ser não associadas.9%) 37 (52.3%) 23 (32. observamos uma disparidade bem acentuada nas proporções. Exemplo 3. 4.0%) 64 (41. devido a K. a quantificação do grau de associação ou dependência entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação. MEDIDAS ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS De um modo geral. neste caso. a associação (ou dependência) entre duas variáveis. Parece.0%) 70 (100. sempre é interessante quantificar essa associação. por meio de um único número.36 Notas de aula . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . Esses resultados parecem indicar não haver dependência entre as duas variáveis. Desejamos investigar se há alguma relação entre as notas de um teste qualificação (X) de pessoas que passaram por um programa de treinamento e seu desempenho(Y) subsequente em um emprego. Pearson e uma modificação desse. agora.7%) 56 (32.0%) 174 (100.Estatística III feminino (58% e 42%) são próximas do totais(↓) marginais (60% e 40%).0%) 400 (100. Concluímos então que. a situação semelhante. Portanto. Quando existe associação entre variáveis.0%) 42 (24. tomou-se uma amostra de 400 casos extraídos de um arquivo muito extenso.7 – Distribuição conjunta Notas do teste de qualificação (X) e Desempenho no emprego (Y). com as distribuições diferenciadas por sexo (colunas de masculino e feminino). para tal.2%) 10 (14. Essas são medidas que descrevem. apresentaremos apenas duas delas: o chamado coeficiente de contingência. o que será objeto de estudo a seguir. e a proximidade de zero indica falta de associação.1%) 76 (43. ou entre –1 e +1. Para maior facilidade de compreensão. cuja distribuição conjunta está na Tabela 4.6 . independentemente do sexo (coluna de totais).

8).7%) 118 Um procedimento para tomar as freqüências esperadas ou teóricas (fe ) em cada casela no corpo da tabela (sob a suposição de independência entre as variáveis). é dada pela expressão abaixo: a Total da linha ∗ Total da coluna (Exp.8%) (29.7%) 46 51 21 Bom (29. Sob a suposição de não existir associação ou dependência entre as variáveis X e Y.7 assumindo a independência entre as duas variáveis Desempenho no emprego (Y) Nota do teste (X) abaixo da Média Média acima da Média Total 46 52 21 Fraco (29. Total geral Comparando as duas tabelas.7 mostra a existência de certa dependência entre as variáveis.5%) (29.5 com desempenho bom. esperaríamos que para qualquer que fosse a nota do teste tivéssemos 29.8%) (29. Tabela 4.37 Notas de aula .8%) (40.298 = 52 (ver Tabela 4.0%) (100.0%) 119 (29.5%) (29.298 = 46 e para nota igual a média seria 174 x 0.8).7% dos empregados com desempenho razoável e 29.Estatística III A análise da tabela 4. caso as variáveis não fossem associadas.8% de empregados com desempenho fraco.9. assim sucessivamente.5%) Total 156 174 70 400 (100. para efeito. 1 casela fe = (119 x 156)/400 ⇒ fe = 46 fe = E. resumimos os desvios : valores observados ( fo ) – valores esperados (fe ) e tomamos. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos .0%) (100. a seguir. Caso não houvesse associação. onde fo é a freqüência observada e fe é a freqüência esperada. a freqüência esperada de empregados com desempenho fraco e nota abaixo da média seria 156 x 0.7) e os valores ou freqüências esperadas (Tabela 4. podemos verificar as discrepâncias existentes entre os valores ou freqüências observadas (Tabela 4.7%) (40. (Exp.8 – Freqüências esperadas na Tabela 4.7%) (40. 2) fe UNID II . de construção de uma medida de associação entre as duas variáveis os desvios relativos para cada casela através da seguinte medida ( fo − f e )2 .5%) (29. ex .0%) (100. Na Tabela 4.8%) 64 71 28 163 Razoável (40. 40. 1) P.

76) 0 5 -5 Razoável (0. no nosso exemplo.19) Obs. Uma medida do afastamento global pode ser dada pela soma de todos os desvios relativos (Exp. baseada na Exp.59 +1.89 + 12. 3).9 – Desvios entre os valores observados (fo ) e as freqüências esperadas (fe ) Desempenho no emprego (Y) Nota do teste (X) abaixo da Média Média acima da Média 21 -10 -11 Fraco (9.35) (0. o que parece ser o caso do exemplo considerado.59) (1. Este coeficiente assume valores entre 0 (correspondente a independência) e um valor máximo menor do que 1. Para evitar esse inconveniente. O valor máximo de C depende do n0 linhas (l) e do no colunas (c ).38 Notas de aula . e é dada pela expressão abaixo: χ =∑ 2 ( fo − f e )2 fe (Exp. costuma-se definir um outro coeficiente de associação.92) (5.00 + 9.59) (0.Estatística III Tabela 4. Exp.78 Um valor grande de χ indica associação entre as variáveis. K.89) -21 5 16 Bom (9. 5 UNID II . 2). a ser definido mais adiante.92 + 0.19 ⇒ χ2 = 40. Exp.35 + 0. Isso pode ser verificado facilmente somando-se cada linha.: A soma dos desvios ou resíduos é nula. 4 que se interpreta de forma análoga ao coeficiente de correlação . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . dada por 2 C= χ2 χ2 + n . chamada coeficiente de contingência.76 + 0. 3. dado por χ2 n T= .59 + 0. (l − 1)(c − 1) que atinge valor máximo igual a 1(um) se no linhas (l ) = no colunas (c ). E. teremos: χ2 = 9.00) (0.49) (12.49 + 5. Essa 2 medida é denominada χ (qui-quadrado) de Pearson. Pearson definiu uma medida de associação.

16 (3 − 1)(3 − 1) (X) e Desempenho no emprego (Y) : EXERCÍCIOS DE APLICAÇÃO: Exerc 1. a intensidade da relação pode ser avaliada pelo coeficiente de contingência C. Em caso positivo. é dado por máx (C ) = t −1 . O máximo valor que o coeficiente C pode assumir numa tabela de contingência l x c . t onde t = mínimo entre o no de linhas (l ) e o no de colunas (c )da tabela. quantifique através de uma medida de associação. Exer2. Se a análise de uma tabela de contingência mostra que há associação entre as duas variáveis qualitativas em estudo. uma amostra de tamanho n = 300 acusou os resultados da tabela abaixo: Velocidade do Desenvolvimento (Y) Padrão do Vestuário (X) Muito bem trajado Bem trajado Maltrajado Total ( → ) Lento 32 28 15 75 Médio 56 69 33 158 Rápido 32 22 13 67 Total ( ↓ ) Verifique se existe associação ou dependência entre o padrão de traje (X) e o desenvolvimento profissional (Y).39 Notas de aula .78 400 ⇒ T = 0. Verifique o máximo valor que C pode assumir no caso do exemplo 3. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos .78 + 400 e T= 40. (onde l : no de linhas e c : no de colunas).304 40. Em um estudo para determinar se há relação ou associação entre o padrão de vestuário de empregados de bancos e seu progresso profissional. UNID II .78 ⇒ C = 0. dado anteriormente.Estatística III Para o exemplo 3 temos para coeficientes de associação entre as variáveis Notas do teste de qualificação C= 40.

consideremos a análise conjunta das seguintes variáveis abaixo: a) Peso (X) e altura (Y) dos alunos do 1º período de Administração. n. 2. c) Renda familiar (X) e porcentagem dela (Y) gasta com alimentação.Estatística III 4. a distribuição conjunta pode ser resumida em tabelas de dupla entrada e. Entretanto. . Para efeito de entendimentos de associação entre as duas variáveis. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . O DIAGRAMA DE DISPERSÃO Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas (ou entre dois conjuntos de dados). para n pares de valores (Xi . as variáveis quantitativas são passíveis de procedimentos análiticos e gráficos mais refinados. d) Número de peças montadas (X) e resultado de um teste de inglês (Y) por operário. De modo análogo. UNID II . b) Acuidade visual (Y) e idade(X) de um grupo de pessoas.. faz-se a grupamento dos dados marginais em intervalos de classes. . ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUANTITATIVAS Podemos analisar conjuntamente duas variáveis quantitativas X e Y. é considerar o gráfico ou diagrama de dispersão. tomado sob os eixos cartesianos XY. . como no caso do estudo de duas variáveis qualitativas. por meio das distribuições marginais. além desse tipo de análise. de maneira semelhante ao resumo feito no caso do estudo unidimensional.Yi) i = 1. é possível estudar a associação das variáveis. Algumas vezes.40 Notas de aula . para evitar um grande número de entradas.

os diagramas de dispersão para as variáveis X e Y definidas nos itens de (a) a (d) seriam apresentados como tal e. OBS: i) Associação linear positiva indica que. satisfzendo -1 ≤ r XY ≤ +1. . a seguinte medida 1 n  x i − x   yi − y   ⋅  n i = 1 dp( X )   dp(Y )      r XY = corr ( X . ∑ yi − ny     r XY = ou r XY = n∑ XY − ∑ X ⋅ ∑ Y 2 2  2  2 n ⋅ ∑ X − (∑ X )  ⋅ n ⋅ ∑ Y − (∑ Y )      Eq. (1) é a média dos produtos dos valores ou escores padronizados das variáveis. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . . quando a variável X cresce Y também cresce (e vice-versa). A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes fórmulas: ∑ x i y i − nx y 2 2  2 2   ∑ xi − nx . . ii) Associação linear negativa indica que.41 Notas de aula . (2) UNID II . Existem muitos tipos de associação possíveis. (x2 . verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas.Estatística III Como vê-se. r XY . d) não existência de associação entre no de peças montadas (X) e resultado de teste de inglês (Y). que é a linear. Eq. yn). b) existência de uma associação linear negativa idade (X) e acuidade visual (Y) das pessoas c) existência de uma associação linear negativa entre renda (X) e % gastos (Y) com alimentação. quando X cresce Y decresce (e vice-versa). y1) . Contudo. iremos definir uma medida que avalia quanto uma nuvem de pontos no diagram de dispersão aproxima-se de uma reta. é muito útil quantificar essa associação. O COEFICIENTE DE CORRELAÇÃO LINEAR . y2) . Esta medida será definida de modo a assumir valores no intervalo de –1 a +1.Y ) = ⋅ ∑ ou seja. . denominaremos de coeficiente de correlação entre as duas variáveis X e Y. A partir dos gráficos de dispersão apresentados. mas aqui apresentaremos o tipo de relação mais simples.r de Pearson Definição: Dados n pares de valores (x1 . (xn . Isto é. indicando que: a) existe de uma associação linear positiva entre peso (X) e altura (Y) dos alunos.

yn). logo não é afetado pelas unidades adotadas. y2) .42 Notas de aula . Uma é o sinal (+ ou -) e a outra é a magnitude. não implica em ausência de relação entre as duas variáveis. (x2 . UNID II . O sinal é o mesmo que o do coeficiente angular ou declividade de uma reta imaginária que se “ajusta” aos dados se fossem traçados num diagrama de dispersão. 3. O valor de r ∈[-1 . Se r = -1. . e sim há uma ausência de relação linear entre elas. Definição: Dados n pares de valores (x1 . y1) . . apresenta duas propriedades que caracterizam a natureza da relação linear entre as duas variáveis. . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . 4. É importante assinalar que um coeficiente de correlação linear igual a zero (r = 0). Com essa definição. (xn . o coeficiente de correlação pode ser escrito como cov( X . Este coeficiente é adimensional. . dizemos que há uma correlação linear negativa perfeita e se r = +1. Y ) dp( X ) ⋅ dp(Y ) ∑ n= 1(xi − x ) ⋅ ( yi − y ) i n . Além disso. ou seja. (1) fornece o sinal ou sentido da correlação e dá origem a uma medida bastante usada e que definimos a seguir. A magnitude indica quão próximo da reta imaginária estão os pontos individuais. Y ) = variáveis.Y ) = PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR 1. 2. chamaremos de covariância entre as variáveis X e Y a medida cov( X .Estatística III O numerador da Eq. a média dos produtos dos valores centrados das r XY = corr ( X . +1]. uma correlação linear positiva perfeita.

ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . tomou-se uma amostra de 10 agentes de uma Cia.844 434 3.136 224 2.364 464 4.304 96 2.184 720 32.581 3. Agente Anos. de seguros. indicando um moderado grau de linearidade positiva.3 – Gráfico de Dispersão para Anos de serviço (X) e Número de clientes (Y) 80 70 Número clientes 60 50 40 0 2 4 6 8 10 12 Anos serviço b) Coeficiente de correlação linear .704 260 1. Os dados estão apresentados na tabela abaixo. b) Determine o coeficiente de correlação linear r de Pearson. a) Figura 4.serviço No de clientes A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Soma 57 565 X2 4 9 16 25 16 36 49 64 64 100 383 Y2 XY 2.Estatística III Exemplo 4: Com o intuito de verificar uma associação entre as variáveis número de anos de serviço (X) por número de clientes (Y). UNID II .88 .392 a) Construa o diagrama de dispersão correspondente.849 172 3.43 Notas de aula .500 150 3.8768 581 ⋅ 6585 ou r XY ≅ 0.096 512 5.r de Pearson r XY = n∑ XY − ∑ X ⋅ ∑ Y 2 2  2  2 n∑ X − (∑ X )  ⋅ n∑ Y − (∑ Y )      = 1715 = 0.600 360 3.

17 Q3 9.16 14.52 S(1) 4. ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS Como informado na seção anterior.44 Notas de aula . fictícia Milsa dentro de cada categoria de grau de instrução (Y). Tabela 4. ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos . para os quais desejamos analisar o comportamento dos salários (S) dos funcionários da Cia.1 (Unidade II). investigar o comportamento conjunto das variáveis S e Y. Exemplo 5 : Consideremos os dados do Quadro 1.10 – Medidas resumo para a variável salário (S).48 11.38 14. O salário médio de um funcionário é 11. Por exemplo. para efeito de comparação.01 8.73 10.00 5.84 s.48 18.62 4.00 Q1 6.79 3. 7.48 . já para uma funcionário com curso superior o salário médio passa a ser 16. Ilustraremos com um exemplo. Milsa.30 Figura 4.84 11. box-plots.55 Q2 7.11 4.30 23. na Cia. em média. enquanto funcionários com nível fundamental completo recebem. podemos exibir os desenhos esquemáticos (box-plots) ou ramos-e-folhas para os dois conjuntos de observações.65 7.54 16.74 10. é comum nessas situações analisar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa. ou seja.06 S(n) 13. exibindo as análises feitas separadamente.m. histogramas.91 16. Salários (S) Fundamental Médio Superior Grau de Instrução (X) UNID II . Essa análise pode ser conduzida por meio de medidas descritivas.84 13. Grau de Instrução Fundamental Médio Superior Total n 12 18 6 36 s 7. 5.53 4.13 10.65 19. também. aos métodos utilizados anteriormente para analisar um conjunto de dados.4 – Box Plots de Salário segundo Grau de Instrução 30 20 10 0 N= 12 18 6 A leitura dos resultados acima sugere uma dependência dos salários em relação ao grau de instrução: o salário aumenta conforme aumenta o grau de instrução do indivíduo.m. segundo grau de instrução.40 23.Estatística III Para analisar dois conjuntos de dados podemos recorrer.12 s.12 dp(S) 2.

Sign up to vote on this title
UsefulNot useful