You are on page 1of 194

UNIVERSIDADE FEDERAL DO PARANÁ

Programa de
Pós-Graduação em Métodos Numéricos em Engenharia

Trabalho de
Análise Multivariada Aplicada à Pesquisa

Prof. D. Jair Mendes Marques

Aluna
Marina Vargas R. P. G. Ferreira

Curitiba - PR
2010
Sumário

1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias 3

2 Lista 2 - Distribuição Normal Multivariada 33

3 Lista 3 - Inferência sobre o vetor de médias e MANOVA 48

4 Lista 4: Análise de Componentes Principais 75

5 Lista 5: Análise Fatorial 99

6 Lista 6: Análise Discriminante 121

7 Lista 7: Regressão Logística 135

8 Lista 8: Análise de Agrupamento 146

9 Lista 9: Análise de Correlação Canônica 169

2
1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias

Resolver os problemas 1 até 16, com uso do MATLAB

1. Dadas as matrizes

⎡ ⎤ ⎡ ⎤ ⎡ ⎤
−7 0 5 4 8 5 7 5 −5 5 0 −5
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ 3 −3 −2 3 ⎥ ⎢ −1 −3 −3 −1 ⎥ ⎢ 2 −3 2 2 ⎥
𝐴=⎢

⎥, 𝐵 = ⎢
⎥ ⎢
⎥ e 𝐶=⎢
⎥ ⎢
⎥,

⎢ 7 5 4 1 ⎥ ⎢ −1 3 −2 5 ⎥ ⎢ 2 3 −1 1 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
2 2 7 −3 1 1 3 6 0 4 1 −3

calcular:

(a) 𝐴 + 𝐵;

>> A+B
ans =
1 5 12 9
2 -6 -5 2
6 8 2 6
3 3 10 3

(b) 𝐶 − 𝐵;

>> C-B
ans =
-13 0 -7 -10
3 0 5 3
3 0 1 -4
-1 3 -2 -9

(c) −5 ⋅ 𝐵;

>> (-5)*B
ans =
-40 -25 -35 -25
5 15 15 5
5 -15 10 -25
-5 -5 -15 -30

3
(d) 𝐴 + 3 ⋅ 𝐵 − 5 ⋅ 𝐶;

>> A+3*B-5*C
ans =
42 -10 26 44
-10 3 -21 -10
-6 -1 3 11
5 -15 11 30

(e) 𝐵 ⋅ 𝐴;

>> B*A
ans =
18 30 93 39
-25 -8 -18 -13
12 -9 16 -12
29 24 57 -8

(f) (𝐶 ⋅ 𝐴) ⋅ 𝐵;

>> (C*A)*B
ans =
425 75 525 -65
-106 15 -195 112
-62 20 -9 75
164 51 246 85

(g) 𝐴 ⋅ (𝐵 − 𝐶);

>> A*(B-C)
ans =
-102 -12 -46 -14
57 -9 44 58
65 -3 22 80
-4 9 -9 15

(h) 𝐴−1 ;

>> inv(A)
ans =

4
-0.0507 0.0941 0.0404 0.0400
0.0097 -0.2008 0.1365 -0.1423
0.0526 0.0658 -0.0132 0.1316
0.0955 0.0824 0.0872 -0.0945

(i) (𝐵 ⋅ 𝐶)−1

>> inv(B*C)
ans =
-0.0568 0.0389 0.0019 0.1170
0.0181 -0.0776 -0.0252 -0.0256
0.0487 -0.1005 0.0613 -0.1177
0.0393 -0.1723 -0.0316 -0.1184

(j) tr(𝐴);

>> trace(A)
ans =
-9

(k) tr(𝐵 + 𝐶);

>> trace(B+C)
ans =
-3

(l) 𝐵 2 ;

>> B^2
ans =
57 51 42 100
-3 -6 5 -23
-4 -15 3 12
10 17 16 55

(m) 𝐶 3 ;

>> C^3
ans =
-285 570 -75 -440
114 -257 52 180

5
50 -44 -12 66
-84 197 -28 -142

(n) tr(𝐴 + 𝐵)−1 ;

>> trace(inv(A+B))
ans =
-0.4004

(o) 𝐴′ ;

>> A’
ans =
-7 3 7 2
0 -3 5 2
5 -2 4 7
4 3 1 -3

(p) (𝐵 + 𝐴 − 𝐶 ′ )′ ;

>> (B+A-C’)’
ans =
6 -3 6 8
3 -3 6 1
10 -8 3 9
9 -2 5 6

(q) det(𝐵);

>> det(B)
ans =
613

(r) det(𝐴 − 𝐵).

>> det(A-B)
ans =
-152

2. Dados os vetores: 𝑢 = [0, 3, −1, 0, 5], 𝑣 = [−5, 1, −5, 1, 4] e 𝑤 = [1, −1, −3, 0, 2], calcular:

6
(a) 𝑢 ∙ 𝑣;

𝑢 ∙ 𝑣 = 28

(b) 𝑤 ∙ 𝑣;

𝑤 ∙ 𝑣 = 17

(c) 𝑢 ∙ (𝑣 + 𝑤);

𝑢 ∙ (𝑣 + 𝑤) = 38

(d) 𝑢 ∙ (𝑣 − 𝑤).

𝑢 ∙ (𝑣 − 𝑤) = 18

3. Dados os vetores: 𝑢1 = [2, −1, 3, 2], 𝑢2 = [−1, 3, 2, 1], 𝑢3 = [−4, 2, −6, −4] e 𝑢4 =
[6, −3, 9, 6], verifique se são L.D. ou L.I.:

(a) 𝑢1 e 𝑢2 ;
Como ⎡ ⎤
2 −1
⎢ ⎥
⎢ ⎥
⎢ −1 3 ⎥
𝑀 =⎢



⎢ 3 2 ⎥
⎣ ⎦
2 1

e 𝑟𝑎𝑛𝑘(𝑀 𝐴) = 2, então os vetores 𝑢1 e 𝑢2 são Linearmente Independentes.

(b) 𝑢1 e 𝑢3 ;
Como ⎡ ⎤
2 −4
⎢ ⎥
⎢ ⎥
⎢ −1 2 ⎥

𝑀𝑀 = ⎢ ⎥

⎢ 3 −6 ⎥
⎣ ⎦
2 −4

e 𝑟𝑎𝑛𝑘(𝑀 𝑀 ) = 1, então os vetores 𝑢1 e 𝑢3 são Linearmente Dependentes.

(c) 𝑢1 , 𝑢2 e 𝑢3 ;

7
Como ⎡ ⎤
2 −1 −4
⎢ ⎥
⎢ ⎥
⎢ −1 3 2 ⎥
𝑇𝑇 = ⎢



⎢ 3 2 −6 ⎥
⎣ ⎦
2 1 −4

e 𝑟𝑎𝑛𝑘(𝑇 𝑇 ) = 2, então os vetores 𝑢1 , 𝑢2 e 𝑢3 são Linearmente Dependentes.

(d) 𝑢1 , 𝑢3 e 𝑢4 ;
Como ⎡ ⎤
2 −4 6
⎢ ⎥
⎢ ⎥
⎢ −1 2 −3 ⎥

𝑇𝐻 = ⎢ ⎥

⎢ 3 −6 9 ⎥
⎣ ⎦
2 −4 6

e 𝑟𝑎𝑛𝑘(𝑇 𝐻) = 1, então os vetores 𝑢1 , 𝑢3 e 𝑢4 são Linearmente Dependentes.

(e) 𝑢1 , 𝑢2 , 𝑢3 e 𝑢4 .
Como ⎡ ⎤
2 −1 −4 6
⎢ ⎥
⎢ ⎥
⎢ −1 3 2 −3 ⎥
𝐺𝐺 = ⎢



⎢ 3 2 −6 9 ⎥
⎣ ⎦
2 1 −4 6

e 𝑟𝑎𝑛𝑘(𝐺𝐺) = 2, então os vetores 𝑢1 , 𝑢2 , 𝑢3 e 𝑢4 são Linearmente Dependentes.

4. Calcular a norma ou comprimento de cada um dos vetores do item 2.

- ∥𝑢∥ = 5.9161

- ∥𝑣∥ = 8.2462

- ∥𝑤∥ = 3.8730

5. Determinar os autovalores e autovetores normalizados das matrizes:


⎡ ⎤
9 −1 3
⎢ ⎥
⎢ ⎥
𝐴 = ⎢ −1 5 1 ⎥
⎣ ⎦
3 1 7

Matriz de autovetores

8
⎡ ⎤
0.441225 0.374359 0.815583
⎢ ⎥
⎢ ⎥
𝑒 = ⎢ 0.687013 −0.725619 −0.0386051 ⎥
⎣ ⎦
−0.57735 −0.57735 0.57735

Matriz de autovalores

⎡ ⎤
3.51739 0 0
⎢ ⎥
⎢ ⎥
𝐿=⎢ 0 6.31158 0 ⎥
⎣ ⎦
0 0 11.171

Assim

Autovalores Autovetores

𝜆1 = 3.51739 𝑒1 = [0.441225 0.687013 -0.57735]’


𝜆2 = 6.31158 𝑒2 = [0.374359 -0.725619 -0.57735]’
𝜆3 = 11.171 𝑒3 = [0.815583 -0.0386051 0.57735]’

e ⎡ ⎤
−3 5 1 3
⎢ ⎥
⎢ ⎥
⎢ 5 −3 1 5 ⎥

𝐵=⎢ ⎥

⎢ 1 1 3 −4 ⎥
⎣ ⎦
3 5 −4 6

Matriz de autovetores
⎡ ⎤
0.627122 −0.598371 0.408248 0.286361
⎢ ⎥
⎢ ⎥
⎢ −0.76064 −0.340226 0.408248 0.372836 ⎥

𝑒=⎢ ⎥

⎢ 0.0667588 0.469299 0.816497 −0.329599 ⎥
⎣ ⎦
0.153909 0.553133 1.69362𝑒−017 0.818752

Matriz de autovalores
⎡ ⎤
−8.22181 0 0 0
⎢ ⎥
⎢ ⎥
⎢ 0 −3.71455 0 0 ⎥
𝐿=⎢



⎢ 0 0 4 0 ⎥
⎣ ⎦
0 0 0 10.9364

Assim

9
Autovalores Autovetores

𝜆1 = -8.2218 𝑒1 = [0.627122 -0.76064 0.0667588 0.153909]’


𝜆2 = -3.7146 𝑒2 = [ -0.598371 -0.340226 0.469299 0.553133]’
𝜆3 = 4.0000 𝑒3 = [0.408248 0.408248 0.816497 1.69362𝑒−017 ]’
𝜆4 = 10.9364 𝑒4 = [ 0.286361 0.372836 -0.329599 0.818752 ]’

6. Determine as matrizes 𝐴1/2 e 𝐵 1/2 , se existirem, para as matrizes do item 5.

>> A=[9 -1 3; -1 5 1; 3 1 7]
A =
9 -1 3
-1 5 1
3 1 7
>> [e,L]=eig(A)
e =
0.4412 0.3744 0.8156
0.6870 -0.7256 -0.0386
-0.5774 -0.5774 0.5774
L =
3.5174 0 0
0 6.3116 0
0 0 11.1710
>> AR=e*(sqrt(L))*e’
AR =
2.9404 -0.2192 0.5531
-0.2192 2.2130 0.2341
0.5531 0.2341 2.5767
ou
>> AR=sqrtm(A)
AR =
2.9404 -0.2192 0.5531
-0.2192 2.2130 0.2341
0.5531 0.2341 2.5767

10
⎡ ⎤
2.94042 −0.21917 0.553062
⎢ ⎥
⎢ ⎥
𝐴1/2 = ⎢ −0.21917 2.21295 0.234092 ⎥
⎣ ⎦
0.553062 0.234092 2.57669

>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6]


B =
-3 5 1 3
5 -3 1 5
1 1 3 -4
3 5 -4 6
>> [e,L]=eig(B)
e =
0.6271 -0.5984 0.4082 0.2864
-0.7606 -0.3402 0.4082 0.3728
0.0668 0.4693 0.8165 -0.3296
0.1539 0.5531 0.0000 0.8188
L =
-8.2218 0 0 0
0 -3.7146 0 0
0 0 4.0000 0
0 0 0 10.9364

𝑘 √

𝐵 1/2 Não existe, pois 𝐵 1/2 = 𝜆𝑖 𝑒𝑖 𝑒′𝑖 = 𝑃 Λ1/2 𝑃 ′ , dependendo assim dos autovalores,
𝑖=1
onde dois deles são negativos.

7. Para a matriz B do item 6 verifique se é possível: (𝐵 1/2 )−1 = 𝑃 Λ−1/2 𝑃 ′ .


( )−1 ∑ 𝑘
Temos que 𝐴1/2 = √1 𝑒 𝑒′ = 𝑃 Λ−1/2 𝑃 ′ , como existem autovalores negativos, não é
𝜆 𝑖 𝑖 𝑖
𝑖=′
possível encontrar (𝐵 )−1 .
1/2

8. Verificar se existe alguma matriz positiva definida entre as matrizes A e B do item 6.

(a) Do item 6, temos

11
Autovalores A B

𝜆1 3.5174 -8.2218
𝜆2 6.3116 -3.7146
𝜆3 11.1710 4.0000
𝜆4 10.9364

A matriz 𝐴 é positiva definida, pois seus autovalores são positivos, já a matriz 𝐵 não é
positiva definida.

9. Calcular o comprimento ou norma de cada vetor coluna das matrizes A e B do item 6.

Matriz A

>> A=[9 -1 3; -1 5 1; 3 1 7];


>> u1=[9 -1 -3]
u1 =
9 -1 -3
>> u2=[-1 5 1]
u2 =
-1 5 1
>> u3=[3 1 7]
u3 =
3 1 7
>> norm(u1)
ans =
9.5394
>> norm(u2)
ans =
5.1962
>> norm(u3)
ans =
7.6811

>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6];


>> u1=[-3 5 1 3]
u1 =

12
-3 5 1 3
>> u2=[5 -3 1 5]
u2 =
5 -3 1 5
>> u3=[1 1 3 -4]
u3 =
1 1 3 -4
>> u4=[3 5 -4 6]
u4 =
3 5 -4 6
>> norm(u1)
ans =
6.6332
>> norm(u2)
ans =
7.7460
>> norm(u3)
ans =
5.1962
>> norm(u4)
ans =
9.2736

Vetores Coluna A B

𝑢1 9.5394 6.6332
𝑢2 5.1962 7.7460
𝑢3 7.6811 5.1962
𝑢4 9.2736

10. Considere a matriz de covariância


⎡ ⎤
9 0 0 0
⎢ ⎥
⎢ ⎥
⎢ 0 16 0 0 ⎥
Σ=⎢

⎥,

⎢ 0 0 20 0 ⎥
⎣ ⎦
0 0 0 25

13
determine:

(a) Σ−1 ;

>> sigma=[9 0 0 0;0 16 0 0;0 0 20 0;0 0 0 25]


sigma =
9 0 0 0
0 16 0 0
0 0 20 0
0 0 0 25
>> InvSigma=inv(sigma)
InvSigma =
0.1111 0 0 0
0 0.0625 0 0
0 0 0.0500 0
0 0 0 0.0400

(b) Os autovalores e autovetores normalizados de Σ;

>> [e,L]=eig(sigma)
e =
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
L =
9 0 0 0
0 16 0 0
0 0 20 0
0 0 0 25

Autovalores Autovetores

𝜆1 = 9 𝑒1 = [1 0 0 0]’
𝜆2 = 16 𝑒2 = [0 1 0 0]’
𝜆3 = 20 𝑒3 = [0 0 1 0]’
𝜆4 = 25 𝑒4 = [0 0 0 1 ]’

14
(c) os autovalores e autovetores normalizados de Σ−1 .

>> [einv,Linv]=eig(InvSigma)
einv =
0 0 0 1
0 0 1 0
0 1 0 0
1 0 0 0
Linv =
0.0400 0 0 0
0 0.0500 0 0
0 0 0.0625 0
0 0 0 0.1111

Autovalores Autovetores

𝜆1 = 0.0400 𝑒1 = [0 0 0 1]’
𝜆2 = 0.0500 𝑒2 = [0 0 1 0]’
𝜆3 = 0.0625 𝑒3 = [0 1 0 0]’
𝜆4 = 0.1111 𝑒4 = [1 0 0 0 ]’

11. Dada a matriz covariância ⎡ ⎤


4 −1 3 4
⎢ ⎥
⎢ ⎥
⎢ −1 5 2 1 ⎥
Σ=⎢



⎢ 3 2 4 5 ⎥
⎣ ⎦
4 1 5 5

determine:

(a) A matriz de correlação 𝜌;

>> Sigma=[4 -1 3 4;-1 5 2 1;3 2 4 5;4 1 5 5]


>> V=diag(diag(Sigma))
V =
4 0 0 0
0 5 0 0
0 0 4 0
0 0 0 5
>> Vraiz=sqrtm(V)

15
Vraiz =
2.0000 0 0 0
0 2.2361 0 0
0 0 2.0000 0
0 0 0 2.2361
>> IVraiz=inv(Vraiz)
IVraiz =
0.5000 0 0 0
0 0.4472 0 0
0 0 0.5000 0
0 0 0 0.4472
>> Corre=IVraiz*Sigma*IVraiz
Matriz de Correlação =
1.0000 -0.2236 0.7500 0.8944
-0.2236 1.0000 0.4472 0.2000
0.7500 0.4472 1.0000 1.1180
0.8944 0.2000 1.1180 1.0000

(b) Verifique a relação 𝑉 1/2 𝜌𝑉 1/2 = Σ;

>> Corre=IVraiz*Sigma*IVraiz
Corre =
1.0000 -0.2236 0.7500 0.8944
-0.2236 1.0000 0.4472 0.2000
0.7500 0.4472 1.0000 1.1180
0.8944 0.2000 1.1180 1.0000
>> Sigma=Vraiz*Corre*Vraiz
Sigma =
4.0000 -1.0000 3.0000 4.0000
-1.0000 5.0000 2.0000 1.0000
3.0000 2.0000 4.0000 5.0000
4.0000 1.0000 5.0000 5.0000

(c) Efetue a decomposição espectral de Σ

Sigma =
4.0000 -1.0000 3.0000 4.0000

16
-1.0000 5.0000 2.0000 1.0000
3.0000 2.0000 4.0000 5.0000
4.0000 1.0000 5.0000 5.0000
>> [e,L]=eig(Sigma)
e =
0.0997 -0.7697 0.4143 0.4754
-0.1147 -0.3916 -0.8967 0.1715
0.7156 0.3704 -0.1434 0.5745
-0.6817 0.3421 0.0609 0.6438
L =
-0.6656 0 0 0
0 0.2695 0 0
0 0 5.7140 0
0 0 0 12.6821
>> Auto=e*L*e’
Auto =
4.0000 -1.0000 3.0000 4.0000
-1.0000 5.0000 2.0000 1.0000
3.0000 2.0000 4.0000 5.0000
4.0000 1.0000 5.0000 5.0000

Então, vê-se que 𝐴 = 𝑃 𝐴𝑃 ′ . A= matriz dos Autovalores de sigma P= matriz dos


Autovetores de sigma

12. Uma amostra multivariada aleatória 𝑋 (com 12 observações e 6 variáveis) é dada a seguir:

17
⎡ ⎤
39 51 53 42 55 48
⎢ ⎥
⎢ ⎥
⎢ 47 51 53 48 53 57 ⎥
⎢ ⎥
⎢ ⎥
⎢ 43 45 46 44 44 51 ⎥
⎢ ⎥
⎢ ⎥
⎢ 49 46 49 45 48 57 ⎥
⎢ ⎥
⎢ ⎥
⎢ 51 55 44 57 49 56 ⎥
⎢ ⎥
⎢ ⎥
⎢ 52 49 39 50 44 47 ⎥
⎢ ⎥
𝑋=⎢ ⎥
⎢ 57 52 55 44 43 44 ⎥
⎢ ⎥
⎢ ⎥
⎢ 48 50 47 50 55 50 ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ 53 47 52 44 50 48 ⎥
⎢ ⎥
⎢ ⎥
⎢ 54 47 51 43 47 46 ⎥
⎢ ⎥
⎢ ⎥
⎢ 55 52 50 49 54 52 ⎥
⎣ ⎦
43 43 45 56 52 56

(a) o vetor de médias;

>> X=[39 51 53 42 55 48;47 51 53 48 53 57; 43 45 46 44 44 51; 49 46 49 45 48 57;51 5


X =
39 51 53 42 55 48
47 51 53 48 53 57
43 45 46 44 44 51
49 46 49 45 48 57
51 55 44 57 49 56
52 49 39 50 44 47
57 52 55 44 43 44
48 50 47 50 55 50
53 47 52 44 50 48
54 47 51 43 47 46
55 52 50 49 54 52
43 43 45 56 52 56
>> mean(X)
ans =
49.2500 49.0000 48.6667 47.6667 49.5000 51.0000

(b) a matriz covariância estimada 𝑆;

S=cov(X)

18
ans =
30.0227 6.4545 3.0000 -0.7273 -9.3182 -9.0909
6.4545 12.0000 2.8182 2.7273 2.7273 -1.3636
3.0000 2.8182 21.3333 -14.4848 4.6364 -4.6364
-0.7273 2.7273 -14.4848 24.6061 4.5455 12.8182
-9.3182 2.7273 4.6364 4.5455 19.1818 7.5455
-9.0909 -1.3636 -4.6364 12.8182 7.5455 21.0909

(c) a matriz de correlação 𝑅;


>> M=diag(diag(S))
M =
30.0227 0 0 0 0 0
0 12.0000 0 0 0 0
0 0 21.3333 0 0 0
0 0 0 24.6061 0 0
0 0 0 0 19.1818 0
0 0 0 0 0 21.0909
>> raizM=sqrtm(M)
raizM =
5.4793 0 0 0 0 0
0 3.4641 0 0 0 0
0 0 4.6188 0 0 0
0 0 0 4.9604 0 0
0 0 0 0 4.3797 0
0 0 0 0 0 4.5925
>> invRM=inv(raizM)
invRM =
0.1825 0 0 0 0 0
0 0.2887 0 0 0 0
0 0 0.2165 0 0 0
0 0 0 0.2016 0 0
0 0 0 0 0.2283 0
0 0 0 0 0 0.2177
>> R=invRM*S*invRM
R =
1.0000 0.3401 0.1185 -0.0268 -0.3883 -0.3613
0.3401 1.0000 0.1761 0.1587 0.1798 -0.0857
0.1185 0.1761 1.0000 -0.6322 0.2292 -0.2186
-0.0268 0.1587 -0.6322 1.0000 0.2092 0.5627
-0.3883 0.1798 0.2292 0.2092 1.0000 0.3751
-0.3613 -0.0857 -0.2186 0.5627 0.3751 1.0000

19
(d) a matriz desvio padrão 𝐷1/2 .

>> DM=diag(diag(S))
DM =
30.0227 0 0 0 0 0
0 12.0000 0 0 0 0
0 0 21.3333 0 0 0
0 0 0 24.6061 0 0
0 0 0 0 19.1818 0
0 0 0 0 0 21.0909
>> DeM=sqrtm(DM)
DeM =
5.4793 0 0 0 0 0
0 3.4641 0 0 0 0
0 0 4.6188 0 0 0
0 0 0 4.9604 0 0
0 0 0 0 4.3797 0
0 0 0 0 0 4.5925

13. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens
obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra,
situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de
estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para
cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ...
, CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7;
COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área
total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e
b (mg/10g)).

20
Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT

1. T1 4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00


2. T2 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22
3. T7 5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61
4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44
5. T15 5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90
6. T22 9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73
7. T26 9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82
8. T28 6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32
9. T33 6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09
10. T43 8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28
11. F3A 9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25
12. F9 5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35
13. F10 6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26
14. F17 7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36
15. F18 8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39
16. F36 6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29
17. F6A 8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27
18. F40 6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40
19. F41 7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62
20. F42 8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37

(a) montar a matriz de dados X;

>> X=[4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00; 8.75 9.50 11.50 43.50
X =
4.50 6.75 5.25 71.00 45.50 8.75 97.90 5.12 18.00
8.75 9.50 11.50 43.50 53.75 14.50 52.40 1.91 15.22
5.75 8.25 8.50 51.25 42.00 9.50 50.60 2.74 15.61
7.75 9.75 11.75 50.25 41.25 10.25 49.30 0.89 14.44
5.50 6.50 5.00 73.25 40.50 6.50 96.50 6.68 17.90
9.50 12.00 28.50 31.50 61.75 31.25 11.10 0.27 12.73
9.00 10.25 9.25 61.75 48.00 10.00 90.20 3.71 14.82
6.75 7.75 6.25 82.00 44.50 6.75 96.70 5.36 17.32
6.25 6.50 5.25 80.25 46.75 6.75 96.00 6.55 15.09
8.50 10.00 8.25 74.75 55.50 10.50 97.90 2.05 16.28
9.00 11.50 20.50 43.75 58.00 22.25 19.70 0.81 10.25

21
5.75 7.00 11.00 28.25 31.00 9.00 14.30 0.62 12.35
6.25 7.50 17.50 22.00 31.00 13.50 4.20 0.15 8.26
7.00 9.75 9.75 61.25 53.75 11.75 55.30 1.96 14.36
8.25 10.50 9.00 83.00 60.00 11.75 85.80 6.64 11.39
6.75 8.25 8.00 59.00 46.75 9.75 45.50 2.20 12.29
8.00 10.00 11.00 49.25 48.00 14.00 16.90 1.17 13.27
6.75 8.00 10.75 43.75 42.00 10.00 38.10 1.58 14.40
7.75 10.25 15.50 45.25 58.75 20.50 29.20 0.74 15.62
8.25 11.00 16.75 31.25 46.75 18.25 21.50 9.63 10.37

(b) estimar o vetor de médias;

>> M=mean(X)
M =
7.30 9.05 11.46 54.31 47.77 12.77 53.45 3.04 13.99

(c) estimar a matriz de covariâncias;


>> S=cov(X)
S =
1.89 2.13 4.73 -4.94 8.22 5.53 -11.35 -0.72 -1.22
2.13 2.92 6.72 -8.54 10.94 8.06 -20.95 -0.90 -1.72
4.73 6.72 33.94 -80.04 16.73 33.67 -150.59 -6.78 -9.38
-4.94 -8.54 -80.04 352.20 40.52 -65.53 590.45 26.02 30.46
8.22 10.94 16.73 40.52 76.05 31.28 31.42 0.06 1.18
5.53 8.06 33.67 -65.53 31.28 37.74 -132.46 -5.62 -7.25
-11.35 -20.95 -150.59 590.45 31.42 -132.46 1160.39 51.43 63.90
-0.72 -0.90 -6.78 26.02 0.06 -5.62 51.43 7.30 1.41
-1.22 -1.72 -9.38 30.46 1.18 -7.25 63.90 1.41 6.91

(d) determinar os autovalores e autovetores da matriz de covariâncias;


Matriz dos autovetores. Cada coluna é um autovetor.

>> [e,L]=eig(S)
e =
0.71 0.23 0.58 0.31 -0.07 -0.01 0.05 -0.09 -0.01
-0.50 -0.50 0.64 0.24 -0.11 -0.01 0.04 -0.13 -0.02
-0.31 0.49 0.09 0.15 0.40 0.56 0.28 -0.26 -0.12
0.02 -0.01 0.07 -0.06 0.18 0.25 -0.78 -0.27 0.46
-0.10 0.19 -0.17 0.06 -0.28 -0.42 0.08 -0.81 0.03
0.37 -0.57 -0.09 -0.36 0.22 0.33 0.27 -0.41 -0.10
0.00 -0.03 -0.04 0.07 0.00 -0.00 0.47 0.08 0.87
-0.04 0.17 0.13 -0.42 -0.75 0.45 0.02 0.01 0.04
-0.09 0.23 0.43 -0.72 0.31 -0.37 0.06 0.02 0.05

22
A matriz de autovalores, onde estes se localizam na sua diagonal é:

L =
0.15 0 0 0 0 0 0 0 0
0 0.17 0 0 0 0 0 0 0
0 0 0.92 0 0 0 0 0 0
0 0 0 3.12 0 0 0 0 0
0 0 0 0 5.11 0 0 0 0
0 0 0 0 0 7.40 0 0 0
0 0 0 0 0 0 38.16 0 0
0 0 0 0 0 0 0 109.79 0
0 0 0 0 0 0 0 0 1514.51

(e) estimar a matriz de correlações.


>> X=[4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00; 8.75 9.50 11.50 43.50 53.75 14.50
X =
4.5000 6.7500 5.2500 71.0000 45.5000 8.7500 97.9000 5.1200 18.0000
8.7500 9.5000 11.5000 43.5000 53.7500 14.5000 52.4000 1.9100 15.2200
5.7500 8.2500 8.5000 51.2500 42.0000 9.5000 50.6000 2.7400 15.6100
7.7500 9.7500 11.7500 50.2500 41.2500 10.2500 49.3000 0.8900 14.4400
5.5000 6.5000 5.0000 73.2500 40.5000 6.5000 96.5000 6.6800 17.9000
9.5000 12.0000 28.5000 31.5000 61.7500 31.2500 11.1000 0.2700 12.7300
9.0000 10.2500 9.2500 61.7500 48.0000 10.0000 90.2000 3.7100 14.8200
6.7500 7.7500 6.2500 82.0000 44.5000 6.7500 96.7000 5.3600 17.3200
6.2500 6.5000 5.2500 80.2500 46.7500 6.7500 96.0000 6.5500 15.0900
8.5000 10.0000 8.2500 74.7500 55.5000 10.5000 97.9000 2.0500 16.2800
9.0000 11.5000 20.5000 43.7500 58.0000 22.2500 19.7000 0.8100 10.2500
5.7500 7.0000 11.0000 28.2500 31.0000 9.0000 14.3000 0.6200 12.3500
6.2500 7.5000 17.5000 22.0000 31.0000 13.5000 4.2000 0.1500 8.2600
7.0000 9.7500 9.7500 61.2500 53.7500 11.7500 55.3000 1.9600 14.3600
8.2500 10.5000 9.0000 83.0000 60.0000 11.7500 85.8000 6.6400 11.3900
6.7500 8.2500 8.0000 59.0000 46.7500 9.7500 45.5000 2.2000 12.2900
8.0000 10.0000 11.0000 49.2500 48.0000 14.0000 16.9000 1.1700 13.2700
6.7500 8.0000 10.7500 43.7500 42.0000 10.0000 38.1000 1.5800 14.4000
7.7500 10.2500 15.5000 45.2500 58.7500 20.5000 29.2000 0.7400 15.6200
8.2500 11.0000 16.7500 31.2500 46.7500 18.2500 21.5000 9.6300 10.3700
>> S=cov(X)
S =
1.0e+003 *
0.0019 0.0021 0.0047 -0.0049 0.0082 0.0055 -0.0113 -0.0007 -0.0012
0.0021 0.0029 0.0067 -0.0085 0.0109 0.0081 -0.0209 -0.0009 -0.0017
0.0047 0.0067 0.0339 -0.0800 0.0167 0.0337 -0.1506 -0.0068 -0.0094
-0.0049 -0.0085 -0.0800 0.3522 0.0405 -0.0655 0.5905 0.0260 0.0305
0.0082 0.0109 0.0167 0.0405 0.0761 0.0313 0.0314 0.0001 0.0012
0.0055 0.0081 0.0337 -0.0655 0.0313 0.0377 -0.1325 -0.0056 -0.0072
-0.0113 -0.0209 -0.1506 0.5905 0.0314 -0.1325 1.1604 0.0514 0.0639
-0.0007 -0.0009 -0.0068 0.0260 0.0001 -0.0056 0.0514 0.0073 0.0014

23
-0.0012 -0.0017 -0.0094 0.0305 0.0012 -0.0072 0.0639 0.0014 0.0069
>> V=diag(diag(S))
V =
1.0e+003 *
0.0019 0 0 0 0 0 0 0 0
0 0.0029 0 0 0 0 0 0 0
0 0 0.0339 0 0 0 0 0 0
0 0 0 0.3522 0 0 0 0 0
0 0 0 0 0.0761 0 0 0 0
0 0 0 0 0 0.0377 0 0 0
0 0 0 0 0 0 1.1604 0 0
0 0 0 0 0 0 0 0.0073 0
0 0 0 0 0 0 0 0 0.0069
>> RV=sqrtm(V)
RV =
1.3755 0 0 0 0 0 0 0 0
0 1.7083 0 0 0 0 0 0 0
0 0 5.8255 0 0 0 0 0 0
0 0 0 18.7671 0 0 0 0 0
0 0 0 0 8.7208 0 0 0 0
0 0 0 0 0 6.1435 0 0 0
0 0 0 0 0 0 34.0645 0 0
0 0 0 0 0 0 0 2.7021 0
0 0 0 0 0 0 0 0 2.6285
>> IRV=inv(RV)
IRV =
0.7270 0 0 0 0 0 0 0 0
0 0.5854 0 0 0 0 0 0 0
0 0 0.1717 0 0 0 0 0 0
0 0 0 0.0533 0 0 0 0 0
0 0 0 0 0.1147 0 0 0 0
0 0 0 0 0 0.1628 0 0 0
0 0 0 0 0 0 0.0294 0 0
0 0 0 0 0 0 0 0.3701 0
0 0 0 0 0 0 0 0 0.3804
>> R=IRV*S*IRV
R =
1.0000 0.9074 0.5897 -0.1913 0.6849 0.6546 -0.2421 -0.1940 -0.3388
0.9074 1.0000 0.6755 -0.2664 0.7343 0.7681 -0.3599 -0.1956 -0.3820
0.5897 0.6755 1.0000 -0.7321 0.3293 0.9408 -0.7588 -0.4304 -0.6124
-0.1913 -0.2664 -0.7321 1.0000 0.2476 -0.5683 0.9236 0.5131 0.6175
0.6849 0.7343 0.3293 0.2476 1.0000 0.5839 0.1058 0.0025 0.0513
0.6546 0.7681 0.9408 -0.5683 0.5839 1.0000 -0.6329 -0.3383 -0.4488
-0.2421 -0.3599 -0.7588 0.9236 0.1058 -0.6329 1.0000 0.5588 0.7137
-0.1940 -0.1956 -0.4304 0.5131 0.0025 -0.3383 0.5588 1.0000 0.1984
-0.3388 -0.3820 -0.6124 0.6175 0.0513 -0.4488 0.7137 0.1984 1.0000

14. Uma amostra multivariada X de tamanho n = 12 foi obtida de um vetor aleatório p =

24
[alturas pesos], resultando

Indivíduo Altura Peso

1 165 83
2 180 82
3 178 67
4 167 72
5 190 95
6 175 70
7 178 75
8 183 80
9 169 70
10 177 73
11 184 85
12 170 68

(a) Construir a matriz de dados;

>> X=[165 83;180 82; 178 67; 167 72;190 95; 175 70;178 75;183 80;169 70;177 73;184 85;170 68]
X =
165 83
180 82
178 67
167 72
190 95
175 70
178 75
183 80
169 70
177 73
184 85
170 68

(b) calcular o vetor de médias;

>> EX=mean(X)
EX =
176.3333 76.6667

(c) representar graficamente num espaço bidimensional as observações e o vetor de médias.

25
95

90

85

Peso
80

75

70

65
165 170 175 180 185 190
Altura

Resolver os problemas 15 até 21, sem uso do MATLAB.


⎡ ⎤
9 −3
15. Determinar os autovalores e autovetores normalizados da matriz 𝐴 = ⎣ ⎦.
−3 9
Seja 𝐴e = 𝜆e, então
¯ (𝐴 − 𝜆𝐼)e =¯ 0, assim
¯ ¯
¯ 9 − 𝜆 −3 ¯
¯
∣ 𝐴 − 𝜆𝐼 ∣= 0 ⇒ ¯ ¯ = 0 ⇒ (9 − 𝜆)2 − 9 = 0 ⇒ (𝜆 − 6)(𝜆 − 12) = 0
¯
¯ −3 9 − 𝜆 ¯

Para 𝜆1 = 6 Para 𝜆2 = 12
⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞
3 −3 𝑒11 0 −3 −3 𝑓11 0
⎝ ⎠⎝ ⎠=⎝ ⎠ ⎝ ⎠⎝ ⎠=⎝ ⎠
−3 3 𝑒21 0 −3 −3 𝑓21 0
⎧ ⎧
⎨ 3𝑒11 − 3𝑒21 = 0 ⎨ −3𝑓11 − 3𝑓21 = 0
⎩ −3𝑒 + 3𝑒 = 0 ⎩ −3𝑓 − 3𝑓 = 0
11 21 11 21

3𝑒11 = 3𝑒21 ⇒ 𝑒11 = 𝑒21 −3𝑓11 = 3𝑓21 ⇒ 𝑓11 = −𝑓21


Para autovetores normalizados, tem-se: Para autovetores normalizados, tem-se:
√ √
(𝑒11 )2 + (𝑒11 )2 = 1 (𝑓11 )2 + (−𝑓11 )2 = 1
Assim 𝑒11 = √1 e 𝑒21 = √1 Assim 𝑓11 = √1 e 𝑓21 = − √12
2 ⎛ 2⎞ 2 ⎛ ⎞
√1 √1
𝜆1 = 6, autovetor e = ⎝ 2 ⎠ 𝜆2 = 12, autovetor f = ⎝ 2 ⎠
1

2
− √12

16. Pesquisar o que é uma pseudo-inversa. Exemplificar e dar suas propriedades.


Definição: Dada a matriz 𝐴 : 𝑚𝑥𝑛, 𝑚 ≥ 𝑛 com 𝑝𝑜𝑠𝑡𝑜(𝐴) = 𝑟 e sua fatoração em de-
composição em valores singulares (SVD), chama-se pseudo-inversa de Moore-Penrose de

26
à )
1
𝐴, a matriz 𝐴+ ∈ IR 𝑛𝑥𝑚
, 𝐴+ = 𝑉 Σ+ 𝑈 𝑇 , onde Σ+ = 𝑑𝑖𝑎𝑔 1 ∈ IR𝑛𝑥𝑚 ,
𝜎1 , ... 𝜎𝑟 ,0...,0
𝑈 = [𝑢1 , ..., 𝑢𝑚 ] e 𝑣 = [𝑣1 , ..., 𝑣𝑛 ]. Se 𝑝𝑜𝑠𝑡𝑜(𝐴) = 𝑛, então 𝐴+ = (𝐴𝑇 𝐴)−1 𝐴𝑇 . Se
𝑚 = 𝑛 = 𝑝𝑜𝑠𝑡𝑜(𝐴), então 𝐴+ = 𝐴−1 .

Teorema:(Pseudo-Inversa) Para toda matriz 𝐴 ∈ IR𝑚𝑥𝑛 , existe uma única matriz


𝐴+ ∈ IR𝑛𝑥𝑚 , denominada pseudo-inversa de 𝐴, satisfazendo as condições de Moore-
Penrose.

(a) 𝐴𝐴+ 𝐴 = 𝐴

(b) (𝐴+ 𝐴)𝑇 = 𝐴+ 𝐴

(c) 𝐴+ 𝐴𝐴+ = 𝐴+

(d) (𝐴𝐴+ )𝑇 = 𝐴𝐴+

Demonstração: Seja 𝐴 = 𝑈 Σ𝑉 𝑇 uma SVD da matriz 𝐴. Sabemos que 𝐴+ = 𝑉 Σ+ 𝑈 𝑇 .


Assim:

(a) 𝐴𝐴+ 𝐴 = 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 = 𝑈 ΣΣ+ Σ𝑉 𝑇 = 𝑈 Σ𝑉 𝑇 = 𝐴

(b) (𝐴+ 𝐴)𝑇 = (𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 )𝑇 = 𝑉 (Σ+ Σ)𝑇 𝑉 𝑇 = 𝑉 (Σ+ Σ)𝑉 𝑇 = 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 =


𝐴+ 𝐴

(c) 𝐴+ 𝐴𝐴+ = 𝑉 Σ+ 𝑈 𝑇 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 = 𝑉 Σ+ ΣΣ+ 𝑈 𝑇 = 𝑉 Σ+ 𝑈 𝑇 = 𝐴+

(d) (𝐴𝐴+ )𝑇 = (𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 )𝑇 = 𝑈 (ΣΣ+ )𝑇 𝑈 𝑇 = 𝑈 (ΣΣ+ )𝑈 𝑇 = 𝑈 Σ𝑉 𝑇 𝑉 Σ+ 𝑈 𝑇 =


𝐴𝐴+

17. Dar um exemplo de uma matriz ortogonal 3 X 3 e calcular o determinante associado. Em


Álgebra linear, uma matriz ortogonal é uma matriz real M cuja inversa coincide com a sua
transposta, isto é: 𝑀 −1 = 𝑀 𝑇 , isto é, 𝑀 𝑀 𝑇 = 𝑀 𝑇 𝑀 = 𝐼 Ex:
⎛ ⎞
1 0 0
⎜ ⎟
⎜ ⎟
- A matriz Identidade, 𝐴 = ⎜ 0 1 0 ⎟, 𝑑𝑒𝑡(𝐴) = 1.
⎝ ⎠
0 0 1
⎛ ⎞
1 2 2
⎜ 3 3 3 ⎟
⎜ ⎟
- 𝐵=⎜ 0 √1 − √12 ⎟, 𝑑𝑒𝑡(𝐵) = −1
⎝ 2 ⎠
4 1 1

3 2
− 3√ 2
− 3√ 2

18. Provar as propriedades da transposta de uma matriz.

27
(a) (𝐴𝑇 )𝑇 = 𝐴

- O elemento (𝑖, 𝑗) da matriz 𝐴 é o elemento 𝑎𝑗𝑖 .

- O elemento (𝑖, 𝑗) da matriz 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑗𝑖 .

- Portanto, o elemento (𝑖, 𝑗) de (𝐴𝑇 )𝑇 é o elemento 𝛼𝑗𝑖 = 𝑎𝑖𝑗

(b) (𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵 𝑇
Seja 𝐶 = 𝐴 + 𝐵 então 𝑐𝑖𝑗 𝑇 𝑇
⎫ = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 . Logo 𝑐𝑖𝑗 ∈ 𝐶 = (𝐴 + 𝐵) . Por outro lado,
𝑎𝑖𝑗 ∈ 𝐴 ⇒ 𝑎𝑖𝑗 ∈ 𝐴𝑇 ⎬
= 𝑎𝑖𝑗 + 𝑏𝑖𝑗 ∈ 𝐴𝑇 + 𝐵 𝑇 .
𝑏 ∈ 𝐵 ⇒ 𝑏 ∈ 𝐵𝑇 ⎭
𝑖𝑗 𝑖𝑗
Logo 𝑐𝑖𝑗 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 .

(c) (𝐴𝐵)𝑇 = 𝐵 𝑇 𝐴𝑇 Seja 𝐴 uma matriz 𝑚x𝑝 e 𝐵 uma matriz 𝑝x𝑛. O produto 𝐶 = 𝐴𝐵
𝑝

é uma matriz 𝑚x𝑛 e o seu elemento (𝑖, 𝑗) é dado por 𝑐𝑖𝑗 = 𝑎𝑖𝑘 𝑏𝑘𝑗 .
𝑘=1
a matriz (𝐴𝐵)𝑇 é portanto uma matriz 𝑛x𝑚 e nela, o elemento 𝑐𝑖𝑗 ocupa a 𝑖-ésima
coluna e a 𝑗-ésima linha. Por outro lado, a matriz 𝐵 𝑇 𝐴𝑇 também é de ordem 𝑛x𝑚.
O elemento (𝑖, 𝑗) de 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑗𝑖 , assim como o elemento (𝑖, 𝑗) de 𝐵 𝑇
é o elemento 𝛽𝑖𝑗 = 𝑏𝑗𝑖 . Logo, o elemento de 𝐵 𝑇 𝐴𝑇 que ocupa a 𝑖-ésima coluna e a
𝑗-ésima linha é dado por

𝑝
∑ 𝑝

𝛽𝑗𝑘 𝛼𝑘𝑖 = 𝑏𝑘𝑗 𝑎𝑖𝑘 = 𝑐𝑖𝑗
𝑘=1 𝑘=1

(d) (𝑘𝐴)𝑇 = 𝑘𝐴𝑇


Seja 𝐶 = 𝑘𝐴, logo o elemento (𝑖, 𝑗) de 𝐶 é dado por 𝑐𝑖𝑗 = 𝑘𝑎𝑖𝑗 . Na matriz (𝑘𝐴)𝑇 , o
elemento 𝑐𝑖𝑗 ocupa a 𝑖-ésima coluna e a 𝑗-ésima linha.
Por outro lado, o elemento (𝑖, 𝑗) de 𝐴𝑇 é o elemento 𝛼𝑖𝑗 = 𝑎𝑖𝑗 . Logo, o elemento de
𝑘𝐴𝑇 que ocupa a 𝑖-ésima coluna e a 𝑗ésima linha é dado por

𝑘𝛼𝑗𝑖 = 𝑘𝑎𝑖𝑗 = 𝑐𝑖𝑗 .

19. Provar as propriedades comutativa e associativa da adição de matrizes.

(a) Comutativa ⇒ 𝐴 + 𝐵 = 𝐵 + 𝐴
Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 e 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 , tem-se:

28
⎛ ⎞ ⎛ ⎞
𝑎11 𝑎12 ... 𝑎1𝑛 𝑏11 𝑏12 ... 𝑏1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑏21 𝑏22 . . . 𝑏2𝑛 ⎟

𝐴=⎜ . ⎟ , 𝐵 = ⎜ ⎟, assim
.. .. .. ⎟ ⎜ .. .. .. .. ⎟
⎜ .. . . ⎟
. ⎠ ⎜ . . . . ⎟
⎝ ⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 𝑏𝑚1 𝑏𝑚2 . . . 𝑏𝑚𝑛
⎛ ⎞
𝑎11 + 𝑏11 𝑎12 + 𝑏12 . . . 𝑎1𝑛 + 𝑏1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 . . . 𝑎2𝑛 + 𝑏2𝑛 ⎟
𝐴+𝐵 =⎜
⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟
⎝ ⎠
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛
⎛ ⎞
𝑏11 + 𝑎11 𝑏12 + 𝑎12 . . . 𝑏1𝑛 + 𝑎1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑏21 + 𝑎21 𝑏22 + 𝑎22 . . . 𝑏2𝑛 + 𝑎2𝑛 ⎟
=⎜
⎜ .. .. .. ..
⎟ = 𝐵 + 𝐴,

⎜ . . . . ⎟
⎝ ⎠
𝑏𝑚1 + 𝑎𝑚1 𝑏𝑚2 + 𝑎𝑚2 . . . 𝑏𝑚𝑛 + 𝑎𝑚𝑛
logo
𝐴+𝐵 =𝐵+𝐴

(b) Associativa ⇒ (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶)
Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 , 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 e 𝐶 = [𝑐𝑖𝑗 ]𝑚𝑥𝑛 , tem-se:
⎛ ⎞ ⎛ ⎞
𝑎11 𝑎12 . . . 𝑎1𝑛 𝑏11 𝑏12 . . . 𝑏1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑏21 𝑏22 . . . 𝑏2𝑛 ⎟

𝐴=⎜ . ⎟ ⎜ ⎟
. .. . . .. ⎟, 𝐵 = ⎜ .. .. . . .. ⎟ e
⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 𝑏𝑚1 𝑏𝑚2 . . . 𝑏𝑚𝑛
⎛ ⎞
𝑐11 𝑐12 . . . 𝑐1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑐21 𝑐22 . . . 𝑐2𝑛 ⎟
𝐶=⎜⎜ .. .. .. ..
⎟, assim:

⎜ . . . . ⎟
⎝ ⎠
𝑐𝑚1 𝑐𝑚2 . . . 𝑐𝑚𝑛
⎛ ⎞ ⎛ ⎞
𝑎11 + 𝑏11 𝑎12 + 𝑏12 ... 𝑎1𝑛 + 𝑏1𝑛 𝑐11 𝑐12 ... 𝑐1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 ... 𝑎2𝑛 + 𝑏2𝑛 ⎟ ⎜ 𝑐21 𝑐22 . . . 𝑐2𝑛 ⎟
(𝐴+𝐵)+𝐶 = ⎜
⎜ .. .. .. ..
⎟+⎜
⎟ ⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 𝑐𝑚1 𝑐𝑚2 . . . 𝑐𝑚𝑛
⎛ ⎞
𝑎11 + 𝑏11 + 𝑐11 𝑎12 + 𝑏12 + 𝑐12 . . . 𝑎1𝑛 + 𝑏1𝑛 + 𝑐1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑎21 + 𝑏21 + 𝑐21 𝑎22 + 𝑏22 + 𝑐22 . . . 𝑎2𝑛 + 𝑏2𝑛 + 𝑐2𝑛 ⎟
=⎜
⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟
⎝ ⎠
𝑎𝑚1 + 𝑏𝑚1 + 𝑐𝑚1 𝑎𝑚2 + 𝑏𝑚2 + 𝑐𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛 + 𝑐𝑚𝑛

29
⎛ ⎞ ⎛ ⎞
𝑎11 𝑎12 ... 𝑎1𝑛 𝑏11 + 𝑐11 𝑏12 + 𝑐12 ... 𝑏1𝑛 + 𝑐1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑏21 + 𝑐21 𝑏22 + 𝑐22 . . . 𝑏2𝑛 + 𝑐2𝑛 ⎟
=⎜⎜ .. .. .. ..
⎟+⎜
⎟ ⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 𝑏𝑚1 + 𝑐𝑚1 𝑏𝑚2 + 𝑐𝑚2 . . . 𝑏𝑚𝑛 + 𝑐𝑚𝑛
= 𝐴 + (𝐵 + 𝐶)
Portanto, (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶)

20. Provar as propriedades comutativa, associativa e distributiva da multiplicação de escalar


por matriz.

(a) Comutativa ⇒ 𝑘𝐴 = 𝐴𝑘
⎛ ⎞
𝑎11 𝑎12 ... 𝑎1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟

Seja 𝐴 uma matriz 𝑚x𝑛, tal que 𝐴 = ⎜ . ⎟ e seja 𝑘 ∈ IR, assim
.. .. .. ⎟
⎜ .. . . . ⎟
⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
⎛ ⎞ ⎛ ⎞
𝑎11 𝑎12 . . . 𝑎1𝑛 𝑘𝑎11 𝑘𝑎12 . . . 𝑘𝑎1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟ ⎜ 𝑘𝑎21 𝑘𝑎22 . . . 𝑘𝑎2𝑛 ⎟
𝑘𝐴 = 𝑘 ⎜
⎜ .. .. ..
⎟ ⎜
.. ⎟ = ⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 𝑘𝑎𝑚1 𝑘𝑎𝑚2 . . . 𝑘𝑎𝑚𝑛
⎛ ⎞ ⎛ ⎞
𝑎11 𝑘 𝑎12 𝑘 . . . 𝑎1𝑛 𝑘 𝑎11 𝑎12 . . . 𝑎1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑎21 𝑘 𝑎22 𝑘 . . . 𝑎2𝑛 𝑘 ⎟ ⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟
=⎜
⎜ .. .. ..
⎟ ⎜
.. ⎟ = ⎜ .. .. ..

.. ⎟ 𝑘 = 𝐴𝑘
⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑎𝑚1 𝑘 𝑎𝑚2 𝑘 . . . 𝑎𝑚𝑛 𝑘 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
(b) Associativa ⇒ 𝑘1 (𝑘2 𝐴) = (𝑘1 𝑘2 )𝐴
⎛ ⎞
𝑎11 𝑎12 ... 𝑎1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟
Seja 𝐴 uma matriz 𝑚x𝑛, tal que 𝐴 = ⎜ ⎜ .. .. .. ..
⎟ e seja 𝑘1 , 𝑘2 ∈ IR,

⎜ . . . . ⎟
⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
assim ⎛ ⎞ ⎛ ⎞
𝑘2 𝑎11 𝑘2 𝑎12 . . . 𝑘2 𝑎1𝑛 𝑘1 𝑘2 𝑎11 𝑘1 𝑘2 𝑎12 ... 𝑘1 𝑘2 𝑎1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑘2 𝑎21 𝑘2 𝑎22 . . . 𝑘2 𝑎2𝑛 ⎟ ⎜ 𝑘1 𝑘2 𝑎21 𝑘1 𝑘2 𝑎22 ... 𝑘1 𝑘2 𝑎2𝑛 ⎟

𝑘1 (𝑘2 𝐴) = 𝑘1 ⎜ ⎟=⎜ ⎟=
.. .. .. .. ⎟ ⎜ .. .. .. .. ⎟
⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑘2 𝑎𝑚1 𝑘2 𝑎𝑚2 . . . 𝑘2 𝑎𝑚𝑛 𝑘1 𝑘2 𝑎𝑚1 𝑘1 𝑘2 𝑎𝑚2 . . . 𝑘1 𝑘2 𝑎𝑚𝑛

30
⎛ ⎞ ⎛ ⎞
(𝑘1 𝑘2 ) 𝑎11 (𝑘1 𝑘2 ) 𝑎12 ... (𝑘1 𝑘2 ) 𝑎1𝑛 𝑎11 𝑎12 ... 𝑎1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ (𝑘1 𝑘2 ) 𝑎21 (𝑘1 𝑘2 ) 𝑎22 . . . (𝑘1 𝑘2 ) 𝑎2𝑛 ⎟ ⎜ 𝑎 𝑎22 . . . 𝑎2𝑛 ⎟
=⎜ ⎟ = (𝑘1 𝑘2 ) ⎜ 21 ⎟=
⎜ .. .. .. .. ⎟ ⎜ .. .. .. .. ⎟
⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
(𝑘1 𝑘2 ) 𝑎𝑚1 (𝑘1 𝑘2 ) 𝑎𝑚2 . . . (𝑘1 𝑘2 ) 𝑎𝑚𝑛 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
𝑘1 𝑘2 𝐴
Logo 𝑘1 (𝑘2 𝐴) = (𝑘1 𝑘2 )𝐴

(c) Distributiva

- 𝑘(𝐴 + 𝐵) = 𝑘𝐴 + 𝑘𝐵
Dada as matrizes 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 , 𝐵 = [𝑏𝑖𝑗 ]𝑚𝑥𝑛 e 𝑘 ∈ IR tem-se:
⎛ ⎞
𝑎11 + 𝑏11 𝑎12 + 𝑏12 . . . 𝑎1𝑛 + 𝑏1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑎21 + 𝑏21 𝑎22 + 𝑏22 . . . 𝑎2𝑛 + 𝑏2𝑛 ⎟

𝑘(𝐴 + 𝐵) = 𝑘 ⎜ ⎟=
.. .. .. .. ⎟
⎜ . . . . ⎟
⎝ ⎠
𝑎𝑚1 + 𝑏𝑚1 𝑎𝑚2 + 𝑏𝑚2 . . . 𝑎𝑚𝑛 + 𝑏𝑚𝑛
⎛ ⎞
𝑘 (𝑎11 + 𝑏11 ) 𝑘 (𝑎12 + 𝑏12 ) . . . 𝑘 (𝑎1𝑛 + 𝑏1𝑛 )
⎜ ⎟
⎜ ⎟
⎜ 𝑘 (𝑎21 + 𝑏21 ) 𝑘 (𝑎22 + 𝑏22 ) . . . 𝑘 (𝑎2𝑛 + 𝑏2𝑛 ) ⎟
⎜ ⎟=
⎜ .. .. .. .. ⎟
⎜ . . . . ⎟
⎝ ⎠
𝑘 (𝑎𝑚1 + 𝑏𝑚1 ) 𝑘 (𝑎𝑚2 + 𝑏𝑚2 ) . . . 𝑘 (𝑎𝑚𝑛 + 𝑏𝑚𝑛 )
⎛ ⎞
(𝑘𝑎11 + 𝑘𝑏11 ) (𝑘𝑎12 + 𝑘𝑏12 ) . . . (𝑘𝑎1𝑛 + 𝑘𝑏1𝑛 )
⎜ ⎟
⎜ ⎟
⎜ (𝑘𝑎21 + 𝑘𝑏21 ) (𝑘𝑎22 + 𝑘𝑏22 ) . . . (𝑘𝑎2𝑛 + 𝑘𝑏2𝑛 ) ⎟
=⎜⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟
⎝ ⎠
(𝑘𝑎𝑚1 + 𝑘𝑏𝑚1 ) (𝑘𝑎𝑚2 + 𝑘𝑏𝑚2 ) . . . (𝑘𝑎𝑚𝑛 + 𝑘𝑏𝑚𝑛 )
⎛ ⎞ ⎛ ⎞
𝑘𝑎11 𝑘𝑎12 . . . 𝑘𝑎1𝑛 𝑘𝑏11 𝑘𝑏12 . . . 𝑘𝑏1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ 𝑘𝑎21 𝑘𝑎22 . . . 𝑘𝑎2𝑛 ⎟ ⎜ 𝑘𝑏21 𝑘𝑏22 . . . 𝑘𝑏2𝑛 ⎟
=⎜⎜ .. .. ..
⎟+⎜
.. ⎟ ⎜ .. .. ..

.. ⎟ =
⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
𝑘𝑎𝑚1 𝑘𝑎𝑚2 . . . 𝑘𝑎𝑚𝑛 𝑘𝑏𝑚1 𝑘𝑏𝑚2 . . . 𝑘𝑏𝑚𝑛
= 𝑘𝐴 + 𝑘𝐵. Portanto, 𝑘(𝐴 + 𝐵) = 𝑘𝐴 + 𝑘𝐵

- (𝑘1 + 𝑘2 )𝐴 = 𝑘1 𝐴 + 𝑘2 𝐴
Dada a matriz 𝐴 = [𝑎𝑖𝑗 ]𝑚𝑥𝑛 e 𝑘1 , 𝑘2 ∈ IR, tem-se:
⎛ ⎞
𝑎11 𝑎12 . . . 𝑎1𝑛
⎜ ⎟
⎜ ⎟
⎜ 𝑎21 𝑎22 . . . 𝑎2𝑛 ⎟

(𝑘1 + 𝑘2 )𝐴 = (𝑘1 + 𝑘2 ) ⎜ . ⎟
. .. . . .. ⎟ =
⎜ . . . . ⎟
⎝ ⎠
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛

31
⎛ ⎞
(𝑘1 + 𝑘2 )𝑎11 (𝑘1 + 𝑘2 )𝑎12 ... (𝑘1 + 𝑘2 )𝑎1𝑛
⎜ ⎟
⎜ ⎟
⎜ (𝑘1 + 𝑘2 )𝑎21 (𝑘1 + 𝑘2 )𝑎22 . . . (𝑘1 + 𝑘2 )𝑎2𝑛 ⎟

=⎜ ⎟=
.. .. .. .. ⎟
⎜ . . . . ⎟
⎝ ⎠
(𝑘1 + 𝑘2 )𝑎𝑚1 (𝑘1 + 𝑘2 )𝑎𝑚2 . . . (𝑘1 + 𝑘2 )𝑎𝑚𝑛
⎛ ⎞
(𝑘1 𝑎11 + 𝑘2 𝑎11 ) (𝑘1 𝑎12 + 𝑘2 𝑎12 ) . . . (𝑘1 𝑎1𝑛 + 𝑘2 𝑎1𝑛 )
⎜ ⎟
⎜ ⎟
⎜ (𝑘1 𝑎21 + 𝑘2 𝑎21 ) (𝑘1 𝑎22 + 𝑘2 𝑎22 ) . . . (𝑘1 𝑎2𝑛 + 𝑘2 𝑎2𝑛 ) ⎟
=⎜
⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟
⎝ ⎠
(𝑘1 𝑎𝑚1 + 𝑘2 𝑎𝑚1 ) (𝑘1 𝑎𝑚2 + 𝑘2 𝑎𝑚2 ) . . . (𝑘1 𝑎𝑚𝑛 + 𝑘2 𝑎𝑚𝑛 )
⎛ ⎞ ⎛ ⎞
(𝑘1 )𝑎11 (𝑘1 )𝑎12 . . . (𝑘1 )𝑎1𝑛 (𝑘2 )𝑎11 (𝑘2 )𝑎12 ... (𝑘2 )𝑎1𝑛
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜ (𝑘1 )𝑎21 (𝑘1 )𝑎22 . . . (𝑘1 )𝑎2𝑛 ⎟ ⎜ (𝑘2 )𝑎21 (𝑘2 )𝑎22 ... (𝑘2 )𝑎2𝑛 ⎟
=⎜
⎜ .. .. .. ..
⎟+⎜
⎟ ⎜ .. .. .. ..
⎟=

⎜ . . . . ⎟ ⎜ . . . . ⎟
⎝ ⎠ ⎝ ⎠
(𝑘1 )𝑎𝑚1 (𝑘1 )𝑎𝑚2 . . . (𝑘1 )𝑎𝑚𝑛 (𝑘2 )𝑎𝑚1 (𝑘2 )𝑎𝑚2 . . . (𝑘2 )𝑎𝑚𝑛

= 𝑘1 𝐴 + 𝑘2 𝐴.
Portanto, (𝑘1 + 𝑘2 )𝐴 = 𝑘1 𝐴 + 𝑘2 𝐴.

21. Provar todas as propriedades da multiplicação de duas matrizes.

(a) Distributividade da soma à direita, (𝐴 + 𝐵)𝐶 = 𝐴𝐶 + 𝐵𝐶


Seja 𝐷 = 𝐴 + 𝐵

- elemento (𝑖, 𝑘) de 𝐷:
𝑑𝑖𝑘 = 𝑎𝑖𝑘 + 𝑏𝑖𝑘 (1)

- elemento (𝑖, 𝑗) da matriz ((𝐴 + 𝐵)𝐶)

𝑝
∑ 𝑝

((𝐴 + 𝐵)𝐶)𝑖𝑗 = (𝐷𝐶)𝑖𝑗 = 𝑑𝑖𝑘 𝑐𝑘𝑗 = 𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗 (2)
𝑘=1 𝑘=1

- elemento (𝑖, 𝑗) da matriz (𝐴𝐶 + 𝐵𝐶) ≡ soma dos elementos (𝑖, 𝑗) das matrizes
𝐴𝐶 e 𝐵𝐶.
à 𝑝
) Ã 𝑝 )
∑ ∑
((𝐴𝐶 + 𝐵𝐶))𝑖𝑗 = (𝐴𝐶)𝑖𝑗 + (𝐵𝐶)𝑖𝑗 = 𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗 =
𝑘=1 𝑘=1
𝑝

𝑎𝑖𝑘 𝑐𝑘𝑗 + 𝑏𝑖𝑘 𝑐𝑘𝑗 = ((𝐴 + 𝐵)𝐶)𝑖𝑗 (3)
𝑘=1

(b) Associatividade, 𝐴(𝐵𝐶) = (𝐴𝐵)𝐶 Seja 𝐷 = 𝐵𝐶

32
- elemento (𝑘, 𝑗) de 𝐷:
𝑞

𝑑𝑘𝑗 = 𝑏𝑘𝑙 𝑐𝑙𝑗 (4)
𝑙=1

- elemento (𝑖, 𝑗) de 𝐴𝐷:


𝑝

(𝐴𝐷)𝑖𝑗 = 𝑎𝑖𝑘 𝑑𝑘𝑗 (5)
𝑘=1

Substituindo (4) em (5):


𝑝 ∑
∑ 𝑝
(𝐴𝐷)𝑖𝑗 = 𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗 (6)
𝑘=1 𝑙=1

Seja 𝑍 = 𝐴𝐵 ≡ elemento (𝑖, 𝑗) de (𝐴𝐵)𝐶:

𝑞 𝑞
à 𝑝 ) 𝑞 ∑
𝑝
∑ ∑ ∑ ∑
((𝐴𝐵)𝐶)𝑖𝑗 = (𝑍𝐶)𝑖𝑗 = 𝑧𝑖𝑙 𝑐𝑙𝑗 = 𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗 = 𝑎𝑖𝑘 𝑏𝑘𝑙 𝑐𝑙𝑗 = (𝐴(𝐵𝐶))𝑖𝑗
𝑙=1 𝑙=1 𝑘=1 𝑙=1 𝑘=1

2 Lista 2 - Distribuição Normal Multivariada

1. Utilizando a função Matlab (que gera amostras aleatórias normais multivariadas): 𝑋𝑖 =


mvnrnd(𝜇, Σ, 𝑛), 𝑖 = 1, 2, 3, . . . sendo: 𝜇 = [4.5 6.0 8.5 10.0 12.5 15.0] o vetor de médias,

⎡ ⎤
15.0000 1.5000 3.0000 2.3000 5.1000 0.9000
⎢ ⎥
⎢ ⎥
⎢ 1.5000 13.0000 2.7000 3.6000 4.7000 2.8000 ⎥
⎢ ⎥
⎢ ⎥
⎢ 3.0000 2.7000 13.9000 5.2000 6.2000 3.2000 ⎥
Σ=⎢



⎢ 2.3000 3.6000 5.2000 25.0000 3.1000 5.2000 ⎥
⎢ ⎥
⎢ ⎥
⎢ 5.1000 4.7000 6.2000 3.1000 36.0000 4.8000 ⎥
⎣ ⎦
0.9000 2.8000 3.2000 5.2000 4.8000 48.0000

a matriz de covariâncias e 𝑛 o tamanho das amostras, gerar as amostras aleatórias normais


multivariadas 𝑋1 , 𝑋2 e 𝑋3 do vetor de médias 𝜇 e Σ a matriz de covariâncias com tamanho:

(a) 𝑛 = 10, calculando em seguida, para 𝑋1 , o vetor de médias amostrais (X) e a matriz
de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ.
Discutir as diferenças.

>> MI=[4.5 6 8.5 10 12.5 15]


MI =
4.5000 6.0000 8.5000 10.0000 12.5000 15.0000

33
>> Cov=[15 1.5 3.0 2.3 5.1 0.9; 1.5 13.0 2.7 3.6 4.7 2.8; 3
Cov =
15.0000 1.5000 3.0000 2.3000 5.1000 0.9000
1.5000 13.0000 2.7000 3.6000 4.7000 2.8000
3.0000 2.7000 13.9000 5.2000 6.2000 3.2000
2.3000 3.6000 5.2000 25.0000 3.1000 5.2000
5.1000 4.7000 6.2000 3.1000 36.0000 4.8000
0.9000 2.8000 3.2000 5.2000 4.8000 48.0000
>> X1=mvnrnd(MI,Cov,10)
X1 =
6.5824 1.3693 10.4200 14.0294 11.8459 9.3273
11.6026 17.5895 7.6237 7.1229 15.6737 16.4204
-4.2485 7.7255 9.8072 5.0986 13.0840 6.6432
7.8392 6.1079 14.9699 8.4866 17.3463 8.2866
5.7346 8.6856 10.9781 -2.5282 9.6254 13.2773
-0.5647 4.7588 11.0591 17.0322 11.5824 26.7321
2.8207 5.3871 10.6869 12.0000 11.7389 10.2523
5.8270 11.4728 8.6750 7.6792 17.8671 18.2602
18.3591 12.4369 13.2687 20.2792 25.2909 17.1399
15.2260 12.1528 8.7717 3.9651 23.1206 23.0164
>> mean(X1)
ans =
6.9178 8.7686 10.6260 9.3165 15.7175 14.9356

>> S=cov(X1)
S =
46.9874 18.2327 1.3555 6.9462 28.3493 12.9910
18.2327 22.2742 -4.3880 -7.6632 13.6887 10.4479
1.3555 -4.3880 4.7934 5.2097 1.4845 -4.0889
6.9462 -7.6632 5.2097 44.8926 9.2218 9.3750
28.3493 13.6887 1.4845 9.2218 27.2998 11.1871
12.9910 10.4479 -4.0889 9.3750 11.1871 43.5201

Para 𝑛 = 10, tanto o vetor de médias X como a matriz de covariâncias amostrais 𝑆


têm seus valores bem distantes dos valores originais do vetor de médias 𝜇 e da matriz

34
de covariâncias Σ, respectivamente.

(b) 𝑛 = 100, calculando em seguida, para 𝑋2 , o vetor de médias amostrais (X) e a matriz
de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇 e Σ.
Discutir as diferenças.

>> X2=mvnrnd(MI,Cov,100);
>> mean(X2)
ans =
4.5417 7.0864 8.6808 10.0058 13.0134 14.8672
>> S2=cov(X2)
S2 =
14.6431 2.7541 3.6464 3.1158 5.3392 -1.2280
2.7541 13.6900 3.0848 3.5469 6.8503 0.3377
3.6464 3.0848 13.7587 6.0858 4.9247 5.7381
3.1158 3.5469 6.0858 26.5766 6.0904 6.3325
5.3392 6.8503 4.9247 6.0904 33.3137 2.5282
-1.2280 0.3377 5.7381 6.3325 2.5282 41.0911

Para 𝑛 = 100, o vetor de médias X tem seus valores bem próximos do vetor de
médias𝜇, diferindo em apenas algumas unidades. Quanto a matriz de covariâncias
amostrais 𝑆 seus valores estão bem distantes dos valores originais da matriz de covar-
iâncias Σ.

(c) 𝑛 = 1000, calculando em seguida, para 𝑋3 , o vetor de médias amostrais (X) e a


matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros 𝜇
e Σ. Discutir as diferenças.

>> X3=mvnrnd(MI,Cov,1000);
>> mean(X3)
ans =
4.4758 6.1065 8.5225 9.8296 12.4343 14.8078
>> S3=cov(X3)
S3 =
14.4039 1.5281 2.7079 2.1403 3.7544 0.6423
1.5281 11.8247 2.6428 2.5697 4.0056 4.2034
2.7079 2.6428 12.7488 4.3487 5.2230 3.1401

35
2.1403 2.5697 4.3487 24.2446 2.5543 7.5897
3.7544 4.0056 5.2230 2.5543 32.5033 3.3190
0.6423 4.2034 3.1401 7.5897 3.3190 46.9719

Para 𝑛 = 1000, tanto o vetor de médias X como a matriz de covariâncias amostrais 𝑆


têm seus valores bem próximos dos valores originais do vetor de médias 𝜇 e da matriz
de covariâncias Σ, respectivamente.

(d) Para os itens (a), (b) e (c) verificar a normalidade de cada amostra.
Usar:

function [ d2,q2 ] = normult( x )


%d2 = distâncias quadráticas
%q2 = qui-quadrado
%x= amostra multivariada
%função destinada a averiguar a normalidade multivariada
%Qual a dimensão de x?
[n,p]=size(x);
m=mean(x);
S=cov(x);
% cálculo das distâncias generalizadas, d2
for i=1:n
d2(i)=(x(i,:)-m)*inv(S)*(x(i,:)-m)’;
end
%ordem crescente
d2=sort(d2);
%calculo dos q2
for i=1:n
q2(i)=chi2inv(((i-0.5)/n),p);
end
q2
%grafico
plot(d2,q2,’*K’)
xlabel(’d^2’)
ylabel(’chi^2’)
grid

36
end

Para o item (a)

[ Ã )]
𝑗 − 12
𝑑2𝑗 , 𝜒26 =
10
q2 =
1.6354 2.6613 3.4546 4.1973 4.9519 5.7652 6.6948 7.8408 9.4461 12.5916
ans =
2.5302 3.3036 4.4551 4.8674 5.3506 5.6743 6.5874 6.6517 7.2706 7.3091

14

12

10

8
2
chi

0
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5
2
d

Para o item (b)

[ Ã )]
𝑗 − 12
𝑑2𝑗 , 𝜒26 =
100

>> normult(X2);
q2 =
0.6757 1.0160 1.2373 1.4140 1.5659 ... 14.4494 15.7774 18.5476
ans =
0.8834 0.9080 1.2236 1.6460 ... 13.0529 14.7759 16.1014 18.2444

37
20

18

16

14

12
2
chi
10

0
0 5 10 15 20
2
d

Para o item (c)

[ Ã )]
𝑗 − 12
𝑑2𝑗 , 𝜒26 =
1000
q2 =
0.2994 0.4394 0.5266 0.5940 0.6504 ... 19.4271 20.2494 21.4857 24.1028
ans =
0.4914 0.6709 0.7719 0.7788 0.9040 ... 19.6546 20.1195 20.5514 20.7033

25

20

15
2
chi

10

0
0 5 10 15 20 25
2
d

2. Uma amostra aleatória de 𝑛 = 70 indivíduos do vetor aleatório: X = [𝑋1 , 𝑋2 , 𝑋3 ]′ , onde:


𝑋1 = idade (anos), 𝑋2 = peso (kg) e 𝑋3 = altura (cm), é dada a seguir:

38
𝑋1 𝑋2 𝑋3

29 71 170
25 65 158
30 69 170
31 69 175
27 61 155
34 72 172
34 73 176
30 71 174
31 77 177
31 69 165
29 72 172
32 75 178
28 73 174
37 71 173
30 71 170
30 71 170
33 68 169
30 67 171
30 74 174
28 67 161
31 72 175
26 67 161
32 69 170
35 72 173
28 70 171
33 68 171
34 77 180
25 68 159
26 63 159
32 70 176
29 64 165

39
32 62 156
32 76 179
32 70 168
34 75 175
32 73 171
34 73 177
26 63 157
30 66 165
30 68 166
25 61 154
31 66 167
27 74 175
34 74 184
28 63 155
32 71 169
31 66 168
27 62 157
23 63 154
30 74 176
27 68 171
32 74 179
32 66 172
35 72 177
32 70 177
28 63 159
31 65 161
27 72 170
30 70 174
30 67 163
30 73 176
29 70 168
33 68 172
24 71 165

40
31 72 174
33 79 176
32 77 178
32 68 170
30 65 162
32 71 177

Verificar a normalidade do vetor aleatório X.


à )
1
2 𝑗 − 2
𝑑2𝑗 𝜒3
70

>> normult(X)
d2 =
Columns 1 through 11
0.2556 0.3173 0.3326 0.3326 0.4465 0.4606 0.6031 0.6491 0.7674 0.8370 1.0962

Columns 12 through 16
1.1121 1.1979 1.4144 1.5191 1.6057

Columns 17 through 27
1.6646 1.6969 1.7103 1.7106 1.7351 1.7416 1.7570 1.8258 1.8387 1.8826 1.9208

Columns 28 through 32
1.9396 1.9992 2.0073 2.0530 2.1582

Columns 33 through 43
2.3807 2.4055 2.4649 2.5009 2.5071 2.6760 2.7943 2.8713 2.9153 3.0750 3.0953

Columns 44 through 48
3.1039 3.1289 3.1679 3.1837 3.1871

Columns 49 through 59
3.2703 3.6031 3.6705 3.6872 3.7317 3.8597 3.9231 4.0450 4.2108 4.2481 4.5922

Columns 60 through 64
5.0297 5.3688 5.5681 5.6340 5.9425

Columns 65 through 70
6.0255 6.8449 7.7218 7.8503 9.3072 10.8191

41
14

12

10

8
2
chi

0
0 2 4 6 8 10 12
2
d

3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza,


𝑋1 , 𝑋2 , 𝑋3 e 𝑋4 , de cada uma das 𝑛 = 50 bordas de chapas. A primeira medida envolve
a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada
enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos.

>> Y=[1949 1842 1666 1437;1814 1719 1647 1388;1901 1893 1668 1
1898 1865 1635 1500;1867 1783 1614 1450;1944 1833 1579 1495
2022 1929 1760 1494]
Y =
1949 1842 1666 1437
1814 1719 1647 1388
1901 1893 1668 1527
2084 1916 1808 1489
1991 1894 1753 1481
2030 1919 1640 1491
2076 1934 1666 1586
1830 1816 1605 1444
1948 1855 1661 1436
1944 1782 1632 1415
1919 1799 1667 1523
1985 1903 1671 1571
2122 1912 1701 1592
1997 1881 1682 1447
2098 1913 1724 1517
1944 1807 1654 1457
2001 1849 1715 1500
1937 1842 1683 1450
2047 1937 1660 1482
1980 1882 1714 1474

42
2038 1977 1776 1569
2053 1920 1744 1607
1994 1820 1709 1488
2071 1944 1747 1517
2185 2017 1766 1597
2042 1942 1723 1501
1999 1924 1618 1576
2073 2009 1785 1586
2004 1875 1693 1448
1911 1859 1641 1444
2039 1923 1694 1565
2000 1871 1644 1507
1978 1993 1740 1534
2102 1950 1758 1470
2149 1921 1725 1547
1958 1963 1704 1532
2008 1921 1711 1483
1935 1804 1634 1424
2054 1964 1705 1521
1811 1848 1689 1406
2079 1904 1733 1516
2018 1917 1761 1519
2021 1906 1688 1558
2097 1901 1676 1528
1978 1946 1750 1486
1989 1893 1696 1558
1898 1865 1635 1500
1867 1783 1614 1450
1944 1833 1579 1495
2022 1929 1760 1494

Verificar a normalidade do vetor aleatório X = [𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 ]′ .


à )
1
𝑗 −
𝑑2𝑗 𝜒24 2
50

d2 q2
0.7185 0.2971
1.1178 0.5351
1.1429 0.7107
1.3561 0.8616
1.3988 0.9987
1.5479 1.1268
1.5542 1.2488
1.5869 1.3665
1.6037 1.4810
1.8767 1.5933
1.9487 1.7039

43
1.9792 1.8136
2.1394 1.9226
2.2011 2.0313
2.2267 2.1402
2.2886 2.2494
2.3910 2.3593
2.4764 2.4701
2.5079 2.5821
2.5619 2.6955
2.5626 2.8106
2.5688 2.9277
3.0283 3.0469
3.1915 3.1687
3.4710 3.2933
3.6621 3.4209
3.7459 3.5521
3.8643 3.6871
4.2957 3.8265
4.4187 3.9706
4.5159 4.1201
4.5229 4.2755
4.9482 4.4377
5.0309 4.6074
5.0393 4.7857
5.1432 4.9738
5.2379 5.1730
5.3510 5.3853
5.6204 5.6127
5.8405 5.8581
5.9066 6.1251
5.9812 6.4185
6.0689 6.7449
6.9324 7.1137
7.0571 7.5390
7.3377 8.0434
7.5011 8.6664
7.5174 9.4877
9.1262 10.7119
9.8881 13.2767

44
14

12

10

8
2
chi

0
0 2 4 6 8 10
2
d

4. Representar graficamente uma distribuição


⎡ ⎤ normal bivariada com vetor de médias 𝜇 =
4 0
[10 15]′ e matriz covariância Σ = ⎣ ⎦.
0 9
Como 𝜇1 = 10, 𝜇2 = 15, 𝜎1 = 2 e 𝜎2 = 3, temos

(𝑥1 − 10)2
1 −
𝑓 (𝑥1 ) = √ 𝑒 2 ⋅ 22
2 2𝜋
e
(𝑥2 − 15)2
1 −
𝑓 (𝑥2 ) = √ 𝑒 2 ⋅ 32
3 2𝜋

logo a f.d.p. conjunta é dada por:

𝑓 (𝑥1 , 𝑥2 ) = 𝑓 (𝑥1 ) ⋅ 𝑓 (𝑥2 )


(𝑥1 − 10)2 (𝑥2 − 15)2
1 − 1 −
= √ 𝑒 2 ⋅ 22 ⋅ √ 𝑒 2 ⋅ 32
2 2𝜋 ⎡ 3 2𝜋 ⎤
(𝑥1 − 10)2 (𝑥2 − 15)2
−⎣ + ⎦
1 8 18
= 𝑒
12𝜋
>> x1=3:0.1:17;
>> x2=10:0.1:24;
>> [x1,x2]=meshgrid(x1,x2);
>> z=(1/(12*pi))*exp(((-1/8)*(x1-10).^2)+(-(1/18)*(x2-15).^2));
>> mesh(x1,x2,z)

45
0.03

0.025

0.02

0.015

0.01

0.005

0
25
20
20
15
15 10
5
10 0

⎡ ⎤
1 −2 0
⎢ ⎥
⎢ ⎥
5. Seja 𝑋 ∼ 𝒩3 (𝜇, Σ) com 𝜇 = [−3, 1, 4]′ e Σ = ⎢ −2 5 0 ⎥. Quais das seguintes var-
⎣ ⎦
0 0 2
iáveis são independentes? Justifique.

Substituir a matriz de covariância pela matriz de correlação

>> S=[1 -2 0;-2 5 0;0 0 2]


S =
1 -2 0
-2 5 0
0 0 2
>> V=diag(diag(S))
V =
1 0 0
0 5 0
0 0 2
>> RV=sqrtm(V)
RV =
1.0000 0 0
0 2.2361 0

46
0 0 1.4142
>> IRV=inv(RV)
IRV =
1.0000 0 0
0 0.4472 0
0 0 0.7071
>> R=IRV*S*IRV
R =
1.0000 -0.8944 0
-0.8944 1.0000 0
0 0 1.0000

A matriz de correlação nos dá justamente a relação de dependência entre as variáveis, logo

(a) 𝑋1 e 𝑋2 são dependestes, pois 𝜌12 = 𝜌21 ∕= 0.

(b) 𝑋2 e 𝑋3 são independentes, pois 𝜌23 = 𝜌32 = 0.


⎡ ⎤ ⎡ ⎤
𝜇1 𝜎12 𝜎12 𝜎13
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
6. Seja 𝑋 ∼ 𝒩3 (𝜇, Σ) com 𝜇 = ⎢ 𝜇2 ⎥ e Σ = ⎢ 𝜎21 𝜎22 𝜎23 ⎥. Determine a f.d.p.
⎣ ⎦ ⎣ ⎦
𝜇3 𝜎31 𝜎32 𝜎32
𝑓 (𝑥1 , 𝑥2 , 𝑥3 ) padronizada.
𝜎12 𝜎13
Como 𝜌12 = e 𝜌13 = ∴ 𝜎12 = 𝜎21 = 𝜌12 𝜎1 𝜎2 , 𝜎13 = 𝜎31 = 𝜌13 𝜎1 𝜎3
𝜎1 𝜎2 𝜎1 𝜎3 ⎡ ⎤
𝜎12 𝜌12 𝜎1 𝜎2 𝜌13 𝜎1 𝜎3
⎢ ⎥
⎢ 2 ⎥
e 𝜎23 = 𝜎32 = 𝜌23 𝜎2 𝜎3 , tem-se a matriz de correlação: 𝑅 = ⎢ 𝜌12 𝜎1 𝜎2 𝜎2 𝜌23 𝜎2 𝜎3 ⎥
⎣ ⎦
𝜌13 𝜎1 𝜎3 𝜌23 𝜎2 𝜎3 𝜎32

à 3 ( )2 )
1 1∑ 𝑥𝑖 − 𝑢𝑖
𝑓 (𝑥1 , 𝑥2 , 𝑥3 ) = √ exp −
(2𝜋)3 𝜎1 𝜎2 𝜎3 2 𝜎𝑖
𝑖=1

ou em notação matricial
[ ]
1 1 ′ −1
𝑓 (𝑥) = √ 1 exp − (𝑥 − 𝜇) Σ (𝑥 − 𝜇)
(2𝜋)3 ∣Σ∣ 2 2

𝑥𝑖 − 𝜇𝑖
A fdp normal padronizada pode ser obtida fazendo-se 𝑧𝑖 =
𝜎𝑖

47
3 Lista 3 - Inferência sobre o vetor de médias e MANOVA

1. Para o problema 2 da lista 2, testar a hipótese: 𝐻0 : 𝜇 = [30 60 170]′ contra a alternativa


𝐻1: 𝜇 ∕= [30 60 170]′ , aos níveis de significância:

(a) de 1%;
Temos que 𝐻0 : 𝜇 = [30 60 170]′ , 𝐻1: 𝜇 ∕= [30 60 170]′ , 𝑛 = 70, assim

>> X=[ 29 71 170; 25 65 158; 30 69 170;31 69 175; 27 61 155;


34 72 172;
34 73 176; 30 71 174; 31 77 177; 31 69 165; 29 72 172;
32 75 178; 28 73 174; 37 71 173; 30 71 170; 30 71 170;
33 68 169; 30 67 171; 30 74 174; 28 67 161; 31 72 175;
26 67 161; 32 69 170; 35 72 173; 28 70 171; 33 68 171;
34 77 180; 25 68 159; 26 63 159; 32 70 176; 29 64 165;
32 62 156; 32 76 179; 32 70 168; 34 75 175; 32 73 171;
34 73 177; 26 63 157; 30 66 165; 30 68 166; 25 61 154;
31 66 167; 27 74 175; 34 74 184; 28 63 155; 32 71 169;
31 66 168; 27 62 157; 23 63 154; 30 74 176; 27 68 171;
32 74 179; 32 66 172; 35 72 177; 32 70 177; 28 63 159;
31 65 161; 27 72 170; 30 70 174; 30 67 163; 30 73 176;
29 70 168; 33 68 172; 24 71 165; 31 72 174; 33 79 176;
32 77 178; 32 68 170; 30 65 162; 32 71 177];
>> mi=mean(X)
mi =
30.2857 69.5286 169.4000
Sem o uso do computador usaríamos assim:
>> S=(1/2)*((X(1,:)-mi)’*(X(1,:)-mi)+(X(2,:)-mi)’*(X(2,:)-mi)+(X(3,:)-mi)’*(X(3,:)-mi))...
Com o uso do Matlab, faz-se:
>> S=cov(X)
S =
8.2070 6.1222 13.9855
6.1222 17.9340 27.0464
13.9855 27.0464 53.6638
>> InvS=inv(S)
InvS =
0.2292 0.0494 -0.0846
0.0494 0.2430 -0.1354
-0.0846 -0.1354 0.1089

Logo

>> T2=70*((mi-([30 60 170]))*InvS*(mi-([30 60 170]))’)


T2 =
1.6779e+003

48
Como

>> F=(((70-1)*3)/(70-3))*finv(0.99,3,67)
F =
12.6306

Como 𝑇 2 é maior que 𝐹 então, rejeita-se 𝐻0 , portanto 𝜇 é diferente de [30 60 170]′

(b) de 5%.

>> F=(((70-1)*3)/(70-3))*finv(0.95,3,67)
F =
8.4702

Com 5% de significância, temos que, 𝐹 = 12.6306, logo 𝑇 2 > 𝐹2,1 (0, 05), sendo assim,
rejeitamos a hipótese de que 𝜇 = 𝜇0 .

2. A transpiração de 20 mulheres sadias foram analisadas. Três componentes, 𝑋1 = taxa de


suor, 𝑋2 = conteúdo de sódio e 𝑋3 = conteúdo de potássio, foram medidos, e os resultados,
aos quais chamamos “dados do suor”, são apresentados na tabela seguinte:

Identificação 𝑋1 𝑋2 𝑋3

1 3.7 48.5 9.3


2 5.7 65.1 8
3 3.8 47.2 10.9
4 3.2 53.2 12
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1

49
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4

Testar a hipótese: 𝐻0 : 𝜇 = [4 50 10]’ contra a alternativa 𝐻1 : 𝜇 ∕= [4 50 10]’, ao nível de


significância de 1%.

>> M=[3.7 48.5 9.3;5.7 65.1 8.0;3.8 47.2 10.9;3.2 53.2 12.0;3.1 55.5 9.7;
4.6 36.1 7.9;2.4 24.8 14.0;7.2 33.1 7.6;6.7 47.4 8.5;5.4 54.1 11.3;
3.9 36.9 12.7;4.5 58.8 12.3;3.5 27.8 9.8;4.5 40.2 8.4;1.5 13.5 10.1;
8.5 56.4 7.1;4.5 71.6 8.2;6.5 52.8 10.9;4.1 44.1 11.2;5.5 40.9 9.4];

M =
3.7000 48.5000 9.3000
5.7000 65.1000 8.0000
3.8000 47.2000 10.9000
3.2000 53.2000 12.0000
3.1000 55.5000 9.7000
4.6000 36.1000 7.9000
2.4000 24.8000 14.0000
7.2000 33.1000 7.6000
6.7000 47.4000 8.5000
5.4000 54.1000 11.3000
3.9000 36.9000 12.7000
4.5000 58.8000 12.3000
3.5000 27.8000 9.8000
4.5000 40.2000 8.4000
1.5000 13.5000 10.1000
8.5000 56.4000 7.1000
4.5000 71.6000 8.2000
6.5000 52.8000 10.9000
4.1000 44.1000 11.2000
5.5000 40.9000 9.4000
>> Vmi=mean(M)

50
Vmi =
4.6400 45.4000 9.9650
>> S=cov(M)
S =
2.8794 10.0100 -1.8091
10.0100 199.7884 -5.6400
-1.8091 -5.6400 3.6277
>> InvS=inv(S)
InvS =
0.5862 -0.0221 0.2580
-0.0221 0.0061 -0.0016
0.2580 -0.0016 0.4018
>> T2=20*((Vmi-H0)*InvS*(Vmi-H0)’)
T2 =
9.7388

Sabendo que
𝐻0 : 𝜇 = [4 50 10]′ ,
𝐻1: 𝜇 ∕= [4 50 10]′ ,
𝑛 = 20,

>> F=(((20-1)*3)/(20-3))*finv(0.99,3,17)
F =
17.3850

(𝑛 − 1) ⋅ 𝑝 (𝑛 − 1) ⋅ 𝑝
Temos que ℱ3,17 (0.01) = 17.3850, logo 𝑇 2 < ℱ3,17 (0.01), sendo assim,
𝑛−𝑝 𝑛−𝑝
aceita-se 𝐻0 , ou seja, com 1% de significância aceitamos a hipótese de que 𝜇 = [4 50 10]′ .

3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza,


𝑋1 , 𝑋2 , 𝑋3 e 𝑋4 , de cada uma das 𝑛 = 30 bordas de chapas. A primeira medida envolve
a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada
enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos.

Observações 𝑋1 𝑋2 𝑋3 𝑋4

51
1 1874 1722 1420 1371
2 1535 1393 1299 1220
3 1754 1566 1296 1309
4 2211 2069 1742 1599
5 1977 1903 1533 1545
6 2076 1832 1524 1513
7 2189 1972 1633 1620
8 1576 1376 1245 1184
9 1871 1732 1542 1408
10 1859 1520 1436 1382
11 1796 1687 1586 1417
12 1964 1783 1555 1550
13 2304 2083 1668 1651
14 1992 1874 1623 1605
15 2245 1997 1773 1711
16 1861 1669 1531 1339
17 2002 1717 1622 1422
18 1843 1553 1580 1378
19 2117 1856 1612 1542
20 1950 1775 1597 1479
21 2096 1848 1654 1584
22 2134 1829 1606 1519
23 1984 1857 1826 1525
24 2178 1909 1683 1585
25 2462 2203 1783 1758
26 2105 1892 1849 1614
27 1998 1781 1625 1544
28 2183 1986 1626 1622
29 2011 1792 1664 1445
30 1779 1496 1534 1389

Testar a hipótese: 𝐻0 : 𝜇 = [2000 1700 1500 1400]’, ao nível de significância de 5%.

Temos que

52
𝐻0 : 𝜇 = [2000 1700 1500 1400]’,
𝐻1: 𝜇 ∕= [2000 1700 1500 1400]′ ,
𝑛 = 30,

>> Mi_O=mean(O)
Media =
1.0e+003 *
1.9975 1.7891 1.5889 1.4943
>> S=cov(O)
S =
1.0e+004 *
4.1962 3.8593 2.3421 2.6239
3.8593 3.9383 2.2569 2.5497
2.3421 2.2569 2.0993 1.6417
2.6239 2.5497 1.6417 1.8725
>> IS=inv(S)
IS =
1.0e-003 *
0.2922 -0.1788 -0.0126 -0.1549
-0.1788 0.3241 0.0007 -0.1914
-0.0126 0.0007 0.1523 -0.1169
-0.1549 -0.1914 -0.1169 0.6336
>> T2=30*((Media-([2000 1700 1500 1400]))*IS*(Media-([2000 1700 1500 1400]))’)
T2 =
132.1786
>> F=(((30-1)*4)/(30-4))*finv(0.95,4,26)
F =
12.2362

(𝑛 − 1) ⋅ 𝑝 (𝑛 − 1) ⋅ 𝑝
Temos que ℱ4,26 (0.05) = 12.2362, logo 𝑇 2 > ℱ4,26 (0.05), sendo assim,
𝑛−𝑝 𝑛−𝑝
rejeita-se 𝐻0 , ou seja, com 5% de significância rejeitamos a hipótese de que 𝜇 = 𝜇0 .

4. As amostras de tamanhos 𝑛1 = 60 e 𝑛2 = 75 foram obtidas das avaliações de 4 disciplinas


(Matemática, História, Geografia e Ciências) das Escolas A e B, resultando nos vetores

53
[ ]′ [ ]′
de médias: x̄1 = 5.0 7.0 6.5 7.5 e x̄2 = 6.0 6.5 7.5 6.0 e nas matrizes de
covariâncias:
⎡ ⎤ ⎡ ⎤
1.00 0.20 0.30 0.28 1.00 0.18 0.24 0.24
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎢ 0.20 0.25 0.27 0.12 ⎥ ⎢ 0.18 0.36 0.19 0.17 ⎥
𝑆1 = ⎢

⎥ e 𝑆2 = ⎢
⎥ ⎢


⎢ 0.30 0.27 0.36 0.12 ⎥ ⎢ 0.24 0.19 0.16 0.08 ⎥
⎣ ⎦ ⎣ ⎦
0.28 0.12 0.12 0.16 0.24 0.17 0.08 0.16

Testar a hipótese:
𝐻0 : 𝜇1 = 𝜇2 contra a alternativa
𝐻1 : 𝜇1 ∕= 𝜇2 ,
ao nível de significância de 5%, considerando que Σ1 = Σ2 .

>> x1=[5 7 6.5 7.5]


x1 =
5.0000 7.0000 6.5000 7.5000
>> x2=[6 6.5 7.5 6]
x2 =
6.0000 6.5000 7.5000 6.0000
>> S1=[];
>> S2=[];
Calcular a matriz de covariância ponderada
>> Sp=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)
Sp =
1.0000 0.1889 0.2666 0.2577
0.1889 0.3112 0.2255 0.1478
0.2666 0.2255 0.2487 0.0977
0.2577 0.1478 0.0977 0.1600
>> T2=(x1-x2)*(inv(9/300*(Sp)))*(x1-x2)’
T2 =
1.4616e+003
>> Fteste=(T2*(120+100-3-1))/((120+100-2)*3)
F =
9.6959
>> F=finv(0.95,4,130)

54
F =
2.4414

(𝑛1 + 𝑛2 − 2) ⋅ 𝑝 (𝑛1 + 𝑛2 − 2) ⋅ 𝑝
Temos que ℱ4,130 (0.05) = 2.4414, logo 𝐹𝑒𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑜 > ℱ4,130 (0.05),
𝑛1 + 𝑛2 − 𝑝 − 1 𝑛1 + 𝑛2 − 𝑝 − 1
sendo assim, rejeita-se 𝐻0 , ou seja, com 5% de significância a hipótese 𝐻0 : 𝑚𝑢1 = 𝜇2 é
rejeitada.

5. Observações com duas respostas (variáveis) foram obtidas para três tratamentos. Os vetores
observados foram:
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
6 5 8 4 7 6
Tratamento 1: ⎣ ⎦, ⎣ ⎦, ⎣ ⎦, ⎣ ⎦, ⎣ ⎦, ⎣ ⎦;
7 9 6 9 9 8
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
3 1 2 1
Tratamento 2: ⎣ ⎦, ⎣ ⎦, ⎣ ⎦, ⎣ ⎦;
3 6 3 4
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
2 5 3 2 4
Tratamento 3: ⎣ ⎦, ⎣ ⎦, ⎣ ⎦, ⎣ ⎦, ⎣ ⎦.
3 1 1 3 2

Aplicar a MANOVA para testar a igualdade de tratamentos, usando um nível de significân-


cia de 5%. Repita o teste usando o qui-quadrado aproximado de Bartlett. Compare os
resultados.

>> T1=[6 7;5 9;8 6;4 9;7 9;6 8]


T1 =
6 7
5 9
8 6
4 9
7 9
6 8
>> T2=[3 3;1 6;2 3;1 4]
T2 =
3 3
1 6
2 3
1 4
>> T3=[2 3;5 1;3 1;2 3;4 2]

55
T3 =
2 3
5 1
3 1
2 3
4 2
Calcular a média de cada amostra
>> x1=mean(T1)
x1 =
6 8
>> x2=mean(T2)
x2 =
1.7500 4.0000
>> x3=mean(T3)
x3 =
3.2000 2.0000
Calcular a média ponderada global
>> xg=(6*x1+4*x2+5*x3)/(15)
xg =
3.9333 4.9333
>> B=6*(x1-xg)’*(x1-xg)+4*(x2-xg)’*(x2-xg)+5*(x3-xg)’*(x3-xg)
B =
47.3833 56.9333
56.9333 102.9333

>> W=(T1(1,:)-x1)’*(T1(1,:)-x1)+(T1(2,:)-x1)’*(T1(2,:)-x1)+(T1(3,:)-x1)’*(T1(3,:)-x1)+
(T1(4,:)-x1)’*(T1(4,:)-x1)+(T1(5,:)-x1)’*(T1(5,:)-x1)+(T1(6,:)-x1)’*(T1(6,:)-x1)+
(T2(1,:)-x2)’*(T2(1,:)-x2)+(T2(2,:)-x2)’*(T2(2,:)-x2)+(T2(3,:)-x2)’*(T2(3,:)-x2)+
(T2(4,:)-x2)’*(T2(4,:)-x2)+(T3(1,:)-x3)’*(T3(1,:)-x3)+(T3(2,:)-x3)’*(T3(2,:)-x3)+
(T3(3,:)-x3)’*(T3(3,:)-x3)+(T3(4,:)-x3)’*(T3(4,:)-x3)+(T3(5,:)-x3)’*(T3(5,:)-x3)
W =
19.5500 -13.0000
-13.0000 18.0000

>> B+W
ans =
66.9333 43.9333

56
43.9333 120.9333
Lambda de Wilks
>> L=det(W)/(det(B+W))
L =
0.0297
>> Fteste=((15-3-1)/(3-1))*((1-sqrt(L))/(sqrt(L)))
Fteste =
26.4300
>> F=finv(0.95,4,22)
F =
2.8167

Como 𝐹2(𝑔−1),2(𝑛−𝑔−1) = 𝐹4,22 = 2.8167 < 𝐹𝑒𝑠𝑡𝑎𝑡𝑠𝑡𝑖𝑐𝑜 = 26.4300, então pelo menos um vetor
de médias é diferente dos demais.
𝑝+𝑔
Se fôssemos fazer a comparação por Barlett, teríamos (𝑛 − 1 − 2 ) ln Λ 𝑋𝑝2 (𝑔 − 1)

>> B=(15-1-(2+3))*log(L)
B =
-31.6584
>> X=chi2inv(0.95,4)
X =
9.4877

6. Um pesquisador deseja testar a igualdade dos vetores médios de duas populações. Os re-
sultados de suas pesquisas para o vetor aleatório X = [𝑋1 , 𝑋2 , 𝑋3 ]′ forneceu as estatísticas:

⎡ ⎤ ⎡ ⎤
44.3 22.5 4.4 −3.9
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
𝑛1 = 120, X̄1 = ⎢ 53.8 ⎥ , 𝑆1 = ⎢ 4.4 122.6 −17.5 ⎥
⎣ ⎦ ⎣ ⎦
60.5 −3.9 −17.5 214.7

⎡ ⎤ ⎡ ⎤
49.2 95.7 10.2 −50.7
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
𝑛2 = 100, X̄2 = ⎢ 56.5 ⎥ , 𝑆2 = ⎢ 10.2 152.7 −7.1 ⎥
⎣ ⎦ ⎣ ⎦
65.2 −50.7 −7.1 302.3

Qual seria sua conclusão ao nível de significância de 1%? Considerar que Σ1 = Σ2 .


𝐻0 : 𝜇1 = 𝜇2

57
𝐻0 : 𝜇1 ∕= 𝜇2

>> x1=[44.3 53.8 60.5]


x1 =
44.3000 53.8000 60.5000
>> x2=[49.2 56.5 65.2]
x2 =
49.2000 56.5000 65.2000
>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7]
S1 =
s 22.5000 4.4000 -3.9000
4.4000 122.6000 -17.5000
-3.9000 -17.5000 214.7000
>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3]
S2 =
95.7000 10.2000 -50.7000
10.2000 152.7000 -7.1000
-50.7000 -7.1000 302.3000
>> Sp=(((120-1)*S1)+((100-1)*S2))/(120+100-2)
Sp =
55.7422 7.0339 -25.1532
7.0339 136.2693 -12.7771
-25.1532 -12.7771 254.4817
>> T2=(x1-x2)*(inv(((1/120)+(1/100))*(Sp)))*(x1-x2)’
T2 =
36.4501
>> Fteste=(T2*(120+100-3-1))/((120+100-2)*3)
Fteste =
12.0386
>> F=finv(0.99,3,216)
F =
3.8735

Sendo 𝐹𝑒𝑠𝑡𝑎𝑡𝑠𝑡𝑖𝑐𝑜 = 12.0386 maior que 𝐹3,216 (0.01) = 3.8735, então rejeita-se a hipótese

58
𝐻0 : 𝜇1 = 𝜇2 .

Considerar que Σ1 ∕= Σ2 . 𝐻0 : 𝜇1 = 𝜇2
𝐻0 : 𝜇1 ∕= 𝜇2

>> x1=[44.3 53.8 60.5]


x1 =
44.3000 53.8000 60.5000
>> x2=[49.2 56.5 65.2]
x2 =
49.2000 56.5000 65.2000
>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7]
S1 =
22.5000 4.4000 -3.9000
4.4000 122.6000 -17.5000
-3.9000 -17.5000 214.7000
>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3]
S2 =
95.7000 10.2000 -50.7000
10.2000 152.7000 -7.1000
-50.7000 -7.1000 302.3000
>> (x1-x2)*inv(((1/120)*S1)+((1/100)*S2))*(x1-x2)’
ans =
33.9250
>> X=chi2inv(0.99,3)
X =
11.3449

Ao nível de significância de 1%, considerando Σ1 ∕= Σ2 , rejeita-se a hipótese 𝐻0 onde


considera-se 𝜇1 = 𝜇2

7. Para o problema 1 da lista 2, testar a igualdade dos vetores médios resultantes das amostras
aleatórias obtidas (𝑛1 = 10, 𝑛2 = 100 e 𝑛3 = 1000). Qual seria sua conclusão ao nível de
significância de 5%? 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 𝐻1 : Algum dos vetores difere dos outros

Sigma =

59
15.0000 1.5000 3.0000 2.3000 5.1000 0.9000
1.5000 13.0000 2.7000 3.6000 4.7000 2.8000
3.0000 2.7000 13.9000 5.2000 6.2000 3.2000
2.3000 3.6000 5.2000 25.0000 3.1000 5.2000
5.1000 4.7000 6.2000 3.1000 36.0000 4.8000
0.9000 2.8000 3.2000 5.2000 4.8000 48.0000
>> mi=[4.5 6.0 8.5 10.0 12.5 15.0]
mi =
4.5000 6.0000 8.5000 10.0000 12.5000 15.0000
>> mx1=[6.9178 8.7686 10.6260 9.3165 15.7175 14.9356]
mx1 =
6.9178 8.7686 10.6260 9.3165 15.7175 14.9356
>> mx2=[4.5417 7.0864 8.6808 10.0058 13.0134 14.8672]
mx2 =
4.5417 7.0864 8.6808 10.0058 13.0134 14.8672
>> mx3=[4.4758 6.1065 8.5225 9.8296 12.4343 14.8078]
mx3 =
4.4758 6.1065 8.5225 9.8296 12.4343 14.8078
>> X1=mvnrnd(mi,Sigma,10);
>> S1=cov(X1);
>> X2=mvnrnd(mi,Sigma,100);
>> S2=cov(X2);
>> X3=mvnrnd(mi,Sigma,1000);
>> S3=cov(X3);
>> Sp=((10-1)*S1+(100-1)*S2+(1000-1)*S3)/(10+100+1000-3)
Sp =
15.6287 1.9193 3.0319 1.4114 5.1191 -0.5561
1.9193 13.0521 2.6940 3.2722 3.9318 3.3664
3.0319 2.6940 13.2001 4.4627 6.9650 2.0574
1.4114 3.2722 4.4627 24.2386 2.3232 5.1255
5.1191 3.9318 6.9650 2.3232 35.6304 4.9712
-0.5561 3.3664 2.0574 5.1255 4.9712 46.5597
>> X=[X1;X2;X3];
>> n=[10 100 1000]
n =
10 100 1000
>> manova(X,n)
***********************************
* AMOSTRAS MULTIVARIADAS - GRUPOS *
***********************************
***********************************
* E MÉDIAS DOS GRUPOS *
***********************************
X1 =
6.5824 1.3693 10.4200 14.0294 11.8459 9.3273
11.6026 17.5895 7.6237 7.1229 15.6737 16.4204
-4.2485 7.7255 9.8072 5.0986 13.0840 6.6432
7.8392 6.1079 14.9699 8.4866 17.3463 8.2866

60
5.7346 8.6856 10.9781 -2.5282 9.6254 13.2773
-0.5647 4.7588 11.0591 17.0322 11.5824 26.7321
2.8207 5.3871 10.6869 12.0000 11.7389 10.2523
5.8270 11.4728 8.6750 7.6792 17.8671 18.2602
18.3591 12.4369 13.2687 20.2792 25.2909 17.1399
15.2260 12.1528 8.7717 3.9651 23.1206 23.0164
xm1 =
6.9178
8.7686
10.6260
9.3165
15.7175
14.9356
xm2 =
4.1854
5.7971
8.0434
9.6145
12.3953
14.9631
xm3 =
4.5368
6.1124
8.6809
10.1606
12.5119
14.9485
**********************************
* FONTE DE VARIAÇÃO: TRATAMENTOS *
**********************************
**********************************
* MATRIZ B *
**********************************
68.9232 74.2750 68.2612 -1.5521 80.6297 -0.8068
74.2750 80.4771 71.5727 -5.4796 88.9140 -0.7975
68.2612 71.5727 76.7049 15.8803 70.5974 -1.1282
-1.5521 -5.4796 15.8803 33.3743 -19.5365 -0.6119
80.6297 88.9140 70.5974 -19.5365 103.7436 -0.6089
-0.8068 -0.7975 -1.1282 -0.6119 -0.6089 0.0213
**********************************
* GRAUS DE LIBERDADE *
**********************************
12

**********************************
* FONTE DE VARIAÇÃO: RESIDUAL *
**********************************
* MATRIZ W *

61
**********************************
1.0e+004 *
1.7301 0.2125 0.3356 0.1562 0.5667 -0.0616
0.2125 1.4449 0.2982 0.3622 0.4353 0.3727
0.3356 0.2982 1.4613 0.4940 0.7710 0.2278
0.1562 0.3622 0.4940 2.6832 0.2572 0.5674
0.5667 0.4353 0.7710 0.2572 3.9443 0.5503
-0.0616 0.3727 0.2278 0.5674 0.5503 5.1542
**********************************
* GRAUS DE LIBERDADE *
**********************************
2204
**********************************
* FONTE DE VARIAÇÃO: TOTAL *
**********************************
**********************************
* MATRIZ B + W *
**********************************
1.0e+004 *
1.7370 0.2199 0.3425 0.1561 0.5747 -0.0616
0.2199 1.4529 0.3054 0.3617 0.4441 0.3726
0.3425 0.3054 1.4689 0.4956 0.7781 0.2276
0.1561 0.3617 0.4956 2.6865 0.2552 0.5673
0.5747 0.4441 0.7781 0.2552 3.9547 0.5503
-0.0616 0.3726 0.2276 0.5673 0.5503 5.1542
**********************************
* GRAUS DE LIBERDADE *
**********************************
2216
**********************************
* LÂMBDA DE WILKS *
**********************************
0.9864
**********************************
* ESTATÍSTICA DO TESTE *
**********************************
F =
1.2615
**********************************
* VALOR DE p *
**********************************
0.2349

Como o teste 𝑝 = 0.2349 > 0.05 então, aceita-se a hipótese 𝐻0 : em que considera-se a
igualdade dos vetores médios resultantes das amostras aleatórias.

8. A tabela seguinte mostra 9 variáveis referentes a 5 espécies de cães da Tailândia.

62
Ident. 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9

Cães Modernos da Tailândia


1 123 10.1 23 23 19 7.8 32 33 5.6
2 137 9.6 19 22 19 7.8 32 40 5.8
3 121 10.2 18 21 21 7.9 35 38 6.2
4 130 10.7 24 22 20 7.9 32 37 5.9
5 149 12 25 25 21 8.4 35 43 6.6
6 125 9.5 23 20 20 7.8 33 37 6.3
7 126 9.1 20 22 19 7.5 32 35 5.5
8 125 9.7 19 19 19 7.5 32 37 6.2
9 121 9.6 22 20 18 7.6 31 35 5.3
10 122 8.9 10 20 19 7.6 31 35 5.7
11 115 9.3 19 19 20 7.8 33 34 6.5
12 112 9.1 19 20 19 6.6 30 33 5.1
13 124 9.3 21 21 18 7.1 30 36 5.5
14 128 9.6 22 21 19 7.5 32 38 5.8
15 130 8.4 23 20 19 7.3 31 40 5.8
16 127 10.5 25 23 20 8.7 32 35 6.1
Chacais Dourados
1 120 8.2 18 17 18 7 32 35 5.2
2 107 7.9 17 17 20 7 32 34 5.3
3 110 8.1 18 16 19 7.1 31 32 4.7
4 116 8.5 20 18 18 7.1 32 33 4.7
5 114 8.2 19 18 19 7.9 32 33 5.1
6 111 8.5 19 16 18 7.1 30 33 5
7 113 8.5 17 18 19 7.1 30 34 4.6
8 117 8.7 20 17 18 7 30 34 5.2
9 114 9.4 21 19 19 7.5 31 35 5.3
10 112 8.2 19 17 19 6.8 30 34 5.1
11 110 8.5 18 17 19 7 31 33 4.9
12 111 7.7 20 18 18 6.7 30 32 4.5
13 107 7.2 17 16 17 6 28 35 4.7
14 108 8.2 18 16 17 6.5 29 33 4.8

63
15 110 7.3 19 15 17 6.1 30 33 4.5
16 105 8.3 19 17 17 6.5 29 32 4.5
17 107 8.4 18 17 18 6.2 29 31 4.3
18 106 7.8 19 18 18 6.2 31 32 4.4
19 111 8.4 17 16 18 7 30 34 4.7
20 111 7.6 19 17 18 6.5 30 35 4.6
Cuons
1 123 9.7 22 21 20 7.8 27 36 6.1
2 135 11.8 25 21 23 8.9 31 38 7.1
3 138 11.4 25 25 22 9 30 38 7.3
4 141 10.8 26 25 21 8.1 29 39 6.6
5 135 11.2 25 25 21 8.5 29 39 6.7
6 136 11 22 24 22 8.1 31 39 6.8
7 131 10.4 23 23 23 8.7 30 36 6.8
8 137 10.6 25 24 21 8.3 28 38 6.5
9 135 10.5 25 25 21 8.4 29 39 6.9
10 131 10.9 25 24 21 8.5 29 35 6.2
11 130 11.3 22 23 21 8.7 29 37 7
12 144 10.8 24 26 22 8.9 30 42 7.1
13 139 10.9 26 23 22 8.7 30 39 6.9
14 123 9.8 23 22 10 8.1 26 34 5.6
15 137 11.3 27 26 23 8.7 30 39 6.5
16 128 10 22 23 22 8.7 29 37 6.6
17 122 9.9 22 22 20 8.2 26 36 5.7
Lobos Indianos
1 167 11.5 29 28 25 9.5 41 45 7.2
2 164 12.3 27 26 25 10 42 47 7.9
3 150 11.5 21 24 25 9.3 41 46 8.5
4 145 11.3 28 24 24 9.2 36 41 7.2
5 177 12.4 31 27 27 10.5 43 50 7.9
6 166 13.4 32 27 26 9.5 40 47 7.3
7 164 12.1 27 24 25 9.9 42 45 8.3
8 165 12.6 30 26 25 7.7 40 43 7.9

64
9 131 11.8 20 24 23 8.8 38 40 6.5
10 163 10.8 27 24 24 9.2 39 48 7
11 164 10.7 24 23 26 9.5 43 47 7.6
12 141 10.4 20 23 23 8.9 38 43 6
13 148 10.6 26 21 24 8.9 39 40 7
14 158 10.7 25 25 24 9.8 41 45 7.4
Cães Pré-históricos Tailandeses
1 112 10.1 17 18 19 7.7 31 33 5.8
2 115 10 18 23 20 7.8 33 36 6
3 136 11.9 22 25 21 8.5 36 39 7
4 111 9.9 19 20 18 7.3 29 34 5.3
5 130 11.2 23 27 20 9.1 35 35 6.6
6 125 10.7 19 26 20 8.4 33 37 6.3
7 132 9.6 19 20 19 9.7 35 38 6.6
8 121 10.7 21 23 19 7.9 32 35 6
9 122 9.8 22 23 18 7.9 32 35 6.1
19 124 9.5 20 24 19 7.6 32 37 6

Nota: As variáveis são 𝑋1 = comprimento da mandíbula; 𝑋2 = largura da mandíbula abaixo do

primeiro molar; 𝑋3 = largura do côndilo articular; 𝑋4 = altura da mandíbula abaixo do primeiro

molar; 𝑋5 = comprimento do primeiro molar; 𝑋6 = largura do primeiro molar; 𝑋7 = comprimento

do primeiro ao terceiro molar, inclusive (primeiro ao segundo para o cuon); 𝑋8 = comprimento do

primeiro ao quarto premolar, inclusive; 𝑋9 = largura do canino inferior.

(a) Através da MANOVA, testar a existência de diferenças significativas, ao nível de


significância de 5%, entre tratamentos para as cinco raças de cães.
>> Y=[Y1;Y2;Y3;Y4;Y5]
Y =
123.0000 10.1000 23.0000 23.0000 19.0000 7.8000 32.0000 33.0000 5.6000
137.0000 9.6000 19.0000 22.0000 19.0000 7.8000 32.0000 40.0000 5.8000
121.0000 10.2000 18.0000 21.0000 21.0000 7.9000 35.0000 38.0000 6.2000
130.0000 10.7000 24.0000 22.0000 20.0000 7.9000 32.0000 37.0000 5.9000
149.0000 12.0000 25.0000 25.0000 21.0000 8.4000 35.0000 43.0000 6.6000
125.0000 9.5000 23.0000 20.0000 20.0000 7.8000 33.0000 37.0000 6.3000
126.0000 9.1000 20.0000 22.0000 19.0000 7.5000 32.0000 35.0000 5.5000
125.0000 9.7000 19.0000 19.0000 19.0000 7.5000 32.0000 37.0000 6.2000
121.0000 9.6000 22.0000 20.0000 18.0000 7.6000 31.0000 35.0000 5.3000
122.0000 8.9000 10.0000 20.0000 19.0000 7.6000 31.0000 35.0000 5.7000

65
115.0000 9.3000 19.0000 19.0000 20.0000 7.8000 33.0000 34.0000 6.5000
112.0000 9.1000 19.0000 20.0000 19.0000 6.6000 30.0000 33.0000 5.1000
124.0000 9.3000 21.0000 21.0000 18.0000 7.1000 30.0000 36.0000 5.5000
128.0000 9.6000 22.0000 21.0000 19.0000 7.5000 32.0000 38.0000 5.8000
130.0000 8.4000 23.0000 20.0000 19.0000 7.3000 31.0000 40.0000 5.8000
127.0000 10.5000 25.0000 23.0000 20.0000 8.7000 32.0000 35.0000 6.1000
120.0000 8.2000 18.0000 17.0000 18.0000 7.0000 32.0000 35.0000 5.2000
107.0000 7.9000 17.0000 17.0000 20.0000 7.0000 32.0000 34.0000 5.3000
110.0000 8.1000 18.0000 16.0000 19.0000 7.1000 31.0000 32.0000 4.7000
116.0000 8.5000 20.0000 18.0000 18.0000 7.1000 32.0000 33.0000 4.7000
114.0000 8.2000 19.0000 18.0000 19.0000 7.9000 32.0000 33.0000 5.1000
111.0000 8.5000 19.0000 16.0000 18.0000 7.1000 30.0000 33.0000 5.0000
113.0000 8.5000 17.0000 18.0000 19.0000 7.1000 30.0000 34.0000 4.6000
117.0000 8.7000 20.0000 17.0000 18.0000 7.0000 30.0000 34.0000 5.2000
114.0000 9.4000 21.0000 19.0000 19.0000 7.5000 31.0000 35.0000 5.3000
112.0000 8.2000 19.0000 17.0000 19.0000 6.8000 30.0000 34.0000 5.1000
110.0000 8.5000 18.0000 17.0000 19.0000 7.0000 31.0000 33.0000 4.9000
111.0000 7.7000 20.0000 18.0000 18.0000 6.7000 30.0000 32.0000 4.5000
107.0000 7.2000 17.0000 16.0000 17.0000 6.0000 28.0000 35.0000 4.7000
108.0000 8.2000 18.0000 16.0000 17.0000 6.5000 29.0000 33.0000 4.8000
110.0000 7.3000 19.0000 15.0000 17.0000 6.1000 30.0000 33.0000 4.5000
105.0000 8.3000 19.0000 17.0000 17.0000 6.5000 29.0000 32.0000 4.5000
107.0000 8.4000 18.0000 17.0000 18.0000 6.2000 29.0000 31.0000 4.3000
106.0000 7.8000 19.0000 18.0000 18.0000 6.2000 31.0000 32.0000 4.4000
111.0000 8.4000 17.0000 16.0000 18.0000 7.0000 30.0000 34.0000 4.7000
111.0000 7.6000 19.0000 17.0000 18.0000 6.5000 30.0000 35.0000 4.6000
123.0000 9.7000 22.0000 21.0000 20.0000 7.8000 27.0000 36.0000 6.1000
135.0000 11.8000 25.0000 21.0000 23.0000 8.9000 31.0000 38.0000 7.1000
138.0000 11.4000 25.0000 25.0000 22.0000 9.0000 30.0000 38.0000 7.3000
141.0000 10.8000 26.0000 25.0000 21.0000 8.1000 29.0000 39.0000 6.6000
135.0000 11.2000 25.0000 25.0000 21.0000 8.5000 29.0000 39.0000 6.7000
136.0000 11.0000 22.0000 24.0000 22.0000 8.1000 31.0000 39.0000 6.8000
131.0000 10.4000 23.0000 23.0000 23.0000 8.7000 30.0000 36.0000 6.8000
137.0000 10.6000 25.0000 24.0000 21.0000 8.3000 28.0000 38.0000 6.5000
135.0000 10.5000 25.0000 25.0000 21.0000 8.4000 29.0000 39.0000 6.9000
131.0000 10.9000 25.0000 24.0000 21.0000 8.5000 29.0000 35.0000 6.2000
130.0000 11.3000 22.0000 23.0000 21.0000 8.7000 29.0000 37.0000 7.0000
144.0000 10.8000 24.0000 26.0000 22.0000 8.9000 30.0000 42.0000 7.1000
139.0000 10.9000 26.0000 23.0000 22.0000 8.7000 30.0000 39.0000 6.9000
123.0000 9.8000 23.0000 22.0000 10.0000 8.1000 26.0000 34.0000 5.6000
137.0000 11.3000 27.0000 26.0000 23.0000 8.7000 30.0000 39.0000 6.5000
128.0000 10.0000 22.0000 23.0000 22.0000 8.7000 29.0000 37.0000 6.6000
122.0000 9.9000 22.0000 22.0000 20.0000 8.2000 26.0000 36.0000 5.7000
167.0000 11.5000 29.0000 28.0000 25.0000 9.5000 41.0000 45.0000 7.2000
164.0000 12.3000 27.0000 26.0000 25.0000 10.0000 42.0000 47.0000 7.9000
150.0000 11.5000 21.0000 24.0000 25.0000 9.3000 41.0000 46.0000 8.5000
145.0000 11.3000 28.0000 24.0000 24.0000 9.2000 36.0000 41.0000 7.2000
177.0000 12.4000 31.0000 27.0000 27.0000 10.5000 43.0000 50.0000 7.9000

66
166.0000 13.4000 32.0000 27.0000 26.0000 9.5000 40.0000 47.0000 7.3000
164.0000 12.1000 27.0000 24.0000 25.0000 9.9000 42.0000 45.0000 8.3000
165.0000 12.6000 30.0000 26.0000 25.0000 7.7000 40.0000 43.0000 7.9000
131.0000 11.8000 20.0000 24.0000 23.0000 8.8000 38.0000 40.0000 6.5000
163.0000 10.8000 27.0000 24.0000 24.0000 9.2000 39.0000 48.0000 7.0000
164.0000 10.7000 24.0000 23.0000 26.0000 9.5000 43.0000 47.0000 7.6000
141.0000 10.4000 20.0000 23.0000 23.0000 8.9000 38.0000 43.0000 6.0000
148.0000 10.6000 26.0000 21.0000 24.0000 8.9000 39.0000 40.0000 7.0000
158.0000 10.7000 25.0000 25.0000 24.0000 9.8000 41.0000 45.0000 7.4000
112.0000 10.1000 17.0000 18.0000 19.0000 7.7000 31.0000 33.0000 5.8000
115.0000 10.0000 18.0000 23.0000 20.0000 7.8000 33.0000 36.0000 6.0000
136.0000 11.9000 22.0000 25.0000 21.0000 8.5000 36.0000 39.0000 7.0000
111.0000 9.9000 19.0000 20.0000 18.0000 7.3000 29.0000 34.0000 5.3000
130.0000 11.2000 23.0000 27.0000 20.0000 9.1000 35.0000 35.0000 6.6000
125.0000 10.7000 19.0000 26.0000 20.0000 8.4000 33.0000 37.0000 6.3000
132.0000 9.6000 19.0000 20.0000 19.0000 9.7000 35.0000 38.0000 6.6000
121.0000 10.7000 21.0000 23.0000 19.0000 7.9000 32.0000 35.0000 6.0000
122.0000 9.8000 22.0000 23.0000 18.0000 7.9000 32.0000 35.0000 6.1000
124.0000 9.5000 20.0000 24.0000 19.0000 7.6000 32.0000 37.0000 6.0000
>> n=[16 20 17 14 10]
n =
16 20 17 14 10
>> manova(Y,n)
***********************************
* AMOSTRAS MULTIVARIADAS - GRUPOS *
***********************************
***********************************
* E MÉDIAS DOS GRUPOS *
***********************************
X1 =
123.0000 10.1000 23.0000 23.0000 19.0000 7.8000 32.0000 33.0000 5.6000
137.0000 9.6000 19.0000 22.0000 19.0000 7.8000 32.0000 40.0000 5.8000
121.0000 10.2000 18.0000 21.0000 21.0000 7.9000 35.0000 38.0000 6.2000
130.0000 10.7000 24.0000 22.0000 20.0000 7.9000 32.0000 37.0000 5.9000
149.0000 12.0000 25.0000 25.0000 21.0000 8.4000 35.0000 43.0000 6.6000
125.0000 9.5000 23.0000 20.0000 20.0000 7.8000 33.0000 37.0000 6.3000
126.0000 9.1000 20.0000 22.0000 19.0000 7.5000 32.0000 35.0000 5.5000
125.0000 9.7000 19.0000 19.0000 19.0000 7.5000 32.0000 37.0000 6.2000
121.0000 9.6000 22.0000 20.0000 18.0000 7.6000 31.0000 35.0000 5.3000
122.0000 8.9000 10.0000 20.0000 19.0000 7.6000 31.0000 35.0000 5.7000
115.0000 9.3000 19.0000 19.0000 20.0000 7.8000 33.0000 34.0000 6.5000
112.0000 9.1000 19.0000 20.0000 19.0000 6.6000 30.0000 33.0000 5.1000
124.0000 9.3000 21.0000 21.0000 18.0000 7.1000 30.0000 36.0000 5.5000
128.0000 9.6000 22.0000 21.0000 19.0000 7.5000 32.0000 38.0000 5.8000
130.0000 8.4000 23.0000 20.0000 19.0000 7.3000 31.0000 40.0000 5.8000
127.0000 10.5000 25.0000 23.0000 20.0000 8.7000 32.0000 35.0000 6.1000
xm1 =
125.9375

67
9.7250
20.7500
21.1250
19.3750
7.6750
32.0625
36.6250
5.8687
X2 =
120.0000 8.2000 18.0000 17.0000 18.0000 7.0000 32.0000 35.0000 5.2000
107.0000 7.9000 17.0000 17.0000 20.0000 7.0000 32.0000 34.0000 5.3000
110.0000 8.1000 18.0000 16.0000 19.0000 7.1000 31.0000 32.0000 4.7000
116.0000 8.5000 20.0000 18.0000 18.0000 7.1000 32.0000 33.0000 4.7000
114.0000 8.2000 19.0000 18.0000 19.0000 7.9000 32.0000 33.0000 5.1000
111.0000 8.5000 19.0000 16.0000 18.0000 7.1000 30.0000 33.0000 5.0000
113.0000 8.5000 17.0000 18.0000 19.0000 7.1000 30.0000 34.0000 4.6000
117.0000 8.7000 20.0000 17.0000 18.0000 7.0000 30.0000 34.0000 5.2000
114.0000 9.4000 21.0000 19.0000 19.0000 7.5000 31.0000 35.0000 5.3000
112.0000 8.2000 19.0000 17.0000 19.0000 6.8000 30.0000 34.0000 5.1000
110.0000 8.5000 18.0000 17.0000 19.0000 7.0000 31.0000 33.0000 4.9000
111.0000 7.7000 20.0000 18.0000 18.0000 6.7000 30.0000 32.0000 4.5000
107.0000 7.2000 17.0000 16.0000 17.0000 6.0000 28.0000 35.0000 4.7000
108.0000 8.2000 18.0000 16.0000 17.0000 6.5000 29.0000 33.0000 4.8000
110.0000 7.3000 19.0000 15.0000 17.0000 6.1000 30.0000 33.0000 4.5000
105.0000 8.3000 19.0000 17.0000 17.0000 6.5000 29.0000 32.0000 4.5000
107.0000 8.4000 18.0000 17.0000 18.0000 6.2000 29.0000 31.0000 4.3000
106.0000 7.8000 19.0000 18.0000 18.0000 6.2000 31.0000 32.0000 4.4000
111.0000 8.4000 17.0000 16.0000 18.0000 7.0000 30.0000 34.0000 4.7000
111.0000 7.6000 19.0000 17.0000 18.0000 6.5000 30.0000 35.0000 4.6000
xm2 =
111.0000
8.1800
18.6000
17.0000
18.2000
6.8150
30.3500
33.3500
4.8050
X3 =
123.0000 9.7000 22.0000 21.0000 20.0000 7.8000 27.0000 36.0000 6.1000
135.0000 11.8000 25.0000 21.0000 23.0000 8.9000 31.0000 38.0000 7.1000
138.0000 11.4000 25.0000 25.0000 22.0000 9.0000 30.0000 38.0000 7.3000
141.0000 10.8000 26.0000 25.0000 21.0000 8.1000 29.0000 39.0000 6.6000
135.0000 11.2000 25.0000 25.0000 21.0000 8.5000 29.0000 39.0000 6.7000
136.0000 11.0000 22.0000 24.0000 22.0000 8.1000 31.0000 39.0000 6.8000
131.0000 10.4000 23.0000 23.0000 23.0000 8.7000 30.0000 36.0000 6.8000
137.0000 10.6000 25.0000 24.0000 21.0000 8.3000 28.0000 38.0000 6.5000

68
135.0000 10.5000 25.0000 25.0000 21.0000 8.4000 29.0000 39.0000 6.9000
131.0000 10.9000 25.0000 24.0000 21.0000 8.5000 29.0000 35.0000 6.2000
130.0000 11.3000 22.0000 23.0000 21.0000 8.7000 29.0000 37.0000 7.0000
144.0000 10.8000 24.0000 26.0000 22.0000 8.9000 30.0000 42.0000 7.1000
139.0000 10.9000 26.0000 23.0000 22.0000 8.7000 30.0000 39.0000 6.9000
123.0000 9.8000 23.0000 22.0000 10.0000 8.1000 26.0000 34.0000 5.6000
137.0000 11.3000 27.0000 26.0000 23.0000 8.7000 30.0000 39.0000 6.5000
128.0000 10.0000 22.0000 23.0000 22.0000 8.7000 29.0000 37.0000 6.6000
122.0000 9.9000 22.0000 22.0000 20.0000 8.2000 26.0000 36.0000 5.7000
xm3 =
133.2353
10.7235
24.0588
23.6471
20.8824
8.4882
29.0000
37.7059
6.6118
X4 =
167.0000 11.5000 29.0000 28.0000 25.0000 9.5000 41.0000 45.0000 7.2000
164.0000 12.3000 27.0000 26.0000 25.0000 10.0000 42.0000 47.0000 7.9000
150.0000 11.5000 21.0000 24.0000 25.0000 9.3000 41.0000 46.0000 8.5000
145.0000 11.3000 28.0000 24.0000 24.0000 9.2000 36.0000 41.0000 7.2000
177.0000 12.4000 31.0000 27.0000 27.0000 10.5000 43.0000 50.0000 7.9000
166.0000 13.4000 32.0000 27.0000 26.0000 9.5000 40.0000 47.0000 7.3000
164.0000 12.1000 27.0000 24.0000 25.0000 9.9000 42.0000 45.0000 8.3000
165.0000 12.6000 30.0000 26.0000 25.0000 7.7000 40.0000 43.0000 7.9000
131.0000 11.8000 20.0000 24.0000 23.0000 8.8000 38.0000 40.0000 6.5000
163.0000 10.8000 27.0000 24.0000 24.0000 9.2000 39.0000 48.0000 7.0000
164.0000 10.7000 24.0000 23.0000 26.0000 9.5000 43.0000 47.0000 7.6000
141.0000 10.4000 20.0000 23.0000 23.0000 8.9000 38.0000 43.0000 6.0000
148.0000 10.6000 26.0000 21.0000 24.0000 8.9000 39.0000 40.0000 7.0000
158.0000 10.7000 25.0000 25.0000 24.0000 9.8000 41.0000 45.0000 7.4000
xm4 =
157.3571
11.5786
26.2143
24.7143
24.7143
9.3357
40.2143
44.7857
7.4071
X5 =
112.0000 10.1000 17.0000 18.0000 19.0000 7.7000 31.0000 33.0000 5.8000
115.0000 10.0000 18.0000 23.0000 20.0000 7.8000 33.0000 36.0000 6.0000
136.0000 11.9000 22.0000 25.0000 21.0000 8.5000 36.0000 39.0000 7.0000

69
111.0000 9.9000 19.0000 20.0000 18.0000 7.3000 29.0000 34.0000 5.3000
130.0000 11.2000 23.0000 27.0000 20.0000 9.1000 35.0000 35.0000 6.6000
125.0000 10.7000 19.0000 26.0000 20.0000 8.4000 33.0000 37.0000 6.3000
132.0000 9.6000 19.0000 20.0000 19.0000 9.7000 35.0000 38.0000 6.6000
121.0000 10.7000 21.0000 23.0000 19.0000 7.9000 32.0000 35.0000 6.0000
122.0000 9.8000 22.0000 23.0000 18.0000 7.9000 32.0000 35.0000 6.1000
124.0000 9.5000 20.0000 24.0000 19.0000 7.6000 32.0000 37.0000 6.0000
xm5 =
122.8000
10.3400
20.0000
22.9000
19.3000
8.1900
32.8000
35.9000
6.1700
**********************************
* FONTE DE VARIAÇÃO: TRATAMENTOS *
**********************************
**********************************
* MATRIZ B *
**********************************
1.0e+004 *
1.8577 0.1326 0.3230 0.2982 0.2658 0.0996 0.3587 0.4543 0.1029
0.1326 0.0112 0.0240 0.0268 0.0182 0.0081 0.0209 0.0313 0.0084
0.3230 0.0240 0.0614 0.0550 0.0463 0.0179 0.0482 0.0767 0.0186
0.2982 0.0268 0.0550 0.0650 0.0400 0.0189 0.0420 0.0692 0.0196
0.2658 0.0182 0.0463 0.0400 0.0390 0.0140 0.0536 0.0656 0.0143
0.0996 0.0081 0.0179 0.0189 0.0140 0.0059 0.0169 0.0238 0.0061
0.3587 0.0209 0.0482 0.0420 0.0536 0.0169 0.1138 0.0955 0.0168
0.4543 0.0313 0.0767 0.0692 0.0656 0.0238 0.0955 0.1125 0.0245
0.1029 0.0084 0.0186 0.0196 0.0143 0.0061 0.0168 0.0245 0.0063
**********************************
* FONTE DE VARIAÇÃO: RESIDUAL *
**********************************
* MATRIZ W *
**********************************
1.0e+003 *
4.7028 0.2151 0.9154 0.6018 0.4049 0.1633 0.6246 1.0197 0.1692
0.2151 0.0373 0.0707 0.0528 0.0377 0.0116 0.0404 0.0377 0.0130
0.9154 0.0707 0.4991 0.1717 0.0681 0.0255 0.0764 0.1282 0.0254
0.6018 0.0528 0.1717 0.2174 0.0677 0.0233 0.0845 0.1170 0.0190
0.4049 0.0377 0.0681 0.0677 0.1897 0.0243 0.1157 0.1097 0.0320
0.1633 0.0116 0.0255 0.0233 0.0243 0.0205 0.0406 0.0358 0.0102
0.6246 0.0404 0.0764 0.0845 0.1157 0.0406 0.1854 0.1444 0.0412
1.0197 0.0377 0.1282 0.1170 0.1097 0.0358 0.1444 0.3491 0.0415
0.1692 0.0130 0.0254 0.0190 0.0320 0.0102 0.0412 0.0415 0.0163

70
**********************************
* FONTE DE VARIAÇÃO: TOTAL *
**********************************
*********************************
* MATRIZ B + W *
**********************************
1.0e+004 *
2.3280 0.1541 0.4146 0.3584 0.3063 0.1160 0.4212 0.5563 0.1198
0.1541 0.0150 0.0311 0.0320 0.0220 0.0092 0.0249 0.0350 0.0096
0.4146 0.0311 0.1113 0.0722 0.0531 0.0205 0.0558 0.0896 0.0211
0.3584 0.0320 0.0722 0.0867 0.0468 0.0213 0.0504 0.0809 0.0215
0.3063 0.0220 0.0531 0.0468 0.0580 0.0164 0.0651 0.0766 0.0175
0.1160 0.0092 0.0205 0.0213 0.0164 0.0080 0.0210 0.0274 0.0071
0.4212 0.0249 0.0558 0.0504 0.0651 0.0210 0.1323 0.1099 0.0209
0.5563 0.0350 0.0896 0.0809 0.0766 0.0274 0.1099 0.1475 0.0286
0.1198 0.0096 0.0211 0.0215 0.0175 0.0071 0.0209 0.0286 0.0079
**********************************
* LÂMBDA DE WILKS *
**********************************
0.0049
**********************************
* ESTATÍSTICA DO TESTE *
**********************************
qui2 =
366.9383
**********************************
* VALOR DE p *
**********************************
0

Como o teste 𝑝 = 0 < 0.05 então, rejeita-se a hipótese 𝐻0 : em que considera-se a


igualdade dos vetores médios.
(b) Testar isoladamente cada raça com os cães pré-históricos tailandeses, ao nível de
significância de 5%.
>> Y1=[];
>> Y2=[];
>> Y3=[];
>> Y4=[];
>> Y5=[];
>> S1=cov(Y1)
S1 =
72.3292 4.3350 12.9167 9.8083 2.4250 2.1450 5.2708 19.9083 1.4979
4.3350 0.7180 1.5467 1.0433 0.4767 0.2893 0.7983 0.9300 0.1828
12.9167 1.5467 13.4000 2.9667 0.6333 0.6333 1.0167 2.7000 0.2983
9.8083 1.0433 2.9667 2.6500 0.5500 0.4633 0.9250 1.6500 0.1108
2.4250 0.4767 0.6333 0.5500 0.7833 0.2700 1.1083 0.9500 0.2925
2.1450 0.2893 0.6333 0.4633 0.2700 0.2313 0.4617 0.4167 0.1385

71
5.2708 0.7983 1.0167 0.9250 1.1083 0.4617 2.0625 1.9583 0.4887
19.9083 0.9300 2.7000 1.6500 0.9500 0.4167 1.9583 7.4500 0.5742
1.4979 0.1828 0.2983 0.1108 0.2925 0.1385 0.4887 0.5742 0.1796
>> S2=cov(Y2)
S2 =
15.0526 0.8000 1.5263 1.1053 0.6842 1.1158 2.2632 2.1579 0.6474
0.8000 0.2533 0.1968 0.2368 0.1568 0.1566 0.1495 0.0284 0.0691
1.5263 0.1968 1.3053 0.5263 -0.0737 0.1221 0.2526 -0.1158 0.0495
1.1053 0.2368 0.5263 0.9474 0.3684 0.2158 0.4737 0.0526 0.0526
0.6842 0.1568 -0.0737 0.3684 0.6947 0.2653 0.6105 0.1368 0.1358
1.1158 0.1566 0.1221 0.2158 0.2653 0.2308 0.3629 0.1208 0.0994
2.2632 0.1495 0.2526 0.4737 0.6105 0.3629 1.2921 0.1342 0.1718
2.1579 0.0284 -0.1158 0.0526 0.1368 0.1208 0.1342 1.3974 0.2192
0.6474 0.0691 0.0495 0.0526 0.1358 0.0994 0.1718 0.2192 0.0973
>> S3=cov(Y3)
S3 =
41.3162 2.6191 7.2978 7.4007 9.9669 1.0404 7.0625 10.6360 2.2783
2.6191 0.3707 0.5610 0.3713 0.9467 0.1309 0.7063 0.5824 0.2103
7.2978 0.5610 2.8088 1.4596 1.2574 0.1882 0.9375 1.3934 0.2368
7.4007 0.3713 1.4596 2.4926 1.4559 0.1643 0.9375 2.0147 0.3044
9.9669 0.9467 1.2574 1.4559 8.7353 0.4923 3.1875 3.1507 0.9577
1.0404 0.1309 0.1882 0.1643 0.4923 0.1174 0.3250 0.2401 0.1151
7.0625 0.7063 0.9375 0.9375 3.1875 0.3250 2.2500 1.7500 0.6125
10.6360 0.5824 1.3934 2.0147 3.1507 0.2401 1.7500 3.7206 0.6287
2.2783 0.2103 0.2368 0.3044 0.9577 0.1151 0.6125 0.6287 0.2286
>> S4=cov(Y4)
S4 =
156.4011 4.8467 37.1484 14.6484 11.9560 3.8016 18.9945 30.5440 4.9203
4.8467 0.8049 2.1203 1.1703 0.5703 0.0585 0.4665 0.7874 0.2717
37.1484 2.1203 14.9505 4.6044 2.8352 0.5225 1.8736 4.5879 0.9060
14.6484 1.1703 4.6044 3.6044 1.1429 0.3648 1.3736 2.9341 0.3637
11.9560 0.5703 2.8352 1.1429 1.2967 0.3725 1.7582 2.5495 0.5176
3.8016 0.0585 0.5225 0.3648 0.3725 0.4455 0.7764 1.3005 0.1459
18.9945 0.4665 1.8736 1.3736 1.7582 0.7764 4.1813 4.5110 0.9214
30.5440 0.7874 4.5879 2.9341 2.5495 1.3005 4.5110 9.2582 0.9786
4.9203 0.2717 0.9060 0.3637 0.5176 0.1459 0.9214 0.9786 0.4607
>> S5=cov(Y5)
S5 =
70.8444 3.3311 10.3333 13.8667 4.5111 4.8756 15.8444 12.5333 3.7822
3.3311 0.5938 0.8000 1.2822 0.5533 0.1571 0.9089 0.4044 0.2269
10.3333 0.8000 3.7778 3.7778 0.3333 0.4333 1.8889 0.8889 0.4889
13.8667 1.2822 3.7778 8.1000 1.5889 0.5433 3.2000 2.3222 0.7522
4.5111 0.5533 0.3333 1.5889 0.9000 0.2811 1.5111 1.0333 0.3322
4.8756 0.1571 0.4333 0.5433 0.2811 0.5499 1.2756 0.7211 0.2797
15.8444 0.9089 1.8889 3.2000 1.5111 1.2756 4.4000 2.8667 0.9822
12.5333 0.4044 0.8889 2.3222 1.0333 0.7211 2.8667 3.4333 0.6633
3.7822 0.2269 0.4889 0.7522 0.3322 0.2797 0.9822 0.6633 0.2290
>> X1=mean(Y1)

72
X1 =
125.9375 9.7250 20.7500 21.1250 19.3750 7.6750 32.0625 36.6250 5.8687
>> X2=mean(Y2)
X2 =
111.0000 8.1800 18.6000 17.0000 18.2000 6.8150 30.3500 33.3500 4.8050
>> X3=mean(Y3)
X3 =
133.2353 10.7235 24.0588 23.6471 20.8824 8.4882 29.0000 37.7059 6.6118
>> X4=mean(Y4)
X4 =
157.3571 11.5786 26.2143 24.7143 24.7143 9.3357 40.2143 44.7857 7.4071
>> X5=mean(Y5)
X5 =
122.8000 10.3400 20.0000 22.9000 19.3000 8.1900 32.8000 35.9000 6.1700
>> n1=16;
>> n2=20;
>> n3=17;
>> n4=14;
>> n5=10;
>> Sp1=(((n1-1)*S1)+(n5-1)*S5)/(n1+n5-2)
Sp1 =
71.7724 3.9585 11.9479 11.3302 3.2073 3.1690 9.2359 17.1427 2.3545
3.9585 0.6714 1.2667 1.1329 0.5054 0.2398 0.8398 0.7329 0.1994
11.9479 1.2667 9.7917 3.2708 0.5208 0.5583 1.3438 2.0208 0.3698
11.3302 1.1329 3.2708 4.6938 0.9396 0.4933 1.7781 1.9021 0.3514
3.2073 0.5054 0.5208 0.9396 0.8271 0.2742 1.2594 0.9812 0.3074
3.1690 0.2398 0.5583 0.4933 0.2742 0.3508 0.7669 0.5308 0.1914
9.2359 0.8398 1.3438 1.7781 1.2594 0.7669 2.9391 2.2990 0.6738
17.1427 0.7329 2.0208 1.9021 0.9812 0.5308 2.2990 5.9438 0.6076
2.3545 0.1994 0.3698 0.3514 0.3074 0.1914 0.6738 0.6076 0.1981
>> Sp2=(((n2-1)*S2)+(n5-1)*S5)/(n2+n5-2)
Sp2 =
32.9857 1.6136 4.3571 5.2071 1.9143 2.3243 6.6286 5.4929 1.6550
1.6136 0.3627 0.3907 0.5729 0.2843 0.1568 0.3936 0.1493 0.1198
4.3571 0.3907 2.1000 1.5714 0.0571 0.2221 0.7786 0.2071 0.1907
5.2071 0.5729 1.5714 3.2464 0.7607 0.3211 1.3500 0.7821 0.2775
1.9143 0.2843 0.0571 0.7607 0.7607 0.2704 0.9000 0.4250 0.1989
2.3243 0.1568 0.2221 0.3211 0.2704 0.3334 0.6562 0.3137 0.1573
6.6286 0.3936 0.7786 1.3500 0.9000 0.6562 2.2911 1.0125 0.4323
5.4929 0.1493 0.2071 0.7821 0.4250 0.3137 1.0125 2.0518 0.3620
1.6550 0.1198 0.1907 0.2775 0.1989 0.1573 0.4323 0.3620 0.1397
>> Sp3=(((n3-1)*S3)+(n5-1)*S5)/(n3+n5-2)
Sp3 =
51.9464 2.8754 8.3906 9.7285 8.0028 2.4211 10.2240 11.3191 2.8197
2.8754 0.4510 0.6471 0.6992 0.8051 0.1403 0.7792 0.5183 0.2163
8.3906 0.6471 3.1576 2.2941 0.9247 0.2765 1.2800 1.2118 0.3275
9.7285 0.6992 2.2941 4.5113 1.5038 0.3008 1.7520 2.1254 0.4656
8.0028 0.8051 0.9247 1.5038 5.9146 0.4163 2.5840 2.3885 0.7325

73
2.4211 0.1403 0.2765 0.3008 0.4163 0.2731 0.6672 0.4132 0.1744
10.2240 0.7792 1.2800 1.7520 2.5840 0.6672 3.0240 2.1520 0.7456
11.3191 0.5183 1.2118 2.1254 2.3885 0.4132 2.1520 3.6172 0.6412
2.8197 0.2163 0.3275 0.4656 0.7325 0.1744 0.7456 0.6412 0.2287
>> Sp4=(((n4-1)*S4)+(n5-1)*S5)/(n4+n5-2)
Sp4 =
121.4006 4.2267 26.1786 14.3286 8.9104 4.2410 17.7058 23.1760 4.4547
4.2267 0.7185 1.5802 1.2161 0.5634 0.0989 0.6475 0.6307 0.2534
26.1786 1.5802 10.3799 4.2662 1.8117 0.4860 1.8799 3.0747 0.7354
14.3286 1.2161 4.2662 5.4435 1.3253 0.4379 2.1208 2.6838 0.5227
8.9104 0.5634 1.8117 1.3253 1.1344 0.3351 1.6571 1.9292 0.4418
4.2410 0.0989 0.4860 0.4379 0.3351 0.4882 0.9806 1.0635 0.2006
17.7058 0.6475 1.8799 2.1208 1.6571 0.9806 4.2708 3.8383 0.9463
23.1760 0.6307 3.0747 2.6838 1.9292 1.0635 3.8383 6.8753 0.8496
4.4547 0.2534 0.7354 0.5227 0.4418 0.2006 0.9463 0.8496 0.3659
>> T1=(X1-X5)*inv(((1/n1)+(1/n5))*Sp1)*(X1-X5)’
T1 =
110.8603
>> T2=(X2-X5)*inv(((1/n2)+(1/n5))*Sp2)*(X2-X5)’
T2 =
296.4411
>> T3=(X3-X5)*inv(((1/n3)+(1/n5))*Sp3)*(X3-X5)’
T3 =
474.5587
>> T4=(X4-X5)*inv(((1/n4)+(1/n5))*Sp4)*(X4-X5)’
T4 =
243.2363
>> Fteste1=T1*((n1+n5-9-1)/(n1+n5-2))
Fteste1 =
73.9068
>> Fteste2=T2*((n2+n5-9-1)/(n2+n5-2))
Fteste2 =
211.7437
>> Fteste3=T3*((n3+n5-9-1)/(n3+n5-2))
Fteste3 =
322.6999
>> Fteste4=T4*((n4+n5-9-1)/(n4+n5-2))
Fteste4 =
154.7867
>> F1=finv(0.95,9,(n1+n5-9-1))
F1 =
2.5377
>> F2=finv(0.95,9,(n2+n5-9-1))
F2 =
2.3928
>> F3=finv(0.95,9,(n3+n5-9-1))
F3 =
2.4943

74
>> F4=finv(0.95,9,(n4+n5-9-1))
F4 =
2.6458

Comparando as médias dos cães Pré-históricos tailandeses primeiramente com os cães


modernos da Tailândia, depois com os Chacais Dourados, em seguida com os Cuons
e depois com os lobos indianos, pode-se dizer que rejeita-se a hipótese de que: 𝐻0 :
a média 𝜇5 é igual a média 𝜇1 , 𝐻0 : 𝜇5 = 𝜇2 , 𝐻0 : 𝜇5 = 𝜇3 , 𝐻0 : 𝜇5 = 𝜇4 . Ou seja,
rejeita-se as 4 hipóteses em que compara-se a média dos cães pré-históricos tailandeses
com as demais médias, uma a uma.

4 Lista 4: Análise de Componentes Principais

1. A tabela seguinte mostra as estimativas de consumo médio de proteínas de diferentes fontes


de alimentos para os habitantes de 25 países europeus como publicados por Weber (1973).
Use a análise de componentes principais para investigar o relacionamento entre os países
com base nestas variáveis.

Países 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10

Albânia 10 1 1 9 0 42 1 6 2 72
Austria 9 14 4 20 2 28 4 1 4 86
Bélgica 14 9 4 18 5 27 6 2 4 89
Bulgária 8 6 2 8 1 57 1 4 4 91
Tchecoslováquia 10 11 3 13 2 34 5 1 4 83
Dinamarca 11 11 4 25 10 22 5 1 2 91
Alemanha Ocidental 8 12 4 11 5 25 7 1 4 77
Finlândia 10 5 3 34 6 26 5 1 1 91
França 18 10 3 20 6 28 5 2 7 99
Grécia 10 3 3 18 6 42 2 8 7 99
Hungria 5 12 3 10 0 40 4 5 4 83
Irlanda 14 10 5 26 2 24 6 2 3 92
Itália 9 5 3 14 3 37 2 4 7 84
Países Baixos 10 14 4 23 3 22 4 2 4 86
Noruega 9 5 3 23 10 23 5 2 3 83
Polônia 7 10 3 19 3 36 6 2 7 93
Portugal 6 4 1 5 14 27 6 5 8 76

75
Romênia 6 6 2 11 1 50 3 5 3 87
Espanha 7 3 3 9 7 29 6 6 7 77
Suécia 10 8 4 25 8 20 4 1 2 82
Suíça 13 10 3 24 2 26 3 2 5 88
Reino Unido 17 6 5 21 4 24 5 3 3 88
URSS 9 5 2 17 3 44 6 3 3 92
Alemanha Oriental 11 13 4 19 3 19 5 2 4 80
Iugoslávia 4 5 1 10 1 59 3 6 3 89

Tabela 5: Consumo de proteínas (g por pessoa por dia) em 25 países europeus

>> X
X =
10 1 1 9 0 42 1 6 2 72
9 14 4 20 2 28 4 1 4 86
14 9 4 18 5 27 6 2 4 89
8 6 2 8 1 57 1 4 4 91
10 11 3 13 2 34 5 1 4 83
11 11 4 25 10 22 5 1 2 91
8 12 4 11 5 25 7 1 4 77
10 5 3 34 6 26 5 1 1 91
18 10 3 20 6 28 5 2 7 99
10 3 3 18 6 42 2 8 7 99
5 12 3 10 0 40 4 5 4 83
14 10 5 26 2 24 6 2 3 92
9 5 3 14 3 37 2 4 7 84
10 14 4 23 3 22 4 2 4 86
9 5 3 23 10 23 5 2 3 83
7 10 3 19 3 36 6 2 7 93
6 4 1 5 14 27 6 5 8 76
6 6 2 11 1 50 3 5 3 87
7 3 3 9 7 29 6 6 7 77
10 8 4 25 8 20 4 1 2 82
13 10 3 24 2 26 3 2 5 88
17 6 5 21 4 24 5 3 3 88
9 5 2 17 3 44 6 3 3 92
11 13 4 19 3 19 5 2 4 80
4 5 1 10 1 59 3 6 3 89
>> comp2(X)
***********************
* VETOR DE MÉDIAS *
***********************
9.8000 7.9200 3.0800 17.2800 4.2800 32.4400 4.3600 3.0800 4.2000 86.3200
**************************

76
* MATRIZ COVARIÂNCIA *
**************************
11.5833 2.4000 2.1833 13.1417 0.7667 -19.8250 0.8667 -2.8167 -0.4167 8.6083
2.4000 13.9933 2.5067 7.8983 -2.5600 -18.4633 2.0717 -5.0767 -0.5250 2.6100
2.1833 2.5067 1.2433 4.8517 0.1850 -8.8700 0.7617 -1.3400 -0.3500 1.4317
13.1417 7.8983 4.8517 50.3767 4.0017 -47.2117 2.5200 -8.9400 -5.4333 22.1150
0.7667 -2.5600 0.1850 4.0017 12.0433 -20.1700 2.5200 -0.8567 1.5250 -2.1350
-19.8250 -18.4633 -8.8700 -47.2117 -20.1700 127.5067 -10.7067 14.5050 0.7417 14.1867
0.8667 2.0717 0.7617 2.5200 2.5200 -10.7067 2.7400 -1.6550 0.2167 -0.4950
-2.8167 -5.0767 -1.3400 -8.9400 -0.8567 14.5050 -1.6550 4.0767 1.3583 -1.1100
-0.4167 -0.5250 -0.3500 -5.4333 1.5250 0.7417 0.2167 1.3583 3.6667 0.9333
8.6083 2.6100 1.4317 22.1150 -2.1350 14.1867 -0.4950 -1.1100 0.9333 45.8100
*************************
* MATRIZ CORRELAÇÃO *
*************************
1.0000 0.1885 0.5753 0.5440 0.0649 -0.5159 0.1538 -0.4099 -0.0639 0.3737
0.1885 1.0000 0.6010 0.2975 -0.1972 -0.4371 0.3346 -0.6721 -0.0733 0.1031
0.5753 0.6010 1.0000 0.6130 0.0478 -0.7045 0.4127 -0.5952 -0.1639 0.1897
0.5440 0.2975 0.6130 1.0000 0.1625 -0.5891 0.2145 -0.6238 -0.3998 0.4604
0.0649 -0.1972 0.0478 0.1625 1.0000 -0.5147 0.4387 -0.1223 0.2295 -0.0909
-0.5159 -0.4371 -0.7045 -0.5891 -0.5147 1.0000 -0.5728 0.6362 0.0343 0.1856
0.1538 0.3346 0.4127 0.2145 0.4387 -0.5728 1.0000 -0.4952 0.0684 -0.0442
-0.4099 -0.6721 -0.5952 -0.6238 -0.1223 0.6362 -0.4952 1.0000 0.3513 -0.0812
-0.0639 -0.0733 -0.1639 -0.3998 0.2295 0.0343 0.0684 0.3513 1.0000 0.0720
0.3737 0.1031 0.1897 0.4604 -0.0909 0.1856 -0.0442 -0.0812 0.0720 1.0000
************************************
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
************************************
4.1288 1.7392 1.3090 1.0425 0.7043 0.4268 0.3409 0.1907 0.1169 0.0009
************************************
* AUTOVETORES DA MATRIZ CORRELAÇÃO *
************************************
-0.3190 -0.1751 0.3820 0.0391 -0.5262 -0.3962 0.4308 0.1648 -0.1702 0.2112
-0.3139 -0.1184 -0.3655 -0.5378 0.0977 0.3086 0.0915 0.2980 -0.4639 0.2179
-0.4207 -0.0810 -0.0212 -0.1548 -0.2657 -0.0634 -0.6428 0.2590 0.4803 0.0796
-0.3868 -0.2340 0.2010 0.3197 0.1577 0.3080 -0.1754 -0.5434 -0.1513 0.4294
-0.1268 0.5741 0.3272 0.3062 0.2066 0.3046 0.0588 0.5195 0.0169 0.2106
0.4175 -0.3131 0.0214 -0.1019 0.2997 -0.1942 0.0663 0.1969 0.2912 0.6792
-0.2875 0.4095 -0.0615 -0.1477 0.4277 -0.6787 -0.1137 -0.1891 -0.1517 0.0934
0.4178 0.0419 0.2492 -0.0104 -0.2241 -0.0942 -0.5757 0.0893 -0.5924 0.1093
0.1188 0.3524 0.4095 -0.6439 -0.1667 0.2210 0.0859 -0.3704 0.2045 0.1280
-0.1065 -0.4155 0.5818 -0.2060 0.4740 -0.0058 -0.0496 0.1791 -0.0364 -0.4177
******************************************
* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
******************************************
-----------------------------------------
ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.

77
LORES (EM %) ACUM. (%)
-----------------------------------------
1 4.1288 41.29 41.29
2 1.7392 17.39 58.68
3 1.3090 13.09 71.77
4 1.0425 10.42 82.20
5 0.7043 7.04 89.24
6 0.4268 4.27 93.51
7 0.3409 3.41 96.92
8 0.1907 1.91 98.82
9 0.1169 1.17 99.99
10 0.0009 0.01 100.00
-----------------------------------------
***************************************************
* COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) *
***************************************************
-----------------------------------------------------------------------------------------------------
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10
-----------------------------------------------------------------------------------------------------
-0.3190 -0.1751 0.3820 0.0391 -0.5262 -0.3962 0.4308 0.1648 -0.1702 0.2112
-0.3139 -0.1184 -0.3655 -0.5378 0.0977 0.3086 0.0915 0.2980 -0.4639 0.2179
-0.4207 -0.0810 -0.0212 -0.1548 -0.2657 -0.0634 -0.6428 0.2590 0.4803 0.0796
-0.3868 -0.2340 0.2010 0.3197 0.1577 0.3080 -0.1754 -0.5434 -0.1513 0.4294
-0.1268 0.5741 0.3272 0.3062 0.2066 0.3046 0.0588 0.5195 0.0169 0.2106
0.4175 -0.3131 0.0214 -0.1019 0.2997 -0.1942 0.0663 0.1969 0.2912 0.6792
-0.2875 0.4095 -0.0615 -0.1477 0.4277 -0.6787 -0.1137 -0.1891 -0.1517 0.0934
0.4178 0.0419 0.2492 -0.0104 -0.2241 -0.0942 -0.5757 0.0893 -0.5924 0.1093
0.1188 0.3524 0.4095 -0.6439 -0.1667 0.2210 0.0859 -0.3704 0.2045 0.1280
-0.1065 -0.4155 0.5818 -0.2060 0.4740 -0.0058 -0.0496 0.1791 -0.0364 -0.4177
------------------------------------------------------------------------------------------------------
************************************
* ESCORES (VARIÁVEIS PADRONIZADAS) *
************************************
3.5846 -0.6366 -1.0980 1.9094 -1.9046 -0.3755 0.6478 -0.3053 -0.3526 -0.0195
-1.3867 -0.7113 -1.1613 -0.9297 0.0030 0.7585 -0.0035 0.0116 0.1224 0.0028
-1.6610 0.1110 0.4197 -0.2448 -0.1771 -0.9116 0.1568 0.3353 0.0311 0.0045
2.9589 -1.8221 0.0786 -0.3038 0.1108 0.3073 0.5911 0.7438 0.6695 -0.0256
-0.3746 -0.0991 -1.2188 -0.7155 0.0603 -0.3630 0.7876 0.0356 0.2421 -0.0023
-2.4856 0.1781 0.2057 0.9408 0.8262 0.6554 -0.0422 0.9847 -0.1600 -0.0067
-1.2347 1.5744 -1.9410 -0.7611 0.1491 -0.5881 -0.0637 0.3088 0.3230 0.0059
-1.7694 -0.7613 0.3701 2.2834 1.2175 0.1889 -0.0506 -0.7986 -0.0118 -0.0140
-1.6486 -0.2912 2.4813 -1.2583 -0.2198 -0.3329 1.3674 0.1890 -0.3773 0.0083
2.0780 -0.5979 3.0891 -0.3236 -0.2798 0.6437 -1.1895 0.2496 -0.1912 -0.0190
1.4700 -0.4362 -1.6091 -1.2139 0.1306 0.1162 -0.8172 0.1993 -0.5050 -0.0360
-2.6687 -1.0385 0.2851 -0.1597 -0.1726 -0.8685 -0.7282 -0.1938 -0.0476 0.0036
1.5548 0.0024 0.5927 -0.5451 -1.0798 0.7736 0.0020 -0.4436 0.8068 0.0196
-1.6954 -0.5091 -0.7578 -0.6459 -0.2956 0.9166 -0.2545 -0.0803 -0.4348 0.0003
-0.8764 1.2778 0.1813 1.7222 0.4407 0.4217 0.0080 -0.0127 0.1780 0.0021

78
-0.2370 0.2054 0.3976 -1.6733 1.3304 0.0985 -0.0287 -0.8496 0.3263 -0.0088
2.0934 4.4131 0.6559 0.0422 0.2991 0.3364 0.6442 0.2105 -0.3033 -0.0057
2.5845 -1.0469 -0.5828 0.1458 0.5135 -0.1880 -0.2154 0.1985 -0.0370 -0.0423
1.5699 2.6779 0.2804 -0.2350 -0.5869 -0.6143 -0.9496 -0.4113 0.1588 0.0040
-1.8256 0.3542 -0.5423 1.5654 -0.1584 0.8009 -0.1532 0.2391 0.3407 0.0138
-0.9293 -0.9597 0.3534 -0.2847 -0.7621 0.7048 0.6845 -0.6688 -0.2549 0.0094
-1.9713 -0.5516 0.8763 0.6070 -1.3824 -1.2223 -0.4761 0.3677 0.2345 0.0201
0.7518 -0.4765 0.2702 0.4153 1.4640 -1.2218 0.3177 -0.2993 -0.0508 -0.0385
-1.6774 0.3019 -1.2198 -0.5504 -0.8067 0.1908 -0.0960 -0.1307 -0.4123 0.0083
3.7960 -1.1582 -0.4065 0.2131 1.2807 -0.2274 -0.1388 0.1204 -0.2945 0.1157
***********************************************
* CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS *
* E AS COMPONENTES PRINCIPAIS *
***********************************************
-----------------------------------------------------------------------------------
| COMPONENTES PRINCIPAIS
-------------------------------------------------------------------------------------------------
|VAR.| CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10 |
-------------------------------------------------------------------------------------------------
1 -0.6482 -0.2310 0.4371 0.0399 -0.4415 -0.2588 0.2515 0.0720 -0.0582 0.0062
2 -0.6379 -0.1561 -0.4182 -0.5491 0.0820 0.2016 0.0534 0.1301 -0.1586 0.0064
3 -0.8549 -0.1069 -0.0243 -0.1580 -0.2230 -0.0414 -0.3753 0.1131 0.1642 0.0024
4 -0.7859 -0.3086 0.2300 0.3264 0.1324 0.2012 -0.1024 -0.2373 -0.0517 0.0127
5 -0.2578 0.7572 0.3744 0.3126 0.1734 0.1990 0.0343 0.2269 0.0058 0.0062
6 0.8482 -0.4129 0.0245 -0.1040 0.2515 -0.1269 0.0387 0.0860 0.0996 0.0201
7 -0.5842 0.5401 -0.0704 -0.1508 0.3589 -0.4434 -0.0664 -0.0826 -0.0519 0.0028
8 0.8490 0.0553 0.2851 -0.0107 -0.1880 -0.0615 -0.3362 0.0390 -0.2026 0.0032
9 0.2414 0.4648 0.4685 -0.6574 -0.1399 0.1444 0.0502 -0.1618 0.0699 0.0038
10 -0.2163 -0.5480 0.6657 -0.2103 0.3978 -0.0038 -0.0290 0.0782 -0.0124 -0.0124
----------------------------------------------------------------------------------------------------
ans =
FUNÇÃO COMP/UFPR/DEPTO. DE ESTATÍSTICA/JMM

As 4 primeiras componentes principais explicam quase 82.2% das variáveis originais, sendo
que as variáveis 𝑋1, 𝑋2, 𝑋3, 𝑋4, 𝑋6, 𝑋7 e 𝑋8 são melhores explicadas pela primeira com-
ponente 𝑌 1 nos países: Albânia e Iugoslávia e pior explicadas para Dinamarca e Irlanda;
𝑋5 é melhor explicada pela componente 𝑌 2 nos países Espanha e Suíça e pior explicada
para Iugoslávia e Bulgária; 𝑋10 é melhor explicada pela componente 𝑌 3 nos países França
e Grécia e pior explicada para Alemanha Oriental e Alemanha Ocidental; 𝑋9 é melhor
explicada pela componente 𝑌 4 nos países Albânia e Finlândia e pior explicada por França
e Polônia.

79
AUTOVALORES DA MATRIZ CORRELAÇÃO
4.5

3.5

AUTOVALOR 2.5

1.5

0.5

0
1 2 3 4 5 6 7 8 9 10
NÚMERO DO AUTOVALOR

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2


0.6 5

7
0.4 9

0.2
COMPONENTE 2

8
0
3
2
1
−0.2 4
6
10
−0.4

−0.6

−0.8
−0.5 0 0.5
COMPONENTE 1

80
DISPERSÃO DOS ESCORES: COMP1 versus COMP2
5
17
4

3
19

ESCORE − COMP2
2
7
15
1
2024
6 3 16
0 5 13
9
22 14 23 11
10 1
8 2
12 21 18
−1 25

4
−2
−3 −2 −1 0 1 2 3 4
ESCORE − COMP1

2. Com o título: “Brasil fica mais vulnerável no governo FH” , o jornal “A folha de São Paulo”
publicou um artigo mostrando os seguintes indicadores usados pelo Banco Central (vamos
reproduzir 5 desses indicadores):

Ano 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
1995 46.1 3 31.7 3.4 64.5
1996 56.9 3.5 32.8 3.8 56.8
1997 76.3 5 25.7 3.8 47.4
1998 92.3 6 18.1 3.8 46.2
1999 146.6 13.3 14.7 4.7 46.5
2000 101.7 9.4 14 5 44.6

𝑋1 = parcela das exportações que é comprometida pelos gastos com a dívida externa (em
%), 𝑋2 = quanto os gastos da dívida externa representam do PIB (em %), 𝑋3 = parcela
da dívida externa bruta que poderia ser paga com as reservas internacionais (em %), 𝑋4
= quantos anos de exportação são necessários para pagar a dívida externa bruta (divisão
do saldo da dívida externa bruta pelo saldo das exportações no ano) e 𝑋5 = parcela do
governo na dívida externa bruta (em %).

(a) Calcular o vetor de médias amostrais.


>> Mi=mean(X)
Mi =
86.6500 6.7000 22.8333 4.0833 51.0000

(b) Calcular a matriz de covariância amostral.

81
>> S=cov(X)
S =
1.0e+003 *
1.2978 0.1390 -0.2666 0.0176 -0.2152
0.1390 0.0156 -0.0288 0.0021 -0.0212
-0.2666 -0.0288 0.0706 -0.0043 0.0566
0.0176 0.0021 -0.0043 0.0004 -0.0034
-0.2152 -0.0212 0.0566 -0.0034 0.0626

(c) Calcular a matriz de correlação amostral.


>> comp2(X)
* MATRIZ CORRELAÇÃO *
*************************
1.0000 0.9762 -0.8811 0.7888 -0.7548
0.9762 1.0000 -0.8660 0.8683 -0.6777
-0.8811 -0.8660 1.0000 -0.8231 0.8517
0.7888 0.8683 -0.8231 1.0000 -0.6971
-0.7548 -0.6777 0.8517 -0.6971 1.0000

(d) Calcular os autovalores da matriz de correlação 𝑅.


************************************
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
************************************
4.2812 0.3957 0.2297 0.0918 0.0016

(e) Calcular o % de explicação de cada autovalor de 𝑅.


******************************************
* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
******************************************
-----------------------------------------
ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.
LORES (EM %) ACUM. (%)
-----------------------------------------
1 4.2812 85.62 85.62
2 0.3957 7.91 93.54
3 0.2297 4.59 98.13
4 0.0918 1.84 99.97
5 0.0016 0.03 100.00
-----------------------------------------

(f) Determinar as componentes principais de 𝑅.


***************************************************
* COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) *
***************************************************
------------------------------------------------
CP1 CP2 CP3 CP4 CP5
------------------------------------------------

82
-0.4612 -0.2182 0.5303 -0.2410 -0.6328
-0.4602 -0.4496 0.2184 -0.1285 0.7224
0.4622 -0.2062 -0.0431 -0.8610 0.0260
-0.4365 -0.2694 -0.8179 -0.1356 -0.2226
0.4139 -0.7969 0.0192 0.4071 -0.1657
------------------------------------------------

(g) Determinar as correlações entre as variáveis (indicadores) e as componentes principais.


Discutir os resultados.
* CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS *
* E AS COMPONENTES PRINCIPAIS *
***********************************************
-----------------------------------------------
| COMPONENTES PRINCIPAIS |
----------------------------------------------------
|VAR.| CP1 CP2 CP3 CP4 CP5 |
----------------------------------------------------
1 -0.9542 -0.1373 0.2541 -0.0730 -0.0256
2 -0.9522 -0.2828 0.1047 -0.0389 0.0292
3 0.9564 -0.1297 -0.0207 -0.2609 0.0010
4 -0.9032 -0.1695 -0.3920 -0.0411 -0.0090
5 0.8563 -0.5013 0.0092 0.1233 -0.0067
----------------------------------------------------

(h) Calcular os escores correspondentes.


************************************
* ESCORES (VARIÁVEIS PADRONIZADAS) *
************************************
2.6241 -0.6145 0.0860 0.3264 0.0259
1.8043 -0.1618 -0.2786 -0.3583 -0.0512
0.4990 0.6711 0.1034 -0.2927 0.0570
-0.3032 0.7679 0.4302 0.2851 -0.0397
-2.6521 -0.7283 0.4657 -0.1480 0.0008
-1.9721 0.0655 -0.8068 0.1876 0.0071

Observando o "Acumulado", é possível admitir um ou 2 fatores para explicar a variân-


cia do modelo. Com relação aos coeficientes de correlação e seus pesos na componente,
pode-se admitir que todas as variáveis são importantes e a componente 1 é de certa
forma uma medida entre valores governamentais (reservas e parcela do governo) ver-
sus gastos com a dívida, anos para pagar e "exportações". Isto sugere um coeficiente
que mensura ações responsáveis pelo governo, contra aspectos econômicos.

Se observarmos a tendência que se observa através do score 1, percebe-se que o cenário


de comprometimento dos fatores externos foram aumentando, implicando em pouca
ação do governo ou influência das reservas. O que permite dar suporte ao título.

83
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2
−0.1

1 3
−0.2
4

−0.3

COMPONENTE 2 −0.4 2

−0.5

−0.6

−0.7
5
−0.8
−0.5 0 0.5
COMPONENTE 1

DISPERSÃO DOS ESCORES:


4 COMP1 versus COMP2
0.8 3

0.6

0.4
ESCORE − COMP2

0.2
6

0
2

−0.2

−0.4
1
−0.6 5

−0.8
−3 −2 −1 0 1 2 3
ESCORE − COMP1

84
AUTOVALORES DA MATRIZ CORRELAÇÃO
4.5

3.5

AUTOVALOR 2.5

1.5

0.5

0
1 1.5 2 2.5 3 3.5 4 4.5 5
NÚMERO DO AUTOVALOR

3. Jolicoer e Mosiman (1960) investigaram as componentes principais do comprimento (𝑋1 ),


largura (𝑋2 ) e altura (𝑋3 ) da carapaça de tartarugas pintadas, com o objetivo de dar
um significado para o conceito de “tamanho” e “forma”. Foram feitas as medidas (em
milímetros) de 24 tartarugas fêmeas e a matriz de covariância é dada por:

⎡ ⎤
451, 39 271, 17 168, 70
⎢ ⎥
⎢ ⎥
𝑆 = ⎢ 171, 73 103, 29 ⎥
⎣ ⎦
66, 65

(a) Encontre os autovalores e autovetores de 𝑆.

>> S=[451.39 271.17 168.7; 271.17 171.73 103.29;168.7 103.29 66.65]


S =
451.3900 271.1700 168.7000
271.1700 171.7300 103.2900
168.7000 103.2900 66.6500
>> [e,l]=eig(S)
e =
0.2053 0.5454 0.8126
0.2493 -0.8321 0.4955
-0.9464 -0.1009 0.3068
l =
2.8573 0 0

85
0 6.5016 0
0 0 680.4111

(b) Encontre as componentes principais: 𝑌1 , 𝑌2 e 𝑌3 .

- 𝑌1 = 0.8126𝑋1 + 0.4955𝑋2 + 0.3068𝑋3

- 𝑌2 = 0.5454𝑋1 − 0.8321𝑋2 − 0.1009𝑋3

- 𝑌3 = 0.2053𝑋1 + 0.2493𝑋2 − 0.9464𝑋3

(c) Qual a % da variância total que é explicada pelas componentes principais?


Variável Nome 𝑒1 𝑒2 𝑒3 Total
comprimento 𝑋1 0.8126 0.5454 0.2053
largura 𝑋2 0.4955 -0.8321 0.2493
altura 𝑋3 0.3068 -0.1009 -0.9464
autovalores 680.41 6.50 2.86 689.77
%Explicada 98.64% 0.94% 0.41%
%Acumulado Explicado 98.64% 99, 59% 100%
(d) Encontre os coeficientes de correlação entre as componentes principais e as variáveis
originais.
𝑌1 𝑌2 𝑌3
𝑋1 0.998 0.065 0.016
𝑋2 0.986 −0.162 0.032
𝑋3 0.98 −0.032 −0.196
(e) Interprete os resultados encontrados. O percentual explicado pela 1o componente
principal, domina o modelo, sendo responsável por mais que 98% da explicação da
variância. Portanto, a análise conduz a apenas um componente principal 𝑌1 . Na
primeira componente, observa-se que a variável comprimento tem um peso maior
sobre esta componente, sendo as demais variáveis de menor relevância. Porém ao se
observar a correlação das variáveis com a primeira componente, infere-se que todos
são significativos. Em Johnson há uma análise que sugere que estes valores são os
expoentes das variáveis, de forma que este componente dá uma espécie de volume da
pinta. Pois, apesar de não ser comentado no enunciado, se estas variáveis estiverem
logaritmadas, vem que 𝑦1 = 𝑒1 ln 𝑥1 +𝑒2 ln 𝑥2 +𝑒3 ln 𝑥3 , o que implica em ln 𝑥𝑒11 .𝑥𝑒22 .𝑥𝑒33 ,
onde o valor 𝑒3 é uma espécie de correlação devido a ovacidade provável da pinta.
(f) Verifique que 𝑆 = 𝐶𝐷𝜆 𝐶 ′ onde 𝐶 é a matriz cujas colunas são os autovetores de 𝑆 e
𝐷𝜆 é a matriz diagonal dos autovalores.

86
C D C S
0.2053 0.5454 0.8126 2.8573 0 0 0.2053 0.2493 -0.9464 451.39 271.17 168.7
0.2493 -0.8321 0.4955 0 6.5016 0 0.5454 -0.8321 -0.1009 271.17 171.73 103.29
-0.9464 -0.1009 0.3068 0 0 680.4111 0.8126 0.4955 0.3068 168.7 103.29 66.65

>> e*l*e’;

4. Num estudo da influência do adubo N-P-K em doses crescentes na produção de forragem,


a tabela abaixo mostra as produções de forragem (em kg/ha de matéria seca) nos meses
de 6/78, 9/78 e 6/79, 9/79, 6/80 e 9/80 (são as nossas variáveis). Determine:

Adubo 1978 1979 1980


𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6
N P K Jun Set Jun Set Jun Set
0 0 0 3994 2282 3068 1694 4320 1382
0 0 1 5316 1981 4168 3470 5900 2214
0 0 2 5050 1883 4408 3373 6476 1761
0 0 3 5996 2162 3614 3003 5021 1411
1 0 0 6086 5601 4599 3091 6145 2014
1 0 1 5180 2506 5022 2506 8299 2478
1 0 2 5291 1998 5241 2614 7768 2247
1 0 3 6148 2444 6147 2278 7440 2026
2 0 0 7292 2784 5692 2592 7978 2586
2 0 1 6615 3204 7655 3331 9225 3336

(a) o vetor médio amostral;

>> comp2(X)
***********************
* VETOR DE MÉDIAS *
***********************
1.0e+003 *
5.6968 2.6845 4.9614 2.7952 6.8572 2.1455

(b) a matriz de covariâncias 𝑆 que estima Σ (covariância populacional);

**************************
* MATRIZ COVARIÂNCIA *
**************************

87
1.0e+006 *
0.8586 0.3721 0.8188 0.1755 0.8017 0.3090
0.3721 1.2132 0.2661 0.0909 0.1335 0.1255
0.8188 0.2661 1.7494 0.1618 1.8596 0.6752
0.1755 0.0909 0.1618 0.3161 0.1659 0.1077
0.8017 0.1335 1.8596 0.1659 2.3876 0.8084
0.3090 0.1255 0.6752 0.1077 0.8084 0.3376

(c) os autovalores e autovetores de 𝑆;

>> S=(1.0e+006)*T
S =
858600 372100 818800 175500 801700 309000
372100 1213200 266100 90900 133500 125500
818800 266100 1749400 161800 1859600 675200
175500 90900 161800 316100 165900 107700
801700 133500 1859600 165900 2387600 808400
309000 125500 675200 107700 808400 337600
>> [e,l]=eig(S)
e =
-0.0540 0.2829 -0.3509 0.7876 -0.2823 0.3063
0.0503 0.0357 0.0538 -0.3609 -0.9218 0.1158
0.1239 -0.7773 -0.1606 0.0002 0.0418 0.5940
0.1771 -0.1075 0.8905 0.3897 -0.0864 0.0691
0.2309 0.5503 0.1248 -0.3053 0.2472 0.6884
-0.9458 -0.0018 0.1990 -0.0658 0.0167 0.2475
l =
1.0e+006 *
0.0426 0 0 0 0 0
0 0.1466 0 0 0 0
0 0 0.2706 0 0 0
0 0 0 0.4386 0 0
0 0 0 0 1.2855 0
0 0 0 0 0 4.6786

(d) Escreva as componentes principais da matriz de dados.

- 𝑌1 = 0.3063𝑋1 + 0.1158𝑋2 + 0.5940𝑋3 + 0.0691𝑋4 + 0.6884𝑋5 + 0.2475𝑋6

- 𝑌2 = −0.2823𝑋1 − 0.9218𝑋2 + 0418𝑋3 − 0.0864𝑋4 + 0.2472𝑋5 + 0.0167𝑋6

- 𝑌3 = 0.7876𝑋1 − 0.3609𝑋2 + 0.0002𝑋3 + 0.3897𝑋4 − 0.3053𝑋5 − 0.0658𝑋6

- 𝑌4 = −0.3509𝑋1 + 0.0538𝑋2 − 0.1606𝑋3 + 0.8905𝑋4 + 0.1248𝑋5 + 0.1990𝑋6

88
- 𝑌5 = 0.2829𝑋1 + 0.0357𝑋2 − 0.7773𝑋3 − 0.1075𝑋4 + 0.5503𝑋5 − 0.0018𝑋6

- 𝑌6 = −0.0540𝑋1 + 0.0503𝑋2 + 0.1239𝑋3 + 0.1771𝑋4 + 0.2309𝑋5 − 0.9458𝑋6

AUTOVALORES DA MATRIZ CORRELAÇÃO


3.5

2.5
AUTOVALOR

1.5

0.5

0
1 2 3 4 5 6
NÚMERO DO AUTOVALOR

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2


0.6

0.4
5

3
0.2 6
COMPONENTE 2

−0.2 1

−0.4 4

−0.6
2
−0.8
−0.55 −0.5 −0.45 −0.4 −0.35 −0.3 −0.25 −0.2 −0.15
COMPONENTE 1

89
DISPERSÃO DOS ESCORES: COMP1 versus COMP2
7
1 6
8
1
0.5
10 9
3
0
2

ESCORE − COMP2
−0.5 4

−1

−1.5

−2

−2.5 5

−3
−4 −3 −2 −1 0 1 2 3 4
ESCORE − COMP1

5. Os dados da tabela seguinte pertencem ao censo de 1970, de determinado país desenvolvido.


Tabelou-se 5 variáveis sócio-econômicas de 14 comarcas de determinado estado. Considere
as 14 comarcas como uma amostra aleatória dos municípios do estado.

Comarca 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5

1 5.935 14.2 2.265 2.27 2.91


2 1.523 13.1 0.597 0.75 2.62
3 2.599 12.7 1.237 1.11 1.72
4 4.009 15.2 1.649 0.81 3.02
5 4.687 14.7 2.312 2.5 2.22
6 8.044 15.6 3.641 4.51 2.36
7 2.766 13.3 1.244 1.03 1.97
8 6.538 17 2.618 2.39 1.85
9 6.451 12.9 3.147 5.52 2.01
10 3.314 12.2 1.606 2.18 1.82
11 3.777 13 2.119 2.83 1.8
12 1.53 13.8 0.798 0.84 4.25
13 2.768 13.6 1.336 1.75 2.64
14 6.585 14.9 2.763 1.91 3.17

𝑋1 = população total em 1000 hab, 𝑋2 = mediana dos anos de escolaridade da população,


𝑋3 = total de empregos em milhares, 𝑋4 = total de empregos nos serviços de saúde em

90
centenas e 𝑋5 = valor mediano das residências em US$10.000.

(a) Construa a matriz de covariância amostral 𝑆.

* MATRIZ COVARIÂNCIA *
**************************
4.3076 1.6837 1.8028 2.1553 -0.2535
1.6837 1.7675 0.5880 0.1780 0.1755
1.8028 0.5880 0.8007 1.0648 -0.1583
2.1553 0.1780 1.0648 1.9695 -0.3568
-0.2535 0.1755 -0.1583 -0.3568 0.5044

(b) Obtenha os pares de autovalores-autovetores e as 2 primeiras componentes principais


amostrais para a matriz de covariância do item (a).

* AUTOVALORES DA MATRIZ COVARIÂNCIA *


*************************************
6.9311 1.7851 0.3896 0.2295 0.0142
*************************************
* AUTOVETORES DA MATRIZ COVARIÂNCIA *
*************************************
-0.7812 0.0709 0.0037 0.5417 -0.3020
-0.3056 0.7639 -0.1618 -0.5448 -0.0093
-0.3344 -0.0829 0.0148 0.0510 0.9373
-0.4260 -0.5795 0.2205 -0.6360 -0.1721
0.0544 0.2624 0.9618 0.0513 0.0246

* COMPONENTES PRINCIPAIS (VARIÁVEIS ORIGINAIS *


***********************************************
CP1 CP2
----------------------
-0.7812 0.0709
-0.3056 0.7639
-0.3344 -0.0829
-0.4260 -0.5795
0.0544 0.2624

91
AUTOVALORES DA MATRIZ COVARIÂNCIA
7

AUTOVALOR
4

0
1 1.5 2 2.5 3 3.5 4 4.5 5
NÚMERO DO AUTOVALOR

COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2


0.8 2

0.6

0.4
5
COMPONENTE 2

0.2
1

0
3

−0.2

−0.4

4
−0.6
−0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 0 0.1
COMPONENTE 1

(c) Calcule a proporção da variação total explicada pelas duas primeiras componentes
principais.

******************************************
* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *
* AUTOVALORES DA MATRIZ COVARIÂNCIA *
******************************************
-----------------------------------------
ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.
LORES (EM %) ACUM. (%)

92
-----------------------------------------
1 6.9311 74.13 74.13
2 1.7851 19.09 93.23
-----------------------------------------

Ou seja, as 2 primeiras componentes explicam 93, 23% da variância.

(d) Calcule os coeficientes de correlação 𝜌(𝑦𝑖 , 𝑥𝑗 ) = 𝜌𝑖𝑗 e interprete-os se possível.

CORRELAÇÕES ENTRE AS VARIÁVEIS ORIGINAIS *


E AS COMPONENTES PRINCIPAIS *
*****************************************
---------------------
COMPONENTES PRINCIPAIS
---------------------------
|VAR.| CP1 CP2
-------------------------
1 -0.9909 0.0456
2 -0.6053 0.7677
3 -0.9840 -0.1238
4 -0.7992 -0.5517
5 0.2015 0.4936
-------------------------

Na primeira componente principal as variáveis 𝑋1 e 𝑋3 estão muito bem representadas,


tendo 𝑋4 como uma variável que também pesa sobre esta componente. A variável
𝑋2 tem maior peso na componente 2. Com isso, verificamos que as duas primeiras
componentes fazem uma boa avaliação de todas as variáveis presentes neste problema.

(e) Calcule os escores dados pelas duas primeiras componentes principais ou melhor, cada
comarca terá duas variáveis ao invés de 5 originais, você deverá determinar o valor de
cada componente principal para cada comarca.

*********************************
* ESCORES (VARIÁVEIS ORIGINAIS) *
*********************************
Score(Y1) Score(Y2)
-----------------------

93
-10.5431 10.5279
-5.5705 10.3180
-6.7052 9.5909
-8.5101 12.0812
-9.8722 10.5032
-14.0629 10.1904
-6.9737 10.1724
-12.0968 12.3326
-12.2773 7.3790
-7.6847 8.6352
-8.7405 8.8547
-5.8069 11.2120
-7.3680 10.1526
-11.2639 11.3442

ESCORES: COMP.PRINC.1 X COMP.PRINC.2


3

8
2 4
ESCORE COMP. PRINC.2

14
1 12

1 5
2
0 6 13 7

3
−1
11
10

−2

9
−3
−5 −4 −3 −2 −1 0 1 2 3 4
ESCORE COMP. PRINC.1

6. Suponha que você está com o problema de ajustar o modelo 𝑌 = 𝑋𝛽 + 𝜀 a um conjunto


de dados. Mas, ocorre que as linhas da matriz do modelo 𝑋(𝑛×𝑝) são aproximadamente
colineares. Esta colinearidade faz com que algumas variáveis independentes contribuam
pouco para a regressão. Assim, pode-se descartar algumas das variáveis independentes
com o objetivo de: aumentar a precisão das estimativas de regressão com as variáveis
retidas e reduzir o número de medidas necessárias em dados semelhantes no futuro. Uma
maneira de descartar variáveis (variáveis redundantes) usando componentes principais é a

94
seguinte:

- Determine os autovalores e autovetores da matriz de correlação das variáveis indepen-


dentes;

- Considere o autovetor correspondente ao menor autovalor (valor absoluto), descarte,


aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o
autovetor com menor autovalor é o menos importante no conjunto.

- O número de variáveis descartadas deve ser igual ao número de autovalores menores


ou iguais a 0.70.

Use as informações anteriores para descartar variáveis redundantes no problema seguinte:


um estudo de 𝑛 = 180 estacas de pinheiro Corsican foi feito com o objetivo de estudar
a dependência da força de compressão máxima (𝑌 ) de 13 outras variáveis independentes
(𝑋𝑖 , 𝑖 = 1, 2, . . . , 13). Estas estacas são usadas para escorar tetos de minas. Os autovalores
e autovetores da matriz de correlação das 13 variáveis independentes são dados. Responder
quais das 13 variáveis independentes devem ser descartadas.

𝑋1 = diâmetro do topo da estaca, 𝑋2 = comprimento da estaca, 𝑋3 = unidade da estaca,


𝑋4 = massa específica da madeira, 𝑋5 = massa específica da madeira seca, 𝑋6 = número
de anéis no topo da estaca, 𝑋7 = número de anéis na base, 𝑋8 = curvatura máxima, 𝑋9 =
distância da curvatura máxima-topo da estaca, 𝑋10 = número de nós, 𝑋11 = comprimento
da base ao topo, 𝑋12 = número médio de nós por estaca e 𝑋13 = diâmetro médio dos nós.

Autovalores:

𝜆1 = 4.22, 𝜆2 = 2.38, 𝜆3 = 1.88, 𝜆4 = 1.11, 𝜆5 = 0.91, 𝜆6 = 0.82, 𝜆7 = 0.58, 𝜆8 = 0.54,


𝜆9 = 0.35, 𝜆10 = 0.19, 𝜆11 = 0.05, 𝜆12 = 0.04 e 𝜆13 = 0.04.

95
𝑒1 𝑒2 𝑒3 𝑒4 𝑒5 𝑒6 𝑒7 𝑒8 𝑒9 𝑒10 𝑒11 𝑒12 𝑒13
1 -0,4 0,22 -0,21 -0,09 -0,08 0,12 -0,11 0,014 0,33 -0,31 0 0,39 -0,57
2 -0,41 0,19 -0,24 -0,1 -0,11 0,16 -0,08 0,02 0,32 -0,27 -0,05 -0,41 0,58
3 -0,12 0,54 0,14 0,08 0,35 -0,28 -0,02 0 -0,08 0,06 0,12 0,53 0,41
4 -0,17 0,46 0,35 0,05 0,36 -0,05 0,08 -0,02 -0,01 0,1 -0,02 -0,59 -0,38
5 -0,06 -0,17 0,48 0,05 0,18 0,63 0,42 -0,01 0,28 0 0,01 0,2 0,12
6 -0,28 -0,01 0,48 -0,06 -0,32 0,05 -0,3 0,15 -0,41 -0,1 -0,54 0,08 0,06
7 -0,4 -0,19 0,25 -0,07 -0,22 0 -0,23 0,01 -0,13 0,19 0,76 -0,04 0
8 -0,29 -0,19 -0,24 0,29 0,19 -0,06 0,4 0,64 -0,35 -0,08 0,03 -0,05 0,02
9 -0,36 0,02 -0,21 0,1 -0,1 0,03 0,4 -0,7 -0,38 -0,06 -0,05 0,05 -0,06
10 -0,38 -0,25 -0,12 -0,21 0,16 -0,17 0 -0,01 0,27 0,71 -0,32 0,06 0
11 0,01 0,21 -0,07 0,8 -0,34 0,18 -0,14 0,01 0,15 0,34 -0,05 0 -0,01
12 0,12 0,34 0,09 -0,3 -0,6 -0,17 0,54 0,21 0,08 0,19 0,05 0 0
13 0,11 0,31 -0,33 -0,3 0,08 0,63 -0,16 0,11 -0,38 0,33 0,04 0,01 -0,01
𝜆 4,22 2,38 1,88 1,11 0,91 0,82 0,58 0,54 0,35 0,19 0,05 0,04 0,04
Utilizando a heurística sugerida para eliminação de variáveis e aplicando para a matriz da
tabela acima, obtém-se o conjunto de variáveis conforme destacada na própria tabela. As
variáveis eliminadas são:

- 𝜆13 = 𝑋2 comprimento da estaca

- 𝜆12 = 𝑋4 massa específica da madeira

- 𝜆11 = 𝑋7 número de anéis na base

- 𝜆10 = 𝑋10 número de nós

- 𝜆9 = 𝑋6 número de anéis no topo da estaca

- 𝜆8 = 𝑋9 distância da curvatura máxima-topo da estaca

- 𝜆7 = 𝑋12 número médio de nós por estaca

7. Provar os seguintes resultados: (ver livro: Johnson & Wichern):

Resultado 1: Seja a matriz covariância associada ao vetor aleatório 𝑋 ′ = [𝑋1 , 𝑋2 , . . . , 𝑋𝑝 ].


Seja Σ com os pares de autovalores e autovetores: (𝜆1 , 𝑒1 ), (𝜆2 , 𝑒2 ), . . . , (𝜆𝑝 , 𝑒𝑝 ) onde
𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. A 𝑗-ésima componente principal é dada por:

𝑌𝑗 = 𝑒′𝑗 X = 𝑒1𝑗 𝑋1 + 𝑒2𝑗 𝑋2 + . . . + 𝑒𝑝𝑗 𝑋𝑝 , 𝑖 = 1, 2, . . . , 𝑝

com essa escolha:

𝑉 (𝑌𝑗 ) = 𝑒′𝑗 Σ𝑒𝑗 = 𝜆𝑗 , 𝑗 = 1, 2, . . . , 𝑝.

96
𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 ) = 𝑒′𝑗 X = 0, para todo 𝑖 ∕= 𝑗

Suponha que 𝑥𝑖 = (𝑥𝑖1 , ..., 𝑥𝑖𝑝 )′ sejam 𝑛 vetores de 𝑝 variáveis e definida:



- 𝑧𝑖 = (𝑧𝑖1 , ..., 𝑧𝑖𝑝 )′ tal que 𝑧𝑖𝑗 = 𝑥𝑖𝑗 − 𝑛−1 𝑛𝑖=1 𝑥𝑖𝑗 . 𝑧𝑖𝑗 é igual a 𝑥𝑖𝑗 centrado na
média

- ℎ = (ℎ1 , ..., ℎ𝑛 )′ tal que:

ℎ1 = ⟨𝛽, 𝑧1 ⟩ = 𝛽1 𝑧11 + ... + 𝛽𝑝 𝑧1𝑝


ℎ2 = ⟨𝛽, 𝑧2 ⟩ = 𝛽1 𝑧21 + ... + 𝛽𝑝 𝑧2𝑝
.. .. .. .. ..
. . . . .
ℎ𝑛 = ⟨𝛽, 𝑧𝑛 ⟩ = 𝛽1 𝑧𝑛1 + ... + 𝛽𝑝 𝑧𝑛𝑝

Para encontrar a primeira componente principal temos que resolver:


{ 𝑛
}

𝜉1 = 𝑚𝑎𝑥𝑉 𝑎𝑟(ℎ) = 𝑚𝑎𝑥 𝑛−1 ℎ2𝑖 (7)
𝑖=1

𝑝

2
𝑠.𝑎. 𝜉𝑗1 = ∣∣𝜉1 ∣∣2 = 1
𝑗=1

O vetor 𝜉1 = (𝜉11 , ..., 𝜉1𝑝 )′ é o primeiro componente principal. Se definirmos uma


matriz 𝑍𝑛𝑥𝑝 tal que suas linhas são formadas por 𝑛 ocorrências dos vetores 𝑧𝑖 , então:

𝑛

ℎ = 𝛽′𝑍 ′ ⇒ ℎ2𝑖 = 𝛽 ′ 𝑍 ′ 𝑍𝛽
𝑖=1

Substituindo na equação (7) temos

𝜉1 = 𝑚𝑎𝑥𝑛−1 𝛽 ′ 𝑍 ′ 𝑍𝛽

𝑉 𝑎𝑟(𝑧) = 𝑛−1 𝑍 ′ 𝑍 é o estimador da matriz de covariância de 𝑧. Os demais com-


ponentes principais podem ser obtidos repetindo o procedimento de maximização da
equação (7) e acrescentando a restrição de ortogonalidade com as componentes prin-
cipais já obtidas. Logo, se 𝜉𝑘 = (𝜉𝑘1 , ..., 𝜉𝑘𝑝 )′ , então:
{ 𝑛
}

−1
𝜉𝑘 = 𝑚𝑎𝑥𝑉 𝑎𝑟(ℎ) = 𝑚𝑎𝑥 𝑛 ℎ2𝑖 (8)
𝑖=1

97
𝑝

2
𝑠.𝑎. 𝜉𝑗𝑘 = ∣∣𝜉𝑘 ∣∣2 = 1
𝑗=1

𝑒⟨𝛽, 𝜉𝑚 ⟩ = 0 para todo 𝑚 < 𝑘

∑𝑝
Chamamos ℎ𝑖𝑘 = 𝑗=1 𝜉𝑗𝑘 𝑧𝑖𝑘 de Escores de Componentes Principais (ECP) do k-
ésimo componente principal.
A restrição de norma unitária para os vetores de componentes principais é necessária
para delimitar o problema não permitindo que 𝜉1′ 𝑉 𝑎𝑟(𝑧)𝜉1 possa assumir valores ar-
bitrariamente grandes.
A idéia é encontrar a forma mais forte e, portanto, mais importante das variáveis
observadas.
Na obtenção dos componentes principais subseqüentes acrescentam-se restrições de or-
togonalidade (produto interno igual a zero) com os componentes principais já obtidos
para garantir que as próximas componentes principais representem inovações.
Logicamente, a cada componente principal obtido, o valor maximizado será cada vez
menor permitindo aferir o percentual explicado por cada componente. Observe que
esta definição de componentes principais não possui solução única. Para ver isto,
basta notar que se 𝜉𝑘 é um componente principal, então −𝜉𝑘 também o será.
Sabemos que 𝑉 𝑎𝑟(𝑧) é uma matriz simétrica e não negativa definida. Logo, se 𝜆1 ≥
... ≥ 𝜆𝑝 são os seus autovalores e 𝑒1 , ..., 𝑒𝑝 os respectivos autovetores normalizados,
então 𝜉𝑘 ≡ 𝑒𝑘 para todo 𝑘.
Além disso, cada autovalor 𝜆𝑘 é um estimador para a variância de 𝑥𝑘 . Logo

𝜆
∑𝑝 𝑘 .100
𝑖=1 𝜆𝑖

é o percentual da variação explicada pelo componente principal de ordem 𝑘.


Prova
𝑒′𝑗 Σ𝑒𝑗
Variância é dada por 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 𝑒𝑗
, como 𝑒′𝑗 𝑒𝑗 = 1, tem-se 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 Σ𝑒𝑗 . Ree-
screvendo 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 (Σ𝑒𝑗 ), a parte entre parênteses pode ser substituída por 𝜆𝑗 𝑒𝑗 ,
pois 𝑒𝑗 é o autovetor do autovalor 𝜆𝑗 . Obtem-se então 𝑉 (𝑌𝑗 ) = 𝑒′𝑗 (𝜆𝑗 𝑒𝑗 ). Como 𝜆𝑗 é
um escalar é possível reescrever como 𝑉 (𝑌𝑗 ) = 𝜆𝑗 𝑒′𝑗 𝑒𝑗 . Como o vetor 𝑒𝑗 é normalizado,
o produto 𝑒′𝑗 𝑒𝑗 = 1. Com isso 𝑉 (𝑌𝑗 ) = 𝜆𝑗 .

Resultado 2: Seja 𝑋 ′ = [𝑋1 , 𝑋2 , . . . , 𝑋𝑝 ] tendo matriz covariância Σ , com pares de


autovalores e autovetores (𝜆1 , 𝑒1 ), (𝜆2 , 𝑒2 ), . . . , (𝜆𝑝 , 𝑒𝑝 ) onde 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0.

98
Sejam 𝑌1 = 𝑒1 X1 , 𝑌2 = 𝑒2 X2 , . . . , 𝑌𝑝 = 𝑒𝑝 X𝑝 as componentes principais. Então

𝑝
∑ 𝑝

𝜎11 + 𝜎22 + . . . + 𝜎𝑝𝑝 = 𝑉 (𝑋𝑗 ) = 𝜆1 + 𝜆2 + . . . + 𝜆𝑝 = 𝑉 (𝑌𝑗 )
𝑗=1 𝑗=1

Prova

Traço (Σ) =traço(𝑃 Λ𝑃 ′ ) =traço(Λ𝑃 𝑃 ′ ) =traçoΛ𝐼 =traçoΛ. Donde Λ é a matriz


diagonal dos autovalores e 𝑃 é a matriz dos autovetores associados aos autovalores.
Assim

Traço(Σ) =traço(Λ) ou seja:


∑ ∑
𝜎11 + 𝜎22 + ... + 𝜎𝑝𝑝 = 𝑝𝑗=1 𝑉 (𝑋𝑗 ) = 𝜆1 + 𝜆2 + ... + 𝜆𝑝 = 𝑝𝑗=1 𝑉 (𝑌𝑗 )

5 Lista 5: Análise Fatorial

1. Uma empresa do ramo de calçados populares gostaria de entender melhor a forma de rela-
cionamento de algumas variáveis e como este relacionamento pode interferir na condução
de seus negócios. Para isso, resolveu encomendar uma pesquisa com outras empresas do
ramo para identificar a importância de algumas variáveis. As variáveis que fizeram parte
da pesquisa foram:

𝑣1 = automação, 𝑣2 = crescimento do PIB, 𝑣3 = parceria com os fornecedores, 𝑣4 = novos


concorrentes 𝑣5 = diversidade de produtos, 𝑣6 = controle de despesas, 𝑣7 = câmbio e 𝑣8 =
estabilidade econômica.

A pesquisa era respondida por uma escala de concordância: 1 = não interfere, 2 = interfere
pouco, 3 = interfere, 4 = interfere muito e 5 = fundamental.

Os resultados da pesquisa foram:

Empresas 𝑣1 𝑣2 𝑣3 𝑣4 𝑣5 𝑣6 𝑣7 𝑣8

C1 4 1 2 2 2 4 1 3
C2 4 1 2 2 2 4 1 3
C3 2 2 1 3 1 3 2 4
C4 5 4 3 3 3 5 2 4
C5 4 2 3 3 1 3 2 4
C6 4 2 2 3 3 4 2 4
C7 5 3 3 4 5 5 4 5
C8 2 1 1 4 6 3 5 5

99
C9 3 2 1 3 3 5 2 4
C10 4 2 2 3 1 3 2 4
C11 3 2 1 3 1 3 2 4
C12 3 2 1 3 2 4 6 4
C13 3 3 1 4 2 4 3 5
C14 3 3 1 4 2 4 3 5
C15 5 3 3 4 1 3 3 5
C16 3 1 1 2 2 4 1 3
C17 3 3 1 4 2 4 3 5
C18 5 2 3 3 3 5 2 4
C19 3 3 1 4 1 3 3 5
C20 3 2 1 3 3 5 2 4
C21 3 2 1 2 3 5 3 2
C22 4 3 2 3 1 3 2 3
C23 4 5 2 4 1 3 3 5
C24 4 3 2 4 3 5 3 5
C25 4 2 2 3 2 4 2 4
C26 4 3 2 4 3 5 3 5
C27 5 3 3 4 2 4 3 5
C28 5 3 3 4 2 4 3 5
C29 4 3 2 4 2 4 3 5
C30 5 3 3 4 2 4 3 5

(a) Faça uma Análise Fatorial e avalie seu resultado (teste de esfericidade, KMO, total de
variância explicada e comunalidades) e comente sobre a aderência técnica à solução
deste caso.

>> y = kmo(A)
Teste de Esfericidade - Estatística de Bartlett

Q2 = 192.5975 pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.4467

*************************

100
* MATRIZ CORRELAÇÃO *
*************************

1.00 0.40 0.94 0.18 -0.05 0.24 -0.13 0.18


0.40 1.00 0.32 0.66 -0.21 0.02 0.26 0.57
0.94 0.32 1.00 0.20 -0.00 0.10 -0.10 0.21
0.18 0.66 0.20 1.00 0.11 -0.11 0.58 0.96
-0.05 -0.21 -0.00 0.11 1.00 0.55 0.38 0.11
0.24 0.02 0.10 -0.11 0.55 1.00 -0.02 -0.09
-0.13 0.26 -0.10 0.58 0.38 -0.02 1.00 0.51
0.18 0.57 0.21 0.96 0.11 -0.09 0.51 1.00

********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
--------------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 F3 | | ESP.
--------------------------------------------------
1 | 0.5115 0.8285 0.0976 | 0.96 | 0.04
2 | 0.7780 0.0975 -0.2392 | 0.67 | 0.33
3 | 0.5111 0.7862 0.0633 | 0.88 | 0.12
4 | 0.9155 -0.3221 -0.0917 | 0.95 | 0.05
5 | 0.1157 -0.2342 0.8969 | 0.87 | 0.13
6 | 0.0337 0.2295 0.8324 | 0.75 | 0.25
7 | 0.5378 -0.6010 0.2364 | 0.71 | 0.29
8 | 0.8794 -0.3002 -0.0809 | 0.87 | 0.13
--------------------------------------------------
AUTO | 3.04 1.98 1.64 |
----------------------------------
PROP. | |
ACUM. | 38.04 62.75 83.24 |
----------------------------------

****************************
* MATRIZ DOS RESÍDUOS *
****************************

0 -0.06 0.02 -0.01 0.00 -0.05 0.07 -0.01


-0.06 0 -0.14 -0.04 -0.06 0.17 -0.05 -0.11

101
0.02 -0.14 0 -0.01 0.07 -0.15 0.09 -0.00
-0.01 -0.04 -0.01 0 0.01 0.01 -0.09 0.05
0.00 -0.06 0.07 0.01 0 -0.15 -0.04 0.01
-0.05 0.17 -0.15 0.01 -0.15 0 -0.09 0.01
0.07 -0.05 0.09 -0.09 -0.04 -0.09 0 -0.13
-0.01 -0.11 -0.00 0.05 0.01 0.01 -0.13 0

*******************
* ROTAÇÃO VARIMAX *
*******************
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
--------------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 F3 | | ESP.
--------------------------------------------------
1 | 0.0804 0.9741 0.0468 | 0.96 | 0.04
2 | 0.6729 0.4217 -0.2034 | 0.67 | 0.33
3 | 0.1020 0.9342 0.0167 | 0.88 | 0.12
4 | 0.9676 0.1181 -0.0092 | 0.95 | 0.05
5 | 0.1237 -0.1030 0.9201 | 0.87 | 0.13
6 | -0.1487 0.2697 0.8074 | 0.75 | 0.25
7 | 0.7238 -0.2804 0.3224 | 0.71 | 0.29
8 | 0.9247 0.1221 -0.0025 | 0.87 | 0.13

--------------------------------------------------
AUTO | 3.04 1.98 1.64 |
----------------------------------
PROP. | |
ACUM. | 35.28 62.66 83.24 |
----------------------------------

Comentários: Pelo teste de esfericidade de Bartlett os dados são apropriados a análise


fatorial, o resultado do teste foi um p-value = 0, No entanto no Medida de adequaci-
dade da amostra de Kayser-Meyer-Olkin obtemos 0,44, um valor insatisfatório, pois o
MSA deve ser de no mínimo 0,5. Isso indica que a estrutura da matriz de correlação
não é apropriada à análise fatorial.

Aplicando a análise fatorial ao conjunto de dados (matriz de correlação) e usando


o critério de Kayser para determinar o número de fatores, obtemos três fatores que

102
explicam 83,24% da variância total.

A análise dos fatores se torna complexa, pois existem com pesos parecidos nos fatores
obtidos, sendo assim foi aplicado o critério varimax de rotação com o objetivo de
facilitar a interpretação dos fatores.

Quanto as comunalidades, existem algumas com valores altos como 𝑣1 , 𝑣4 e outras


com valores em torno de 0,7 como 𝑣2 , 𝑣6 e 𝑣7 . No geral, as comunalidades são altas,
não sendo necessário excluir variáveis do modelo.

Após a rotação observamos o seguinte relação entre variáveis por fator.

Fator 1: 𝑣4 , 𝑣8 , 𝑣7 e 𝑣2

Fator 2: 𝑣1 , 𝑣3

Fator 3: 𝑣5 , 𝑣6

(b) Qual a sua conclusão sobre os fatores encontrados para este caso?

O Fator 1 é uma junção das variáveis {novos concorrentes, estabilidade econômica, câmbio,
crescimento do PIB}, sugerindo assim um fator ligado a parte econômica. Já no Fator 2,
temos {automação e parceria com fornecedores } que está ligado a fornecedores, enquanto
que no Fator 3 temos {diversidade de produtos e controle de despesa} que está ligado a
produtos e despesas das empresas.

Dessa maneira a parte econômica é mais importante para as empresas, seguido da relação
com os fornecedores e por último as variáveis que envolvem produtos e despesas.

2. Os dados a seguir representam as notas de 88 alunos em cinco matérias onde foram real-
izadas provas com o livro “aberto” (A) ou o livro fechado (F). As cinco variáveis envolvidas
são: 𝑋1 = Mecânica, 𝑋2 = Vetores, 𝑋3 = Álgebra, 𝑋4 = Análise e 𝑋5 = Estatística.

Faça uma Análise Fatorial pelo Método das Componentes Principais: utilizar a rotação
Varimax. Procurar interpretar os fatores. Utilizar o Matlab.

Al. 𝑋1 (𝐹 ) 𝑋2 (𝐹 ) 𝑋3 (𝐴) 𝑋4 (𝐴) 𝑋5 (𝐴) Al. 𝑋1 (𝐹 ) 𝑋2 (𝐹 ) 𝑋3 (𝐴) 𝑋4 (𝐴) 𝑋5 (𝐴)

1 77 82 67 67 81 45 46 61 46 38 41
2 63 78 80 70 81 46 40 57 51 52 31
3 75 73 71 66 81 47 49 49 45 48 39
4 55 72 63 70 68 48 22 58 53 56 41
5 63 63 65 70 63 49 35 60 47 54 33
6 53 61 72 64 73 50 48 56 49 42 32
7 51 67 65 65 68 51 31 57 50 54 34
8 59 70 68 62 56 52 17 53 57 43 51

103
9 62 60 58 62 70 53 49 57 47 39 26
10 64 72 60 62 45 54 59 50 47 15 46
11 52 64 60 63 54 55 37 56 49 28 45
12 55 67 59 62 44 56 40 43 48 21 61
13 50 50 64 55 63 57 35 35 41 51 50
14 65 63 58 56 37 58 38 44 54 47 24
15 31 55 60 57 73 59 43 43 38 34 49
16 60 64 56 54 40 60 39 46 46 32 43
17 44 69 53 53 53 61 62 44 36 22 42
18 42 69 61 55 45 62 48 38 41 44 33
19 62 46 61 57 45 63 34 42 50 47 29
20 31 49 62 63 62 64 18 51 40 56 30
21 44 61 52 62 46 65 35 36 46 48 29
22 49 41 61 49 64 66 59 53 37 22 19
23 12 58 61 63 67 67 41 41 43 30 33
24 49 53 49 62 47 68 31 52 37 27 40
25 54 49 56 47 53 69 17 51 52 35 31
26 54 53 46 59 44 70 34 30 50 47 36
27 44 56 55 61 36 71 46 40 47 29 17
28 18 44 50 57 81 72 10 46 36 47 39
29 46 52 65 50 35 73 46 37 45 15 30
30 32 45 49 57 64 74 30 34 43 46 18
31 30 69 50 52 45 75 13 51 50 25 31
32 46 49 53 59 37 76 49 50 38 23 9
33 40 27 54 61 61 77 18 32 31 45 40
34 31 42 48 54 68 78 8 42 48 26 40
35 36 59 51 45 51 79 23 38 36 48 15
36 56 40 56 54 35 80 30 24 43 33 25
37 46 56 57 49 32 81 3 9 51 47 40
38 45 42 55 56 40 82 7 51 43 17 22
39 42 60 54 49 33 83 15 40 43 23 18
40 40 63 53 54 25 84 15 38 39 28 17
41 23 55 59 53 44 85 5 30 44 36 18
42 48 48 49 51 37 86 12 30 32 35 21
43 41 63 49 46 44 87 5 26 15 20 20
44 46 52 53 41 40 88 0 40 21 9 14

Teste de Esfericidade -Estatística de Bartlett

Q2 = 194.55 pvalor = 0

104
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.78

*************************
* MATRIZ CORRELAÇÃO *
*************************
1.00 0.55 0.55 0.41 0.39
0.55 1.00 0.61 0.49 0.44
0.55 0.61 1.00 0.71 0.66
0.41 0.49 0.71 1.00 0.61
0.39 0.44 0.66 0.61 1.00

********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
-------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 | | ESP.
-------------------------------------------
1 | -0.7126 -0.5587 | 0.82 | 0.18
2 | -0.7709 -0.3737 | 0.73 | 0.27
3 | -0.8970 0.1116 | 0.82 | 0.18
4 | -0.8147 0.3367 | 0.78 | 0.22
5 | -0.7834 0.3980 | 0.77 | 0.23
------------------------------------------
AUTO | 3.18 0.74 |
---------------------------
PROP. | |
ACUM. | 63.68 78.41 |
---------------------------

****************************
* MATRIZ DOS RESÍDUOS *
****************************
0 -0.20 -0.03 0.02 0.05
-0.20 0 -0.04 -0.02 -0.01
-0.03 -0.04 0 -0.06 -0.08
0.02 -0.02 -0.06 0 -0.16
0.05 -0.01 -0.08 -0.16 0

105
*******************
* ROTAÇÃO VARIMAX *
*******************
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
-------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 | | ESP.
-------------------------------------------
1 | -0.1998 -0.8832 | 0.82 | 0.18
2 | -0.3618 -0.7766 | 0.73 | 0.27
3 | -0.7660 -0.4799 | 0.82 | 0.18
4 | -0.8443 -0.2533 | 0.78 | 0.22
5 | -0.8588 -0.1860 | 0.77 | 0.23
-------------------------------------------
AUTO | 3.18 0.74 |
---------------------------
PROP. | |
ACUM. | 44.16 78.41 |
---------------------------

Comentários: Pelo teste de esfericidade de Bartlett (p-value = 0) e pela medida de ade-


quacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.78), a matriz de dados é adequada
à análise fatorial.

Fazendo a análise fatorial (matriz de correlação), escolheu-se 2 fatores que representam


78.41% da variância total do conjunto de dados original. Quanto as comunalidades, todas
as variáveis tem comunalidade acima de 0,7, não sendo necessário eliminar nenhuma delas.
A interpretação dos fatores obtidos é complicada, pois todas as variáveis tem alta correlação
com primeiro fator, e no segundo as correlações são baixas. Realizou-se então a rotação dos
fatores pelo critério varimax, onde podemos identificar claramente os grupos de variáveis
em cada fator.

Fator 1: Álgebra, Análise e Estatística (livro aberto)

Fator 2: Mecânica e vetores (livro fechado)

O primeiro fator mais representativo envolve as matérias de Álgebra, Análise e Estatística,


todas feitas com o livro aberto, já o segundo fator engloba as matérias Mecânica e Vetores,
ambas feitas com o livro fechado. Nesse caso os fatores separou as duas maneiras como as

106
provas foram aplicadas.

3. Os dados seguintes representam os escores de 15 variáveis resultantes da avaliação de 48


candidatos a um certo posto de serviço. As variáveis são: 𝑋1 = forma da letra, 𝑋2 =
aparência, 𝑋3 = habilidade acadêmica, 𝑋4 = habilidade para o posto, 𝑋5 = confiança em
si mesmo, 𝑋6 = lucidez, 𝑋7 = honestidade, 𝑋8 = aptidão para vendas, 𝑋9 = experiência,
𝑋10 = iniciativa, 𝑋11 = ambição, 𝑋12 = domínio, 𝑋13 = potencial, 𝑋14 = entusiasmo e
𝑋15 = conveniência.

Can. 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11 𝑋12 𝑋13 𝑋14 𝑋15


1 6 7 2 5 8 7 7 8 3 8 9 7 5 7 10
2 9 10 5 8 10 9 9 10 5 9 9 8 8 8 10
3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 10
4 5 6 8 5 6 5 9 2 8 4 5 8 7 6 5
5 6 8 8 8 4 4 9 2 8 4 5 8 7 6 5
6 7 7 7 6 8 7 10 5 9 6 5 8 6 6 6
7 9 9 8 8 8 8 8 8 10 8 10 8 9 8 10
8 9 9 9 8 9 9 8 8 10 9 10 9 9 9 10
9 9 9 7 8 8 8 8 5 9 8 9 8 8 8 10
10 4 7 10 2 10 10 7 10 3 10 10 10 9 3 10
11 4 7 10 0 10 8 3 9 5 9 10 8 10 2 5
12 4 7 10 4 10 10 7 8 2 8 8 10 10 3 7
13 6 9 8 10 5 4 9 4 4 4 5 4 7 6 8
14 8 9 8 9 6 3 8 2 5 2 6 6 7 5 6
15 4 8 8 7 5 4 10 2 7 5 3 6 6 4 6
16 6 9 6 7 8 9 8 9 8 8 7 6 8 6 10
17 8 7 7 7 9 5 8 6 6 7 8 6 6 7 8
18 6 8 8 4 8 8 6 4 3 3 6 7 2 6 4
19 6 7 8 4 7 8 5 4 4 2 6 8 3 5 4
20 4 8 7 8 8 9 10 5 2 6 7 9 8 8 9
21 3 8 6 8 8 8 10 5 3 6 7 8 8 5 8
22 9 8 7 8 9 10 10 10 3 10 8 10 8 10 8
23 7 10 7 9 9 9 10 10 3 9 9 10 9 10 8
24 9 8 7 10 8 10 10 10 2 9 7 9 9 10 8
25 6 9 7 7 4 5 9 3 2 4 4 4 4 5 4
26 7 8 7 8 5 4 8 2 3 4 5 6 5 5 6
27 2 10 7 9 8 9 10 5 3 5 6 7 6 4 5
28 6 3 5 3 5 3 5 0 0 3 3 0 0 5 0
29 4 3 4 3 3 0 0 0 0 4 4 0 0 5 0
30 4 6 5 6 9 4 10 3 1 3 3 2 2 7 3
31 5 5 4 7 8 4 10 3 2 5 5 3 4 8 3

107
32 3 3 5 7 7 9 10 3 2 5 3 7 5 5 2
33 2 3 5 7 7 9 10 3 2 2 3 6 4 5 2
34 3 4 6 4 3 3 8 1 1 3 3 3 2 5 2
35 6 7 4 3 3 0 9 0 1 0 2 3 1 5 3
36 9 8 5 5 6 6 8 2 2 2 4 5 6 6 3
37 4 9 6 4 10 8 8 9 1 3 9 7 5 3 2
38 4 9 6 6 9 9 7 9 1 2 10 8 5 5 2
39 10 6 9 10 9 10 10 10 10 10 8 10 10 10 10
40 10 6 9 10 9 10 10 10 10 10 10 10 10 10 10
41 10 7 8 0 2 1 2 0 10 2 0 3 0 0 10
42 10 3 8 0 1 1 0 0 10 0 0 0 0 0 10
43 3 4 9 8 2 4 5 3 6 2 1 3 3 3 8
44 7 7 7 6 9 8 8 6 8 8 10 8 8 6 5
45 9 6 10 9 7 7 10 2 1 5 5 7 8 4 5
46 9 8 10 10 7 9 10 3 1 5 7 9 9 4 4
47 0 7 10 3 5 0 10 0 0 2 2 0 0 0 0
48 0 6 10 1 5 0 10 0 0 2 2 0 0 0 0

Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais
e pelo Método da Máxima Verossimilhança. Utilizar a rotação Varimax. Utilizar o software
Statistica.

Teste de Esfericidade -Estatística de Bartlett Q2 = 649.25 pvalor


= 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.77

Método das Componentes Principais (Matriz Corelação) Varimax


Fator 1 Fator 2 Fator 3 Fator 4 Com. Var. Esp.
Forma da Letra 0.115 0.834 0.114 -0.136 0.740 0.260
Aparência 0.438 0.151 0.399 0.224 0.424 0.576
Habilidade Acadêmica 0.062 0.128 0.018 0.927 0.881 0.119
Habilidade p/ o posto 0.219 0.244 0.871 -0.090 0.875 0.125
Confiança em si mesmo 0.918 -0.103 0.167 -0.064 0.885 0.115
Lucidez 0.863 0.100 0.260 0.001 0.823 0.177
Honestidade 0.210 -0.244 0.866 0.014 0.854 0.146

108
Aptidão p/ vendas 0.917 0.207 0.085 -0.054 0.895 0.105
Experiência 0.082 0.849 -0.048 0.216 0.776 0.224
Iniciativa 0.805 0.343 0.148 -0.057 0.790 0.210
Ambição 0.916 0.160 0.104 -0.039 0.878 0.122
Domínio 0.806 0.253 0.338 0.145 0.848 0.152
Potencial 0.751 0.320 0.414 0.220 0.887 0.113
Entusiasmo 0.445 0.355 0.529 -0.533 0.888 0.112
Conveniência 0.397 0.790 0.058 0.072 0.790 0.210
Expl.Var 5.793 2.696 2.390 1.355
Prp.Totl 0.386 0.180 0.159 0.090
Prop. Acum. 50.023 63.654 73.344 81.554

Comentários: Realizando o teste de esfericidade de Bartlett (p-value = 0) e Medida de


Adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.77), concluí-se que a matriz
de dados é adequada à análise fatorial.

Pelo Método das componentes principais (Software Statistica), obteve-se 4 fatores uti-
lizando o critério de Kayser, que explicam 81.55% da variância dos dados originais. Foi
Aplicada a rotação pelo critério Varimax.

Observando-se as comunalidades, podemos eliminar a variável Aparência do modelo, pois


sua comunalidade está abaixo de 0,5.

No primeiro fator podemos reunir as variáveis: Confiaça em si mesmo, Lucidez, Aptidão


para vendas, Iniciativa, Ambição, Domínio e Potencial.

No fator 2 temos: Forma da letra, Experiência e Conveniência.

Fator 3: Habilidade para o posto, Honestidade.

Fator 4: Habilidade Acadêmica.

109
35

30

25
χ2

20

15

10

5
5 10 15 20 25 30 35
d2

Método da Máxima Verossimilhança(Matriz Corelação) Varimax


Factor 1 Factor 2 Factor 3 Com. Var. Esp.
Forma da Letra 0.120 0.188 0.655 0.479 0.521
Aparência 0.437 0.276 0.176 0.298 0.702
Habilidade Acadêmica 0.055 -0.044 0.217 0.052 0.948
Habilidade p/ o posto 0.202 0.948 0.158 0.965 0.035
Confiança em si mesmo 0.930 0.138 -0.091 0.892 0.108
Lucidez 0.832 0.309 0.125 0.804 0.196
Honestidade 0.263 0.672 -0.257 0.586 0.414
Aptidão p/ vendas 0.882 0.132 0.253 0.860 0.140
Experiência 0.070 0.005 0.788 0.626 0.374
Iniciativa 0.767 0.186 0.374 0.763 0.237
Ambição 0.890 0.143 0.177 0.844 0.156
Domínio 0.780 0.325 0.280 0.793 0.207
Potencial 0.721 0.424 0.349 0.822 0.178
Entusiasmo 0.446 0.579 0.217 0.580 0.420
Conveniência 0.346 0.126 0.813 0.797 0.203
Expl.Var 5.486 2.287 2.388
Prp.Totl 0.366 0.152 0.159
Prop. Acum. 45.758 56.346 67.739

110
Comentários: Para utilizar o Método da Máxima Verossimilhança, testamos primeiro a
normalidade da amostra. Pelo gráfico acima, podemos aceitar a hipótese de que os dados
sejam normalmente distribuídos.

Pelo Método da Máxima Verossimilhança (Software Statistica), obteve-se 3 fatores uti-


lizando o critério de Kayser, que explicam 67.73% da variância dos dados originais. Foi
Aplicada a rotação pelo critério Varimax.

Observando-se as comunalidades, podemos eliminar as variáveis Forma da letra, Habilidade


acadêmica e Aparência do modelo, pois suas comunalidades estão abaixo de 0,5.

No primeiro fator podemos reunir as variáveis: Confiança em si mesmo, Lucidez, Aptidão


para vendas, Iniciativa, Ambição, Domínio e Potencial.

No fator 2 temos: Habilidade para o posto, Honestidade.

Fator 3: Experiência

Comparando as duas análises, podemos concluir que ambas agruparam as mesmas variáveis
no primeiro fator e no restante dos fatores as diferenças foram pouco significativas.

4. Os dados seguintes representam as taxas dos crimes ocorridos por 100.000 habitantes nos
EUA, em 1986, por estado, segundo as categorias dos crimes:

Estado Ass. Estupro Assalto Ass. c/ viol. Arromb. Roubo simp. Roubo carro

ME 2 14.8 28 102 803 2347 164


NH 2.2 21.5 24 92 755 2208 228
VT 2 21.8 22 103 949 2697 181
MA 3.6 29.7 193 331 1071 2189 906
RI 3.5 21.4 119 192 1294 2568 705
CT 4.6 23.4 192 205 1198 2758 447
NY 10.7 30.5 514 431 1221 2924 637
NJ 5.2 33.2 269 265 1071 2822 776
PA 5.5 25.1 152 176 735 1654 354
OH 5.5 38.6 142 235 988 2574 376
IN 6 25.9 90 186 887 2333 328
IL 8.9 32.4 325 434 1180 2938 628
MI 11.3 67.4 301 424 1509 3378 800
WI 3.1 20.1 73 162 783 2802 254
MN 2.5 31.8 102 148 1004 2785 288
IA 1.8 12.5 42 179 956 2801 158
MO 9.2 29.2 170 370 1136 2500 439
ND 1 11.6 7 32 385 2049 120

111
SD 4 17.7 16 87 554 1939 99
NE 3.1 24.6 51 184 748 2677 168
KS 4.4 32.9 80 252 1188 3008 258
DE 4.9 56.9 124 241 1042 3090 272
MD 9 43.6 304 476 1296 2978 545
DC 31 52.4 754 668 1728 4131 975
VA 7.1 26.5 106 167 813 2522 219
WV 5.9 18.9 41 99 625 1358 169
NC 8.1 26.4 88 354 1225 2423 208
SC 8.6 41.3 99 525 1340 2846 277
GA 11.2 43.9 214 319 1453 2984 430
FL 11.7 52.7 367 605 2221 4373 598
KY 6.7 23.1 83 222 824 1740 193
TN 10.4 47 208 274 1325 2126 544
AL 10.1 28.4 112 408 1159 2304 267
MS 11.2 25.8 65 172 1076 1845 150
AR 8.1 28.9 80 278 1030 2305 195
LA 12.8 40.1 224 482 1461 3417 442
OK 8.1 36.4 107 285 1787 3142 649
TX 13.5 51.6 240 354 2049 3987 714
MT 2.9 17.3 20 118 783 3314 215
ID 3.2 20 21 178 1003 2800 181
WY 5.3 21.9 22 243 817 3078 169
CO 7 42.3 145 329 1792 4231 486
NM 11.5 46.9 130 538 1845 3712 343
AZ 9.3 43 169 437 1908 4337 419
UT 3.2 25.3 59 180 915 4074 223
NV 12.6 64.9 287 354 1604 3489 478
WA 5 53.4 135 244 1861 4267 315
OR 6.6 51.1 206 286 1967 4163 402
CA 11.3 44.9 343 521 1696 3384 762
AK 4.6 72.7 88 401 1162 3910 604
KI 4.8 31 106 103 1339 3759 328

Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais.
Mostrar e comentar: os fatores, a matriz de correlação, a matriz de resíduos, as comunali-
dades, os escores fatoriais. Utiliizar a rotação Varimax. Utilizar o software Statistica.

Teste de Esfericidade -Estatística de Bartlett


Q2 = 274.37

112
pvalor = 0

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin

MSA = 0.80

Método das Componentes Principais (Matriz Corelação) Varimax


Fator 1 Fator 2 Com. Var. Esp.
Assassinato 0.86 0.23 0.80 0.20
Estupro 0.43 0.75 0.74 0.26
Assalto 0.92 0.23 0.90 0.10
Assalto c/ Violência 0.76 0.48 0.80 0.20
Arrombamento 0.43 0.82 0.86 0.14
Roubo Simples 0.13 0.92 0.87 0.13
Roubo de Carro 0.78 0.31 0.70 0.30
Expl.Var 3.15 2.52
Prp.Totl 0.45 0.36
Prop. Acum. 66.69 81.01

Matriz Correlação

Assassinato 1.00 0.53 0.81 0.77 0.58 0.34 0.56


Estupro 0.53 1.00 0.53 0.66 0.72 0.63 0.57
Assalto 0.81 0.53 1.00 0.74 0.55 0.40 0.79
Assalto c/ Violência 0.77 0.66 0.74 1.00 0.71 0.51 0.64
Arrombamento 0.58 0.72 0.55 0.71 1.00 0.76 0.58
Roubo Simples 0.34 0.63 0.40 0.51 0.76 1.00 0.39
Roubo de Carro 0.56 0.57 0.79 0.64 0.58 0.39 1.00

Matriz Resíduos

Assassinato 0.20 -0.01 -0.04 0.00 0.02 0.01 -0.19


Estupro -0.01 0.26 -0.04 -0.03 -0.08 -0.11 0.00
Assalto -0.04 -0.04 0.10 -0.06 -0.03 0.07 0.00
Assalto c/ Violência 0.00 -0.03 -0.06 0.20 -0.01 -0.03 -0.10
Arrombamento 0.02 -0.08 -0.03 -0.01 0.14 -0.05 -0.01
Roubo Simples 0.01 -0.11 0.07 -0.03 -0.05 0.13 0.00
Roubo de Carro -0.19 0.00 0.00 -0.10 -0.01 0.00 0.30

113
Escores Fatoriais
ME -0.97272 -0.83601
NH -0.86210 -0.85943
VT -1.15465 -0.27514
MA 0.92052 -0.91994
RI 0.06027 -0.45561
CT -0.02263 -0.39470
NY 1.90205 -0.81223
NJ 0.74618 -0.49537
PA 0.26503 -1.55250
OH -0.09568 -0.30010
IN -0.18792 -0.80005
IL 1.19235 -0.44878
MI 1.15525 0.86828
WI -0.73038 -0.52244
MN -0.75178 -0.09742
IA -1.03247 -0.40273
MO 0.59479 -0.61096
ND -1.06528 -1.44864
SD -0.76823 -1.33710
NE -0.84043 -0.47240
KS -0.67895 0.26114
DE -0.60030 0.65133
MD 1.00802 0.01707
DC 4.35648 -0.12070
VA -0.28687 -0.73616
WV -0.23685 -1.81118
NC -0.04473 -0.39898
SC 0.13600 0.34052
GA 0.48788 0.23986
FL 0.91822 1.94079
KY -0.03453 -1.31962
TN 0.82878 -0.46695
AL 0.39241 -0.62470
MS 0.02771 -1.07690
AR -0.12453 -0.60846
LA 0.75353 0.43845
OK 0.07215 0.66752
TX 0.64618 1.48818
MT -1.20159 -0.11200
ID -0.99452 -0.21698

114
WY -0.81908 -0.19755
CO -0.48450 1.68428
NM 0.10974 1.40918
AZ -0.22861 1.81708
UT -1.30216 0.70518
NV 0.62783 1.07213
WA -1.09641 2.17257
OR -0.55725 1.94986
CA 1.41923 0.49975
AK -0.43878 1.70137
KI -1.00664 0.80720

Comentários: Fazendo o teste de esfericidade de Bartlett e da medida de adequacidade da


amostra, concluí-se que os dados são apropriados à análise fatorial.

Analisando a matriz de correlação, as variáveis Assassinato, Assalto e Assalto com violência


formam um grupo, enquanto que estupro, roubo simples e roubo de carro formam outro
grupo, com correlações mais baixas que o primeiro grupo.

Pelo Método das componentes principais (Software Statistica), obteve-se 2 fatores uti-
lizando o critério de Kayser, que explicam 81.01% da variância dos dados originais. Foi
Aplicada a rotação pelo critério Varimax.

Todas as comunalidades estão acima de 0,7, não sendo necessário eliminar variáveis. E a
matriz de resíduos tem valores baixos.

No primeiro fator podemos reunir as variáveis: Assassinato, Assalto, Assalto com violência
e Roubo de Carro.

No fator 2 temos: Estupro, Arrombamento e Roubo Simples.

Nos escores fatoriais, conseguimos identificar Nova York que se destaca no primeiro fator
e Washington que se destaca no segundo fator.

5. Uma matriz de dados 𝑋(86×4) , resultou na seguinte matriz covariância:

⎡ ⎤
0, 029004 −0, 008545 0, 001143 −0, 006594
⎢ ⎥
⎢ ⎥
⎢ −0, 008545 0, 003318 0, 000533 0, 003248 ⎥
𝑆 = ⎢



⎢ 0, 001143 0, 000533 0, 004898 0, 005231 ⎥
⎣ ⎦
−0, 006594 0, 003248 0, 005231 0, 008463

115
Aqui as variáveis relacionam o número de árvores, altura, área da superfície e o volume de
86 parcelas de terra. Utilizando o MATLAB, calcular:

(a) a matriz correlação;

*************************
* MATRIZ CORRELAÇÃO *
*************************
1.0000 -0.8711 0.0959 -0.4209
-0.8711 1.0000 0.1322 0.6129
0.0959 0.1322 1.0000 0.8125
-0.4209 0.6129 0.8125 1.0000

(b) os autovalores associados à matriz de correlação;

>> [e,l]=eig(R)
e =
0.1925 0.6792 0.5162 -0.4849
-0.2110 0.7214 -0.3388 0.5660
-0.6129 -0.1169 0.7030 0.3413
0.7368 -0.0682 0.3529 0.5727
l =
0.0386 0 0 0
0 0.1005 0 0
0 0 1.4146 0
0 0 0 2.4463

(c) escolher um número adequado de fatores; Pelo critério de Kayser escolhemos 2 fatores
(d) estimar a matriz de pesos;

F1 F2
0.7584 -0.6140 número de árvores
-0.8852 0.4029 altura -0.5339 -0.8361 área da superfície
-0.8958 -0.4197 volume

(e) estimar as comunalidades;

0.95 número de árvores 0.95 altura 0.98 área da


superfície 0.98 volume

(f) estimar as variâncias específicas;

0.05 número de árvores 0.05 altura 0.02 área da


superfície 0.02 volume

116
(g) construir uma tabela resumindo os resultados;

********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************

-------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 | | ESP.
-------------------------------------------
1 | 0.7584 -0.6140 | 0.95 | 0.05
2 | -0.8852 0.4029 | 0.95 | 0.05
3 | -0.5339 -0.8361 | 0.98 | 0.02
4 | -0.8958 -0.4197 | 0.98 | 0.02

-------------------------------------------
AUTO | 2.45 1.41 |
---------------------------
PROP. | |
ACUM. | 61.16 96.52 |
---------------------------

(h) Você consegue interpretar os fatores resultantes?


O primeiro fator constitui-se principalmente pelas variáveis Altura, Volume e Número
de árvores, enquanto que o segundo é dado pela área de superfície.
(i) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz.

****************************
* MATRIZ DOS RESÍDUOS *
****************************
0.0000 0.0477 -0.0126 0.0008
0.0477 -0.0000 -0.0035 -0.0109
-0.0126 -0.0035 0 -0.0166
0.0008 -0.0109 -0.0166 0

Os resíduos são pequenos, visto que o modelo explica 96.52% da variância total dos
dados.

6. Um conjunto de 𝑝 = 10 variáveis psicológicas foram medidas para 𝑛 = 810 crianças normais,


gerando as correlações dadas pela tabela seguinte:

Testes 1 2 3 4 5 6 7 8 9 10

117
1 1.000 0.345 0.594 0.404 0.579 -0.280 -0.449 -0.188 -0.303 -0.200
2 1.000 0.477 0.338 0.230 -0.159 -0.205 -0.120 -0.168 -0.145
3 1.000 0.498 0.505 -0.251 -0.377 -0.186 -0.273 -0.154
4 1.000 0.389 -0.168 -0.249 -0.173 -0.195 -0.055
5 1.000 -0.151 -0.285 -0.129 -0.159 -0.079
6 1.000 0.363 0.359 0.227 0.260
7 1.000 0.448 0.439 0.511
8 1.000 0.429 0.316
9 1.000 0.301
10 1.000

Determine, utilizando o MATLAB,

(a) os autovalores associados à matriz de correlação;

>> [v,d] = eig(R)


v =
0.73 0.20 0.20 -0.07 -0.26 -0.12 0.12 0.27 0.23 -0.39
-0.08 0.31 -0.09 0.26 -0.24 -0.04 0.12 -0.78 0.24 -0.27
-0.16 -0.80 0.26 -0.05 -0.09 -0.01 0.02 -0.09 0.30 -0.39
0.07 0.16 -0.09 -0.32 0.73 0.25 -0.24 -0.11 0.31 -0.30
-0.38 0.13 -0.48 0.35 -0.05 -0.07 0.07 0.51 0.34 -0.32
0.09 -0.03 0.17 0.27 0.16 0.58 0.63 0.05 0.24 0.26
0.43 -0.33 -0.62 0.04 -0.12 0.08 -0.23 -0.13 0.29 0.38
-0.22 0.12 -0.06 -0.66 -0.14 -0.30 0.37 0.01 0.41 0.27
0.09 -0.02 0.28 0.42 0.41 -0.63 -0.04 -0.02 0.29 0.29
-0.18 0.21 0.40 0.04 -0.32 0.31 -0.56 0.11 0.43 0.24

d =
0.35 0 0 0 0 0 0 0 0 0
0 0.38 0 0 0 0 0 0 0 0
0 0 0.43 0 0 0 0 0 0 0
0 0 0 0.53 0 0 0 0 0 0
0 0 0 0 0.61 0 0 0 0 0
0 0 0 0 0 0.78 0 0 0 0
0 0 0 0 0 0 0.79 0 0 0
0 0 0 0 0 0 0 0.83 0 0
0 0 0 0 0 0 0 0 1.61 0
0 0 0 0 0 0 0 0 0 3.70

(b) escolher um número adequado de fatores;

118
Escolheu-se 4 fatores que representam aproximadamente 70% da variância total
(c) estimar a matriz de pesos;
-0.7552 0.2870 0.2496 0.1064 -0.5212 0.3086 -0.7112 0.1047
-0.7469 0.3856 -0.0851 0.0215 -0.5851 0.3988 -0.1015 -0.2168
-0.6065 0.4339 0.4642 0.0591
0.5077 0.3089 0.0422 0.5600
0.7223 0.3701 -0.1183 -0.2051
0.5250 0.5236 0.0046 0.3335
0.5657 0.3743 -0.0143 -0.0316
0.4659 0.5395 0.0990 -0.5009

(d) estimar as comunalidades;


0.73
0.88
0.71
0.56
0.78
0.67
0.71
0.66
0.46
0.77

(e) estimar as variâncias específicas;


0.27
0.12
0.29
0.44
0.22
0.33
0.29
0.34
0.54
0.23

(f) construir uma tabela resumindo os resultados.

119
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************

---------------------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 F3 F4 | | ESP.
---------------------------------------------------------
1 | -0.7552 0.2870 0.2496 0.1064 | 0.73 | 0.27
2 | -0.5212 0.3086 -0.7112 0.1047 | 0.88 | 0.12
3 | -0.7469 0.3856 -0.0851 0.0215 | 0.71 | 0.29
4 | -0.5851 0.3988 -0.1015 -0.2168 | 0.56 | 0.44
5 | -0.6065 0.4339 0.4642 0.0591 | 0.78 | 0.22
6 | 0.5077 0.3089 0.0422 0.5600 | 0.67 | 0.33
7 | 0.7223 0.3701 -0.1183 -0.2051 | 0.71 | 0.29
8 | 0.5250 0.5236 0.0046 0.3335 | 0.66 | 0.34
9 | 0.5657 0.3743 -0.0143 -0.0316 | 0.46 | 0.54
10 | 0.4659 0.5395 0.0990 -0.5009 | 0.77 | 0.23

---------------------------------------------------------
AUTO | 3.70 1.61 0.83 0.79 |
-----------------------------------------
PROP. | |
ACUM. | 37.02 53.14 61.41 69.33 |
-----------------------------------------

(g) Você consegue interpretar os fatores resultantes?


O primeiro fator é composto principalmente pelas variáveis 1, 3, 5, 7, 9. Já o segundo
fator é composto pelas variáveis 8, 9, mas com correlações em torno de 0,5. O terceiro
fator é composto pela variável 2 e o último pela variável 6.
(h) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz.
****************************
* MATRIZ DOS RESÍDUOS *
****************************
0 0.03 -0.06 -0.10 -0.13 -0.06 0.04 0.02 0.02 0.03
0.03 0 -0.09 -0.14 0.10 -0.02 -0.01 -0.04 0.00 0.05
-0.06 -0.09 0 -0.10 -0.08 0.00 0.01 -0.00 0.00 0.01
-0.10 -0.14 -0.10 0 -0.08 0.13 -0.03 -0.00 -0.02 -0.10
-0.13 0.10 -0.08 -0.08 0 -0.03 0.06 -0.06 0.03 -0.05
-0.06 -0.02 0.00 0.13 -0.03 0 0.00 -0.26 -0.16 0.13
0.04 -0.01 0.01 -0.03 0.06 0.00 0 -0.06 -0.12 -0.12

120
0.02 -0.04 -0.00 -0.00 -0.06 -0.26 -0.06 0 -0.05 -0.04
0.02 0.00 0.00 -0.02 0.03 -0.16 -0.12 -0.05 0 -0.18
0.03 0.05 0.01 -0.10 -0.05 0.13 -0.12 -0.04 -0.18 0

Existem algumas variáveis com resíduos altos, em torno 0,1.

6 Lista 6: Análise Discriminante

1. Considere as observações de 𝑝 = 2 variáveis oriundas de 3 populações 𝜋1 , 𝜋2 e 𝜋3 . As


matrizes de dados correspondentes às amostras das 3 populações todas com o mesmo
tamanho 𝑛𝑖 = 4 estão a seguir.

⎡ ⎤ ⎡ ⎤ ⎡ ⎤
7, 4 9, 1 6, 5 7, 8 8, 0 1, 2
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ 7, 2 14, 2 ⎥ ⎢ 5, 1 5, 5 ⎥ ⎢ 10, 2 5, 5 ⎥
𝑋1 = ⎢

⎥ , 𝑋2 = ⎢
⎥ ⎢
⎥ e 𝑋3 = ⎢
⎥ ⎢


⎢ 6, 7 9, 6 ⎥ ⎢ 4, 9 9, 4 ⎥ ⎢ 10, 8 4, 3 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
8, 0 10, 7 3, 8 11, 6 6, 7 4, 0

(a) Determine os vetores médios amostrais 𝑥𝑖 , 𝑖 = 1, 2, 3.

>> pi1 =[ 7.4 9.1; 7.2 14.2 ; 6.7 9.6 ; 8.0 10.7 ];
>> pi2 = [ 6.5 7.8; 5.1 5.5 ; 4.9 9.4 ; 3.8 11.6 ];
>> pi3 = [ 8.0 1.2 ; 10.2 5.5 ; 10.8 4.3; 6.7 4.0 ];
>> PI = [pi1;pi2;pi3];
>> V = [4 4 4];
>> disc1(PI,V)
*********************
* MÉDIAS DOS GRUPOS *
*********************
xm1 =
7.3250 10.9000

xm2 =
5.0750 8.5750

xm3 =
8.9250 3.7500

(b) Determine o vetor médio global amostral.

*****************
* MÉDIA GLOBAL *
*****************

121
7.1083 7.7417

ˆ0
(c) Calcule matrizes de covariâncias amostrais: 𝑆1 , 𝑆2 , 𝑆3 e também as matrizes: 𝑆𝑝 , 𝐵
e 𝑊.

**********************************
* MATRIZES COVARIÂNCIAS - GRUPOS *
**********************************
COV1 =
0.2892 0.0433
0.0433 5.2867
COV2 =
1.2292 -1.7275
-1.7275 6.6292
COV3 =
3.6492 1.6883
1.6883 3.3100
************************************
* MATRIZ B - VARIAÇÃO ENTRE GRUPOS *
************************************
7.4817 -8.2617
-8.2617 26.6029
************************************
* MATRIZ COVARIÂNCIA CONJUNTA - Sp *
************************************
1.7225 0.0014
0.0014 5.0753
*****************************************
* MATRIZ W - VARIAÇÃO DENTRO DOS GRUPOS *
*****************************************
15.5025 0.0125
0.0125 45.6775

ˆ0 .
(d) Determine a matriz inversa 𝑊 −1 e 𝑊 −1 𝐵

>> Winv = inv(W)


Winv =
0.06 -0.00
-0.00 0.02
>> WinvB0 = inv(Winv*B0)
WinvB0 =
3.15 2.89
0.98 2.61

ˆ0 .
(e) Determine os autovalores e autovetores de 𝑊 −1 𝐵

122
**********************************
* AUTOVALORES DA MATRIZ INV(W)*B *
**********************************
0.8474
0.2180

******************************
* AUTOVALORES SATISFAZENDO À *
* CONDIÇÃO s=min(g-1,p) *
******************************
0.8474
0.2180

(f) Determine os discriminantes para as populações com base nos resultados amostrais.

*******************************************
* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *
*******************************************
Y1 =
-0.4944 0.3379
Y2 =
0.5798 0.2878

(g) Faça uma gráfico que represente espaço discriminante nas dimensões que você deter-
minou, represente a amostra no gráfico.

ESPAÇO DISCRIMINANTE
8.5
1

8
1
3 3
7.5 1

7 1
1
Y2

6.5
3
2
6

2 2
5.5 2

3 3
5

2
4.5
−4 −3 −2 −1 0 1 2 3
Y1

2. Considere dois grupos de agricultores em uma cidade: 𝜋1 , os possuidores de determinada

123
máquina agrícola e 𝜋2 os não-possuidores da máquina. O fabricante da máquina está in-
teressado em identificar possuidores ou não do equipamento, com a finalidade de promover
vendas futuras. Dispõe dos dados da renda e tamanho da fazenda de 24 fazendeiros pos-
suidores ou não do equipamento. Construa uma F.D.L. de Fisher para alocar um novo
agricultor em um ou dois grupos, com base nas informações a seguir. Em qual grupo você
alocaria o indivíduo 𝑥0 = [18.0 7.51]?

𝜋1 𝜋2
𝑥1 = renda 𝑥2 = área 𝑥1 = renda 𝑥2 = área

20 9.2 25 9.8
28.5 8.4 17.6 10.4
21.6 10.8 21.6 8.6
20.5 10.4 14.4 10.2
29 11.8 28 8.8
36.7 9.6 16.4 8.8
36 8.8 19.8 8
27.6 11.2 22 9.2
23 10 15.8 8.2
31 10.4 11 9.4
17 11 17 7
27 10 21 7.4

*********************
* MÉDIAS DOS GRUPOS *
*********************
xm1 =
24.8833 11.7417
xm2 =
18.4833 9.4667
************************************
* MATRIZES COVARIÂNCIAS DOS GRUPOS *
************************************
S1 =
63.1761 -7.4965
-7.4965 28.7863
S2 =
29.5452 3.0667

124
3.0667 7.5806
************************
* MATRIZ ESTIMADA - Sp *
************************
Sp =
46.3606 -2.2149
-2.2149 18.1834
*****************************************
* COEFICIENTES DA FUNÇÃO DISCRIMINANTE *
*****************************************
0.1449 0.1428
**********************
* MÉDIA UNIVARIADA *
**********************
4.6551
>> v = 0.1449*(18) + 0.1428*(7.51)
v =
3.6806

Comentários: O indivíduo 𝑥0 será alocado no grupo 𝜋1

3. Pacientes com certa enfermidade são submetidos durante um certo período a um treina-
mento que envolve, inclusive, uma certa operação. No instante pré-operatório, do período
de tratamento, são feitos 9 exames clínicos que formam com a idade e sexo um conjunto
de 11 variáveis. As tabelas 1 e 2 mostram os resultados das medidas dessas 11 variáveis
para amostras da população de sobreviventes (𝑛1 = 23) e mortos (𝑛2 = 7), respectiva-
mente, ao fim do período de tratamento. Um médico pesquisador quer saber no instante
pré-operatório, com base nas medidas das 11 variáveis, se o paciente morrerá ou não ao
fim do período de tratamento. Você seria capaz de auxiliar o médico nesta questão? Como
faria?

𝑖 idade sexo BT BD BI SGPT SGOT FOSF AMI TAP ALBU

1 46 1 41.8 21.2 20.6 234 178 58.75 92 14 3.3


2 52 0 21.4 12.95 8.45 55 80 20.87 92 15 3.5
3 73 0 26.2 13.6 12.6 90 97 10.58 104 14 2.7
4 47 0 31.6 16.5 15.4 31 59 15.86 92 13 3
5 66 0 40 20.9 19.1 45 108 33.34 66 11 3.6
6 26 0 22 13.1 8.9 80 29 11.79 158 14 3
7 66 1 25.6 14 11.6 125 129 27.34 100 13 2.7
8 53 1 24.4 15 9.4 43 63 19.4 60 14 2.4

125
9 34 0 19.8 11.6 8.2 24 47 6.41 92 13 3.6
10 50 1 25 14 11 86 149 42.48 10 14 1.5
11 69 1 11.9 7.55 4.35 176 92 21.88 104 13 3.4
12 63 1 15.6 9.1 6.5 21 44 22.1 144 15 3.9
13 43 1 13.7 7.7 6 25 63 26 79 13 3.2
14 76 0 10.4 7.3 3.1 35 50 25.74 104 13 3
15 66 1 19.8 10.7 9.1 48 68 25.74 104 14 3
16 73 0 16.2 9.9 6.3 132 71 22.08 196 15 3
17 46 1 8.6 5.6 3 28 56 25.74 104 15 3
18 45 1 19.4 10.1 9.3 99 87 10.43 158 17 2.6
19 60 1 18.8 10.1 8.7 33 92 24.07 158 17 2.3
20 76 0 19.1 12.2 6.9 60 71 44.31 66 13 4.2
21 33 0 3.8 2.4 1.4 35 61 21.33 60 13 3
22 46 1 3 2.2 0.8 390 400 65.95 132 15 3
23 55 1 13.4 6.85 6.55 45 97 9.85 123 14 2.7

Tabela 18: 1

𝑖 idade sexo BT BD BI SGPT SGOT FOSF AMI TAP ALBU

1 61 0 18.8 10.45 8.35 21 49 9.45 82 15 3.4


2 71 1 27.2 16.5 10.7 82 87 23.82 88 14 3.1
3 54 1 31.2 16.2 15 37 92 28.82 88 15 2.7
4 64 0 24.4 13.45 10.95 18 63 9.71 82 14 1.9
5 76 0 22 13.45 8.55 53 66 21.86 90 13 3.4
6 69 0 6.4 4.1 2.3 17 47 35.29 121 14 1.5
7 66 1 11.6 6.7 4.9 148 140 24.1 82 15 3.2

Tabela 19: 2

Faria uma análise discriminante para encontrar os coeficientes da função discriminante,


onde seria possível, após a realização dos exames de certo paciente classifica-lo em algum
grupo. Neste caso, temos os coeficientes da função discriminante dado por:

*****************************************
* COEFICIENTES DA FUNÇÃO DISCRIMINANTE *
*****************************************
Columns 1 through 6
-0.0986 1.3059 -3.9929 3.9850 3.9813 -0.0023
Columns 7 through 11
0.0010 0.0338 0.0364 -1.0364 0.7732
**********************

126
* MÉDIA UNIVARIADA *
**********************
-13.6213

onde a média univariada é -13.6213. Com os dados dos exames do paciente o médico pode
enquadrá-lo no grupo 1 caso o valor da função seja menor que a média univariada e no
grupo 2 se for maior.

4. Dados sobre petróleo coletados do arenito na região de Elk Hills, California, forneceram os
dados a seguir para as três amostras coletadas de 3 unidades estratigráficas: 𝜋1 = arenito
Wilhelm, 𝜋2 = arenito Sub-Mulinia e 𝜋3 = arenito Upper. Os dados referem-se às análise
químicas das amostras.

𝑋1 𝑋2 𝑋3 𝑋4 𝑋5

3.9 51 0.2 7.06 12.19


2.7 49 0.07 7.14 12.23
2.8 36 0.3 7 11.3
3.1 45 0.08 7.2 13.01
3.5 46 0.1 7.81 12.63
3.9 43 0.07 6.25 10.42
2.7 35 0 5.11 9

Tabela 20: Amostra da População 1

𝑋1 𝑋2 𝑋3 𝑋4 𝑋5

5 47 0.07 7.06 6.1


3.4 32 0.2 5.82 4.69
1.2 12 0 5.54 3.15
8.4 17 0.07 6.31 4.55
4.2 36 0.5 9.25 4.95
4.2 35 0.5 5.69 2.22
3.9 41 0.1 5.63 2.94
3.9 36 0.07 6.19 2.27
7.3 32 0.3 8.02 12.92
4.4 46 0.07 7.54 5.76
3 30 0 5.12 10.77

Tabela 21: Amostra da População 2

𝑋1 𝑋2 𝑋3 𝑋4 𝑋5

127
6.3 13 0.5 4.24 8.27
1.7 5.6 1 5.69 4.64
7.3 24 0 4.34 2.99
7.8 18 0.5 3.92 6.09
7.8 25 0.7 5.39 6.2
7.8 26 1 5.02 2.5
9.5 17 0.05 3.52 5.71
7.7 14 0.3 5.65 8.63
11 20 0.5 4.27 8.4
8 14 0.3 4.32 7.87
8.4 18 0.2 4.38 7.98
10 18 0.1 3.06 7.67
7.3 15 0.05 3.76 6.84
9.5 22 0.3 3.98 5.02
8.4 15 0.2 5.02 10.12
8.4 17 0.2 4.42 8.25
9.5 25 0.5 4.44 5.95
7.2 22 1 4.7 3.49
4 12 0.5 5.71 6.32
6.7 52 0.5 4.8 3.2
9 27 0.3 3.69 3.3
7.8 29 1.5 6.72 5.75
4.5 41 0.5 3.33 2.27
4 34 0.7 7.56 6.93
5.6 20 0.5 5.07 6.7
9 17 0.2 4.39 8.33
8.4 20 0.1 3.74 3.77
9.5 19 0.5 3.72 7.37
9 20 0.5 5.97 11.17
6.2 16 0.05 4.23 4.18
7.3 20 0.5 4.39 3.5
3.6 15 0.7 7 4.82
6.2 34 0.07 4.84 2.37
7.3 22 0 4.13 2.7
4.1 29 0.7 5.78 7.76
5.4 29 0.2 4.64 2.65
5 34 0.7 4.21 6.5
6.2 27 0.3 3.97 2.97

Tabela 22: Amostra da População 3

128
(a) Determine os discriminantes para as populações com base nas observações amostrais.
*******************************************
* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *
*******************************************
Y1 =
0.3183 -0.0668 2.1116 -0.2960 -0.2500
Y2 =
-0.0906 0.0287 2.2717 -1.0046 0.3771
*******************************************
* MÉDIAS UNIVARIADAS - MÉDIA(Y1)=COLUNA 1 *
* MÉDIA(Y2)=COLUNA 2, ETC. *
*******************************************
-6.5334 -1.2508
-3.7485 -3.5878
-1.1213 -1.5599

(b) Faça um gráfico que represente o “espaço discriminante” nas dimensões que você de-
terminou e represente a amostra no gráfico.

ESPAÇO DISCRIMINANTE
1

3
0 3 3
3 3
2 3
3 3
1 1 3
−1 11 1
3 33 3 3
3 3
11 3 3 3
3 3 33 33
1 3
−2 3 3 3
2 3 3
Y2

3 3
3
−3 2 2 3 3
3 3
22
2
−4 2
2
2
2
−5
2
−6
−8 −7 −6 −5 −4 −3 −2 −1 0 1
Y1

(c) Marque no gráfico os centróides de cada população (estimados).


Vide gráfico do item anterior.

5. Uma Universidade aplicou 5 testes diferentes ao seus alunos, atribuindo escores que vari-
avam de 0 a 10. Em seguida separou-os em 3 grupos semelhantes, com base nos escores
dos testes. Uma amostra de cada grupo com os respectivos escores são dados:

129
Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

1 9 6 8 6 8
2 8 7 7 7 9
3 7 6 8 6 10
4 7 8 7 5 9
5 7 7 8 6 10
6 8 6 9 7 9
7 9 7 7 8 8
8 6 8 8 6 9
9 7 9 6 7 7
10 8 8 7 6 9
11 9 7 8 8 10
12 9 6 9 9 8
13 9 8 8 7 9
14 10 9 7 6 9
15 8 8 9 7 7

Tabela 23: Grupo A

Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

1 6 7 6 5 8
2 5 7 7 6 7
3 6 6 8 5 8
4 7 7 7 4 7
5 5 7 6 5 6
6 5 8 5 6 8
7 5 7 6 5 8
8 6 6 7 6 7
9 7 5 6 4 9
10 5 4 5 5 6

Tabela 24: Grupo B

Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5

1 4 6 5 3 7
2 5 6 4 4 6
3 5 5 5 4 6
4 5 6 6 3 7
5 4 7 6 4 5
6 5 4 5 2 6

130
7 6 5 6 3 7
8 5 6 5 3 5

Tabela 25: Grupo C

(a) Através da MANOVA, ao nível de significância de 5%, testar se os três grupos diferem
significativamente, caso contrário eliminar as variáveis que não discriminam os grupos.

**********************************
* ESTATÍSTICA DO TESTE *
**********************************
F =
12.3047
**********************************
* VALOR DE p *
**********************************
1.4032e-010

Pela MANOVA concluímos que os três grupos diferem significativamente.

(b) Determine a função discriminante linear de Fisher para os três grupos, com base nas
amostras.

**********************************
* MATRIZ B *
**********************************
64.1523 31.4174 46.3409 61.6985 47.1659
31.4174 16.0280 23.4803 32.0439 24.2553
46.3409 23.4803 34.4364 46.8061 35.4864
61.6985 32.0439 46.8061 64.5455 48.6561
47.1659 24.2553 35.4864 48.6561 36.7614
**********************************
* MATRIZ W *
**********************************
25.9083 -5.5083 4.4167 2.8167 2.5917
-5.5083 33.6083 -6.1167 0.6833 -3.8917
4.4167 -6.1167 22.5333 3.1333 2.4833
2.8167 0.6833 3.1333 23.3333 -6.7167
2.5917 -3.8917 2.4833 -6.7167 26.2083
>> inv(W)*B
ans =
2.0452 0.9855 1.4577 1.9212 1.4747
1.7629 0.8906 1.3068 1.7730 1.3452
1.4671 0.7424 1.0891 1.4791 1.1218

131
2.8544 1.4950 2.1808 3.0219 2.2736
2.4517 1.2731 1.8596 2.5641 1.9330
>> [e,l]=eig(inv(W)*B)
e =
0.3980 0.7450 0.2890 -0.0202 0.1123
0.3587 0.0905 -0.3979 0.6831 0.3708
0.2990 0.0583 -0.6784 0.0176 -0.7557
0.6010 -0.5653 0.5252 0.1972 -0.1293
0.5120 -0.3375 -0.1485 -0.7027 0.5120
l =
8.8265 0 0 0 0
0 0.1532 0 0 0
0 0 0.0000 0 0
0 0 0 -0.0000 0
0 0 0 0 0.0000

*******************************************
* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *
*******************************************
Y1 =
0.3980 0.3587 0.2990 0.6010 0.5120
Y2 =
0.7450 0.0905 0.0583 -0.5653 -0.3375

(c) Determine o erro de classificação.


Utilizando-se como base:
Grupo Média Y1 Média Y2
1 19,05495 -0,88322
2 15,21688 -0,08769
3 12,12641 -0,9544
Calculando-se os escores Y1 e Y2 para cada amostra e verificando em qual ponto esta
amostra esta mais próxima, vem:

132
Distância
Grupo 1 2 3 Classificação Tipo
1 18,06 -2,46 1,87 3,7 6,12 1 11
1 18,99 -0,42 0,47 3,78 6,88 1 11
1 18,38 0,3 1,36 3,18 6,37 1 11
1 17,55 -1 1,51 2,51 5,43 1 11
1 18,78 0,17 1,09 3,58 6,75 1 11
1 19,26 -0,46 0,47 4,06 7,15 1 11
1 19,53 -1,09 0,52 4,43 7,4 1 11
1 18,16 0,59 1,72 3,02 6,23 1 11
1 17,84 -0,46 1,29 2,65 5,73 1 11
1 18,69 -1,25 0,52 3,66 6,57 1 11
1 21,06 -0,33 2,08 5,85 8,95 1 11
1 20,51 -0,42 1,52 5,3 8,4 1 11
1 20,17 -1,59 1,32 5,17 8,07 1 11
1 19,97 -3,3 2,58 5,73 8,18 1 11
1 18,89 -1,54 0,68 3,95 6,78 1 11
2 15,78 -0,25 3,34 0,58 3,72 2 22
2 15,79 0,92 3,73 1,16 4,12 2 22
2 16,05 -0,29 3,06 0,86 3,98 2 22
2 15,25 -2,42 4,1 2,33 3,45 2 22
2 14,15 -0,12 4,96 1,07 2,19 2 22
2 16,11 1,38 3,71 1,72 4,62 2 22
2 15,34 0,72 4,04 0,81 3,62 2 22
2 15,82 0,09 3,38 0,62 3,83 2 22
2 15,29 -1,25 3,78 1,16 3,17 2 22
2 12,59 0,33 6,58 2,66 1,37 3 23
3 12,16 0,05 6,96 3,06 1,01 3 33
3 12,36 -0,54 6,7 2,89 0,48 3 33
3 12,29 -0,5 6,77 2,95 0,49 3 33
3 12,93 -0,99 6,12 2,46 0,81 3 33
3 12,42 -0,29 6,66 2,8 0,73 3 33
3 10,48 -1,79 8,62 5,03 1,85 3 33
3 12,96 -1,83 6,17 2,85 1,21 3 33
3 11,4 -1,75 7,7 4,16 1,07 3 33
O que dá a seguinte matriz confusão:

133
Grupo Classificado
Grupo Origem 1 2 3
1 15 0 0
2 0 9 1

Com as probabilidades de classificação das por:


Grupo Classificado
Grupo Origem 1 2 3
1 0% 0% 0%
2 0% 90% 10%
3 0% 0% 100%
(d) Em qual grupo você classificaria um aluno com escores: 𝑥0 = [6 7 7 8 8]?

>> Xm1;
>> Xm2;
>> Xm3;
>> Y11=e(:,1)’*Xm1
Y11 =
16.6730
>> Y12=e(:,1)’*Xm2
Y12 =
13.3031
>> Y13=e(:,1)’*Xm3
Y13 =
10.6180
>> Y21=e(:,2)’*Xm1
Y21 =
0.3705
>> Y22=e(:,2)’*Xm2
Y22 =
-0.1874
>> Y23=e(:,2)’*Xm3
Y23 =
0.5427
>> YK=e(:,1)’*K

134
YK =
15.8974
>> YK=e(:,2)’*K
YK =
-1.7106

Seria classificado no primeiro grupo, como pode ser observado na figura a seguir.

7 Lista 7: Regressão Logística

1. O gerente de uma seguradora de veículos está interessado em aprimorar a sua política


de vendas para expandir a base de clientes. Ele acredita que em muitas situações teria
condições de realizar contratos a preços mais competitivos se tivesse uma melhor percepção
da taxa de risco a que se expõe em cada operação. Recorrendo à sua base de dados, resolveu
extrair uma amostra aleatória de 36 elementos para identificar quais são as variáveis que
mais contribuem para diferenciá-los quanto à ocorrência de sinistros. Com isso, espera
poder estimar de forma mais racional o arisco a que ficará exposto em futuras operações
e, conseqüentemente, conceder descontos mais adequados. Os dados são:

Sinistro Idade Estado Civil Sexo

0 22 1 1

135
1 24 0 0
0 45 1 1
0 58 0 1
0 27 1 0
1 31 0 1
1 32 0 1
0 30 0 0
0 56 0 1
0 44 0 1
1 21 0 1
1 23 0 1
0 29 1 0
0 20 1 0
0 60 1 1
1 30 0 1
1 22 0 1
0 26 1 0
0 19 0 0
0 18 0 0
0 21 1 1
0 59 0 1
1 24 0 0
0 56 0 1
0 54 0 1
0 47 0 1
0 40 1 0
1 31 1 1
0 43 0 0
0 35 1 0
0 23 1 0
1 22 1 1
0 21 1 1
0 63 0 1
0 22 1 0
0 26 1 0

Como consta no quadro dos dados, verificaram-se 17 ocorrências de sinistro numa amostra
de 36 clientes ( 1 = houve sinistro; 0 = não houve sinistro). Em relação a cada indivíduo,
foram levantadas as seguintes informações adicionais: o estado civil (1 = solteiro, 0 =
casado), a idade e, finalmente, o sexo (1 = feminino; 0 = masculino). Baseando-se nesse

136
histórico pede-se:

(a) determine um modelo capaz de descrever o relacionamento existente entre a ocorrência


de sinistros e as variáveis sexo, idade e estado civil. Usando o Software Statistica,
obteve-se

𝛽ˆ0 = 3.78104, 𝛽ˆ1 = −0.189572, 𝛽ˆ2 = −3.62511 e 𝛽ˆ3 = 3.70268

logo temos
𝑒3.78104−0.189572𝑥1 −3.62511𝑥2 +3.70268𝑥3
𝜋
ˆ(𝑥1 , 𝑥2 , 𝑥3 ) =
1 + 𝑒3.78104−0.189572𝑥1 −3.62511𝑥2 +3.70268𝑥3
𝑥1 = Idade, 𝑥2 = Estado Civil, 𝑥3 = Sexo.

(b) estime a probabilidade de sinistro associada a um cliente de sexo masculino, casado e


com 25 anos de idade.

𝜋
ˆ(25, 0, 0) = 0.2772

(c) para o mesmo cliente do item anterior, qual a probabilidade de sinistro se ele fore
solteiro?

𝜋
ˆ(25, 1, 0) = 0.0101

(d) compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias
que poderiam ser adotadas pela companhia para atrair novos clientes.

2. Considere a variável idade (AGE) e a variável dicotômica (CHD) que indica a presença (1)
ou ausência (0) de evidência de problemas coronários significativos em 100 indivíduos (ID)
com os números 1 a 100. A variável (AGRP) indica a faixa etária do indivíduo.

ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD

1 1 20 0 35 3 38 0 68 6 51 0
2 1 23 0 36 3 39 0 69 6 52 0
3 1 24 0 37 3 39 1 70 6 52 1
4 1 25 0 38 4 40 0 71 6 53 1
5 1 25 1 39 4 40 1 72 6 53 1
6 1 26 0 40 4 41 0 73 6 54 1
7 1 26 0 41 4 41 0 74 7 55 0
8 1 28 0 42 4 42 0 75 7 55 1
9 1 28 0 43 4 42 0 76 7 55 1
10 1 29 0 44 4 42 0 77 7 56 1
11 2 30 0 45 4 42 1 78 7 56 1
12 2 30 0 46 4 43 0 79 7 56 1
13 2 30 0 47 4 43 0 80 7 57 0
14 2 30 0 48 4 43 1 81 7 57 0

137
15 2 30 0 49 4 44 0 82 7 57 1
16 2 30 1 50 4 44 0 83 7 57 1
17 2 32 0 51 4 44 1 84 7 57 1
18 2 32 0 52 4 44 1 85 7 57 1
19 2 33 0 53 5 45 0 86 7 58 0
20 2 33 0 54 5 45 1 87 7 58 1
21 2 34 0 55 5 46 0 88 7 58 1
22 2 34 0 56 5 46 1 89 7 59 1
23 2 34 1 57 5 47 0 90 7 59 1
24 2 34 0 58 5 47 0 91 8 60 0
25 2 34 0 59 5 47 1 92 8 60 1
26 3 35 0 60 5 48 0 93 8 61 1
27 3 35 0 61 5 48 1 94 8 62 1
28 3 36 0 62 5 48 1 95 8 62 1
29 3 36 1 63 5 49 0 96 8 63 1
30 3 36 0 64 5 49 0 97 8 64 0
31 3 37 0 65 5 49 1 98 8 64 1
32 3 37 1 66 6 50 0 99 8 65 1
33 3 37 0 67 6 50 1 100 8 69 1
34 3 38 0

(a) Efetuar uma regressão logística considerando a variável dependente (CHD) e como
variável independente as idades (AGE).

𝛽ˆ0 = −5.30945 e 𝛽ˆ1 = 0.1109

Logo, tem-se
𝑒−5.30945+0.1109𝐴𝐺𝐸
𝜋
ˆ(𝐴𝐺𝐸) =
1 + 𝑒−5.30945+0.1109𝐴𝐺𝐸
(b) Determinar os % de classificação correta.
Pred. Pred. Percent
0 1 Correct
0 45 12 78, 94736
1 14 29 67, 44186
(c) Determinar a variável (CHD) estimada para cada indivíduo.

138
C:1 0,043479 C:34 0,250781 C:68 0,586017
C:2 0,059621 C:35 0,250781 C:69 0,612645
C:3 0,066153 C:36 0,272192 C:70 0,612645
C:4 0,073344 C:37 0,272192 C:71 0,638617
C:5 0,073344 C:38 0,294712 C:72 0,638617
C:6 0,081248 C:39 0,294712 C:73 0,663803
C:7 0,081248 C:40 0,318280 C:74 0,688091
C:8 0,099422 C:41 0,318280 C:75 0,688091
C:9 0,099422 C:42 0,342817 C:76 0,688091
C:10 0,109804 C:43 0,342817 C:77 0,711387
C:11 0,121125 C:44 0,342817 C:78 0,711387
C:12 0,121125 C:45 0,342817 C:79 0,711387
C:13 0,121125 C:46 0,368224 C:80 0,733617
C:14 0,121125 C:47 0,368224 C:81 0,733617
C:15 0,121125 C:48 0,368224 C:82 0,733617
C:16 0,121125 C:49 0,394383 C:83 0,733617
C:17 0,146793 C:50 0,394383 C:84 0,733617
C:18 0,146793 C:51 0,394383 C:85 0,733617
C:19 0,161237 C:52 0,394383 C:86 0,754725
C:20 0,161237 C:53 0,421163 C:87 0,754725
C:21 0,176807 C:54 0,421163 C:88 0,754725
C:22 0,176807 C:55 0,448414 C:89 0,774674
C:23 0,176807 C:56 0,448414 C:90 0,774674
C:24 0,176807 C:57 0,475979 C:91 0,793445
C:25 0,176807 C:58 0,475979 C:92 0,793445
C:26 0,193533 C:59 0,475979 C:93 0,811033
C:27 0,193533 C:60 0,503690 C:94 0,827449
C:28 0,211436 C:61 0,503690 C:95 0,827449
C:29 0,211436 C:62 0,503690 C:96 0,842716
C:30 0,211436 C:63 0,531379 C:97 0,856866
C:31 0,230521 C:64 0,531379 C:98 0,856866
C:32 0,230521 C:65 0,531379 C:99 0,869939
C:33 0,230521 C:66 0,558876 C:100 0,912465
C:67 0,558876

(d) Construir o histograma para os resíduos da regressão.

139
Distr. Frequencia

𝑁 𝑜 de obs.

Normal Esperada

(e) Considere agora uma regressão logística múltipla onde a variável dependente é CHD
e as variáveis independentes são ID e AGRP.

𝛽ˆ0 = −5.93116, 𝛽ˆ1 = −0.148642 e 𝛽ˆ0 = 0.1399


logo tem-se
𝑒−5.93116−0.148642+0.1399𝐴𝐺𝐸
𝜋
ˆ (𝐴𝐺𝑅𝑃, 𝐴𝐺𝐸) = 1+𝑒−5.93116−0.148642+0.1399𝐴𝐺𝐸

(f) Determinar os % de classificação correta.

Pred. Pred. Percent


0 1 Correct
0 45 12 78,94736
1 14 29 67,44186

(g) Determinar a variável (CHD) estimada para cada indivíduo.

140
C:1 0,036193 C:34 0,257058 C:68 0,577206
C:2 0,054046 C:35 0,257058 C:69 0,610925
C:3 0,061660 C:36 0,284667 C:70 0,610925
C:4 0,070268 C:37 0,284667 C:71 0,643615
C:5 0,070268 C:38 0,282888 C:72 0,643615
C:6 0,079974 C:39 0,282888 C:73 0,675020
C:7 0,079974 C:40 0,312106 C:74 0,673097
C:8 0,103130 C:41 0,312106 C:75 0,673097
C:9 0,103130 C:42 0,342899 C:76 0,673097
C:10 0,116806 C:43 0,342899 C:77 0,703103
C:11 0,115906 C:44 0,342899 C:78 0,703103
C:12 0,115906 C:45 0,342899 C:79 0,703103
C:13 0,115906 C:46 0,375073 C:80 0,731453
C:14 0,115906 C:47 0,375073 C:81 0,731453
C:15 0,115906 C:48 0,375073 C:82 0,731453
C:16 0,115906 C:49 0,408390 C:83 0,731453
C:17 0,147794 C:50 0,408390 C:84 0,731453
C:18 0,147794 C:51 0,408390 C:85 0,731453
C:19 0,166295 C:52 0,408390 C:86 0,758027
C:20 0,166295 C:53 0,406277 C:87 0,758027
C:21 0,186604 C:54 0,406277 C:88 0,758027
C:22 0,186604 C:55 0,440412 C:89 0,782753
C:23 0,186604 C:56 0,440412 C:90 0,782753
C:24 0,186604 C:57 0,475121 C:91 0,781261
C:25 0,186604 C:58 0,475121 C:92 0,781261
C:26 0,185279 C:59 0,475121 C:93 0,804226
C:27 0,185279 C:60 0,510071 C:94 0,825319
C:28 0,207330 C:61 0,510071 C:95 0,825319
C:29 0,207330 C:62 0,510071 C:96 0,844578
C:30 0,207330 C:63 0,544923 C:97 0,862069
C:31 0,231261 C:64 0,544923 C:98 0,862069
C:32 0,231261 C:65 0,544923 C:99 0,877877
C:33 0,231261 C:66 0,542752 C:100 0,926357
C:67 0,542752
141
(h) Construir o histograma para os resíduos da regressão.

3. Uma amostra consiste de 40 empresas clientes de um Banco de Desenvolvimento, sendo


30 classificadas como adimplentes e 10 como inadimplentes. Conhece-se os índices de
8 variáveis econômico-financeiras descritas como: MG = margem de garantia; PCT =
participação de capitais de terceiros; IPL = imobilização do patrimônio líquido; LS =
liquidez seca; LC = liquidez corrente; LG = liquidez geral; RSV = retorno sobre vendas;
RPL = retorno sobre patrimônio líquido. Seja a variável dependente VD onde VD = 1
para as empresas adimplentes e VD = 0 para as empresas inadimplentes.

Empresa VD MG PCT IPL LS LC LG RVS RPL

1 1 1.72 1.39 97.87 2.61 2.61 0.61 9.7 32.58


2 1 1.6 1.67 152.17 0.56 0.94 0.69 12.54 26.42
3 1 8.65 0.13 21.24 4.17 7.02 7.02 13.35 21.11
4 1 3.17 0.46 84.57 1 1.6 1.33 5.59 7.75
5 1 1.63 1.58 90.15 1.02 1.25 1.06 -0.45 -3.43
6 1 2.15 0.87 56.5 1.16 1.4 1.5 7.46 7.83
7 1 1.94 1.06 61.38 0.98 1.5 1.36 0.82 3.49
8 1 1.97 1.03 84.46 0.4 0.95 1.14 0.45 2.08
9 1 1.68 1.47 104.91 0.79 1 0.97 -0.02 0.24
10 1 2.89 0.53 59.13 3.86 3.86 1.76 7.75 23.21
11 1 6.66 0.18 90.02 1.11 1.55 1.68 9.03 6.05
12 1 1.43 2.32 51.67 0.53 1.06 1.2 0.29 1.42

142
13 1 3.6 0.38 91.81 1.59 3.22 1.21 15.53 20.52
14 1 1.67 1.49 144.64 0.71 1.76 0.7 19.18 84.12
15 1 1.71 1.4 35.57 1.91 2.13 1.45 3.78 11.15
16 1 13.44 0.09 95.61 2.39 3.57 2.51 17.49 17.98
17 1 3.05 0.49 115.49 0.7 0.79 0.68 2.23 2.64
18 1 21.29 0.05 98.44 1.79 2.07 2.07 21.94 12.84
19 1 2.24 0.81 87.25 1.11 1.49 1.16 -0.06 0.98
20 1 3.18 0.46 76.34 2.17 2.18 1.51 10.03 7.3
21 1 5.71 0.28 125 1.29 1.29 1.29 26.06 56.67
22 1 1.37 2.67 229.32 0.42 0.55 0.52 -0.99 -11.28
23 1 1.6 1.68 78.97 1.21 1.28 1.12 6.69 29.24
24 1 3.54 0.39 35.21 2.27 2.65 2.65 15 32.73
25 1 1.47 2.14 87.65 0.6 1.03 1.03 -2.13 -23.46
26 1 4.37 0.3 84.45 1.59 1.59 1.52 3.79 7.59
27 1 1.64 1.55 25.26 0.16 1.48 1.48 9.01 77.34
28 1 1.23 4.31 187.46 0.31 0.36 0.76 0.52 7.67
29 1 1.25 4.05 86.62 0.36 1.03 1.03 2.07 17.35
30 1 5.3 0.23 94.38 0.54 1.03 1.24 -3.06 -9.83
31 0 1.67 1.59 216.77 0.33 0.39 0.29 -1.05 -10.85
32 0 1.21 4.72 387.18 0.21 0.4 0.39 -23.45 -147.63
33 0 1.25 4.04 102.84 -0.03 1 0.99 2.02 8.06
34 0 1.08 17.52 63 0.24 1.21 1.05 -7.76 -25.24
35 0 1.17 5.88 219.05 0.36 1.29 0.8 1.62 2.2
36 0 1.87 1.15 87.61 0.74 1.28 1.1 -40.36 -135.03
37 0 1.45 2.22 227.74 0.39 0.92 0.42 -50.67 -26.3
38 0 1.19 5.31 475.96 0.3 0.33 0.27 -0.61 -9.55
39 0 2.09 0.92 189.03 0.06 0.06 0.03 -0.08 5.61
40 0 1.31 15.81 154.59 0.75 1.35 1.21 4.72 34.67

(a) Utilizando o Método de Descarte de Variáveis Independentes, visto na Lista 4 (Análise


de Componentes Principais) determinar quais variáveis devem permanecer na análise.

143
O método de descarte sugere descartar um número de variáveis igual ao número de
autovalores menores que 0.7. Como pode ser observado no screeplot acima, são 5
variáveis. Analisando os coeficientes:
Autovalor
Var 1 2 3 4 5 6 7 8 9
X1 0.0956 0.4145 -0.2769 -0.5960 -0.0542 0.1745 -0.3204 0.3600 0.3486
X2 0.0333 0.2195 0.1665 0.0467 -0.5641 -0.6898 -0.1216 -0.1850 0.2787
X3 -0.0024 0.2190 0.0172 -0.4346 -0.2761 0.0691 0.7854 -0.1119 -0.2292
X4 0.0160 0.2528 -0.2666 -0.1758 0.6075 -0.5919 -0.0051 -0.1068 -0.3209
X5 -0.4827 0.0551 0.5558 -0.2709 0.3632 0.0502 0.0188 -0.2957 0.3992
X6 0.7739 0.0475 0.0435 0.0678 0.2440 0.0986 0.1680 -0.3653 0.4018
X7 -0.3820 -0.0335 -0.7085 0.1713 -0.0371 0.0707 0.1535 -0.3882 0.3756
X8 0.0421 -0.6759 -0.0757 -0.2437 0.0905 -0.3442 0.2724 0.4059 0.3328
X9 -0.0994 0.4527 0.0758 0.5061 0.1800 -0.0532 0.3733 0.5253 0.2697
As variáveis descartadas foram: 𝑋2 : MG, 𝑋3 : PCT , 𝑋4 : IPL, 𝑋6 : LC, 𝑋9 : RPL

(b) Efetuar uma regressão logística múltipla considerando a variável dependente (VD) e
como variáveis independente aquelas que permaneceram após o descarte feito no item
anterior.

Model: Logistic regression (logit) N of 0’s:10 1’s:30


Dep. var: VD Loss: Max likelihood
Final loss: 8,953831045 Chi2 (3)=27,079 p=,00001

144
Const.B0 LS LG RVS
Estimate -3,24551 5 2 0,15
Odds ratio (unit ch) 0,03895 126 8 1,16
Odds ratio (range) 671741504 1729328 72719,5

𝑒−3,24551+5𝐿𝑆+2𝐿𝐺+0,15𝑅𝑉 𝑆
1 + 𝑒−3,24551+5𝐿𝑆+2𝐿𝐺+0,15𝑅𝑉 𝑆

(c) Determinar os % de classificação correta.


Classification of Cases (lista7exe2.sta)
Odds ratio: 56,000
Pred. Pred. Percent
0 1 Correct
0 8 2 80
1 2 28 93,33334
(d) Determinar a variável (VD) estimada para cada empresa.
C:1 ,999994 C:11 ,998989 C:21 ,999921 C:31 ,230445
C:2 ,937724 C:12 ,861459 C:22 ,428275 C:32 ,007775
C:3 1,000000 C:13 ,999899 C:23 ,997234 C:33 ,256984
C:4 ,994190 C:14 ,988191 C:24 1,000000 C:34 ,257574
C:5 ,978185 C:15 ,999927 C:25 ,812119 C:35 ,593120
C:6 ,998556 C:16 1,000000 C:26 ,999704 C:36 ,035836
C:7 ,988006 C:17 ,865842 C:27 ,868120 C:37 ,000375
C:8 ,749960 C:18 ,999997 C:28 ,473084 C:38 ,209509
C:9 ,928765 C:19 ,989024 C:29 ,714051 C:39 ,051899
C:10 1,000000 C:20 ,999993 C:30 ,812953 C:40 ,972320
(e) Construir o histograma para os resíduos da regressão.

145
(f) Como você classificaria uma empresa com os seguintes valores para as variáveis (con-
sidere somente aquelas variáveis que não foram descartadas)

MG = 2,37; PCT = 8,75; IPL = 254,54; LS = 0,97; LC = 1,23; LG = 0,76; RSV = 0,57;
RPL = 7,45.

Aplicando a fórmula vem:

Calculando 𝑔(𝑥) = −3, 24551 − 5𝐿𝑆 + 2𝐿𝐺 + 0, 15𝑅𝑉 𝑆 , vem: 𝑔(𝑥) = 4, 242.
𝑒𝑔(𝑥) 𝑒4,242
Calculando 𝜋
ˆ (𝑥) = 1+𝑒𝑔(𝑥)
= 1+𝑒4,242
= 0, 9858 Sendo classificado como adimplente.

8 Lista 8: Análise de Agrupamento

1. As distâncias entre 5 pares de itens são dadas abaixo:

146
⎡ ⎤
0
⎢ ⎥
⎢ ⎥
⎢ 4 0 ⎥
⎢ ⎥
⎢ ⎥
⎢ 6 9 0 ⎥
⎢ ⎥
⎢ ⎥
⎢ 1 7 10 0 ⎥
⎣ ⎦
6 3 5 8 0

Faça uma análise de agrupamentos utilizando os métodos:

(a) do vizinho mais próximo;


A B C D E
A,D B C E
A 0 A,D B,E C
A,D 0
B 4 0 A,D 0
B 4 0
C 6 9 0 B,E 4 0
C 6 9 0
D 1 7 10 0 C 6 5 0
E 6 3 5 0
E 6 3 5 8 0
O passo 3 junta A,D com B,E, sobrando a última ligação, A,D, B,E com C, na
distância 5.
No matlab

>> D=[0 4 6 1 6;
4 0 9 7 3;
6 9 0 10 5;
1 7 10 0 8;
6 3 5 8 0]
>> y=squareform(D)
>> z=linkage(y)
>> dendrogram(z)
>> r=cophenet(z,y)
D =
0 4 6 1 6
4 0 9 7 3
6 9 0 10 5
1 7 10 0 8
6 3 5 8 0
y =

147
4 6 1 6 9 7 3 10 5 8
z =
1 4 1
2 5 3
6 7 4
3 8 5
r =
0.7727

(b) do vizinho mais distante;

>> z=linkage(y,’complete’)
>> dendrogram(z)
>> r=cophenet(z,y) z =
1 4 1
2 5 3
6 7 8
3 8 10
r =
0.7893

(c) construa os dendrogramas.

4.5

3.5

2.5

1.5

1 4 2 5 3

148
10

1 4 2 5 3

2. Suponha que temos as medidas de 3 variáveis: 𝑋1 , 𝑋2 e 𝑋3 para 6 itens: A, B, C, D, E e


F. Os dados são dados abaixo:

Itens 𝑋1 𝑋2 𝑋3
A 2 5 7
B 1 4 5
C 2 6 4
D 3 5 5
E 4 5 6
F 2 6 5

Usando a técnica das k-médias dividir os ítens em K = 2 grupos. Começar com os grupos
iniciais (ABC) e (DEF).

>> M=[2 5 7
1 4 5 2 6 4 3 5 5 4 5 6 2 6 5]
mx_ABC=mean(M(1:3,:)) mx_DEF=mean(M(4:6,:)) M =
2 5 7
1 4 5
2 6 4
3 5 5
4 5 6
2 6 5
mx_ABC =

149
1.6667 5.0000 5.3333
mx_DEF =
3.0000 5.3333 5.3333
>> %Distancia A
>> d_A_ABC=sqrt(sum((M(1,:)-mx_ABC).^2))
>> d_A_DEF=sqrt(sum((M(1,:)-mx_DEF).^2))
>> %Distancia B
>> d_B_ABC=sqrt(sum((M(2,:)-mx_ABC).^2))
>> d_B_DEF=sqrt(sum((M(2,:)-mx_DEF).^2))
>> %Distancia C
>> d_C_ABC=sqrt(sum((M(3,:)-mx_ABC).^2))
>> d_C_DEF=sqrt(sum((M(3,:)-mx_DEF).^2))
>> %Distancia D
>> d_D_ABC=sqrt(sum((M(4,:)-mx_ABC).^2))
>> d_D_DEF=sqrt(sum((M(4,:)-mx_DEF).^2))
>> %Distancia E
>> d_E_ABC=sqrt(sum((M(5,:)-mx_ABC).^2))
>> d_E_DEF=sqrt(sum((M(5,:)-mx_DEF).^2))
>> %Distancia F
>> d_F_ABC=sqrt(sum((M(6,:)-mx_ABC).^2))
>> d_F_DEF=sqrt(sum((M(6,:)-mx_DEF).^2))
d_A_ABC =
1.6997
d_A_DEF =
1.9720
d_B_ABC =
1.2472
d_B_DEF =
2.4267
d_C_ABC =
1.6997
d_C_DEF =
1.7951

150
d_D_ABC =
1.3744
d_D_DEF =
0.4714
d_E_ABC =
2.4267
d_E_DEF =
1.2472
d_F_ABC =
1.1055
d_F_DEF =
1.2472
>> G_ABCF=[M(1:3,:);M(6,:)]
G_DE=M(4:5,:)

mx_ABCF=mean(G_ABCF) mx_DE=mean(G_DE)
%Distancia A
d_A_ABCF=sqrt(sum((M(1,:)-mx_ABCF).^2))
d_A_DE=sqrt(sum((M(1,:)-mx_DE).^2))
%Distancia B
d_B_ABCF=sqrt(sum((M(2,:)-mx_ABCF).^2))
d_B_DE=sqrt(sum((M(2,:)-mx_DE).^2))
%Distancia C
d_C_ABCF=sqrt(sum((M(3,:)-mx_ABCF).^2))
d_C_DE=sqrt(sum((M(3,:)-mx_DE).^2))
%Distancia D
d_D_ABCF=sqrt(sum((M(4,:)-mx_ABCF).^2))
d_D_DE=sqrt(sum((M(4,:)-mx_DE).^2))
%Distancia E
d_E_ABCF=sqrt(sum((M(5,:)-mx_ABCF).^2))
d_E_DE=sqrt(sum((M(5,:)-mx_DE).^2))
%Distancia F
d_F_ABCF=sqrt(sum((M(6,:)-mx_ABCF).^2))

151
d_F_DE=sqrt(sum((M(6,:)-mx_DE).^2)) disp(’Grupo1: ABCF’)
disp(’Grupo2: DE’) G_ABCF =
2 5 7
1 4 5
2 6 4
2 6 5
G_DE =
3 5 5
4 5 6
mx_ABCF =
1.7500 5.2500 5.2500
mx_DE =
3.5000 5.0000 5.5000
d_A_ABCF =
1.7854
d_A_DE =
2.1213
d_B_ABCF =
1.4790
d_B_DE =
2.7386
d_C_ABCF =
1.4790
d_C_DE =
2.3452
d_D_ABCF =
1.2990
d_D_DE =
0.7071
d_E_ABCF =
2.3848
d_E_DE =
0.7071

152
d_F_ABCF =
0.8292
d_F_DE =
1.8708

Grupo1: ABCF Grupo2: DE

3. Usando os dados do Exercício 4 da LISTA 5 (Análise Fatorial), fazer uma Análise de


Agrupamento utilizando os diversos tipos de distâncias e ligações. Construir o dendrograma
para a melhor solução.

A tabela seguinte mostra as quantidades das 25 espécies de plantas mais abundantes em


17 lotes de um prado de pastagem na Reserva natural em Steneryd na Suécia medidas
por Persson (1981) e usadas para um exemplo de Digby e Kempton (1987). Cada valor
na tabela é a soma dos valores cobertos em intervalo de 0 a 5 por nove quadrantes de
amostra, de modo que um valor de 45 corresponde à completa cobertura pelas espécies
sendo consideradas. Note que as espécies estão em ordem das mais abundantes (1) às
menos abundantes (25), e os lotes estão na ordem dada por Digby e Kempton , a qual
corresponde à variação em certos fatores ambientais tais como luz e umidade. Execute
uma análise de agrupamentos para estudar o relacionamento entre (a) os 17 lotes e (b) as
25 espécies.

Espécies Lotes
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
𝐸1 38 43 43 30 10 11 20 0 0 5 4 1 1 0 0 0 0
𝐸2 0 0 0 4 10 7 21 14 13 19 20 19 6 10 12 14 21
𝐸3 0 0 0 0 0 6 8 21 39 31 7 12 0 16 11 6 9
𝐸4 10 12 19 15 16 9 0 9 28 8 0 4 0 0 0 0 0
𝐸5 0 0 0 0 0 0 0 0 0 0 13 0 0 21 20 21 37
𝐸6 0 0 0 0 0 0 0 0 0 0 1 0 0 0 11 45 45
𝐸7 1 0 5 6 2 8 10 15 12 15 4 5 6 7 0 0 0
𝐸8 0 7 0 10 9 9 3 9 8 9 2 5 5 1 7 0 0
𝐸9 0 0 1 4 6 9 9 9 11 11 6 5 4 1 7 0 0
𝐸10 0 0 0 0 0 8 0 14 2 14 3 9 8 7 7 2 1
𝐸11 0 0 0 0 0 8 0 0 6 5 4 7 9 8 8 7 6

153
𝐸12 0 5 3 9 12 9 0 1 7 4 5 1 1 1 3 0 0
𝐸13 0 0 0 0 0 0 30 0 14 3 8 0 3 3 0 0 0
𝐸14 4 10 10 9 7 6 9 0 0 2 1 0 2 0 1 0 0
𝐸15 2 9 7 15 13 8 0 0 0 0 0 0 0 0 0 0 0
𝐸16 0 0 0 0 15 6 0 18 1 9 0 0 2 0 0 0 0
𝐸17 12 7 16 8 1 6 0 0 0 0 0 0 0 0 0 0 0
𝐸18 0 0 0 0 0 7 0 2 2 1 0 7 9 2 3 8 7
𝐸19 0 0 0 0 0 7 9 2 12 6 3 8 0 0 0 0 0
𝐸20 0 0 0 0 2 6 3 0 6 5 3 9 3 2 7 0 0
𝐸21 0 0 0 0 0 4 1 4 2 9 6 8 4 1 6 0 0
𝐸22 0 0 0 0 0 8 0 4 0 6 2 10 6 0 2 7 0
𝐸23 1 9 16 9 5 2 0 0 0 0 0 0 0 0 0 0 0
𝐸24 0 0 0 0 2 7 0 1 0 3 1 6 8 2 0 7 4
𝐸25 0 0 6 14 19 2 0 0 0 0 0 0 0 0 0 0 0

Espécies: 𝐸1 = festuca ovina; 𝐸2 = anemone nemorosa; 𝐸3 = stallaria holostea; 𝐸4 =


agrostis tenuis; 𝐸5 = ranunculus ficaria; 𝐸6 = merculrialis perenis; 𝐸7 = poa pratenis; 𝐸8
= rumex acetosa; 𝐸9 = verônica chamaedrys; 𝐸1 0 = dactylis glomerata; 𝐸11 = fraxinus
Excelsior; 𝐸12 = saxifraga granulata; 𝐸13 = deschampsia flexuosa; 𝐸14 = luzula campestris;
𝐸15 = plantago lanceolata; 𝐸16 = festuca rubra; 𝐸17 = hieracium pilosella; 𝐸18 = geum
urbanum; 𝐸19 = lathyrus montanus; 𝐸20 = campânula persicifolia; 𝐸21 = viola riviniana;
𝐸22 = hepática nobilis; 𝐸23 = achillea millefolium; 𝐸24 = allium sp.; 𝐸25 = trifolim repens.

function analisefunc(X) distancia = [


’euclidean ’
’seuclidean ’
’mahalanobis’
’cityblock ’
’minkowski ’
’cosine ’
’correlation’
’hamming ’
’jaccard ’
’chebychev ’

154
];

strdist= cellstr(distancia);
iTamDist = size(strdist);
ligacao = [
’single ’
’complete’
’average ’
’weighted’
’centroid’
’median ’
’ward ’ ];

strlink = cellstr(ligacao);
iTamLink = size(strlink); fid =
fopen(’c:\cophenet.txt’,’w’); for i=1:iTamDist
Y = pdist(X,char(strdist(i)));
for j=1:iTamLink
Z = linkage(Y,char(strlink(j)));
c = cophenet(Z,Y);
fprintf(fid,’%12s %12s %6.4f\n’,char(strdist(i)), char(strlink(j)), c);
end
end fclose(fid);

Distância Link Cophenet


euclidean single 0,68
euclidean complete 0,7
euclidean average 0,75
euclidean weighted 0,74
euclidean centroid 0,75
euclidean median 0,74
euclidean ward 0,64
seuclidean single 0,75
seuclidean complete 0,7
seuclidean average 0,83
seuclidean weighted 0,81

155
seuclidean centroid 0,83
seuclidean median 0,43
seuclidean ward 0,61
mahalanobis single 0,81
mahalanobis complete 0,73
mahalanobis average 0,85
mahalanobis weighted 0,8
mahalanobis centroid 0,84
mahalanobis median 0,72
mahalanobis ward 0,58
cityblock single 0,61
cityblock complete 0,6
cityblock average 0,66
cityblock weighted 0,58
cityblock centroid 0,66
cityblock median 0,72
cityblock ward 0,6
minkowski single 0,68
minkowski complete 0,7
minkowski average 0,75
minkowski weighted 0,74
minkowski centroid 0,75
minkowski median 0,74
minkowski ward 0,64
cosine single 0,49
cosine complete 0,55
cosine average 0,65
cosine weighted 0,56
cosine centroid 0,64
cosine median 0,5
cosine ward 0,55
correlation single 0,59
correlation complete 0,47
correlation average 0,66
correlation weighted 0,53
correlation centroid 0,65
correlation median 0,62
correlation ward 0,48
hamming single 0,56

156
hamming complete 0,69
hamming average 0,7973
hamming weighted 0,7906
hamming centroid -0,2757
hamming median 0,1574
hamming ward 0,2909
jaccard single 0,5581
jaccard complete 0,6883
jaccard average 0,7973
jaccard weighted 0,7906
jaccard centroid -0,2757
jaccard median 0,1574
jaccard ward 0,2909
chebychev single 0,6429
chebychev complete 0,7247
chebychev average 0,7307
chebychev weighted 0,7254
chebychev centroid 0,7307
chebychev median 0,6334
chebychev ward 0,7161

Ao analisar os dados acima, a melhor solução foi


Distância Link Cophenet
mahalanobis average 0,85

4. A tabela abaixo fornece as medidas de 5 variáveis nutricionais para 12 tipos de cereais


usados no café da manhã.

157
Cereal 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
Proteínas Carboidratos Fat Calorias Vitamina A

2. Grape nuts 3 23 0 100 25


3. Super sugar 2 26 0 110 25
4. Special K 6 21 0 110 25
5.Rice Krispies 2 25 0 110 25
6. Raisin Bran 3 28 1 120 25
7. Product 19 2 24 0 110 100
8.Wheaties 3 23 1 110 25
9. Total 3 23 1 110 100
10.Puffed Rice 2 13 0 50 0
11. Sugar Corn Po 2 26 0 110 25
12. Sugar Smacks 1 25 0 110 25

(a) Usando os dados dessa tabela, calcular as distâncias Euclidianas entre pares de cereais.
- 27,4 26,29 25,1 26,04 28,55 100,21 25,5 100,12 60,44 26,29 26,21
27,4 - 10,49 10,63 10,25 20,64 75,68 10,05 75,67 56,8 10,49 10,39
26,29 10,49 - 6,4 1 10,3 75,03 3,32 75,07 66,29 - 1,41
25,1 10,63 6,4 - 5,66 12,61 75,17 3,74 75,09 65,61 6,4 6,4
26,04 10,25 1 5,66 - 10,54 75,01 2,45 75,04 66,1 1 1
28,55 20,64 10,3 12,61 10,54 - 75,78 11,18 75,83 75,84 10,3 10,68
100,21 75,68 75,03 75,17 75,01 75,78 - 75,02 1,73 117,14 75,03 75,01
25,5 10,05 3,32 3,74 2,45 11,18 75,02 - 75 65,78 3,32 3
100,12 75,67 75,07 75,09 75,04 75,83 1,73 75 - 117,06 75,07 75,06
60,44 56,8 66,29 65,61 66,1 75,84 117,14 65,78 117,06 - 66,29 66,11
26,29 10,49 - 6,4 1 10,3 75,03 3,32 75,07 66,29 - 1,41
26,21 10,39 1,41 6,4 1 10,68 75,01 3 75,06 66,11 1,41 -

(b) Tratando as distâncias calculadas em (a) como medidas de similaridade, efetuar o


procedimento hierárquico do vizinho mais próximo, construindo o dendrograma cor-
respondente.

Este procedimento no matlab corresponde ao modelo ’single’, com distância ’eu-


clidean’. Este dá o seguinte dendrogram.

158
70

60

50

40

30

20

10

0
3 11 5 12 8 4 2 6 1 10 7 9

5. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens
obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra,
situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de
estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para
cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ...
, CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7;
COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área
total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e
b (mg/10g)).

Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT

1. T1 4.5 6.75 5.25 71 45.5 8.75 97.9 5.12 18


2. T2 8.75 9.5 11.5 43.5 53.75 14.5 52.4 1.91 15.22
3. T7 5.75 8.25 8.5 51.25 42 9.5 50.6 2.74 15.61
4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44
5. T15 5.5 6.5 5 73.25 40.5 6.5 96.5 6.68 17.9
6. T22 9.5 12 28.5 31.5 61.75 31.25 11.1 0.27 12.73
7. T26 9 10.25 9.25 61.75 48 10 90.2 3.71 14.82
8. T28 6.75 7.75 6.25 82 44.5 6.75 96.7 5.36 17.32
9. T33 6.25 6.5 5.25 80.25 46.75 6.75 96 6.55 15.09

159
10. T43 8.5 10 8.25 74.75 55.5 10.5 97.9 2.05 16.28
11.F3A 9 11.5 20.5 43.75 58 22.25 19.7 0.81 10.25
12.F9 5.75 7 11 28.25 31 9 14.3 0.62 12.35
13.F10 6.25 7.5 17.5 22 31 13.5 4.2 0.15 8.26
14.F17 7 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36
15.F18 8.25 10.5 9 83 60 11.75 85.8 6.64 11.39
16.F36 6.75 8.25 8 59 46.75 9.75 45.5 2.2 12.29
17.F6A 8 10 11 49.25 48 14 16.9 1.17 13.27
18.F40 6.75 8 10.75 43.75 42 10 38.1 1.58 14.4
19.F41 7.75 10.25 15.5 45.25 58.75 20.5 29.2 0.74 15.62
20.F42 8.25 11 16.75 31.25 46.75 18.25 21.5 9.63 10.37

Agrupar as áreas de plantio em 2 grupos, utilizando as distâncias estudadas e as diferentes


ligações, calculando o coeficiente cofenético. Construir também o dendrograma e discutir
os resultados.

Euclidiana

Mahalanobis

160
Cityblock

Minkosk

161
Cosseno

Correlação

162
Hamming

Jaccard

163
Chebychev

Quadrado euclideana

164
Distância Link Cophenet
chebychev average 0,8575
chebychev centroid 0,8569
chebychev median 0,8561
chebychev weighted 0,8549
chebychev ward 0,8544
chebychev complete 0,8542
chebychev single 0,853
euclidean average 0,8349
minkowski average 0,8349
euclidean weighted 0,8347
minkowski weighted 0,8347
euclidean median 0,8341
minkowski median 0,8341
euclidean centroid 0,8337
minkowski centroid 0,8337
euclidean single 0,83
minkowski single 0,83
euclidean complete 0,8295

165
minkowski complete 0,8295
euclidean ward 0,8288
minkowski ward 0,8288
seuclidean centroid 0,7823
seuclidean average 0,7737
cityblock average 0,7684
seuclidean weighted 0,767
cityblock centroid 0,7668
seuclidean complete 0,7581
correlation average 0,7578
correlation centroid 0,7577
correlation weighted 0,7575
correlation median 0,7575
cityblock ward 0,7571
correlation complete 0,7565
correlation ward 0,7551
cosine average 0,7356
cosine centroid 0,7355
cosine weighted 0,7354
cosine median 0,7353
cosine complete 0,7349
cosine ward 0,734
correlation single 0,7317
seuclidean median 0,7288
cityblock weighted 0,7275
cityblock median 0,726
cityblock complete 0,7168
mahalanobis average 0,7059
cosine single 0,704
mahalanobis weighted 0,6818
cityblock single 0,6781
hamming average 0,6656

166
jaccard average 0,6656
seuclidean ward 0,6648
mahalanobis centroid 0,6543
hamming weighted 0,6538
jaccard weighted 0,6538
mahalanobis median 0,6139
hamming ward 0,6067
jaccard ward 0,6067
mahalanobis complete 0,5812
hamming complete 0,5791
jaccard complete 0,5791
seuclidean single 0,5639
mahalanobis single 0,5571
mahalanobis ward 0,4771
hamming median 0,1378
jaccard median 0,1378
hamming single 0,1357
jaccard single 0,1357
hamming centroid -0,3076
jaccard centroid -0,3076

As distância que sugerem uma boa classificação são a de chebychev, euclideana e minkowski.
Todas elas, possuem o agrupamento similar ao dendrograma abaixo (chebychev, average).

167
Grupo Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT
1 1. T1 4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00
5. T15 5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90
7. T26 9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82
8. T28 6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32
9. T33 6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09
10. T43 8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28
15.F18 8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39
2 2. T2 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22
3. T7 5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61
4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44
6. T22 9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73
11.F3A 9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25
12.F9 5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35
13.F10 6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26
14.F17 7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36
16.F36 6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29
17.F6A 8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27
18.F40 6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40
19.F41 7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62
20.F42 8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37

168
9 Lista 9: Análise de Correlação Canônica

1. (Variáveis solo e vegetação em Belize) Para uma exemplo com um grande número de da-
dos, considere parte dos dados coletados por Green (1973) para um estudo dos fatores
influenciando a locação de lugares de habitação Maya pré-históricos no distrito de Corozal
em Belize na América Central. A Tabela seguinte mostra quatro variáveis do solo e qua-
tro variáveis da vegetação registradas para quadrados de 2,5 x 2,5 km. Use a análise de
correlação canônica para estudar o relacionamento entre estes dois grupos de variáveis.

Quadrado Variáveis de Solo Variáveis de Vegetação


𝑋1 𝑋2 𝑋3 𝑋4 𝑌1 𝑌2 𝑌3 𝑌4

1 40 30 0 30 0 25 0 0
2 20 0 0 10 10 90 0 0
3 5 0 0 50 20 50 0 0
4 30 0 0 30 0 60 0 0
5 40 20 0 20 0 95 0 0
6 60 0 0 5 0 100 0 0
7 90 0 0 10 0 100 0 0
8 100 0 0 0 20 80 0 0
9 0 0 0 10 40 60 0 0
10 15 0 0 20 25 10 0 0
11 20 0 0 10 5 50 0 0
12 0 0 0 50 5 60 0 0
13 10 0 0 30 30 60 0 0
14 40 0 0 20 50 10 0 0
15 10 0 0 40 80 20 0 0
16 60 0 0 0 100 0 0 0
17 45 0 0 0 5 60 0 0
18 100 0 0 0 100 0 0 0
19 20 0 0 0 20 0 0 0
20 0 0 0 60 0 50 0 0
21 0 0 0 80 0 75 0 0
22 0 0 0 50 0 50 0 0
23 30 10 0 60 0 100 0 0
24 0 0 0 50 0 50 0 0

169
25 50 20 0 30 0 100 0 0
26 5 15 0 80 0 100 0 0
27 60 40 0 0 10 90 0 0
28 60 40 0 0 50 50 0 0
29 94 5 0 0 90 10 0 0
30 80 0 0 20 0 100 0 0
31 50 50 0 0 25 75 0 0
32 10 40 50 0 75 25 0 0
33 12 12 75 0 10 90 0 0
34 50 50 0 0 15 85 0 0
35 50 40 10 0 80 20 0 0
36 0 0 100 0 100 0 0 0
37 0 0 100 0 100 0 0 0
38 70 30 0 0 50 50 0 0
39 40 40 20 0 50 50 0 0
40 0 0 100 0 100 0 0 0
41 25 25 50 0 100 0 0 0
42 40 40 0 20 80 20 0 0
43 90 0 0 10 100 0 0 0
44 100 0 0 0 100 0 0 0
45 100 0 0 0 90 10 0 0
46 10 0 0 90 100 0 0 0
47 80 0 0 20 100 0 0 0
48 60 0 0 30 80 0 0 0
49 40 0 0 0 0 30 0 0
50 50 0 0 50 100 0 0 0
51 50 0 0 0 40 0 0 0
52 30 30 0 20 30 60 0 0
53 20 20 0 40 0 100 0 0
54 20 80 0 0 0 100 0 0
55 0 10 0 60 0 75 0 0
56 0 50 0 30 0 75 0 0
57 50 50 0 0 30 70 0 0

170
58 0 0 0 60 0 60 0 0
59 20 20 0 60 0 100 0 0
60 90 10 0 0 70 30 0 0
61 100 0 0 0 100 0 0 0
62 15 15 0 30 0 40 0 0
63 100 0 0 0 25 75 0 0
64 95 0 0 5 90 10 0 0
65 95 0 0 5 90 10 0 0
66 60 40 0 0 50 50 0 0
67 30 60 10 10 50 10 0 0
68 50 0 50 50 100 0 0 0
69 60 30 0 10 69 40 0 0
70 90 8 0 2 80 20 0 0
71 30 30 30 40 60 40 0 0
72 33 33 33 33 75 25 0 0
73 20 10 0 40 0 100 0 0
74 50 0 0 50 40 60 0 0
75 75 12 0 12 50 50 0 0
76 75 0 0 25 40 60 0 0
77 30 0 0 50 0 100 0 0
78 50 10 0 30 5 95 0 0
79 100 0 0 0 60 40 0 0
80 50 0 0 50 20 80 0 0
81 10 0 0 90 0 100 0 0
82 30 30 0 20 0 85 0 0
83 20 20 0 20 0 75 0 0
84 90 0 0 0 50 25 0 0
85 30 0 0 0 30 5 0 0
86 20 30 0 50 20 80 0 0
87 50 30 0 10 50 50 0 0
88 80 0 0 0 70 10 0 0
89 80 0 0 0 50 0 0 0
90 60 10 0 25 80 15 0 0

171
91 50 0 0 0 75 0 0 0
92 70 0 0 0 75 0 0 0
93 100 0 0 0 85 15 0 0
94 60 30 0 0 40 60 0 0
95 80 20 0 0 50 50 0 0
96 100 0 0 0 100 0 0 0
97 100 0 0 0 95 5 0 0
98 0 0 0 60 0 50 0 0
99 30 20 0 30 0 60 0 40
100 15 0 0 35 20 30 0 0
101 40 0 0 45 70 20 0 0
102 30 0 0 45 20 40 0 20
103 60 10 0 30 10 65 5 20
104 40 20 0 40 0 25 0 75
105 100 0 0 0 70 0 0 30
196 100 0 0 0 40 60 0 0
107 80 10 0 10 40 60 0 0
108 90 0 0 10 10 0 0 90
109 100 0 0 0 20 10 0 70
110 30 50 0 20 10 90 0 0
111 60 40 0 0 50 50 0 0
112 100 0 0 0 80 10 0 10
113 60 0 0 40 60 10 30 0
114 50 50 0 0 0 100 0 0
115 60 30 0 10 25 75 0 0
116 40 0 0 60 30 20 50 0
117 30 0 0 70 0 50 50 0
118 50 20 0 30 0 100 0 0
119 50 50 0 0 25 75 0 0
120 90 10 0 0 50 50 0 0
121 100 0 0 0 60 40 0 0
122 50 0 0 50 70 30 0 0
123 10 10 0 80 0 100 0 0

172
124 50 50 0 0 30 70 0 0
125 75 0 0 25 80 20 0 0
126 40 0 0 60 0 100 0 0
127 90 10 0 10 75 25 0 0
128 45 45 0 55 30 70 0 0
129 20 35 0 80 10 90 0 0
130 80 0 0 20 70 30 0 0
131 100 0 0 0 90 0 0 0
132 75 0 0 25 50 50 0 0
133 60 5 0 40 50 50 0 0
134 40 0 0 60 60 40 0 0
135 60 0 0 40 70 15 0 0
136 90 10 0 10 75 25 0 0
137 50 0 5 0 30 20 0 0
138 70 0 30 0 70 30 0 0
119 60 0 40 0 100 0 0 0
140 50 0 0 0 50 0 0 0
141 30 0 50 0 60 40 0 0
142 5 0 95 0 80 20 0 0
143 10 0 90 0 70 30 0 0
144 50 0 0 0 15 30 0 0
145 20 0 80 0 50 50 0 0
146 0 0 100 0 90 10 0 0
147 0 0 100 0 75 25 0 0
148 90 0 10 0 60 30 10 0
149 0 0 100 0 80 10 10 0
150 0 0 100 0 60 40 0 0
151 0 40 60 40 50 50 0 0

Nota: 𝑋1 = % de solo com enriquecimento constante de calário; 𝑋2 = % de solo de prado


com cálcio na água subterrânea; 𝑋3 = % de solo com matriz de coral sob condições de
enriquecimento constante de calcário; 𝑋4 = % de solo aluvial e orgânico adjacentes a rios
e solo orgânico salino na costa; 𝑌1 = % de floresta decídua estacional com ervas de folhas

173
largas; 𝑌2 = % de floresta de locais altos e baixos coberta com água, plantas herbáceas em
lugares úmidos e pântanos; 𝑌3 = % de floresta de palma de cohune; 𝑌4 = % de floresta
mista.

>> X=[];
>> Y=[];
>> R11=corr(X)
R11 =
1.0000 -0.1433 -0.4089 -0.4692
-0.1433 1.0000 -0.0959 -0.0948
-0.4089 -0.0959 1.0000 -0.2387
-0.4692 -0.0948 -0.2387 1.0000
>> R22=corr(Y)
R22 =
1.0000 -0.7854 -0.0597 -0.1542
-0.7854 1.0000 -0.0682 -0.1366
-0.0597 -0.0682 1.0000 -0.0235
-0.1542 -0.1366 -0.0235 1.0000
>> R12=corr(X,Y)
R12 =
0.3785 -0.2693 -0.0292 0.1414
-0.2270 0.3831 -0.1045 -0.0494
0.3477 -0.2238 -0.0172 -0.0748
-0.3944 0.3475 0.2070 -0.0128
>> R21=corr(Y,X)
R21 =
0.3785 -0.2270 0.3477 -0.3944
-0.2693 0.3831 -0.2238 0.3475
-0.0292 -0.1045 -0.0172 0.2070
0.1414 -0.0494 -0.0748 -0.0128
>> R11i=inv(sqrtm(R11))
R11i =
1.3660 0.1922 0.4490 0.4905
0.1922 1.0479 0.1499 0.1574

174
0.4490 0.1499 1.2362 0.3562
0.4905 0.1574 0.3562 1.2748
>> R22i=inv(R22)
R22i =
3.3498 2.7827 0.4111 0.9062
2.7827 3.3359 0.4147 0.8944
0.4111 0.4147 1.0562 0.1449
0.9062 0.8944 0.1449 1.2653
>> Rx=R11i*R12*R22i*R21*R11i
Rx =
0.3511 0.0271 0.2734 -0.0079
0.0271 0.1835 0.0077 0.1113
0.2734 0.0077 0.2407 -0.0290
-0.0079 0.1113 -0.0290 0.1578
>> [e,l]=eig(Rx)
e =
-0.7718 -0.0395 -0.6198 0.1361
-0.0531 -0.7421 -0.0333 -0.6673
-0.6321 0.0640 0.7700 -0.0593
0.0441 -0.6660 0.1478 0.7298
l =
0.5773 0 0 0
0 0.2841 0 0
0 0 0.0147 0
0 0 0 0.0569
>> A=R11i*e
A =
-1.3267 -0.4945 -0.4349 0.3891
-0.2917 -0.8805 -0.0153 -0.5671
-1.1201 -0.2870 0.7213 0.1478
-0.5559 -0.9624 0.1534 0.8710
>> a1=R11i*e(:,1)
a1 =

175
-1.3267
-0.2917
-1.1201
-0.5559
>> a2=R11i*e(:,2)
a2 =
-0.4945
-0.8805
-0.2870
-0.9624
>> a3=R11i*e(:,3)
a3 =
-0.4349
-0.0153
0.7213
0.1534
>> a4=R11i*e(:,4)
a4 =
0.3891
-0.5671
0.1478
0.8710
>> R22i=inv(sqrtm(R22))
R22i =
1.5975 0.8473 0.1152 0.2583
0.8473 1.5939 0.1176 0.2523
0.1152 0.1176 1.0136 0.0411
0.2583 0.2523 0.0411 1.0645
>> R11i=inv(R11)
R11i =
2.3451 0.6084 1.3718 1.4856
0.6084 1.1823 0.4846 0.5133
1.3718 0.4846 1.8791 1.1382

176
1.4856 0.5133 1.1382 2.0175
>> Ry=R22i*R21*R11i*R12*R22i
Ry =
0.5463 0.0123 0.0356 0.1177
0.0123 0.2731 0.0486 0.0262
0.0356 0.0486 0.0673 0.0242
0.1177 0.0262 0.0242 0.0464
>> [f,l]=eig(Ry)
f =
0.9687 0.1071 0.1898 -0.1193
0.0717 -0.9694 0.0353 -0.2322
0.0849 -0.2079 0.2721 0.9357
0.2222 -0.0747 -0.9427 0.2374
l =
0.5773 0 0 0
0 0.2841 0 0
0 0 0.0147 0
0 0 0 0.0569
>> B=R22i*f
B =
1.6753 -0.6936 0.1209 -0.2181
1.0010 -1.4977 0.0112 -0.3012
0.2152 -0.3155 0.2631 0.9171
0.5083 -0.3050 -0.9344 0.2018
>> b1=R22i*f(:,1)
b1 =
1.6753
1.0010
0.2152
0.5083
>> b2=R22i*f(:,2)
b2 =
-0.6936

177
-1.4977
-0.3155
-0.3050
>> b3=R22i*f(:,3)
b3 =
0.1209
0.0112
0.2631
-0.9344
>> b4=R22i*f(:,4)
b4 =
-0.2181
-0.3012
0.9171
0.2018

Primeiro par de variáveis canônicas


(1) (1) (1) (1)
𝑈1 = 𝑎′1 𝑍 (1) = −1.3267𝑍1 − 0.2917𝑍2 − 1.1201𝑍3 − 0.5559𝑍4
(2) (2) (2) (2)
𝑉1 = 𝑏′1 𝑍 (2) = 1.6753𝑍1 + 1.0010𝑍2 + 0.2152𝑍3 + 0.5083𝑍4
Correlação Canônica
√ √ √
𝐶𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = (𝜌∗1 )2 = 𝜆1 = 0, 5773 = 0.7598

−0, 76 representa a maior correlação possível entre 𝑍 (1) e 𝑍 (2) .


Se fizermos

>> (a1’*a1)/4
ans =
0.8522
>> (b1’*b1)/4
ans =
1.0283

[(−1.3267)2 + (−0.2917)2 + (−1.1201)2 + (−0.5559)2 ]/4 = 0.8522


[(1.6753)2 + (1.0010)2 + (0.2152)2 + (0.5083)2 ]/4 = 1.0283
As variáveis do grupo 2 representam melhor o total de variáveis.

178
Correlações amostrais entre as variáveis originais e as variáveis canônicas

(1)
𝑋1 −0.5661
(1)
𝑋2 0.0585
- 𝑈1 com 𝑋 (1) =
(1)
𝑋3 −0.4170
(1)
𝑋4 0.3617
>> Rux1=a1’*R11;
(2)
𝑋1 −0.6063
(2)
𝑋2 0.3031
- 𝑈1 com 𝑋 (2) =
(2)
𝑋3 −0.0266
(2)
𝑋4 −0.0823
>> Rux2=a1’*R12;
(1)
𝑋1 0.4301
(1)
𝑋2 −0.0444
- 𝑉1 com 𝑋 (1) =
(1)
𝑋3 0.3168
(1)
𝑋4 −0.2748
>> Rvx1=b1’*R21;
(2)
𝑋1 0.7979
(2)
𝑋2 −0.3989
- 𝑉1 com 𝑋 (2) =
(2)
𝑋3 0.0349
(2)
𝑋4 0.1083
>> Rvx2=b1’*R22;

Segundo par de variáveis canônicas


(1) (1) (1) (1)
𝑈2 = 𝑎′2 𝑍 (1) = −0.4945𝑍1 − 0.8805𝑍2 − 0.2870𝑍3 − 0.9624𝑍4
(2) (2) (2) (2)
𝑉2 = 𝑏′2 𝑍 (2) = −0.6936𝑍1 − 1.4977𝑍2 − 0.3155𝑍3 − 0.3050𝑍4
Correlação Canônica
√ √ √
𝐶𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = (𝜌∗2 )2 = 𝜆2 = 0, 2841 = 0.5330 O segundo par de variáveis tem uma
correlação menor do que o primeiro, e assim segue se calcularmos o terceiro e o quarto par
de variáveis.

2. Considere a matriz de covariância

179
⎡ ⎤
100 0 ∣ 0 0
⎡ ⎢ ⎤ ⎥
⎢ ⎥
Σ11 ∣ ⎢
Σ12 0 1 ∣ 0.95 ⎥0
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
𝐶𝑜𝑣(𝑋) = ⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ∣ −−− −−− ⎥
⎣ ⎦ ⎢ ⎥
⎢ ⎥
Σ21 ∣ Σ22 ⎢ 0 0.95 ∣ 1 0 ⎥
⎣ ⎦
0 0 ∣ 0 100

(1) (2)
Verifique que o primeiro par de variáveis canônicas são: 𝑈1 = 𝑋2 , 𝑉1 = 𝑋1 com
correlação canônica 𝜌∗1 = 0, 95.

Grupo 1:
>> S11=[100 0;0 1]
S11 =
100 0
0 1
>> S12=[0 0;0.95 0]
S12 =
0 0
0.9500 0
>> S21=S12’
S21 =
0 0.9500
0 0
>> S22=[1 0;0 100]
S22 =
1 0
0 100
>> S11i=inv(sqrtm(S11));
>> S22i=inv(S22);
>> S=S11i*S12*S22i*S21*S11i;
>> [e,l]=eig(S)
e =
1 0
0 1
l =

180
0 0
0 0.9025
>> a1=S11i*e(:,2)
a1 =
0
1
Grupo 2:
>> S22i=inv(sqrtm(S22));
>> S11i=inv(S11);
>> S=S22i*S21*S11i*S12*S22i;
>> [f,l]=eig(S)
f =
0 1
1 0
l =
0 0
0 0.9025
>> b1=S22i*f(:,2)
b1 =
1
0

Assim,
⎛ ⎞
( ) 𝑋1
(1)
- 𝑈1 = 𝑎′1 𝑋 (1) = 0 1 ⎝ ⎠ = 𝑋2(1)
(1)
𝑋2
⎛ ⎞
( ) (2)
𝑋1
- 𝑉1 = 𝑏′1 𝑋 (2) = 1 0 ⎝ ⎠ = 𝑋1(2)
(2)
𝑋2
- Correlação Canônica


𝑎′1 Σ12 𝑏1
𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = √ √ = (𝜌∗1 )2 = 0, 95
𝑎′1 Σ11 𝑎1 𝑏′1 Σ22 𝑏1

3. Considere os vetores aleatórios (2 × 1): 𝑋 (1) e 𝑋 (2) tendo vetor de médias e matriz covar-
iância conjuntas:

181
⎡ ⎤
−3
⎡ ⎢ ⎤ ⎥
⎢ ⎥
𝜇(1)⎢ 2 ⎥
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
𝜇=⎢ −−− ⎥=⎢ −−− ⎥
⎣ ⎦ ⎢ ⎥
⎢ ⎥
𝜇(2) ⎢ 0 ⎥
⎣ ⎦
1
⎡ ⎤
8 2 ∣ 3 1
⎡ ⎢ ⎤ ⎥
⎢ ⎥
Σ11 ∣ ⎢ 2
Σ12 5 ∣ −1 3⎥
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
Σ=⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ∣ −−− −−− ⎥
⎣ ⎦ ⎢ ⎥
⎢ ⎥
Σ21 ∣ Σ22 ⎢ 3 −1 ∣ 6 −2 ⎥
⎣ ⎦
1 3 ∣ −2 7

(a) Calcule as correlações canônicas: 𝜌∗1 e 𝜌∗2 .

Grupo 1:
>> S11=[8 2;2 5]
S11 =
8 2
2 5
>> S12=[3 1;-1 3]
S12 =
3 1
-1 3
>> S21=S12’
S21 =
3 -1
1 3
>> S22=[6 -2;-2 7]
S22 =
6 -2
-2 7
>> S11i=inv(sqrtm(S11))
S11i =
0.3667 -0.0667
-0.0667 0.4667

182
>> S22i=inv(S22)
S22i =
0.1842 0.0526
0.0526 0.1579
>> S=S11i*S12*S22i*S21*S11i
S =
0.2756 -0.0322
-0.0322 0.2690
>> [e,l]=eig(S)
e =
0.7422 0.6702
-0.6702 0.7422
l =
0.3046 0
0 0.2400
A =
0.3168 0.1962
-0.3622 0.3017
Grupo 2:
>> S22i=inv(sqrtm(S22))
S22i =
0.4243 0.0645
0.0645 0.3921
>> S11i=inv(S11)
S11i =
0.1389 -0.0556
-0.0556 0.2222
>> S=S22i*S21*S11i*S12*S22i
S =
0.2946 -0.0234
-0.0234 0.2500
>> [f,l]=eig(S)
f =

183
0.9193 0.3936
-0.3936 0.9193
l =
0.3046 0
0 0.2400
>> B=S22i*f
B =
0.3647 0.2263
-0.0951 0.3858

Correlação Canônica

1 √
𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = (𝜌∗1 ) 2 = 0, 3046 = 0, 5519
1 √
𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = (𝜌∗2 ) 2 = 0, 24 = 0, 4899

0,5519 Representa a maior correlação possível entre 𝑋 (1) e 𝑋 (2) .

(b) Determine os pares de variáveis canônicas: (𝑈1 , 𝑉1 ) e (𝑈2 , 𝑉2 ).


(1) (1) (2) (2)
𝑈1 = 0, 3168𝑋1 − 0, 3622𝑋2 𝑉1 = 0, 3647𝑋1 − 0, 0951𝑋2
(1) (1) (2) (2)
𝑈2 = 0, 1962𝑋1 + 0, 3017𝑋2 𝑉2 = 0, 2263𝑋1 + 0, 3858𝑋2

4. Em um estudo sobre pobreza, crime e repressão. Parker e Smith determinaram certos


sumários estatísticos do crime em vários estados americanos para os anos de 1970 e 1973.
Uma parte da matriz de correlação amostral é dada abaixo. As variáveis são:
(1)
𝑋1 = homicídios não-primários em 1973;
(1)
𝑋2 = homicídios primários (envolvendo familiares ou conhecidos) em 1973;
(2)
𝑋1 = severidade da penalidade (mediana dos meses de pena) em 1970;
(2)
𝑋2 = certeza da penalidade (número de admissões à prisão dividido pelo número de
homicídios) em 1970.

⎡ ⎤
1.0 0.615 ∣ −0.111 −0.266
⎡ ⎢ ⎤ ⎥
⎢ ⎥
𝑅11 ⎢ 0.615
∣ 1.0
𝑅12 ∣ −0.195 −0.085 ⎥
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
𝑅=⎢ −−− ∣ −−− ⎥=⎢ −−− −−− ∣ −−− −−− ⎥
⎣ ⎦ ⎢ ⎥
⎢ ⎥
𝑅21 ∣ 𝑅22 ⎢ −0.111 −0.195 ∣ 1.0 −0.269 ⎥
⎣ ⎦
−0.266 −0.085 ∣ −0.269 1.0

(a) Calcule as correlações canônicas amostrais.

184
Primeiro Grupo
>> R11=[1 0.615; 0.615 1];
>> R12=[-0.111 -0.266;-0.195 -0.085];
>> R22=[1 -0.269;-0.269 1];
>> R21=R12’;
>> R11i=inv(sqrtm(R11));
>> R22i=inv(R22);
>> Rx=R11i*R12*R22i*R21*R11i;
>> [e,l]=eig(Rx)
e =
0.9463 -0.3232
0.3232 0.9463
l =
0.1067 0
0 0.0293
>> a1=R11i*e(:,1)
a1 =
1.0016
-0.0026
>> A=R11i*e
A =
1.0016 -0.7779
-0.0026 1.2682

Segundo Grupo
>> R22i=inv(sqrtm(R22));
>> R11i=inv(R11);
>> Ry=R22i*R21*R11i*R12*R22i;
>> [f,l]=eig(Ry)
f =
-0.8861 0.4634
0.4634 0.8861
l =

185
0.0293 0
0 0.1067
>> b1=R22i*f(:,2)
b1 =
0.6016
0.9769
>> B=R22i*f
B =
-0.8462 0.6016
0.3518 0.9769
(1) (1)
𝑈1 = 1.0016𝑍1 − 0.0026𝑍2
(2) (2)
𝑉1 = 0.6016𝑍1 + 0.9769𝑍2
(1) (1)
𝑈2 = −0.7779𝑍1 + 1.2682𝑍2
(2) (2)
𝑉2 = −0.8462𝑍1 + 0.3518𝑍2
variáveis padronizadas variáveis padronizadas
(1) (1) (2) (2)
𝑧1 𝑧2 𝜌∗𝑖 𝑧1 𝑧2
a1 1.0016 -0.7779 0.3266 b1 -0.8462 0.6016
a2 -0.0026 1.2682 0.1712 b2 0.3518 0.9769
ˆ1 , 𝑉ˆ1 e interprete essas
(b) Determine o primeiro par de correlação canônica amostral 𝑈
quantidades.
(1) (1)
𝑈1 = 1.0016𝑋1 − 0.0026𝑋2
(2) (2)
𝑉1 = 0.6016𝑋1 + 0.9769𝑋2

>> Rux1=a1’*R11
Rux1 =
1.0000 0.6134
>> Rvx2=b1’*R22
Rvx2 =
0.3388 0.8150
>> Rux2=a1’*R12
Rux2 =
-0.1107 -0.2662
>> Rvx1=b1’*R21

186
Rvx1 =
-0.3266 -0.2003

𝑋 (1) variáveis canônicas 𝑋 (2) variáveis canônicas


𝑈1 𝑉1 𝑈1 𝑉1
hom. não-primários 1.0000 -0.1107 sever. pen. -0.3266 0.3388
hom. primários 0.6134 -0.2662 cert. da pen. -0.2003 0.8150
O valor da correlação entre 𝑈1 e 𝑉1 é baixo, pode-se inferir com isso que não é pos-
sível, através de uma combinação linear de 𝑋 (1) com outra combinação linear de
𝑋 (2) , identificar uma relação ou influência ou associação entre estes conjuntos de var-
iáveis. Pode-se dizer que a certeza de penalidade faz com que o número de homicídios
primários seja menor do que o número de homicídios não primários. Este, por sua
vez, aumenta quando a severidade da pena cai.

5. Uma pesquisa envolvendo uma amostra de 𝑛 = 70 famílias foi utilizada para determinar a
associação entre certas variáveis “demográficas” e certas variáveis “consumo”. Sejam:

(1) (1)
- Conjunto padrão: 𝑋1 = freqüência anual de refeições em restaurantes; 𝑋2 = fre-
qüência anual de ida ao cinema.
(2) (2)
- Conjunto preditor: 𝑋1 = idade do cabeça da família; 𝑋2 = renda anual da família;
(2)
𝑋3 = nível educacional do cabeça da família.

Suponha que a amostra forneceu para as variáveis consideradas a seguinte matriz de cor-
relação amostral:

⎡ ⎤
1.0 ∣
⎢ ⎥
⎡ ⎢ ⎤ ⎥
⎢ 0.80 1.0 ∣ ⎥
𝑅11 ∣ 𝑅12 ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ −−− −−− ∣ −−− −−− −−− ⎥
𝑅=⎢ −−− ∣ −−− ⎥=⎢ ⎥
⎣ ⎦ ⎢
⎢ 0.26 0.33 ∣ 1.0


𝑅21 ∣ 𝑅22 ⎢ ⎥
⎢ ⎥
⎢ 0.67 0.59 ∣ 0.37 1.0 ⎥
⎣ ⎦
0.34 0.34 ∣ 0.21 0.35 1.0

(a) Determine as correlações canônicas amostrais.

>> R11=[1 0.8;0.8 1];


>> R21=[0.26 0.33;0.67 0.59;0.34 0.34];
>> R12=R21’;

187
>> R22=[1 0.37 0.21;0.37 1 0.35; 0.21 0.35 1];
>> R11i=inv(sqrtm(R11));
>> R22i=inv(R22);
>> Rx=R11i*R12*R22i*R21*R11i;
>> [e,l]=eig(Rx)
e =
0.5872 -0.8094
-0.8094 -0.5872
l =
0.0349 0
0 0.4733
>> a1=R11i*e(:,2)
a1 =
-0.7689
-0.2721
>> A=R11i*e
A =
1.4787 -0.7689
-1.6443 -0.2721
>> R22i=inv(sqrtm(R22));
>> R11i=inv(R11);
>> Ry=R22i*R21*R11i*R12*R22i;
>> [f,l]=eig(Ry)
f =
-0.2288 -0.9001 -0.3708
-0.9105 0.3326 -0.2456
-0.3444 -0.2814 0.8956
l =
0.4733 0 0
0 0.0349 0
0 0 -0.0000
>> B=R22i*f
B =

188
-0.0491 -1.0003 -0.4070
-0.8975 0.5837 -0.3561
-0.1900 -0.2956 1.0129
>> b1=R22i*f(:,1)
b1 =
-0.0491
-0.8975
-0.1900
>> C1=sqrt(0.4733)
C1 =
0.6880
>> C2=sqrt(0.0349)
C2 =
0.1868

Logo, as correlações canônicas são:

- 𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = 0, 688
- 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = 0, 1868

(b) Calcule as variáveis canônicas e procure interpretá-las.


(1) (1) (2) (2) (2)
- 𝑈1 = −0.8094𝑍1 − 0.5872𝑍2 e 𝑉1 = −0.2288𝑍1 − 0.9105𝑍2 − 0.3444𝑍3
(1) (1) (2) (2) (2)
- 𝑈2 = 0.5872𝑍1 − 0.8094𝑍2 e 𝑉2 = −0.9001𝑍1 + 0.3326𝑍2 − 0.2814𝑍3

Correlações entre as variáveis canônicas e as variáveis amostrais


(1)
𝑋1 −0.9866
- 𝑈1 com 𝑋 (1) =
(1)
𝑋2 −0.8872
>> Rux1=a1’*R11;
(2)
𝑋1 −0.2897
- 𝑈1 com 𝑋 (2) = 𝑋2(2) −0.6757
(2)
𝑋3 −0.3539
>> Rux2=a1’*R12;
(1)
𝑋1 −0.6787
- 𝑉1 com 𝑋 (1) =
(1)
𝑋2 −0.6104
>> Rvx1=b1’*R21;
(2)
𝑋1 −0.4211
- 𝑉1 com 𝑋 (2) = 𝑋2(2) −0.9822
(2)
𝑋3 −0.5145

189
>> Rvx2=b1’*R22;

O grupo 1 tem uma boa correlação com o grupo 2 de quase 70%. O grupo 2 recebe
(1) (2)
influência das variáveis do grupo 1 (𝑋1 e 𝑋1 ), ou seja, idade, renda familiar e nível
educacional demonstram quem são os frequentadores de cinemas e restaurantes, en-
(2)
quanto no grupo 1, recebe uma influência grande da variável 𝑋2 , ou seja, a frequência
em restaurantes e idas ao cinema crescem quando cresce a renda familiar.

6. Uma amostra das medidas do comprimento e da largura da cabeça dos dois primeiros filhos
adultos de uma amostra de 25 famílias são fornecidos abaixo (Data from Frets, 1921):

Identificação Primeiro Filho Segundo Filho


(1) (1) (2) (2)
𝑋1 𝑋2 𝑋1 𝑋2

1 191 155 179 145


2 195 149 201 152
3 181 148 185 149
4 183 153 188 149
5 176 144 171 142
6 208 157 192 152
7 189 150 190 149
8 197 159 189 152
9 188 152 197 159
10 192 150 187 151
11 179 158 186 148
12 183 147 174 147
13 174 150 185 152
14 190 159 195 157
15 188 151 187 158
16 163 137 161 130
17 195 155 183 158
18 186 153 173 148
19 181 145 182 146
20 175 140 165 137
21 192 154 185 152
22 174 143 178 147

190
23 176 139 176 143
24 197 167 200 158
25 190 163 187 150

Onde:
(1)
𝑋1 = comprimento da cabeça (primeiro filho)
(1)
𝑋2 = largura da cabeça (primeiro filho)
(2)
𝑋1 = comprimento da cabeça (segundo filho)
(2)
𝑋2 = largura da cabeça (segundo filho)

(a) Determinar a matriz de correlação amostral.

>> X=[];
>> Y=[];
>> R11=corr(X)
R11 =
1.0000 0.7346
0.7346 1.0000
>> R22=corr(Y)
R22 =
1.0000 0.8393
0.8393 1.0000
>> R12=corr(X,Y)
R12 =
0.7108 0.7040
0.6932 0.7086
>> R21=corr(Y,X)
R21 =
0.7108 0.6932
0.7040 0.7086

191
⎛ ⎞
..
⎜ 1.0000 0.7346 . 0.7108 0.7040 ⎟
⎜ ⎟
⎜ 0.7346 1.0000 ... 0.6932 0.7086 ⎟
⎜ ⎟
⎜ ⎟
𝑅=⎜
⎜ ... ... ... ... ... ⎟⎟
⎜ . ⎟
⎜ ⎟
⎜ 0.7108 0.6932 .. 1.0000 0.8393 ⎟
⎝ . ⎠
0.7040 0.7086 .. 0.8393 1.0000

(b) Calcule as correlações canônicas amostrais.

>> R11i=inv(sqrtm(R11));
>> R22i=inv(R22);
>> Rx=R11i*R12*R22i*R21*R11i;
>> [e,l]=eig(Rx)
e =
0.7150 -0.6992
0.6992 0.7150
l =
0.6217 0
0 0.0029
>> a1=R11i*e(:,1)
a1 =
0.5522
0.5215
>> A=R11i*e
A =
0.5522 -1.3664
0.5215 1.3784
>> R22i=inv(sqrtm(R22));
>> R11i=inv(R11);
>> Ry=R22i*R21*R11i*R12*R22i;
>> [f,l]=eig(Ry)
f =
-0.7139 -0.7003
0.7003 -0.7139
l =

192
0.0029 0
0 0.6217
>> b1=R22i*f(:,2)
b1 =
-0.5044
-0.5383
>> B=R22i*f
B =
-1.7686 -0.5044
1.7586 -0.5383

Assim, tem-se que

- 𝑐𝑜𝑟𝑟(𝑈1 , 𝑉1 ) = 0.7885

- 𝑐𝑜𝑟𝑟(𝑈2 , 𝑉2 ) = 0.0539

(c) Calcule as variáveis canônicas amostrais e procure interpretá-las.


(1) (1) (2) (2)
- 𝑈1 = 0.5522𝑍1 + 0.5215𝑍2 e 𝑉1 = −0.5044𝑍1 − 0.5383𝑍2
(1) (1) (2) (2)
- 𝑈2 = −1.3664𝑍1 + 1.3784𝑍2 e 𝑉2 = −1.7686𝑍1 + 1.7586𝑍2

>> Rux1=a1’*R11
Rux1 =
0.9353 0.9272
>> Rvx2=b1’*R22
Rvx2 =
-0.9562 -0.9616
>> Rux2=a1’*R12
Rux2 =
0.7540 0.7583
>> Rvx1=b1’*R21
Rvx1 =
-0.7375 -0.7311

Correlações entre as variáveis canônicas e as variáveis originais


(1)
𝑋1 0.9353
- 𝑈1 com 𝑋 (1) =
(1)
𝑋2 0.9272

193
(2)
𝑋1 0.7540
- 𝑈1 com 𝑋 (2) =
(2)
𝑋2 0.7583
(1)
𝑋1 −0.7375
- 𝑉1 com 𝑋 (1) =
(1)
𝑋2 −0.7311
(2)
𝑋1 −0.9562
- 𝑉1 com 𝑋 (2) =
(2)
𝑋2 −0.9616
O primeiro par de variáveis canônicas tem uma alta correlação de quase 79%. As
variáveis do grupo 1 tem uma excelente correlação com 𝑈1 e o mesmo ocorre com as
variáveis do grupo 2 (correlação alta com 𝑉1 ). As cabeças dos irmãos mais velhos com
seus respectivos irmãos mais novos são bem correlacionadas, o que indica a cabeça de
irmãos serão sempre parecidas em relação ao comprimento e largura.

194

You might also like