You are on page 1of 4

Multivarijatna analiza podataka — ljetni ispitni rok

UNIZG FER, ak. god. 2021./2022.

04.07.2022.

Ispit traje 150 minuta i nosi 70 bodova. Svaki zadatak rješavajte na zasebnoj stranici. Pišite uredno i čitko —
rješenja koja ispravljači ne mogu pročitati neće se bodovati.

1. (10 bodova) Podatkovni skup sadrži 200 opservacija vezanih uz mjerenja atributa A, B i C. Atributi
se ravnaju po multivarijatnoj normalnoj razdiobi, srednja vrijednost mjerenja svakog
 atributa je 0, dok
1 −1 0
kovarijacijska matrica atributa poredanih gornjim rasporedom izgleda ovako: Σ = −1 4 6 .
0 6 16
Tri od donjih pet grafova raspršenja pripadaju navedenom podatkovnom skupu. Na koordinatne osi
grafova koji pripadaju podatkovnom skupu upišite nazive pripadnih atributa (A, B ili C), dok grafove
koji ne pripadaju podatkovnom skupu prekrižite.
10 3 10
2
2 5 5 2
1
0 0 0 0 0
−1
−2 −5 −2 −5 −2
−3
−6 −3 0 3 6 −6 −3 0 3 6 −2 0 2 −2 0 2 −10 −5 0 5 10

2. (12 bodova) Dan je uzorak s tri realizacije slučajnog vektora X′ = [X1 , X2 ]: [1, 1], [−3, −3] , [2, 2].

a) (5 bodova) Odredite uzoračku kovarijancu S te njene svojstvene vrijednosti i svojstvene vektore.


Koliki je njen rang?
b) (3 boda) Izračunajte prvu glavnu komponentu uzorka (projekcije yi svih realizacija). Koliko iznosi
njena varijanca?
c) (2 boda) Ukoliko bi rekonstruirali originalne 2d podatke koristeći samo prvu
P glavnu komponentu iz
bij )2 ? Obrazložite.
b) dijela zadatka, koliko bi iznosila suma kvadrata rekonstrukcijske greške (xij − x
d) (2 boda) Ukoliko u uzorak dodamo točku [4, 4], i na novom proširenom uzorku opet izračunamo
kovarijancu i provedemo analizu glavnih komponenti, kako se mijenja suma kvadrata rekonstrukcijske
greške u odnosu na podzadatak c)? Obrazložite.

3. (12 bodova) Razmatramo ortogonalni faktorski model X = µ+LF+ε, čije koeficijente želimo procijeniti
metodom glavnih komponenti. Dan je sljedeći ispis svojstvene dekompozicije uzoračke kovarijance:

e1 e2 e3 e4
√ √
X1 1/√2 0 −1/√2 0
X2 1/ 2 √0 1/ 2 √0
X3 0 1/√2 0 −1/√2
X4 0 1/ 2 0 1/ 2
λi 9 9 1 1

1
(a) (3 boda) Skicirajte scree plot (pritom jasno označite osi i točke na grafu). Koliko faktora biste
zadržali u modelu? Obrazložite.
(b) (3 boda) Odredite procjenu matrice koeficijenata faktorskog modela L b za odabrani broj faktora
koristeći metodu glavnih komponenti.
(c) (3 boda) Odredite procjenu matrice kovarijance specifičnih faktora Cov(ε) ukoliko su varijance svih
varijabli Xi jednake (σ12 = σ22 = σ32 = σ42 ).
(d) (3 boda) Objasnite što su to ortogonalne rotacije faktora i zašto ih koristimo? Kako ortogonalne
rotacije utječu na zajednički dio ukupne varijance (communality)?
   
2 4 4 8
4. (12 bodova) Zadani su podatkovni skupovi X1 = 4 7 i X2 = 5 7 koji predstavljaju uzorke iz
3 7 6 9
 
1 1
populacija π1 i π2 te nepristrana procjena zajedničke kovarijacijske matrice Spooled = .
1 2

a) (4 boda) Ispišite vrijednosti vektora srednjih vrijednosti x̄1 i x̄2 te inverza procjene zajedničke
kovarijacijske matrice S−1pooled .
b) (4 boda) Uz pretpostavku jednakih troškova pogrešne klasifikacije i jednakih apriornih vjerojat-
nosti izračunajte vrijednost vektora â linearne diskriminacijske funkcije ŷ = â′ x i pripadnu graničnu
vrijednost m̂. Napišite klasifikacijsko pravilo minimizacije mjere očekivanog troška pogrešne klasifi-
kacije korištenjem dobivenih vrijednosti.
c) (4 boda) Uz pretpostavku iz b), kojoj populaciji bi pripala opservacija x′0 = [5 3]? Objasnite.

5. (12 bodova)
a) (7 bodova) Deset ispitanika započelo je novu dijetu, pri čemu je polovica njih (grupa A) uz dijetu
uzimalo i suplement P AM , a druga polovica (grupa B) nije. Ispitanici su praćeni maksimalno 6
tjedana, i dana su vremena doživljenja tj. vremena (u tjednima) koliko su pripadnici obje skupine
bili na dijeti:
Grupa A: 2, 4, 4+, 6, 6+
Grupa B: 1, 3, 4, 5, 6
Oznaka t+ označava sudionika koji je cenzuriran u trenutku t, odnosno nije poznato je li nakon t
nastavio s dijetom. Izračunajte i skicirajte Kaplan - Meier procjene funkcija doživljenja za svaku
skupinu zasebno (možete na istom grafu ili odvojeno).
b) (2 boda) Pretpostavite da je za podatke iz a) dijela proveden log-rank test i dobivena je p-vrijednost
0.2. Koje su hipoteze tog testa i što možete zaključiti?
c) (3 boda) U državi A vjerojatnost da će slučajno odabrana osoba doživiti dob od 70 godina je 0.8.
U državi B, hazard (intenzitet hazarda) je dvostruko veći nego u državi A. Koristeći funkcijsku vezu
doživljenja i hazarda, odredite vjerojatnost da slučajno odabrana osoba u državi B doživi dob od
70 godina.

6. (12 bodova) Neka je {Xt } vremenski niz MA(3) zadan s


Xt = Zt + αZt−3 ,
gdje je {Zt } ∼ WN (0, 1).

a) (5 boda) Ako je α = 0.5, odredite autokovarijacijsku i autokorelacijsku funkciju zadanog vremen-


skog niza {Xt }.
b) (4 boda) Ako je α = 0.5, izračunajte varijancu uzoračke sredine X1 +X2 +X
4
3 +X4
.
X1 +X2 +X3 +X4
c) (3 boda) Ako je α = −0.5, izračunajte varijancu uzoračke sredine 4 , te usporedite
rezultat s rezultatom iz podzadatka b).

2
Rješenja zadataka
1. B − A / B − C / X / A − C / X
√ √
 
7 7
2. a) S = , prvi svojstveni vektor e′1 = [1/ 2 1/ 2] uz svojstvenu vrijednost λ1 = 14, drugi
7 7
√ √
svojstveni vektor e′2 = [−1/ 2 1/ 2] uz svojstvenu vrijednost λ2 = 0. Matrica je ranga 1.
√ √ √
b) y1 = e′1 x = [2/ 2 − 6/ 2 4/ 2] = [1.41 − 4.24 2.83]. Njena varijanca je 14.
c) Suma kvadrata rekonstrukcijske greške bila bi 0, zato što prva glavna komponenta u potpunosti
objašnjava svu varijancu u podatcima.
d) U proširenom uzorku suma kvadrata rekonstrukcijske greške je takoder 0. Nova točka [4, 4] je i dalje
na pravcu - iako se mijenja uzoračka kovarijanca, ne mijenja se postotak varijance koju opisuje prva
glavna komponenta (100%).

3. a) Scree plot:

9
i

1 2 3 4
i

Budući da dvije svojstvene vrijednosti objašnjavaju većinu varijance, a ostale su osjetno niže,
zadržavamo dva faktora.
 √   
3/√2 0 2.12 0
b = 3/ 2 0√  = 2.12 0 
 
b) L  (vrijedi i obrnut poredak faktora)
 0 3/√2   0 2.12
0 3/ 2 0 2.12
 
0.5 0 0 0
 0 0.5 0 0
c) Ψ̂ = 0

0 0.5 0 
0 0 0 0.5
d) Ortogonalna rotacije faktora su bilo koje rotacije koeficijenata L∗ = LT matricom T za koju vrijedi
T′ T = TT′ = I, čime je zajednički dio ukupne varijance nepromijenjen. Rotiranje faktora možemo
koristiti kako bi pronašli koeficijente koji daju lakšu interpretaciju.

     
3 5 2 −1
4. a) x̄1 = x̄2 = S−1
pooled =
6 8 −1 1
′ ′ −1
 
b) â = (x̄1 − x̄2 ) Spooled = −2 0
m̂ = 21 (ŷ1 + ŷ2 ) = 21 (â′ x̄1 + â′ x̄2 ) = −8
Nova opservacija x0 pridružuje se π1 ako je â′ x0 ≥ −8, inače π2 .
 
  5
c) −2 0 = −10 < −8 ⇒ opservacija se pridružuje u π2 .
3

3
5. a) 1 2 3 4 5 6
SA (t) 1 0.8 0.8 0.6 0.6 0.3
SB (t) 0.8 0.8 0.6 0.4 0.2 0

b) H0 : nema statistički značajne razlike u doživljenju medu grupama, H1 : ima razlike


Za p-vrijednost od 0.2 ne možemo odbaciti H0 na svim razinama značajnosti manjim od 0.2.
 R 
t
c) S(t) = exp − 0 h(u) du
 R   R 
70 70
Ako je S1 (70) = exp − 0 h(u) du = 0.8, onda je S2 (70) = exp − 0 2h(u) du = 0.64.

6. a) (
1.25, h = 0
Cov(Xt+h , Xt ) = Cov(Zt+h + αZt+h−3 , Zt + αZt−3 ) =
0.5, |h| = 3
(
1, h = 0
Cor(Xt+h , Xt ) =
0.4, |h| = 3
b)
 
1
Var (X1 + X2 + X3 + X4 ) =
4
1
= (Var(X1 ) + Var(X2 ) + Var(X3 ) + Var(X4 ) + 2Cov(X1 , X4 )) =
16
1
= (4Cov(Xt , Xt ) + 2Cov(Xt , Xt+3 )) =
16
1
= (4 · 1.25 + 2 · 0.5) = 0.375
16
c)
 
1
Var (X1 + X2 + X3 + X4 ) =
16
1
= (Cov(Xt , Xt ) − Cov(Xt , Xt+3 )) =
16
1
= (4 · 1.25 − 2 · 0.5) = 0.25
16
Zbog negativne kovarijance kod Zt−3 , varijanca u c) podzadatku je manja.

You might also like