Professional Documents
Culture Documents
Skripta Za Pismeni Ispit Is Linearnih Statisičkih Modela
Skripta Za Pismeni Ispit Is Linearnih Statisičkih Modela
1. Metode zavisnosti
2. Metode međusobne zavisnosti
3. Vrste podataka i merne skale
4. Kovarijaciona i korelaciona matrica slučajnog vektora X
5. Diskriminaciona analiza – osnovna ideja i ciljevi
6. Metod glavnih komponenata – osnovna ideja i ciljevi
7. Definicija i osobine glavnih komponenata
8. Izbor broja glavnih komponenata
9. Faktorska analiza – osnovna ideja i ciljevi
10. Model faktorske analize
11. Određivanje broja faktora
12. Rotacija faktora
13. Interpretacija faktora
14. Analiza grupisanja – osnovna ideja i ciljevi
15. Hijerarhijski i nehijerarhijski metodi grupisanja
16. Testiranje nezavisnosti kategorijskih obeležja
17. Testiranje nezavisnosti kvantitativnih obeležja
18. T-test nezavisnih uzoraka
19. Man-Vitnijev test
20. Analiza varijanse
2
1. Metode zavisnosti
Metode zavisnosti koristimo kada ispitujemo zavisnost između dva
skupa promenljivih, gde je jedan skup zavisnih, a drugi skup
nezavisnih promenljivih. Postoje pet osnovnih metoda zavisnosti:
1. Multivarijaciona analiza – Najpoznatija. Imamo dva slučaja. Prvi,
kada analiziramo zavisnost jedne promenljive (zavisne) od skupa
drugih promenljivih (nezavisne). Ovaj metod se naziva metod
višestruke regresije. Drugi, kada skup zavisnih promenljivih sadrži
više od jednog člana, što predstavlja opštiji oblik multivarijacione
regresije. Kod oba slučaja nam je zadatak predviđanje srednje
vrednosti zavisne u odnosu na poznate vrednosti nezavisne
promenljive.
2. Kanonična korelaciona analiza – Pokušava da uspostavi linearnu
zavisnost između dva skupa. Formiraju se dve linearne kombinacije,
jednu za skup zavisnih, a drugu za skup nezavisnih promenljivih.
Koeficijente ovih linearnih kombinacija određujemo tako da
koeficijent korelacije bude maksimalan.
3. Deskriminaciona analiza – Bavi se problemom razdvajanja grupa i
alokacijom opservacija u ranije definisane grupe.
4. MANOVA – Koristi se kada je cilj ispitivanje uticaja različitih nivoa
jedne ili više “eksperimentalnih” promenljivih na dve ili više zavisnih
promenljivih tj. predstavlja uopštenje ANOVA-e. Osnovni cilj je
testiranje hipoteze koja se tiče varijanse efekata grupe dve ili više
zavisnih promenljivih.
5. Logit analiza – Koristi se kada imamo promenljivu koja je podeljena
na dve vrednosti (pol: muško-žensko) u regresionom modelu. Ona
predstavlja zavisnu promenljivu tzv. logit funckiju koja predstavlja
3
logaritam količnika verovatnoća da će ta zavisna promenljiva uzeti
jednu ili drugu vrednost.
2. Metode međuzavisnosti
Koriste se kada nema teorijskog osnova zapodelu promenljivih u dva
skupa (zavisne i nezavisne). Postoji pet osnovnih metoda
međuzavisnosti:
1. Analiza glavnih komponenti – Ova metoda redukuje broj
promenljivih koje razmatramo na manji broj koje nazivamo glavne
komponente. Njima se objašnjava pretežan deo varijacije originalnih
promenljivih. Osnovni zadatak je formiranje linearne kombinacije
glavnih komponenti uz uslov da obuhvate što veći iznos varijanse
originalnog skupa.
2. Faktorska analiza – Metoda je jako slična analizi glavnih
komponenti. Koristi se za opis varijacija između promenljivih na
osnovu manjeg broja promenljivih koji se nazivaju faktori. Ova
metoda se koristi za objašnjenje kovarijanse tj. onog dela ukupne
varijanse koji promenljiva deli sa ostatkom skupa.
3. Analiza grupisanja – Takođe predstavlja metodu redukcije, ali je
orijentisana ka redovima matrica podataka (objektima). Zadatak je
identifikovanje manjeg broja grupa, gde u jednu grupu spadaju
elementi koji su sličniji jedni drugim, nego što su to elementi iz drugih
grupa.
4. Višedimenzionalno proporcijalno prikazivanje – Metoda orijentisana
ka objektima i koristi meru slučnosti, odnosno razlike između njih u
cilju njihovog prostornog prikazivanja. Prikaz je preko geometrijski
raspoređenih tačaka po mapi, gde svaka tačka predstavlja jedan
objekat. U slučaju da su se za računanje mera sličnosti koristile
4
kvantitativne promenljive, metoda dobija prefiks kvatitativina, a ako
su u pitanju kvalitativne promenljive metoda dobija prefiks
kvalitativna.
5. Loglinearni model – Metoda kojom se ispituju međusobne
zavisnosti kvalitativnih promenljivih koje fromiraju višedimenzionalne
tabele kontigencije. Ukoliko se jedna promenljiva u tabeli može
smatrati zavisnom, možemo izvesti logit funkciju, koja se izražava
preko ćelijskih frekvencija.
5
Intervalna – Nema fiksni početak. Kod nje u odnosu na skalu odnosa
ne važi da odnos ima smislenu interpretaciju za svaku skalu (Celzijus i
Farenhajt skale temperature nemaju iste odnose), dok ostale osobine
važe. (temperatura)
Ordinalna – Kod nje postoji samo osobina rangiranja, gde su rangovi
pridruženi svakom podatku. (broj godina, ocena na ispitu)
Nominalna – Koriste je kvalitativna obeležja. Kod nje ne postoji ni
osobina rangiranja, već se svakoj kvalitativnom obeležju dodeljuje
određena vrednost radi lakše interpretacije. (pol, bračni status, ime)
jednostavnije prikazano
6
1 1
⋯ 0 𝜎11 ⋯ 𝜎1𝑝 ⋯ 0
√𝜎11 √𝜎11
𝜌= ⋮ ⋱ ⋮ [ ⋮ ⋱ ⋮ ] ⋮ ⋱ ⋮ , tj.
1 𝜎𝑝1 ⋯ 𝜎𝑝𝑝 1
0 ⋯ 0 ⋯
[ √𝜎𝑝𝑝 ] [ √𝜎𝑝𝑝 ]
1 ⋯ 𝜌1𝑝
𝜌=[ ⋮ ⋱ ⋮ ].
𝜌𝑝1 ⋯ 1
Takođe, možemo da predstavimo kovarijacionu matricu preko
1 1
korelacione, koristeći formula Σ = 𝐷 𝜌 𝐷 .2 2
7
promenljive 𝑋1 i 𝑋2 , posmatra se jednodimezioni raspored
diskriminacionih skorova 𝑌 uz maksimalno razdvajanje sredina grupa.
8
se rešava korišćenjem Lagranžovih množitelja (λ), maksimiziranjem
funkcije
𝑎1 ′ Σ𝑎1 − 𝜆(𝑎1 ′ 𝑎1 − 1).
Diferenciranjem funkcije po 𝑎1 dobijamo
Σ𝑎1 − 𝜆𝑎1 = 0, tj. (Σ − 𝜆𝐼 )𝑎1 = 0, gde je 𝐼 (𝑝 × 𝑝) jedinična
matrica.
Da bi se dobilo trivijalno rešenje mora da važi |Σ − 𝜆𝐼 | = 0 tj. da 𝜆
bude jedno od karakterističnih korena kovarijacione matrice. Pošto
trežimo maksimizaciji varijanse, uzećemo najveći karakteristični koren
za vrednost 𝜆, neko 𝜆1 . Na osnovu uslova (Σ − 𝜆𝐼 )𝑎1 = 0 sledi da je
𝑎1 pridružen 𝜆1 . Normiranjem (𝑎1 ′ 𝑎1 = 1) dobićemo traženi vector
𝑎1 . Na ovaj način možemo doći do svih glavnih komponenti uz uslov
da se kovarijansa svih glavnih komponenti bude jednaka nuli. Broj
glavnih komponenti je broj različitih karakterističnih korena
kovarijacionematrice.
Iz definicije slede sledeće osobine:
- 𝐸(𝑌𝑗 ) = 0
- 𝑉𝑎𝑟(𝑌𝑗 ) = 𝜆𝑗
- 𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 ) = 0, 𝑖 ≠ 𝑗
- 𝑉𝑎𝑟(𝑌1 ) ≥ ⋯ 𝑉𝑎𝑟(𝑌𝑝 ) ≥ 0
Takodje tu je još jedna osobina. Neka je Y vector glavnih komponenti
takav da je 𝒀′ = [𝑌1 , … , 𝑌𝑝 ]. Transformaciju originalnog skupa
promenljivih vektora X se može napisati kao 𝒀 = 𝑨𝑿, gde je A matrica
čiji su redovi karakteristični vektori kovarijacione matrice (𝑎1 , … , 𝑎𝑝 ),
pridruženi karakterističnim korenima 𝜆1 , … 𝜆𝑝 . Matrica A ima osobinu
9
𝐴′ = 𝐴−1 , pa se 𝑌 = 𝐴𝑋 naziva ortogonalna transformacija ili
rotacija, a A je ortogonalna matrica sa osobinom |𝐴| = ±1.
1
1
𝑋1 − 𝜇1 𝐹1 𝜀1 𝛽11 ⋯ 𝛽1𝑚
𝑋−𝜇 =[ ⋮ ], 𝐹 = [ ⋮ ], 𝜀 = [ ⋮ ], 𝐵 = [ ⋮ ⋱ ⋮ ].
𝑋𝑝 − 𝜇𝑝 𝐹𝑚 𝜀𝑝 𝛽𝑝1 ⋯ 𝛽𝑝𝑚
1
2
Korišćenjem korelacione matrice umesto kovarijacione dobijamo da je
𝑝
ℎ𝑖 2 + ψi = 1. Generalizovana varijansa od X je 𝑡𝑟Σ = ∑𝑖=1 𝜎𝑖𝑖 =
∑𝑝𝑖=1 ∑𝑚 2 𝑝
𝑗=1 𝛽𝑖𝑗 + ∑𝑖=1 ψi tj. 𝑡𝑟Σ = ℎ + 𝑡𝑟Ψ.
H1 : 𝜌 ≠ 0
1
8
18. T-test nezavisnih uzoraka
Kod t-testa nezavisnih uzoraka poredimo sredine promenljivih u
odnosu na dve grupe subjekata.
𝑥̅ 1 −𝑥̅ 2 𝑛1 𝑛2
Statistika: 𝜏 = √𝑛 (𝑛1 + 𝑛2 − 2) ∶ 𝑡𝑛1+𝑛2−2
√𝑛1 𝑆12+𝑛2 𝑆22 1 +𝑛2
Hipoteze: H0 : 𝑚1 = 𝑚2
H1 : 𝑚1 ≠ 𝑚2
1
9
𝑚𝑛
𝑈− 2
Statistika: 𝑍 = ∶ 𝑁(0,1)
𝑚𝑛(𝑚+𝑛+1)
√
12
𝑇 2 = 𝑇𝑖2 + 𝑇𝑢2
𝑛
𝑇 2 = ∑𝑘𝑖=1( ∑𝑗=1
𝑖
(𝑌𝑖𝑗 − 𝑦̅)2 ), stepeni slobode su (n-1)
Hipoteze: H0 : 𝑚1 = 𝑚2 = ⋯ = 𝑚𝑘
2
0
𝑛−𝑘 𝑇𝑖2
Statistika: 𝐹 = ∶ 𝐹(𝑘−1) (𝑛−𝑘)
𝑘−1 𝑇𝑢2
2
1