You are on page 1of 21

Skripta za pismeni ispit is

Linearnih statisičkih modela


Teorijski deo ispita po pitanjima
RUBIN
2022.
ISPITNA PITANJA
(na testu dolaze dva pitanja od prvih 15 i jedno od poslednjih 5 )

1. Metode zavisnosti
2. Metode međusobne zavisnosti
3. Vrste podataka i merne skale
4. Kovarijaciona i korelaciona matrica slučajnog vektora X
5. Diskriminaciona analiza – osnovna ideja i ciljevi
6. Metod glavnih komponenata – osnovna ideja i ciljevi
7. Definicija i osobine glavnih komponenata
8. Izbor broja glavnih komponenata
9. Faktorska analiza – osnovna ideja i ciljevi
10. Model faktorske analize
11. Određivanje broja faktora
12. Rotacija faktora
13. Interpretacija faktora
14. Analiza grupisanja – osnovna ideja i ciljevi
15. Hijerarhijski i nehijerarhijski metodi grupisanja
16. Testiranje nezavisnosti kategorijskih obeležja
17. Testiranje nezavisnosti kvantitativnih obeležja
18. T-test nezavisnih uzoraka
19. Man-Vitnijev test
20. Analiza varijanse

2
1. Metode zavisnosti
Metode zavisnosti koristimo kada ispitujemo zavisnost između dva
skupa promenljivih, gde je jedan skup zavisnih, a drugi skup
nezavisnih promenljivih. Postoje pet osnovnih metoda zavisnosti:
1. Multivarijaciona analiza – Najpoznatija. Imamo dva slučaja. Prvi,
kada analiziramo zavisnost jedne promenljive (zavisne) od skupa
drugih promenljivih (nezavisne). Ovaj metod se naziva metod
višestruke regresije. Drugi, kada skup zavisnih promenljivih sadrži
više od jednog člana, što predstavlja opštiji oblik multivarijacione
regresije. Kod oba slučaja nam je zadatak predviđanje srednje
vrednosti zavisne u odnosu na poznate vrednosti nezavisne
promenljive.
2. Kanonična korelaciona analiza – Pokušava da uspostavi linearnu
zavisnost između dva skupa. Formiraju se dve linearne kombinacije,
jednu za skup zavisnih, a drugu za skup nezavisnih promenljivih.
Koeficijente ovih linearnih kombinacija određujemo tako da
koeficijent korelacije bude maksimalan.
3. Deskriminaciona analiza – Bavi se problemom razdvajanja grupa i
alokacijom opservacija u ranije definisane grupe.
4. MANOVA – Koristi se kada je cilj ispitivanje uticaja različitih nivoa
jedne ili više “eksperimentalnih” promenljivih na dve ili više zavisnih
promenljivih tj. predstavlja uopštenje ANOVA-e. Osnovni cilj je
testiranje hipoteze koja se tiče varijanse efekata grupe dve ili više
zavisnih promenljivih.
5. Logit analiza – Koristi se kada imamo promenljivu koja je podeljena
na dve vrednosti (pol: muško-žensko) u regresionom modelu. Ona
predstavlja zavisnu promenljivu tzv. logit funckiju koja predstavlja

3
logaritam količnika verovatnoća da će ta zavisna promenljiva uzeti
jednu ili drugu vrednost.

2. Metode međuzavisnosti
Koriste se kada nema teorijskog osnova zapodelu promenljivih u dva
skupa (zavisne i nezavisne). Postoji pet osnovnih metoda
međuzavisnosti:
1. Analiza glavnih komponenti – Ova metoda redukuje broj
promenljivih koje razmatramo na manji broj koje nazivamo glavne
komponente. Njima se objašnjava pretežan deo varijacije originalnih
promenljivih. Osnovni zadatak je formiranje linearne kombinacije
glavnih komponenti uz uslov da obuhvate što veći iznos varijanse
originalnog skupa.
2. Faktorska analiza – Metoda je jako slična analizi glavnih
komponenti. Koristi se za opis varijacija između promenljivih na
osnovu manjeg broja promenljivih koji se nazivaju faktori. Ova
metoda se koristi za objašnjenje kovarijanse tj. onog dela ukupne
varijanse koji promenljiva deli sa ostatkom skupa.
3. Analiza grupisanja – Takođe predstavlja metodu redukcije, ali je
orijentisana ka redovima matrica podataka (objektima). Zadatak je
identifikovanje manjeg broja grupa, gde u jednu grupu spadaju
elementi koji su sličniji jedni drugim, nego što su to elementi iz drugih
grupa.
4. Višedimenzionalno proporcijalno prikazivanje – Metoda orijentisana
ka objektima i koristi meru slučnosti, odnosno razlike između njih u
cilju njihovog prostornog prikazivanja. Prikaz je preko geometrijski
raspoređenih tačaka po mapi, gde svaka tačka predstavlja jedan
objekat. U slučaju da su se za računanje mera sličnosti koristile

4
kvantitativne promenljive, metoda dobija prefiks kvatitativina, a ako
su u pitanju kvalitativne promenljive metoda dobija prefiks
kvalitativna.
5. Loglinearni model – Metoda kojom se ispituju međusobne
zavisnosti kvalitativnih promenljivih koje fromiraju višedimenzionalne
tabele kontigencije. Ukoliko se jedna promenljiva u tabeli može
smatrati zavisnom, možemo izvesti logit funkciju, koja se izražava
preko ćelijskih frekvencija.

3. Vrste podatak i merne skale


Statistička obeležja mogu biti kvantitativna (merljiva) i kvalitativna
(nemerljiva). Kvantitativne promenljive su prikazane brojem i one se
razlikuju po veličini, dok kvalitativne su prikazane rečima i one se
razlikuju u vrsti.
Kvantitativne promenljive mogu da budu prekine i neprekidne, što
zavisi od merne jedinice. Ako merna jedinica može da bude
beskonačno deljena (tona,kilogram, gram…) ona je neprekidna, a ako
je u pitanju nedeljiva jedinica (broj položenih ispita) ona je prekidna.
Postoje četiri vrste skala:
1. Skala odnosa
2. Intervalna
3. Ordinalna
4. Nominalna
Skala odnosa – Predstavlja odnos između promenljivih, koji ima
smislenu interpretaciju, rastojanje između dva objekta na bilo kom
delu skale je isto i mogu se rangirati opservacije u odnosu na poziciju.
(plata, dužina)

5
Intervalna – Nema fiksni početak. Kod nje u odnosu na skalu odnosa
ne važi da odnos ima smislenu interpretaciju za svaku skalu (Celzijus i
Farenhajt skale temperature nemaju iste odnose), dok ostale osobine
važe. (temperatura)
Ordinalna – Kod nje postoji samo osobina rangiranja, gde su rangovi
pridruženi svakom podatku. (broj godina, ocena na ispitu)
Nominalna – Koriste je kvalitativna obeležja. Kod nje ne postoji ni
osobina rangiranja, već se svakoj kvalitativnom obeležju dodeljuje
određena vrednost radi lakše interpretacije. (pol, bračni status, ime)

4. Kovarijaciona i korelaciona matrica slučajnog


vektora X
Neka je 𝑋(𝑝 × 1) slučajan vektor, čiji svaki element predstavlja
jednodimenzionu slučajnu promenljivu. Za nju definišemo (𝑝 × 𝑝)
matricu gde je j-ti dijagonalni element 𝜎𝑗𝑗 = 𝑉𝑎𝑟(𝑋𝑗 ) , a (j, k)-ti
element 𝜎𝑗𝑘 = 𝐶𝑜𝑣(𝑋𝑗 , 𝑋𝑘 ), 𝑗 ≠ 𝑘. Ovu matricu nazivamo
kovarijaciona matrica vektora X i označava se sa 𝑪𝒐𝒗(𝑿) ili 𝚺.
𝜎11 ⋯ 𝜎1𝑝 𝑉𝑎𝑟(𝑋1 ) ⋯ 𝐶𝑜𝑣(𝑋𝑝 , 𝑋1 )
𝐶𝑜𝑣 (𝑋) = Σ = [ ⋮ ⋱ ⋮ ]=[ ⋮ ⋱ ⋮ ]
𝜎𝑝1 ⋯ 𝜎𝑝𝑝 𝐶𝑜𝑣(𝑋1 , 𝑋𝑝 ) ⋯ 𝑉𝑎𝑟(𝑋𝑝 )
Koeficijent korelacije između dve promenljive 𝑋𝑗 i 𝑋𝑘 definišemo kao
𝜎𝑗𝑘
𝜌𝑗𝑘 = , što predstavlja normalizovanu kovarijansu između
√𝜎𝑗𝑗 √𝜎𝑘𝑘
ove dve promenljive. Korelacionu matricu možemo dobiti na osnovu
1 −1 1 −1
kovarijacione matrice formulom 𝜌 = (𝐷 ) 2 Σ (𝐷 ) što je
2

jednostavnije prikazano

6
1 1
⋯ 0 𝜎11 ⋯ 𝜎1𝑝 ⋯ 0
√𝜎11 √𝜎11
𝜌= ⋮ ⋱ ⋮ [ ⋮ ⋱ ⋮ ] ⋮ ⋱ ⋮ , tj.
1 𝜎𝑝1 ⋯ 𝜎𝑝𝑝 1
0 ⋯ 0 ⋯
[ √𝜎𝑝𝑝 ] [ √𝜎𝑝𝑝 ]

1 ⋯ 𝜌1𝑝
𝜌=[ ⋮ ⋱ ⋮ ].
𝜌𝑝1 ⋯ 1
Takođe, možemo da predstavimo kovarijacionu matricu preko
1 1
korelacione, koristeći formula Σ = 𝐷 𝜌 𝐷 .2 2

5. Diskriminaciona analiza – osnovna ideja i ciljevi


Diskriminaciona analiza se bavi razdvajanjem različitih grupa i
alokacijom opservacija u unapred određene grupe. Ona ima dva
osnovna cillja, prvi jeste da utvrdi da li postoji statistički značajna
razlika u sredinama više grupa, a zatim da odredi koja od promenljivih
daje najveći doprinos utvrđenoj razlici. Ovaj cilj se naziva
diskriminacija ili razdvajanje između grupa. Drugi cilj se odnosi na
utvrđivanje postupka za klasifikaciju opservacija. U konkretnom
istraživanju, ova dva cilja se često preklapaju.
Sa tehinčke strane,osnovni cilj ove analize jeste da se formiraju
linearne kombinacije nezavisnih promenljivih kojim će se
diskriminacija između unapred definisanih grupa tako izvršiti da
greška pogrešne klasifikacije opservacija bude minimizirana tj. da se
maksimizira relativan odnos varijansi između i unutar grupa.
Osnovna ideja ove analize je razdvajanje dve populacije tako da
umesto da se posmatra dvodimenizionalni raspored neke dve

7
promenljive 𝑋1 i 𝑋2 , posmatra se jednodimezioni raspored
diskriminacionih skorova 𝑌 uz maksimalno razdvajanje sredina grupa.

6. Metoda glavnih komponenti – osnovna ideja i ciljevi


Metoda glavnih komponenti je analiza kod koje se smanjuje
dimenziva skupa podataka uz zadržavanje maksimalno mogućeg
varijabiliteta u timpodacima. Njen osnovni zadatak je da odredi
linearnu kombinaciju originalnih promenljivih koji će imati maksimalnu
varijansu. Drugi, opštiji zadatak je određivanje nekoliko linearnih
kombinacija promenljvih, koji će pored maksimalne varijanse, biti
međusobno nekorelisane, i tako gubiti što je manje moguće
informacija o skupu originalnih promenljivih. U ovom postupku
originalne promenljive se transformišu u nove koje nazivamo glavne
komponente. Prva obuhvata najveći deo varijanse, a svaka sledeća
onaj deo koji nije obuhvaćen prethodnim glavnih komponentama.
Metoda glavnih kompontenti postiže dva cilja, prvi da vrši redukciju
podataka originalnog skupa, a drugi je olakšanje njegove
interpretacije. Ovim postupkom smo uspeli da npr. 20 promenljivih
svedemo na npr. 4 linearne kombinacije, a time olakšavamo
interpretaciju kovarijacione structure originalnog skupa promenljivih,
zbog manjeg broja međusobno korelisanih glavnih komponenti.

7. Definicija glavnih komponenti


Neka je X 𝑝 −dimenzionalni slučajni vector sa kovarijacionom
matricom Σ. Neka je 𝑌1 = 𝑎11 𝑋1 + ⋯ + 𝑎1𝑝 𝑋𝑝 = 𝒂𝟏 ′ 𝑿 linearna
kombinacija elemenata slučajnog vektora X, gde su 𝑎11 , … , 𝑎1𝑝
koeficijenti linearne kombinacije. Pošto je 𝑉𝑎𝑟(𝑌1 ) = 𝑉𝑎𝑟(𝒂𝟏 ′ 𝑿 ) =
𝒂𝟏 ′ 𝚺𝒂𝟏 , naš zadatakje da odredimo vector koeficijenta 𝚺𝒂𝟏 tako da se
maksimizira varijansa od 𝑌1 , uz ograničenje 𝒂𝟏 ′ 𝒂𝟏 = 1. Ovaj problem

8
se rešava korišćenjem Lagranžovih množitelja (λ), maksimiziranjem
funkcije
𝑎1 ′ Σ𝑎1 − 𝜆(𝑎1 ′ 𝑎1 − 1).
Diferenciranjem funkcije po 𝑎1 dobijamo
Σ𝑎1 − 𝜆𝑎1 = 0, tj. (Σ − 𝜆𝐼 )𝑎1 = 0, gde je 𝐼 (𝑝 × 𝑝) jedinična
matrica.
Da bi se dobilo trivijalno rešenje mora da važi |Σ − 𝜆𝐼 | = 0 tj. da 𝜆
bude jedno od karakterističnih korena kovarijacione matrice. Pošto
trežimo maksimizaciji varijanse, uzećemo najveći karakteristični koren
za vrednost 𝜆, neko 𝜆1 . Na osnovu uslova (Σ − 𝜆𝐼 )𝑎1 = 0 sledi da je
𝑎1 pridružen 𝜆1 . Normiranjem (𝑎1 ′ 𝑎1 = 1) dobićemo traženi vector
𝑎1 . Na ovaj način možemo doći do svih glavnih komponenti uz uslov
da se kovarijansa svih glavnih komponenti bude jednaka nuli. Broj
glavnih komponenti je broj različitih karakterističnih korena
kovarijacionematrice.
Iz definicije slede sledeće osobine:
- 𝐸(𝑌𝑗 ) = 0
- 𝑉𝑎𝑟(𝑌𝑗 ) = 𝜆𝑗
- 𝐶𝑜𝑣(𝑌𝑖 , 𝑌𝑗 ) = 0, 𝑖 ≠ 𝑗
- 𝑉𝑎𝑟(𝑌1 ) ≥ ⋯ 𝑉𝑎𝑟(𝑌𝑝 ) ≥ 0
Takodje tu je još jedna osobina. Neka je Y vector glavnih komponenti
takav da je 𝒀′ = [𝑌1 , … , 𝑌𝑝 ]. Transformaciju originalnog skupa
promenljivih vektora X se može napisati kao 𝒀 = 𝑨𝑿, gde je A matrica
čiji su redovi karakteristični vektori kovarijacione matrice (𝑎1 , … , 𝑎𝑝 ),
pridruženi karakterističnim korenima 𝜆1 , … 𝜆𝑝 . Matrica A ima osobinu

9
𝐴′ = 𝐴−1 , pa se 𝑌 = 𝐴𝑋 naziva ortogonalna transformacija ili
rotacija, a A je ortogonalna matrica sa osobinom |𝐴| = ±1.

8. Izbor broja glavnih komponenti


Prvi pristup izbora broja glavnih komponenti polazi od fiksiranja
kumulativne proporcije „objašnjene“ varijanse. Obično se izabere od
80% do 90% ukupne varijanse, pa se broj glavnih komponenti
povećava sve dok se ne postigne unapred zadata granična vrednost
kriterijuma. Ovaj pristup je veoma subjektivan, jer istraživač sam bira
vrednost kumulativne proporcije „objašnjene“ varijanse.
Drugi pristup sugeriše da se zadrži one glavne komponente čija je
varijansa veća od prosečnih vrednosti. Ako se koristi korelaciona
matrica onda se zadržavaju one glavne komponente čija je varijansa
veća od 1. Ovaj pristup se naziva Kaiserov kriterijum (Kriterijum
jediničnog korena).
Treći prostup se zasniva na grafičkom prikazu vrednosti
karakterističnih korena prema njihovom rednom broju. Ovaj dijagram
se naziva scree test. Tražimo prelomnu tačku na dijagramu i broj
glavnih komponenti je redni broj glavne komponente koja predstavlja
tačku preloma.

9. Faktorska analiza – osnovna ideja i ciljevi


Faktorska analiza se koristi za opis međusobne zavisnosti velikog
broja promenljivh korišćenjem manjeg broja osnovnih, ali neopažljivih
promenljivih (faktori). Ona ima dvojaku ulogu, gde je prva redukcija
originalnog skupa podataka. Faktorsku analizu u toj ulozi koristimo da
bismo identifikovali zajedničku strukturu promenljivih koja je
generisala dobijeni skup korelisanih originalnih promenljivih
1
0
(istraživčka primena faktorske analize). Druga primena je kada
raspolažemo nekom apriornom teorijskom informacijom o
zajedničkoj strukturi, a mi koristimo faktorsku analizu kako bismo
testirali hipoteze o broju zajedničkih faktora ili njihovoj prirodi.
Faktorska analiza polazi od razlaganja promenljive na dva dela,
zajednički i specifičan deo. Zajednički je onaj deo varijacije
promenljive koji se deli sa ostlim promenljivima, dok je specifičan deo
varijacije koji je poseban za tu promenljivu. Faktorska analiza izučava
deo varijacija koji je zajednički za sve promenljive, a analiza glavnih
komponenata ukupan varijabilitet. Na osnovu latentinih (neopažljivih)
promenljivih (faktora) izražavamo originalne promenljive. (Kod
analize glavnih komponenata se na osnovu linerane kombinacije
opažljivih formiraju neopažljive promenljive).

10. Model faktorske analize


Neka je X 𝑝 − dimenzioni vektor opažljivih promenljivh sa sredimo 𝝁 i
kovarijacionom matricom 𝚺. Model faktorske analize pretpostavlja da
se X može izraziti preko skupa od m neopažljivih promenljivih, koje
nazivamo zajednički faktori (𝐹1 , … , 𝐹𝑚 ) i p specifičnih, ali neopažljivih
faktora (𝜀1 , … , 𝜀𝑝 ), gde je 𝑚 ≪ 𝑝. Razvijeni oblik modela je:
(𝑋1 − 𝜇1 ) = 𝛽11 𝐹1 +, … + 𝛽1𝑚 𝐹𝑚 + 𝜀1

(𝑋𝑝 − 𝜇𝑝 ) = 𝛽𝑝1 𝐹1 +, … + 𝛽𝑝𝑚 𝐹𝑚 + 𝜀𝑝
Matrični oblik:
(𝑋 − 𝜇)(𝑝×1) = 𝐵(𝑝×𝑚) 𝐹(𝑚×1) + 𝜀𝑝×1 , gde je

1
1
𝑋1 − 𝜇1 𝐹1 𝜀1 𝛽11 ⋯ 𝛽1𝑚
𝑋−𝜇 =[ ⋮ ], 𝐹 = [ ⋮ ], 𝜀 = [ ⋮ ], 𝐵 = [ ⋮ ⋱ ⋮ ].
𝑋𝑝 − 𝜇𝑝 𝐹𝑚 𝜀𝑝 𝛽𝑝1 ⋯ 𝛽𝑝𝑚

Matrica B se naziva matrica faktorskih opterećenja, a njeni elementi


su faktorska opterećenja i-te promenljive na j-ti faktor. Kovarijaciona
ψ1 ⋯ 0
matrica specifičnih varijansi je matrica Ψ = [ ⋮ ⋱ ⋮ ].
0 ⋯ ψp
Pretpostavljene osobine ovih matrica:
- 𝐸 (𝐹 ) = 0
- 𝐶𝑜𝑣 (𝐹 ) = 𝐸 (𝐹𝐹 ′ ) = Φ
- 𝐸 (𝜀 ) = 0
- 𝐶𝑜𝑣 (𝜀) = 𝐸 (𝜀𝜀 ′ ) = Ψ
- 𝐶𝑜𝑣 (𝜀, 𝐹 ) = 0
- 𝐶𝑜𝑣 (𝑋, 𝐹 ) = 𝐵
Veza između odstupanja opažljivih promenljivih od njihove sredine i
neopažljivih faktora, zajedno sa navedenom pretpostavkom
nazivamo model faktoreske analize. Matrica faktorske strukture je
korelaciona matrica promeljivih X i faktora F.
Model faktorske analize razlaže kovarijacionu matricu na Σ = 𝐵𝐵′ +
Ψ.
2
Varijansa i-te promenljive je 𝑉𝑎𝑟(𝑋𝑖 ) = 𝜎𝑖𝑖 = ∑𝑚
𝑗=1 𝛽𝑖𝑗 + ψi , gde je
2 2
∑𝑚
𝑗=1 𝛽𝑖𝑗 zajednička varijansa tj. komunalitet (u oznaci ℎ𝑖 ), a ψi
specifična varijansa.

1
2
Korišćenjem korelacione matrice umesto kovarijacione dobijamo da je
𝑝
ℎ𝑖 2 + ψi = 1. Generalizovana varijansa od X je 𝑡𝑟Σ = ∑𝑖=1 𝜎𝑖𝑖 =
∑𝑝𝑖=1 ∑𝑚 2 𝑝
𝑗=1 𝛽𝑖𝑗 + ∑𝑖=1 ψi tj. 𝑡𝑟Σ = ℎ + 𝑡𝑟Ψ.

11. Određivanje broja faktora


Jedan od načina određivanja broja faktora je kriterijum jediničnih
korena prema kome u modelu zadržavamo onoliko zajedničkih
faktora koliko ima karakterističnih korena uzoračke korelacione
matrice koji su veći od jedinice t. zadržavaju se oni faktori koji
doprinose objašnjenjz barem koliko i jedna promenljiva. One pogodan
kada je broj promenljivih od 20 do 5o, sve preko ili ispod toga izdvaja
previše/premalo faktora.
Takođe tu je i Katelov scree test. Na osnovu njega određujemo
optimalan broj faktora koje treba izdvojiti pre nego što specifična
varijansa počne da dominira nad zajedničkom. Grafički prikaz
karakterističnih korena prema redosledu izdvajanja faktora rezultira
krivu na kojoj pronalazimo tačku preloma koja aproksimativno
postaje horizontalna prava. Redni broj faktora sugreisan tom tačkom
preloma predstavlja broj faktora koji ćemo izdvojiti.
Preporuka je korišćene više kriterijuma za određivanje broja faktora.
Takođe konačna odluka o broju izvodjenih faktora zavisi od
interpretacije rezultata faktorkse analize. Ukoliko dobijena faktorska
struktura dobro reprezentuje veze između promenljivih, broj je
optimalan.

12. Rotacija faktora


Rotacija faktora predstavlja ortogonalnu transformaciju matrice
faktorskih opterećenja i time implicira ortogonalnu transformaciju
1
3
faktora. Ona može biti ortogonalna i neortogonalna. Cilj ovog
postupka je dobijanje takve matrice opterećenja koja će olakšati
interpretaciju faktora. Izbor ugla rotacije zavisi od određenih
kriterijuma, gde je najčešće korišćeni jednostavna struktura.
Primenom ortogonalne rotacije, rotiramo faktorske ose tako da one u
svom novom položaju prolaze što bliže tačkama koje predstavljaju
faktorska opterećenja promenljivih.

13. Interpretacija faktora


Kako bismo pristupili interpretaciji faktora moramo da odredimo koji
se od ocenjenih elemenata matrice faktorskih opterećenja mogu
smatrati statistički značajnim, i to uz pomoć nekoliko kriterijuma. Prvi
kriterijum je nastao iz iskustva velikog broj istraživača u primeni
modela faktorske analize, koji sugerišu da se svi koeficijenti faktorskih
opterećenja čija je apsolutna vrednost veća od 0.3, smatraju statistički
značajno različitim od nule. Drugi kriterijum je zasnovan na činjenici
da je zbog ortogonalnosti modela faktorske analize matrica
faktorskih opterećenja identična matrici faktorske strukture. Ona
nam sugerše da odnosna promenljiva opredeljuje faktor sa kojim je
korelisana.
U svakom redu matrice opterećenja zaokružujemo koeficijente sa
najvećom apsolutnom vrednošću, i proveravamo njihove značajnosti
na osnovu gore navedenih kriterijuma i podvlačimo statistički
značajna faktorska opterećenja. Zatim svakom faktoru dajemo naziv.
Ukoliko je broj zaokruženih koeficijenata veći od broja podučenih,
znači da se neka od promenljivih nije pridružila jednom od izdvojenih
faktora, tj. nije ni sa jednim od njih statistički značajno korelisana.
Interpretacija rešenja se vrši ili zanemarivanjem promenljive ili
1
4
preispitait njen značaj.
Ukoliko je broj podvučenih veči od broja zaokruženih faktora, znači da
je promenljiva korelisana sa više faktora, što otežava interpretaciju
rešenja.
Idealna situacija je kada je taj broj jednak, jer se tada svakom faktoru
dodeljuje tačno jedna promenljiva.

14. Analiza grupisanja – osnovna ideja i ciljevi


Analiza grupisanja se koristi za grupisanje objekata u grupe, tako da
su objekti unutar grupe sličniji međusobom, a između grupa znatno
različiti tj. da su varijacije između grupa znatno veće od onih unutar
grupa. Kako bi odgovorila na ovaj zahtev ona mora da definiše mere
bliskosti dva objekta na osnovu njihovih karakteristika. Na bazi mera
bliskosti razvijeni su brojni postupci grupisanja objekata, koje
možemo svrstati u dve grupe, hijerarhijski i nehijerarhijski metodi.
Osnovni zadatak analize grupisanja jeste nalaženje “prirodnog”
grupisanja skupa objekata ili osoba. Grupisanje u grupe je zasnovano
na različitim karakteristikama koje merimo kod svakog objekta. Grupe
nemaju opšte prihvaćenu definiciju, pa se prema dijagramu rasturanja
može opisati grupa kao oblasti tačaka sa velikom gustinom, koje su
razdvojene od drugih oblasti, sa malom gustimo tačaka.
Postoje dva načina formiranja hijerarhijske strukture, udruživanjem
(od grana drveta ka njegovom korenu) i deobom (od korena drveta
ka njegovim granama). Formiranje strukture je kod nekih osnovni cilj
analize grupisanja, dok je kod drugih dobijanje samo jednog
grupisanja. U opštem slučaju kažemo das u ciljevi sledeći:
1) Istraživanje podataka
2) Redukcija podataka
1
5
3) Generisanje hipoteza
4) Predviđanje

15. Hijerarhijski i nehijerarhijski metodi grupisanja


Hijerarhijski metodi grupisanja se dele u dve grupe. Prva polazi od
individualnih objekata, koje, prema određenom kriterijumu, udružuje
u grupe. U narednim koracima nastaju nove grupe udruživanjem
objekata ili ranije formiranih grupa, gde nema mogućnosti prelaza
objekata iz jedne u drugu grupu. Ovaj postupak leži u osnovi
hijerarhijskih metodi udruživanja. Svakom iteracijom veličina grupa
se povećava, a njihov broj se smanjuje. Počenjemo sa n grupa sa po
jednim objektom. Na osnovu matrice odstojanja biramo dve najbliže
grupe i udružujemo ih u novu grupu. Ponovo se izračuna matrica
odstojanja novoformirane i ostalih grupa (isključili smo red /kolonu
matrice grupisanih objekata, a ubacili novi red i kolonu koji sadrži
odstojanja novoformirane i ostalih grupa). Ova dva koraka se
ponavljaju sve dok se ne formira jedna grupa. Metodi koji spadaju u
ovu grupu metoda su:
- Metod jednostrukog povezivanja
- Metod potpunog povezivanja
- Metod prosečnog povezivanja
Druga grupa metoda su hijerarhijski metodi deobe. Ovi metodi su
suprotni od prethodnih jer polaze od jedne grupe sa svim objektima,
pa se prema određenom kriterijumu, iz iste izdvaja po jedan objekat ili
grupa objekata sve dok se ne formira onoliko grupa koliko ima
individualnih objekata.
Nehijerarhijski metodi grupisanja dozvoljavaju premeštanje objekata
iz ranije formiranih grupa, ukoliko to izabrani kriterijum optimalnosti
1
6
predlaže. Postupak kreće podelom skupa objekata u izabrani broj
grupa. Potom se odredi odstojanje između svakog objekta i svake
grupe (centroid). Objekti se lociraju u grupe kojima su najbliže. Nakon
što se objekat pridruži nekoj grupi, određuje se centroid grupe iz koje
je objekat otišao i grupe kojoj se objekat pridružio, a zatim se ponovo
računa odstojanje od njegovog centroida grupa i vršimo preraspodelu
objekata između grupa sve dok to izabrana funkcija kriterijuma
sugreše.

16. Testiranje nezavisnosti kategorijskih obeležja


Za testiranje nazavisnosti kategorijskih obeležja koristi se Hi-kvadrat
test nezavisnosti tj. tabele kontigencije. Svaki Hi-kvadrat test poredi
vrednosti između izmerenih i očekivanih frekvencija, pa tako i ovaj.
Obeležavamo kategorijska obeležja čiju nezavisnost poredimo sa X i
Y. Njihova nezavisnost se provera pomoću dvodimenzionalne
raspodele populacija. Kada su zajedničke raspodele jednake
proizvodu marginalnih tj. 𝑝𝑖𝑗 = 𝑝𝑖∎ 𝑝∎𝑗 obeležja X i Y su nezavisna.
Pošto nam je u praksi dvodimenzionalna raspodela nepoznata,
korsitimo tabele kontigencije i Hi-kvadrat test nezavisnosti.
Hipoteze: H0 : Obeležja X i Y su nezavisna
H1 : Obeležja X i Y nisu nezavisna
𝑚𝑖∎ 𝑚∎𝑗
(𝑚𝑖𝑗 − )2
Statistika: 𝜏 = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛
𝑚𝑖∎ 𝑚∎𝑗 ∶ 𝜒 2 (𝑟−1)(𝑠−1)
𝑛

Ukoliko je signifikantnost 𝑝 ≥ 0.05, prihvatamo H0 , ako je 𝑝 < 0.05,


odbacujemo H0.

17. Testiranje nezavisnosti kvantitativnih obeležja


1
7
Za testiranje nezavisnosti kvantitativnih obeležja koristi se test
korelacije. Broj korelacija je jednak (𝑛2), jer je 𝜌𝑖𝑗 = 𝜌𝑗𝑖 . Za ovaj test je
neophodan podatak o koeficijentu korelacije 𝜌.

Ako testiramo nezavisnost obeležja X i Y, koeficijent korelacije će biti


odnos kovarijanse uzorka i porizvoda korena varijansi uzorka X i Y.
𝜎𝑥𝑦 𝐸 (𝑥𝑦 ) − 𝐸 (𝑥 )𝐸(𝑦)
𝜌= =
𝜎𝑥 𝜎𝑦 √𝑉𝑎𝑟(𝑥)√𝑉𝑎𝑟(𝑦)

Vrednosti koeficijenta korelacije mogu da budu od -1 do 1.


(−1 ≤ 𝜌 ≤ 1)
Imamo tri slučaja zavisnosti:
- 𝜌 = 0 , obeležja su nezavisna
- 𝜌 > 0 , obeležja su pozitivno zavisna (𝑥 ↑ 𝑦 ↑, 𝑥 ↓ 𝑦 ↓)
- 𝜌 < 0 , obeležja su pozitivno zavisna (𝑥 ↑ 𝑦 ↓, 𝑥 ↓ 𝑦 ↑)
Takodje imamo tri stepena korelacija:
- 𝜌 < 0.2 , slaba korelacija (negde je i 0.3)
- 0.2 > 𝜌 > 0.5 , srednja korelacija
- 𝜌 > 0.5 , jaka(visoka) korelacija
Hipoteze: H0 : 𝜌 = 0

H1 : 𝜌 ≠ 0

Ukoliko je signifikantnost 𝑝 ≥ 0.05, prihvatamo H0 , ako je 𝑝 < 0.05,


odbacujemo H0.

1
8
18. T-test nezavisnih uzoraka
Kod t-testa nezavisnih uzoraka poredimo sredine promenljivih u
odnosu na dve grupe subjekata.

𝑥̅ 1 −𝑥̅ 2 𝑛1 𝑛2
Statistika: 𝜏 = √𝑛 (𝑛1 + 𝑛2 − 2) ∶ 𝑡𝑛1+𝑛2−2
√𝑛1 𝑆12+𝑛2 𝑆22 1 +𝑛2

Hipoteze: H0 : 𝑚1 = 𝑚2

H1 : 𝑚1 ≠ 𝑚2

Ukoliko je signifikantnost 𝑝 ≥ 0.05, prihvatamo H0 , ako je 𝑝 < 0.05,


odbacujemo H0.

19. Man-Vitnijev test


Man-Vitnijev test je najbolja alternative t-testu nezavisnih uzoraka i
predstavlja najmoćniji neparametarski test. Ovaj test služi za proveru
da li su dva nezavisna uzorka izvučena iz iste populacije. Pošto
aritmetička sredina nije dobar pokazatelj ovog testa, on poredi
sredine rangova promenljivih. Rangovi se formiraju za svaku vrednost
promenljive i to tako da svaka vrednost ima istu vrednost ranga.
Vrednosti promenljive se rangiraju od najmanje do najveće, gde
najmanja ima pomoćni rang 1, a najveća pomoćni rang n. Sabiraju se
pomoćni ranogovi za svaku promenljivu i dele se sa brojem
promenljivih koje imaju istu vrednost. Tako se dobijaju rangovi, čija se
sredina traži za obe grupe. Na kraju se porede te vrednosti Z testom i
dobija se zaključak na osnovu signifikantnosti.

1
9
𝑚𝑛
𝑈− 2
Statistika: 𝑍 = ∶ 𝑁(0,1)
𝑚𝑛(𝑚+𝑛+1)

12

Hipoteze: H0 : Dva uzorka su izvučena iz iste populacije

H1 : Dva uzorka nisu izvučena iz iste populacije

Ukoliko je signifikantnost 𝑝 ≥ 0.05, prihvatamo H0 , ako je 𝑝 < 0.05,


odbacujemo H0.

20. Analiza varijanse


Analiza varijanse tj. ANOVA (Analysis of variance) predstavlja
proširenje t-testa nezavisnih uzoraka i on služa služi za poređenje
sredine varijabli u odnosu na više grupa subjekata. Kako bi se dobio
ukupan varijabilitet (𝑇 2 ), mora se prvo izmeriti varijabilitet između
(𝑇𝑖 2 ) i unutar grupa (𝑇𝑢 2 ).

𝑇 2 = 𝑇𝑖2 + 𝑇𝑢2

𝑇𝑖2 = ∑𝑘𝑖=1 𝑛𝑖 (𝑦̅𝑖 − 𝑦̅)2 , stepeni slobode su (k-1)


𝑛
𝑇𝑢2 = ∑𝑘𝑖=1( ∑𝑗=1
𝑖
(𝑌𝑖𝑗 − 𝑦̅)2
𝑖 ), stepeni slobode su (n-k)

𝑛
𝑇 2 = ∑𝑘𝑖=1( ∑𝑗=1
𝑖
(𝑌𝑖𝑗 − 𝑦̅)2 ), stepeni slobode su (n-1)

Hipoteze: H0 : 𝑚1 = 𝑚2 = ⋯ = 𝑚𝑘

H1 : Bar dve sredine se razlikuju

2
0
𝑛−𝑘 𝑇𝑖2
Statistika: 𝐹 = ∶ 𝐹(𝑘−1) (𝑛−𝑘)
𝑘−1 𝑇𝑢2

Ukoliko je signifikantnost 𝑝 ≥ 0.05, prihvatamo H0 , ako je 𝑝 < 0.05,


odbacujemo H0.

U slučaju da postoji statistički značajna razlika izmedju neke dve


srednje vrednosti tj. da odbacujemo H 0 , kako bismo otkrili koje se to
grupe razlikuju sprovodimo Post hoc analizu. Koja od Post hoc analiza
se izvršava zavisi od toga da li se varijanse razlikuju. To se proverava
Levinovim testom jednakosti varijansi.

2
1

You might also like