Multivarijatna Analiza

NAPOMENE (od Tanje Jevremov): -na pitanja koja se tiu matematiko-statistikih osnova razliitih tehnika, preporuljivo je obuhvatiti sledee
stvari: od ega se polazi, ta se ekstrahuje, koji rezultati su bitni? -kod pitanja koja se odnose na namenu i cilj razliitih tehnika dobro je dati primer
1. Multivarijatna analiza: istorijski uvod Prva multivarijatna tehnika bila je faktorska analiza. Nastala je poetkom XX veka usled potrebe da se odgovori na neka pitanja vezana za jedan psiholoki konstrukt inteligenciju: 1) 2) 3) 4) Da li je inteligencija jedna generalna ili vie specifinih sposobnosti? Da li je inteligencija jednodimenzionalni ili viedimenzionalni konstrukt? Kako protumaiti strukturu inteligencije? Kako objasniti interkorelacije testova inteligencije? - se smatra za pionira istraivanja zasnovanih na korelacijama - je autor formula za rang korelaciju i korekciju za atenuaciju (kojom se koeficijent korelacije oslobaa negativnog efekta greke merenja) - je zaetnik teorije inteligencije i autor termina G-faktor (koji ine opte + specifine sposobnosti) Na njega je snano uticao rad Frensisa Goltona, a bio je u sukobu sa Karlom Pirsonom. Zajedno sa Goltonom, Ajzenkom i Darvinom, smatra se pripadnikom tzv. londonske kole. Ipak, termin faktorska analiza prvi je upotrebio Luis Terston. Uopte gledano, veliki je doprinos psihologa stvaranju i razvoju multivarijatne analize. Takvo stanje stvari nije uopte sluajno jer su psihiki fenomeni sloeni, skriveni i zahtevaju sloene postupke analize, koji ukljuuju posredno merenje i zakljuivanje. 2. Geometrija vektorskog prostora Manifestne varijable (testove) je mogue predstaviti kao vektore tj. kao orijentisane dui koje imaju usmerenje i odreenu duinu. Interkorelacije meu tim varijablama se mogu predstaviti kao KOSINUSNI UGLOVI, i to zato to kosinusna funkcija: 1) ima iste vrednosti kada je ugao 0o i 1800 tj. na 0o r= 1,00, a na 180o r= - 1,00 2) a ima i nultu vrednost (r= 0,00) kada je ugao 90 o tj. kada su varijable, odnosno vektori ortogonalni jedan na drugi Konfiguracija vektora odraava dva svojstva matrice interkorelacija: 1) smer povezanosti, na koji ukazuje ugao izmeu vektora (ugao ukazuje i na jainu povezanosti) 2) duina vektora, koja odraava komunalitet tj. koliinu zajednike varijanse Osim manifestnih varijabli (testova), u vektorskom prostoru je mogue predstaviti i faktore, odnosno latentne varijable koje lee u osnovi manifestnih. Faktor se predstavlja kao linearna kombinacija dva ili vie vektora varijabli, a pozicionira se tako da odraava svojstva vektora iz kojih je izveden. Svaki faktor je odreen dvojako: 1) ortogonalnim projekcijama (koje uslovno predstavljaju jednostavne korelacije faktora sa varijablama) 2) paralelnim projekcijama (koje uslovno predstavljaju parcijalne korelacije faktora sa varijablama) Projekcijama se, dakle, iskazuje odnos manifestnog i latentnog tj. odnos testa i faktora. Iz svega reenog se moe zakljuiti da vektorski prostor nije jednodimenzionalan (du ili prava), dvodimenzionalan (ravan), niti trodimenzonalan (realan prostor), ve je matematiki hiperprostor koji poseduje s va svojstva prethodno navedenih, ali ga je geometrijski nemogue predstaviti.
Izum faktorske analize se esto pripisuje arlsu Spirmanu, koji:
Meutim, vektorski prostor se moe predstaviti brojano, u terminima MATRINE ALGEBRE, koja predstavlja matematiku osnovu multivarijatne analize. Osnovni pojam matrine algebre jeste matrica, koja se definie kao skup brojeva smetenih u i redova i j kolona. Ona je, dakle, ispunjena skalarima koji odraavaju svojstva vektora. Dimenzionalnost matrice tj. njena veliina odreena je brojem redova i kolona. Elementi matrice su vektori predstavljeni skupom brojeva rasporeenih u redu ili koloni. Red u matrici je vektor koji opisuje ispitanika, a kolona je vektor koji opisuje varijablu (tj. vektor reda - rezultati ispitanika na varijabli, vektor kolone odgovor ispitanika na varijablama). Vektorski prostor je, dakle, matrica tj. skup svih vektora odreenog reda u polju brojeva. Ti brojevi su elementi tj. koordinate vektora (to bi znailo da su vektori u stvari n-dimezioni brojevi, a jedan broj je u stvari vektor duine 1). Multivarijatna analiza je skup postupaka koji se u celini odvija unutar spomenutog prostora, ne nuno definisanog samo jednom matricom. Vrste matrica: a)pravougle b)kvadratne b1) specijalne: 1)simetrine, trougle 2)dijagonalne (vandijagonalni elementi=0) 3) matrica identiteta (dijagonalna, 1 i 0) 3. Faktorska analiza: namena i upotreba Faktorska analiza je metod multivarijatne analize koji se upotrebljava kada elimo da opiemo meusobne zavisnosti veeg broja varijabli korienjem manjeg broja osnovnih, latentnih varijabli koje su poznate kao faktori. Ona ima dvojaku ulogu u analizi viedimenzionalnih podataka: 1) Moemo je koristiti u deskriptivne svrhe, i tada kaemo da ostvarujemo eksplorativni cilj faktorske analize. Kada nemamo na umu neku odreenu teorijsku hipotezu, faktorsku analizu koristimo kako bi identifikovali zajedniku strukturu koja je proizvela dobijeni skup koreliranih manifestnih varijabli. Prostije reeno, utvrujemo broj i prirodu latentnih dimenzija koje se nalaze u osnovi R-matrice. 2) Druga primena faktorske analize tie se onih istraivanja u kojima polazimo od apriorne teorijske informacije o zajednikoj strukturi. Tada faktorsku analizu koristimo u svrhu proveravanja osnovanosti hipoteze o broju i prirodi latentnih dimenzija i pokuavamo da ostvarimo konfirmativni cilj faktorske analize. Jo jedan cilj faktorske analize, koji je zapravo obuhvaen prethodnim, jeste njen matematiki cilj koji podrazumeva da R-matricu treba reprodukovati pomou to manjeg broja varijabli tj. faktora. Redukciju treba izvriti tako da gubitak informacije bude minimalan. Metoda faktorske analize razvijena je prvenstveno zarad prouavanja inteligencije, ali je nala primenu i u drugim podruijima psihologije i drugim naukama poput pedagogije, sociologije, ekonomije, socijalnog rada itd. U tom smislu, faktorska analiza se moe prihvatiti kao opta nauna metoda, jer zadovoljava dva cilja nauke: 1.utvrivanje povezanosti pojava i njihovog uzroka i 2.kondenzaciju podataka.
4. Faktorska analiza: matematiko-statistike osnove Faktorska analiza je metod multivarijatne analize koji se upotrebljava kada elimo da opiemo meusobne zavisnosti veeg broja varijabli korienjem manjeg broja osnovnih, latentnih varijabli koje su poznate kao faktori. Poto se i varijable i faktori mogu predstaviti vektorima, kaemo da faktor predst avlja linearnu kombinaciju, odosno transformaciju dva ili vie vektora varijabli. Linearana tra nsformacija je ponderisana kombinacija rezultata dobijena tako to se svaki od rezultata najpre pomnoi sa konstantom , a proizvodi se zatim saberu (Xi = W0 + W1X1 + W2X2 + ..). Faktor je u vektorskom prostoru odreen dvojako: 1)ortogonalnim projekcijama (koje uslovno predstavljaju jednostavne korelacije faktora sa varijablama) i 2)paralelnim projekcijama (koje uslovno predstavljaju parcijalne korelacije faktora sa varijablama).
U svrhe predstavljanja faktora, alternativa vektorskom prostoru moe biti brojano prikazivanje u terminima matrine algebre, koja ini matematiku osnovu multivarijatne analize. Matematiki cilj faktorske analize je reprodukcija R -matrice, od koje se na samom poetku postupka polazi, pomou to manjeg broja varijabli tj. faktora. Redukciju treba izvriti tako da gubitak informacije bude minimalan. Cilj faktorske analize takoe je i utvrivanje prirode faktora (npr. kod testova int eligencije nas zanima da li su dva izolovana faktora : 1.verbalni i numeriki ili 2.kristalizovani i fluidni). Nema potrebe gledati na varijable kada se odreuje koliko faktora se zadrava u analizi. Interpretirati tj. utvrditi prirodu faktora mogue je sa mo na osnovu varijabli, u ijoj se osnovi on nalazi. Iz tog razloga vaan nam je poloaj referentnih osa tj. faktora. Njihov poloaj, nakon ekstrakcije, se utvruje rotacijom, iterativnim postupkom koji za cilj ima da se faktor dovede u optimalan poloaj u prostoru varijabli, kako bi se postigla jednostavna struktura. Jednostavna struktura je jedan od kriterijuma koji se koriste u faktorskoj analizi u cilju lake interpretacije. Konkretna upotreba faktorske analize svodi se, dakle, na postupak koji obuhvata sledee korake: 1) 2) 3) 4) 5) prikupljanje podataka (iji bi krajnji proizvod trebala da bude R -matrica tj. matrica podataka) odluka o vrsti primenjene metode iterativna ekstrakcija faktora odreivanje broja i rotacija faktora (u cilju postizanja jednostavne strukture) interpretacija matrice zasienja i imenovanje faktora
5. Faktorska analiza: postupci za ekstrakciju faktora Danas istraivai faktorsku analizu izvode uz pomo odgovarajuih statistikih paketa poput STATISTICA -e i SPSS-a. Sam program se izvrava iterativno. Istraiva bira odgovarajue opcije i u kritinim trenucima odluuje u kom pravcu obrada treba da se kree. To ini arbitrarno, ali u skladu sa ciljevima analize. Dakle, ne sasvim liberalno. Izbor metoda ekstrakcije faktora svodi se na odluku o tome da li e se analizirati ukupna ili samo zajednika varijansa varijabli. Ili, drugaije reeno, kako odrediti vrednost u velikoj dijagonali matrice tj. komunalitete. Ili, geometrijski reeno, da li duine vektora izjednaiti ili, ako ne, kako ih definisati (da li im skratiti varijansu ili ne), U faktorskoj analizi postoje dva najee primenjivana metoda ekstrakcije faktora: metod (ili analiza) glavnih komponenti i faktorska analiza u uem smislu. 1.METOD GLAVNIH KOMPONENTI Kod ovog metoda teite interesovanja je na varijablama. Koristi se kada nam je primarni cilj redukcija dimenzionalnosti R-matrice tj. skupa podataka (npr. ITEM analiza), uz istovremeno zadravanje maksimalno mogueg varijabiliteta. Faktori tj. glavne komponente izolovane ovom metodom, dakle, zadravaju skoro svu informaciju sadranu u prvobitnom skupu podataka. Ovim ne samo da je zadovoljen cilj redukcije varijabli u analizi, ve je uinjen i korak ka razumevanju strukture prouavanog fenomena. Metod glavnih komponenti predstavlja i istraivako sredstvo pomou koga se generiu hipoteze o prouavanom fenomenu. U ovoj vrsti analize, shodno reenom, nemamo na umu neku odreenu teorijsku hipotezu, ve faktorsku analizu koristimo da bismo identifikovali zajedniku strukturu koja je generisala dobijeni skup korelisanih manifestnih varijabli . To to metod glavnih komponenti izuava ukupnu varijansu skupa podataka je sa jedne strane prednost, ali sa druge i mana, poto je time u analizu ukljuena i varijansa greke. Zbog toga to je ukljuena celokupna varijansa, vrednosti u velikoj dijagonali R matrice iznose 1.00. Ovaj metod se koncentrie na dijagonalne elemente matrice tj. na varijansu. 2.FAKTORSKA ANALIZA U UEM SMISLU Ukljuuje vei broj metoda ekstrakcije faktora (zajednikih faktora, najvee verodostojnosti) . Kod ovih metoda teite interesovanja je na faktorima. Kao i metoda glavnih komponenti slui za redukciju originalnog skupa podataka, ali to nije njen primarni cilj. Ona se primenjuje prvenstveno onda kada je potrebno testirati teorijske hipoteze o broju i prirodi faktora koji su latentno prisutni u skupu manifestnih varijabli. Nasuprot metodu glavnih komponenti, faktorska
analiza u uem smislu polazi od zajednike varijanse manifestnih varijabli tj. komunaliteta. Zajedniki deo varijacija varijable je onaj koji ona deli sa ostalim varijablama. Faktorska analiza u uem smislu zaob ilazi specifian deo varijanse, a samim tim i varijansu greke. Stoga su vrednosti u velikoj dijagonali R -matrice razliite od 1.00. Ovaj metod se koncentrie na vandijagonalne elemente tj. na kovarijanse. 6. Faktorska analiza: kriterijumi za utvrivanje broja faktora Ukoliko smo prilikom odreivanja broja faktora pogreili izabravi premali broj faktora, znaajni faktori e biti izostavljeni iz analize. U suprotnom sluaju, ako izaberemo preveliki broj faktora neki od manje bitnih, specifinih faktora bie pomean sa zajednikim faktorima. Iz ovog razloga se odreivanju broja zajednikih faktora mora prii sa puno panje, jer taj izbor u velikoj meri utie na kvalitet zakljuaka faktorske analize. Postoji vei broj kriterijuma za odreivanje broja faktora: Guttman -Keiserov kriterijum jedininog korena, Cattelov Scree test, asimptotski statistiki postupci za testiranje broja zajednikih faktora, Plum-Brandy kriterijum itd. Preporuuje se da se prilikom donoenja odluke o broju faktora koristi vie od jednog kriterijuma. Dva najpoznatija i najee koriena kriterijuma su dva prvopomenuta: Guttman -Keiserov i Cattelov. 1.GUTTMAN-KEISEROV KRITERIJUM JEDININOG (karakteristinog) KORENA On glasi: Broj (lambda; karakteristinih korenova) koji je vei od 1 odgovara verovatnom broju faktora. Tanije, zadravaju se oni faktori koji doprinose objanje nju varijanse barem koliko i jedna varijabla. Dobre osobine ovog kriterijuma dolaze do izraaja kada je broj varijabli izmeu 20 i 50. Ako je broj varijabli vei od 50, tada ovaj kriterijum izdvaja preveliki broj zajednikih faktora, a ako je broj varijabli manji od 20 tada je kriterijum isuvie konzervativan jer izdvaja premali broj zajednikih faktora. Iako postoji generalni konsenzus da je bolje ekstrahovati vei nego manji broj faktora, ne postoji psihometrijsko opravdanje za zadravanje svih faktora sa karakteristinim korenom veim od 1. 2.KRITERIJUM TAKE PRELOMA (ILI LAKTA) NA CATTELOVOM SCREE TESTU Mada svi faktori sadre u izvesnom stepenu specifinu varijansu, ona dominira kod poslednje e kstrahovanih faktora. Na osnovu Scree testa odreujemo optimalan broj faktora koje treba izdvojiti pre nego to specifina varijansa pone da dominira nad zajednikom. Na ovom grafikom prikazu kriterijum za odreivanje broja faktora predstavlja taka u kojoj karakteristini korenovi formiraju silazni trend, tzv. taka preloma. U odnosu na Guttman -Keiserov kriterijum jedininog korena, Scree test najee izdvaja vei broj faktora. 7. Rotacija u faktorskoj analizi: pravougle rotacije Poloaj referentnih osa tj. faktora se nakon ekstrakcije utvruje rotacijom, iterativnim postupkom koji za cilj ima da se faktor dovede u optimalni poloaj u prostoru varijabli , kako bi se postigla jednostvna struktura. Jednostavnu strukturu je definisao Terston i ona predstavlja jedan od kriterijuma koji se koriste u faktorskoj analizi u cilju lake interpretacije rezultata. Kod jednostavne strukture pokuavamo da postignemo mali broj visokih vrednosti faktorskih optereanja i veliki broj niskih faktorskih optereenja tj. mali broj manifestnih varijabli treba da ima visoke i srednje visoke korelacije sa faktorom, a sve ostale niske ili nulte korelacije sa istim tim faktorom. Najbolje je da svaka varijabla ima samo jednu visoku korelaciju sa jednim faktorom, a da su sve ostale korelacije te varijable sa drugim faktorima niske ili nulte. U pravougle rotacije spadaju: Keiserov varimax, quartimax, equimax itd. Pravougle tj. ortogonalne rotacije ne menjaju odnos faktorskih osa, one su i dalje ortogonalne. One se po tome razlikuju od kosouglih rotacija kod kojih tog ogranienja nema (faktorske ose se rotiraju nezavisno jedna od druge). U ortogonalnim rotacijama se zadrava nezavisnost sirovih faktora tj. korelacije izmeu faktora su nulte. To znai da nam skor na jednom faktoru nita ne govori o skoru na drugom. U ortogonalnim rotacijama meusobni odnosi faktora su unapred definisani, to moe predstavljati smetnju u postizanju jednostavne strukture. Kada je prvi faktor postavljen u optimalni poloaj, poloaji svih drugih faktora su takoe
ve odreeni jer oni moraju da budu u ortogonalnom odnosu sa prvim. Prema tome, traenje najpovoljnijeg reenja tj. poloaja za sve faktore nije jednostavno i zahteva odreene kompromise. Dobra stvar kod ortogonalnih faktora je to to su oni jednostavniji za interpretaciju od kosouglih, poto se ortogonalna rotacija odvija na samo jednoj matrici matrici strukture. 8. Rotacija u faktorskoj analizi: kosougle rotacije Poloaj referentnih osa tj. faktora se nakon rotacije utvruje rotacijom, iterativnim postupkom koji ima za cilj da se faktor dovede u optimalan poloaj u prostoru varijabli, kako bi se postigla jednostavna struktura. Jednostavnu strukturu je definisao Terston i ona predstavlja jedan od kriterijuma koji se koriste u faktorskoj analizi u cilju lake interpretacije rezultata. Kod jednostavne strukture pokuavamo da postignemo mali broj visokih vrednosti faktorskih optereanja i veliki broj niskih faktorskih optereenja tj. mali broj manifestnih varijabli treba da ima visoke i srednje visoke korelacije sa faktorom, a sve ostale niske ili nulte korelacije sa istim tim faktorom. Najbolje je da svaka varijabla ima samo jednu visoku korelaciju sa jednim faktorom, a da su sve ostale korelacije te varijable sa drugim faktorima niske ili nulte. U kosougle rotacije spadaju: promax, oblimin, quartimin. Kosougle rotacije doputaju da rotirani faktori zaklapaju ugao razliit od 90o, odnosno da faktori izmeu sebe koreliraju. Zasnovane su na razliitim kriterijumima. Njihovom se upotrebom dobijaju faktorska reenja koja zadovoljavaju kriterijum jednostavne strukture, a da pri tome faktori nisu suvie korelirani izmeu sebe. Kod kosouglih rotacija postoji vie moguih reenja i one p otpunije mogu da zadovolje kriterijum jednostavne strukture zbog fleksibilnosti u odreivanju poloaja pojedinih faktora. Analitiki postupci kosih rotacija omoguavaju da se pri interpretaciji faktora koriste tri matrice: 1) matrica strukture/zasienja sadri jednostavne korelacije manifestnih varijabli sa faktorima 2) matrica sklopa/paterna - sadri parcijalne korelacije manifestnih varijabli sa faktorima 3) matrica interkorelacija faktora (koja omoguava hijerarhijsku faktorsku analizu) Postupci kosih rotacija, dakle, vernije predstavljaju stanje u latentnom prostoru jer ne ukazuju samo na odnose varijabli i faktora, ve i na meusobne odnose faktora. Samim tim to omoguavaju da faktori koreliraju ne iskljuuju ni mogunost ortogonalnog odnosa faktora ukoliko je to najbolje reenje. Kosougle rotacije se generalno preferiraju u odnosu na ortogonalne. Najvaniji razlog za takvo stanje je injenica da su psiholoke pojave gotovo uvek meusobno povezane, i zbog toga je loginije primeniti kosougle nego ortogonalne rotacije. U situacijama kada istraiva ne moe unapred pretpostaviti relacije izmeu ispitivanih konstrukata nema razloga da podrazumeva njihov ortogonalan odnos, zbog toga to kosougle rotacije uvek odraavaju relacije izmeu faktora pa e, kao to je reeno, pokazati i da faktori meusobno ne koreliraju. 9. Faktorska analiza: interpretacija faktora Pre no to se pristupi interpretaciji faktora potrebno je utvrditi koji se elementi matrice faktorskih optereenja mogu smatrati statistiki znaajnim. Za to nam na raspolaganju stoji nekoliko iskustvenih kriterijuma. Najvaniji je kriterijum proistekao iz iskustva velikog broja istraivaa u primeni faktorske analize. Oni sugeriu da se svi koeficijenti faktorskih optereenja (parcijalne korelacije) ija je apsolutna vrednost vea od 0,30 mogu smatrati statistiki znaajno razliitim od 0. Ovaj kriterijum se pokazao prihvatljivijim u odnosu na druge kod uzoraka veliine 50 i vie elemenata. Ipak ovaj, a ni drugi kriterijumi ne uzimaju u obzir broj promenljivih u analizi, kao ni redosled faktora ija otereenja preispitujemo sa stanovita znaajnosti. Sugerie se da se sa poveanjem broja promenljivih u analizi sniava nivo znaajnosti. S druge strane, kod kasnije izdvojenih faktora bi trebalo postepeno poveavati nivo znaajnosti pri testiranju optereenja vezanih za taj faktor. Faktor moemo smatrati intepretabilnim ako smo utvrdili da postoje najmanje tri varijable znaajno zasiene njime (ako je faktor zasien samo jednom varijablom nazivamo ga SINGLE faktorom, a ako je zasien sa dve DUAL faktorom).
Sama interpretacija se obavlja na osnovu: 1) matrice faktorske strukture (koja sadri jednostavne korelacije varijabli sa faktorima; tumaenje na osnovu nje se vri uvaavajui i druge podatke, a posebno karakteristine korenove tj. procene varijanse objanjene faktorom 2) a u kosim rotacijama vri se dopunsko tumaenje na osnovu jo dve matrice: - matrice sklopa/paterna (koja sadri parcijalne korelacije varijabli sa faktorima; one ukazuju na doprinos pojedinanih varijabli faktorima i mogu ukazati na kolinearnost varijabli) - matrice interkorelacija faktora Moemo smatrati da je dobra faktorska solucija ona koja omoguava interpretaciju i zadovoljava kriterijum jednostavne strukture. Posao interpretacije zavravamo pridruivanjem imena tj. nominacijom faktora. Ovo nije nuan korak, ali je visoko poeljan. Ovaj postupak je u veoj meri zasnovan na poznavanju fenomena koji se istrauje, kao i subjektivnoj proceni istraivaa. Uostalom, u svakoj se fazi primene faktorske analize vri subjektivna procena u kom pravcu dalje usmeriti analizu, pa ni faza davanja imena nije izuzetak. 10. Hijerarhijska faktorska analiza Kosougle rotacije omoguavaju izvoenje hijerarhijske faktorske analize uvoenjem matrice interkorelacija faktora prvog reda. Cilj hijerarjiske faktorske analize je utvrivanje faktora na razliitim nivoima optosti. Faktori utvreni na osnovu matrice interkorelacija manifestnih varijabli nazivaju se faktorima prvog reda. Ako se matrica njihovih interkorelacija faktorizuje dobie se faktori drugog reda itd. to je red faktora vi i, to je broj faktora manji i faktori su optiji. U hijerarhijskoj faktorskoj analizi moe se poi od matrice interkorelacija faktora ili od matrice sirovih podataka, odnosno matrice faktorskih skorova. Matrica faktorskih skorova sadri standardizovane rezultate ispitanika na faktorima, koji se dobijaju tako to se sirovi skorovi pomnoe sa ponderom tj. teinom faktora koja je prethodno utvrena. Ova matrica je sumativna, to znai da nam omoguava da rangiramo ispitanike. Prikladna je i za analize druge vrste: - u regresionoj analizi (kao opservacije objanjavajuih promenljivih) - u klaster analizi - u kanonikoj korelacionoj analizi - u diskriminacionoj analizi 11. Uslovi za primenu faktorske analize: teorijski model i izbor varijabli Jedan od uslova za primenu faktorske analize je postojanje teorijske podloge za odabir varijabli koje e ui u analizu. Ako se formira skup varijabli za koji ne postoji teorijsko opravdanje, kao rezultat emo dobiti nepostojei konstrukt jer se, bez obzira na to da li je teorijski model postojao ili nije, uvek neto mora izolovati. Ukoliko koristimo lo teorijski model, ili ga nemamo, ne moemo dobiti dobre faktore. U tom sluaju bi dolo do izdvajanja faktora koji u stvarnosti ne postoje, tzv. artefakti. Nauni radnici koji se bave faktorskom analizom tete nauci kontaminirajui nauni prostor superprodukcijom faktorskih reenja za koja ne postoji nikakvo opravdanje. Uslovi za primenu faktorske analize obuhvataju i uslove za izraunavanje Pirsonovog produkt-moment koeficijenta korelacije: barem intervalni nivo merenja varijabli, njihova normalna distribucija, linearan odnos izmeu varijabli i homoskedasticitet. to se tie izbora varijabli, one treba da budu priblino jednakog nivoa optosti (razlika izmeu ukupnih skorova i odgovora na pojedina pitanja u uptniku) i opsega kako bi bile interpretabilne. Faktorsku analizu nije opravdano sprovoditi na podacima prikupljenim na testovima brzine, jer bi faktori koji bi se izolovali predstavljali faktore redosleda, a ne sadraja (testovi brzine ukljuuje relativno velik broj lakih ajtema koje je potrebno reiti u toku vrlo ogranienog vremena).
12. Uslovi za primenu faktorske analize: broj ispitanika i eksperimentalna nezavisnost podataka Veoma vaan uslov za sprovoenje faktorske analize jeste dovoljan broj ispitanika. Ukoliko se ovaj uslov ne ispuni rezultati e biti nestabilni i neinterpretabilni. Meutim, veliina uzorka u faktorskoj analiz i se esto pominje kao problem, i razliiti autori nude razliita reenja. Konzervativniji smatraju da bi odnos izmeu broja subjekata i broja varijabli treba lo da bude 10:1 (Nunally). S druge strane, liberalniji autori (Guilford) taj odnos sputaju ak do 2:1. Moda je tu najrealnije pravilo Tuckera, po kome bi odnos izmeu broja ispitanika i broja varijabli trebalo da bude 5:1. Neki drugi autori sugeriu da nije potrebno vie od 100 ispitanika za postupak faktorske analize, dok ima i onih koji smatraju da uzorak treba da broji od 500 do 1000 ispitanika. Noviji pristup u faktorskoj analizi kae da je, kada su komunaliteti visoki (vei od 0,6) i faktori dobro definisani (sa dovoljno visokih zasienja), uzorak od 100 ispitanika sasvim dovoljan. Eksperimentalna tj. linearna nezavisnost podataka je takoe uslov za primenu fakorske analize. Ako ovaj uslov nije ispunjen javie se multikolinearnost i artefakti. Ako u matrici interkorelacija imamo jednu varijablu koja je umnoak prethodne dve u pitanju je direktna linearna zavisnost tj, multikolinearnost. Ona poveava verovatnou da e broj faktora koje smo izolovali biti manji nego to bi to realno trebao biti i da e biti izolova neki nepostojei (prividni) faktori artefakti. 13. Kanonika korelaciona analiza(KKA): namena i upotreba KKA je kombinacija faktorske analize (u njoj se vri redukcija) i regresione analize (u njoj utvrujemo povezanost dva skupa varijabli, to nam omoguava da vrednost varijabli iz jednog skupa predvidimo na osnovu varijabli drugog skupa). KKA je multivarijatni statistiki postupak koji se bavi utvrivanjem strukture i jaine povezanosti dva skupa varijabli (zavisnih-kriterijuma i nezavisnih-prediktora). Cilj faktorske analize jeste formiranje linearne kombinacije unutar skupa zavisnih i posebno unutar skupa nezavisnih varijabli, ali tako da izmeu te dve linearne kombinacije postoji maksimalna mogua korelacija, koju nazivamo KANONIKOM KORELACIJOM. Na osnovu tih linearnih kombinacija (koje su poznate i kao kanoniki faktori ili varijable) stiemo uvid u povezanost dva skupa promenljivih. Pored pomenutog, glavnog cilja KKA, moe nas interesovati izvoenje dodatnog para linearnih kombinacija koji e maksimizirati preostalu korelaciju, uz uslov nekoreliranosti sa prethodno izd vojenim parom kanonikih faktora. Ovaj proces izdvajanja kanonikih faktora moe se nastaviti i dalje. 14. Kanonika korelaciona analiza(KKA): matematiko-statistike osnove KKA polazi od supermatrice koja se sastoji od 4 matrice interkorelacija: dve matrice interkorelacija varijabli u svakom od dva skupa i dve matrice interkorelacija izmeu varijabli oba skupa. Poslednje dve matrice sadre jednake koeficijente. Iz oba skupa varijabli se najpre izoluju kanoniki faktori, i to prema dva kriterijuma: 1.to varijabla vie korelira sa varijablama iz drugog skupa to e vie doprinosti objanjenju faktora i 2.varijable koje imaju najmanju moguu korelaciju sa ostalim varijablama iz svog skupa e vie doprinositi objanjenju faktora. Moemo izolovati onoliko faktora koliko ima varijabli u manjem skupu varijabli. Kanoniki faktori su, dakle, optimalno ponderisani kompoziti i oni su, kao u faktorskoj analizi, linearne kombinacije varijabli. Izmeu dva zajedno izolovana kanonika faktora, iz jednog i drugog skupa varijabli postoji maksimalna mogua korelacija koju postiemo ponderisanjem manif estnih varijabli u okviru kanonikih faktora. U skladu sa svime ranije reenim, vee pondere dodeljujemo najboljim prediktorima tj. onim varijablama koje su u visokoj korelaciji sa varijablama iz drugog, kriterijumskog skupa, a u niskoj korelaciji sa varijablama iz svog skupa. Svaki kanoniki faktor je ortogonalan na sve ostale, osim na onaj sa kojim je u najveoj moguoj korelaciji. Maksimalna mogua povezanost izmeu dva skupa varijabli tj. izmeu faktora izolovanih iz tih skupova, naziva se kanonika korelacija. Koeficijent kanonike korelacije je pokazatelj najvie mogue povezanosti izmeu dva skupa
varijabli, a ne pokazatelj realne veze. Kanonika korelacija izmeu prva dva izolovana faktora je uvek via od prosene korelacije izmeu dva skupa varijabli. Ona je uvek najvia, pa je izmeu sledea dva izolo vana faktora nia itd. KKA, dakle, slui za opisivanje onoga to je zajedniko dvema skupovima varijabli, a zatim onoga to je preostalo, ali je nezavisno od prethodnog. 15. Interpretacija rezultata kanonike korelacione analize: znaajnost i struktura relacija Za testiranje znaajnosti koeficijenta kanonike korelacije upotrebljava se Bartletov 2 test. Koeficijent kanonike korelacije se moe pokazati statistiki znaajnim, ali istovremeno mora biti ispunjen i uslov da se utvrena veza dva skupa varijabli moe smisleno interpretirati. Samo uslov statistike znaajnosti koeficijenta nije dovoljan da bismo dalje analizirali tu vezu. Pored rezultata testiranja znaajnosti u procesu donoenja odluke oslanjamo se i na veliinu tog koeficijenta i mere redundantnosti. Granina vrednost koeficijenta kanonike korelac ije uglavnom je uslovljena specifinom prirodom razmatranog problema. S obzirom na to da je kanonika korelacija najvia mogua korelacija izmeu dva skupa varijabli, moe se desiti da pogreno utvrdimo znaajnost veze izmeu skupova, ak i kada kanoniki faktori ne izdvajaju znaajan deo varijanse iz njihovih skupova. Zato se preporuuje korienje mera redundantnosti koje ukazuju na deo varijanse zavisnih promenljivih objanjen nezavisnim promenljivima iz drugog skupa. Ukoliko smo kombinacijom navedenih kriterijuma doneli odluku o broju parova kanonikih faktora koje zadravamo u analizi, pristupamo interpretaciji dobijenih rezultata. U fazi interpretacije rezultata oslanjamo se, u najveoj meri, na matricu strukture kanonikih faktora i matricu kanonikih optereenja. Na osnovu njih se interpretira struktura relacija. U matrici strukture se nalaze jednostavne korelacije varijabli sa faktorima. Predznak i veliina ovog koeficijenta ukazuju na doprinos originalnih varijabli njihovim kanonikim fakorima. Ali ovi koeficijenti mogu biti vrlo nestabilni zbog problema multikolinearnosti. Matrice optereenja su analogne matricama sklopa u faktorskoj analizi, i sadre parcijalne korelacije varijabli sa faktorima. Na osnovu njih se takoe moe utvrditi relativan doprinos svake varijable njenom kanonikom faktoru, a pomou njih se detektuje i multikolinearnost varijabli. Naime, ako je kanoniko optereenje varijable blizu nule, a jednostavna korelacija te varijable sa faktorom prilino visoka, ta varijabla ima visoku korelaciju sa nekom drugom varijablom u skupu tj. suvie su sline. 16. Interpretacija rezultata kanonike korelacione analize: analiza redundantnosti Ukoliko dobijemo relativno visok koeficijent kanonike korelacije, a da je istovremeno proporcija objanjene varijanse svakog od dva skupa varijabli mala, nije preporuljivo previe se uzdati u dobijene rezultate. Redundansa je proporcija varijanse originalnih promenljivih objanjena kanonikim faktorom drugog skupa. Koeficijent redundantnosti uzima u obzir kako visinu koeficijenta kanonike korelacije, tako i proporciju varijanse skupa varijabli objanjenu njihovim kanonikim faktorom. Ako je koeficijent kanonike korelacije visok, a proporcija varijanse objanjene faktorom mala, koeficijent redundantnosti e biti nizak. Ukoliko je koeficijent kanonike korelacije vrlo visok, a koeficijent redundantnosti nizak, to znai da je koeficijent kanonike korelacije precenjen, to je uslovljeno samom prirodom kanonie korelacione analize. Koeficijent redundantnosti, dakle, slui za kontrolu pouzdanosti rezultata. U multivarijatnoj analizi ovaj se pristup ak izdvojio u kanoniku analizu poznatu kao analiza redundantnosti, zasnovanu na maksimiziranju koeficijenta redundantnosti. 17. Uslovi za primenu kanonike korelacione analize Pre svega, podrazumeva se da bi varijable koje se nalaze u kanonikoj korelacionoj analizi trebale biti bar intervalnog nivoa merenja i trebale bi da se normalno raspodeljuju. Ostali bitni uslovi za primenu kanonike korelacione analize su: 1) Dovoljno velik broj ispitanika najmanje 10, a poeljno je 40 do 60 ispitanika po jednoj varijabli; kanonika
korelaciona analiza zahteva vei broj nego faktorska analiza zbog toga to bi se sa manjim brojem ispitanika dobili koeficijenti kanonike korelacije koji bi bili nerealno visoki. 2) Odsustvo ekstremnih rezultata (tj. outlier-a) moe da se desi da postoji vrlo visoka korelacija izmeu ekstremnih rezultata na pojedinim varijablama koje nisu dobri predstavnici skupova kojima pripadaju, te e to opet uticati na vrednost koeficijenta kanonike korelacije tako to e ga povisiti vie nego to je to realno. 3) Odsustvo multikolinearnosti neophodno je zadovoljiti ovaj uslov jer ako varijable jednog skupa meusobno visoko koreliraju onda imaju niske parcijalne doprinose, usled ega su faktori loije definisani. 18. Diskriminativna analiza: namena i upotreba Metod multivarijatne analize koji se bavi razdvajanjem razliitih grupa i alokacijom opservacija u unapred definisane grupe naziva se diskriminativna analiza. Ona, dakle, ima dva osnovna cilja. Prvi, da utvrdi postoji li statistiki znaajna razlika izmeu dve ili vie grupa, a zatim da da odredi koja od varijabli daje koliki doprinos razlikovanju tj. da ispita strukturu razlika. Drugi cilj analize je klasifikacija tj. alokacija entiteta (opservacija) u prostoru diskriminanti. U konkretnim istraivanjima ova dva cilja se esto meusobno preklapaju pa se deava da sredstva analize koja koristimo za razdvajanje grupa slue i za klasifikaciju opservacija u te iste, unapred definisane grupe. Metode diskriminaci one analize koje se odnose na prvi cilj razdvajanje izmeu grupa, esto se nazivaju deskriptivnom diskriminacionom analizom, dok se metode primerene drugom cilju, alokaciji opservacija nazivaju metodama klasifikacije. Diskriminativna analiza se u konkretnim situacijama upotrebljava kada je potrebno da se definiu karakteristike grupa ispitanika u manifestnom ili latentnom prostoru, kao i kada je potrebno na osnovu nezavisnih (mernih) varijabli odrediti pripadnost ispitanika nekoj grupi ispitanika. 19. Diskrimiminativna analiza: matematiko-statistike osnove Diskriminativna analiza je vrsta faktorske analize u kojoj se faktori formiraju ne na osnovu povezanosti, u ovom sluaju, nezavisnih varijabli, ve na osnovu njihove diskriminabilnosti. U njoj se polazi od skupa mernih, nezavisnih varijabli i jedne zavisne kategorijalne varijable, koja se u analizi rastavlja na artificijelne binarne dummy varijable kojih ima za jedan manje od broja kategorija zavisne varijable. Na taj nain dobijena su dva seta varijabli, na koje je mogue primeniti kanoniku korelacionu analizu. Sa tehnike strane osnovni cilj diskriminacione analize jeste formiranje linearnih kombinacija nezavisnih varijabli kojima e se diskriminacija izmeu unapred definisanih grupa tako izvriti da greka pogrene klasifikacije opservacija bude minimalna tj. da se maksimizira relativan odnos varijansi izmeu i unutar grupa. Te linearne kombinacije nezavisnih varijabli se nazivaju diskriminativnim funkcijama i njih moe biti koliko je dummy varijabli manje 1. Po pravilu je uvek prva izolovana diskriminativna funkcija najbolja. Sledea mora biti ortogonalna na prvu. Nakon to smo izolovali diskriminativne funkcije, na osnovu Bartletovog 2 testa i Vilksove lambde, vri se odabir znaajnih funkcija. Zatim se utvruju projekcije (tj. korelacije) manifestnih varijabli na znaajne funkcije. Linearnom kombinacijom nezavisnih varijabli za svakog ispitanika odreujemo diskriminacioni skor (koji se zatim transformie u aposteriornu verovatnou da ispitanik ili objekat potie iz jedne od grupa). Aritmetike sredine diskriminacionih skorova za grupe nazivamo centroidima grupa. Njihovim poreenjem moemo utvrditi koliko su grupe meu sobom udaljene. Postoje dve metode diskriminacione analize: 1)Linearna diskriminativna analiza u kojoj je cilj formiranje linearne kombinacije nezavisnih varijabli koje omoguuju to bolju diskriminaciju grupa. Primenjuje se kada imamo dve grupe, a koristi se retko. Umesto nje moe se raditi i multipla regresiona analiza koja joj je analogna jer da je sline rezultate. 2)Kanonika/viegrupna diskriminativna analiza, u kojoj nas zanima opta diskriminacija, izmeu vie od dve grupe (po analogiji izmeu t-testa i ANOVA-e). Logika je u tome da se izoluju diskriminacione funkcije kao opte diskriminan te. Poto ispitujemo globalne razlike, zanima nas koja linearna kombinacija daje najbolju optu diskriminaciju meu
grupama. Prva diskriminativna funkcija se ekstrahuje da objasni najvei deo varijanse. Druga treba da objanjava ostatak varijanse, tako da bude ortogonalna na prvu. Minimalno se izdvaja 3 diskriminativne funkcije ija se znaajnost utvruje 2 testom. Redovno se deava da nisu sve statistiki znaajne. 20. Interpretacija rezultata diskriminativne analize: znaajnost i struktura razlika izmeu grupa Nakon ocene kanonikih diskriminacionih funkcija postavlja se pitanje da li u daljoj analizi zadrati sve funkcije ili je analizu razdvajanja grupa mogue obaviti sa njihovim manjim brojem. Drei se principa ekonominosti, po kome bi trebalo relativno uspeno objasniti glavni izvor varijacija izmeu grupa relativno malim brojem funkcija, najee se izoluju svega dve ili tri funkcije. U cilju interpretacije dobijenih rezultata preporuuje se korienje grafikog prikaza centroida grupa u dvodimenzionalnom diskriminacionom prostoru koji generiu parovi diskriminacionih funkcija, a u kome se nalaze i diskriminacioni skorovi. Na osnovu ovih grafikih prikaza moe se izvesti samo sumarno objanjenje razlike izmeu centroida, s obzirom na diskriminativne funkcije. Da bi se dalo detaljnije objanjenje potrebno je interpretirati same kanonike diskriminacione funkcije tj. njihovu strukturu. Diskriminacione funkcije se opisuju i interpretiraju uz pomo dve matrice: 1) Matrica standardizovanih (b) koeficijenata - sadri parcijalne korelacije varijabli sa funkcijama - saoptava o uniknom doprinosu svake varijable diskriminaciji - to je vei b koeficijent to je vea diskriminativnost varijabli (nepoznato izmeu kojih varijabli), a veliina relativnog doprinosa razdvajanju izmeu grupa se sagledava na osnovu apsolutne vrednosti diskriminaci onih koeficijenata; pri tome, predznak koeficijenta ukazuje na smer uticaja - ako imamo mali b koeficijent mogue je da je ta varijabla nevana za diskriminacionu funkciju ili je njen uticaj umanjen zbog problema multikolinearnosti 2) Matrica faktorske strukture - sadri jednostavne korelacije - saoptava o konfiguraciji varijabli u funkcijama (tj. pokazuje sadraj diskriminativnih funkcija) - ima prednost nad matricom standardizovanih koeficijenata samo ako je broj ispitanika 20 puta vei od broja varijabli - mogu se pokazati nestabilnim kao i diskriminacioni (b) koeficijenti, pa se zahtevaju vei uzorci kako bi se obezbedila njihova stabilnost Generalno govorei, kada je cilj analize utvrivanje doprinosa manifestnih varijab li bolje je koristiti diskriminacione koeficijente, a kada je cilj interpretirati funkcije bolje je koristiti koeficijente korelacije. 21. Interpretacija rezultata diskriminativne analize: a priori i a posteriori klasifikacija ak i pre nego to se pristupi diskriminativnoj analizi, ispitanici su apriorno rasporeeni u odreene grupe. A priori klasifikacija je ona koja je kao takva data u prirodi (npr. pol, starost, obrazovanje, mesto u firmi, pozicija u sportskom timu...). A posteriori klasifikacija je ona koja se u diskriminativnoj analizi vri na osnovu Mahalanobisovih distanci, koje predstavljaju udaljenost pojedinih ispitanika od centroida grupa. Ispitanik se svrstava u onu grupu ijem je centroidu najblii, bez obzira na to kojoj grupi apriorno pripada. U diskriminativnoj analizi bi trebalo formirati diskriminacione funkcije koje e u najveoj moguoj meri moi da odvajaju grupe. U idealnoj situaciji, te funkcije bi smetale svakog ispitanika u grupu u kojoj se inae (u prirodnom stanju) nalazi. Ali u praksi je to redak sluaj. Uspenost a posteriori klasifikacije se procenjuje na os novu matrice konfuzije tj. greaka. U njoj se moe videti u kojoj se meri predviene pripadnosti razlikuju od stvarnih, pri emu se u dijagonali nalaze uspeno klasifikovani sluajevi. Oni ukazuju na stepen efikasnosti modela.
10
22. Formiranje klasifikacionog modela i predvianje grupne pripadnosti na osnovu diskriminativne analize Jedan od ciljeva diskriminacione analize je da omogui alokaciju tj. klasifikaciju opservacija (entiteta, ispitanika) u unapred definisane grupe. Za to nam je potreban klasifikacioni model. Model se forimra u situaciji kada su poznate i zavisne varijable (grupna pripadnost) i nezavisne varijable (rezultati na intervalnim varijablama). Na osnovu rezultata na setu intervalnih varijabli formiraju se diskriminacione funkcije koje u najboljoj mog uoj meri razlikuju grupe ispitanika. Nakon toga, na osnovu tih funkcija vrimo post hoc predvianje na postojeim podacima tj. lanove ve postojeih grupa svrstavamo u grupe ijem su centroidi njihovi rezultati najblii. Tada moemo videti u kojoj se meri predviena pripadnost razlikuje od stvarne tj. koliko je klasifikacioni model uspean. U matrici konfuzije se procenjuje uspenost klasifikacije. U njenoj se dijagonali nalaze uspeno klasifikovani sluajevi. Kada smo formirali klasifikacioni model, moemo vriti i a priori predvianje. Tada nam je dovoljno i da imamo rezultate na nezavisnim varijablama, na osnovu kojih predviamo zavisnu varijablu tj. pripadnost grupi. Za to se koriste klasifikacione funkcije, kojih u analizi moe biti koliko i varijabli. One se izraunavaju, i za za svakog novog ispitanika se dobija klasifikacioni skor. Na osnovu njega se ispitanik klasifikuje u jednu od ve formiranih grupa. 23. Uslovi za primenu diskriminacione analize Uslovi za primenu linerane diskriminacione analize (sluaj sa dve grupe) su isti kao i kod multivarijatne regresione analize, te su izvori opasnosti koji te uslove mogu ugroziti takoe isti. Ti uslovi su sledei: 1) 2) 3) 4) 1) 2) 3) 4) Dovoljno velik broj ispitanika tj. opservacija (najmanje 10 po nezavisnoj varijabli; a poeljno je 40-50 po varijabli) Odabir odgovarajue nezavisne varijable na osnovu koje se moe izvriti valjana diskriminacija i klasifikacija. Odsustvo multikolinearnosti, jer suvie visoko korelirane nezavisne varijable imaju niske parcijalne doprinose Linearan odnos izmeu varijabli Uslovi za primenu kanonike viegrupne diskriminacione analize ukljuuju pomenute uslove, uz dodatak: zahteva za normalnom distribucijom nezavisnih varijabli (diskriminaciona analiza je poprilino robusna na povredu i zahteva za heterogenou varijansi i kovarijansi po grupama (pri emu treba imati u vidu da je multivarijatni BoxM (Nekolinearnost M-ova i varijansi) (Potpuna neredundantnost varijabli) ovog uslova) test jako osetljiv, te ga ne treba sasvim striktno potovati)
diskriminativnim funkcijama.
24. Klaster analiza: namena i upotreba Klaster analiza (taksonomska ili analiza grupisanja) je multivarijatni statistiki postupak koji se koristi za grupisanje objekata, tako da su oni unutar grupe sliniji meu sobom, a izmeu grupa razliitiji. Osnovni zadatak klaster analize je, dakle, alokacija skupa objekata u to je mogue manje, maksimalno homogenih, meusobno iskljuivih grupa tako da su entiteti unutar grupe slini meu sobom, a u razliitim grupama razliiti. Analiza grupisanja se bavi prirodnim grupama. S obzirom da ne postoji opte prihvaena definicij a grupe, koristimo skater dijagram da bi objasnili ta podrazumevamo pod izrazom prirodno grupisanje tj. prirodne grupe. Prirodne grupe su one koje opisujemo, posmatrajui skater dijagram, kao oblasti u dvodimenzionalnom prostoru sa velikom gustinom taaka koje su razdvojene od drugih oblasti koje imaju malu gustinu taaka. Alternativna definicija prirodnih grupa se zasniva na kriterijumu bliskosti, prema kome se smatra da objekti u grupi treba da su blii jedni drugima nego objektima u drugoj grupi. Postupci identifikovanja grupa koji se zasnivaju na kriterijumu bliskosti imae potekoa ukoliko grupe nisu sferine. Klaster analiza je namenjena: 1) Istraivanju podataka esto ne znamo kako je skup objekata struktuiran, pa kla ster analizom otkrivamo nepoznatu
11
strukturu. 2) Redukciji podataka formiranje manjeg broja grupa i deskripcija uzorka s obzirom na njih. 3) Generisanju hipoteza analiza grupisanja podataka nepoznate strukture rezultira u grupama iji nam broj i sastav moe pomoi da definiemo hipotezu o strukturi podataka. Tako broj grupa sugerisan prvobitnom analizom moe biti hipoteza koja bi se testirala novim skupom podataka 4) Predvianju grupe dobijene u klaster analizi moemo koristiti u kasnijim istraivanjima u svrhe predvianja. 25. Klaster analiza: odnos sa drugim multivarijatnim tehnikama (faktorskom i diskriminativnom analizom) Grupisanje objekata u multivarijatnom prostoru u manji broj grupa, ukazuje na slinost klater analize i faktorske analize jer se obe zbog tog cilja mogu tretirati kao metode za redukciju podataka. Ali, za razliku od faktorske analize, u klaster analizi se redukcija podataka vri s obzirom na entitete, a ne s obzirom na varijable. Treba pomenuti da se i u klaster analizi moe vriti grupisanje varijabli, kao i u faktorskoj analizi, ali to se radi samo u nekim izuzetnim prilikama jer ova tehnika nije tome namenjena. Takoe, klaster analiza radi i sa varijablama nominalanog nivoa merenja, dok je za faktorsku analizu potreban barem intervalni nivo merenja. Osnovni zadatak klaster analize jeste alokacija entiteta iz skupa objekata u grupe, tako da su varijacije izmeu grupa znatno vee od varijacija unutar grupa. Ovaj zadatak je slian zadatku koji se postavlja pred diskriminacionu analizu, kada se ona koristi kao sredstvo za klasifikaciju objekata. Meutim, dok su u diskriminacionoj analizi grupe unapred poznate, kod klaster analize je sastav, pa ak i broj grupa nepoznat. Tu samo pretpostavljamo da objekti pripadaju jednoj od prirodnih grupa ili jednostavno elimo da izvrimo grupisanje podataka u izvestan manji broj grupa. 26. Klaster analiza: matematiko statistike osnove Osnovni zadatak klaster analize je razvrstavanje skupa objekata u to je mogue manje, maksimalno homogenih, meusobno iskljuivih grupa na osnovu nekog merila bliskosti u multivarijatnom prostoru, i to tako da bliskost unutar grupa bude to vea, a izmeu grupa to manja. Mera bliskosti najee iskazuje meusobne razlike izmeu dva objekta, kada nam je zadatak grupisanje objekata. Tada mera bliskosti meri meusobno rastojanje tj. kaemo da za grupisanje objekata koristimo mere odstojanja meu objektima. Ako nam je u klaster analizi zadatak grupisanje varijabli, to je mnogo rei sluaj, mera bliskosti meri slinost izmeu varijabli, pa kaemo da za grupisanje varijabli koristimo mere slinosti meu njima. Kada mere slinosti koristimo prilikom grupisanja objekata, tada se na osnovu meusobne veze mere odstojanja i slinosti, ova poslednja prerauna u prvu. Na poetku klaster analize imamo onoliko grupa koliko imamo objekata tj. svaki objekat predstavlja grupu za sebe. Zatim, poinje grupisanje tako to objekti (ispitanici), koji imaju najsliniji sklop rezultata u odreenom skupu varijabli, formiraju parove. Postepeno se broj grupa smanjuje, da bi na kraju svi objekti bili smeteni u jednu grupu. Kriterijum za formiranje novih grupa podrazumeva da ukljuivanjem no vih objekata u grupu treba da doe do minimalnog poveanja unutargrupne varijanse. Na kraju klasterovanja grupe treba da budu iskljuujue (svaki ispitanik mora biti ukljuen u samo jednu grupu) i iscrpljujue (svi ispitanici moraju biti u jednoj od grupa). Najvaniji problem u vezi sa tehnikama/algoritmima klasterovanja jeste utvrivanje os nove/mere/kriterijuma grupisanja. Ove tehnika mogu biti zasnovane na: 1) 2) matrici distanci (to je najbolje reenje, ali ovde postoji problem sa nominalnim varijablama kod kojih ne moemo matrici slinosti (uglavnom sadre koeficijente korelacije koji se odnose na povezanost dva profila) U zavisnosti od toga za koju se matricu odluimo dobiemo drugaije rezultate. govoriti o distancama)
12
27. Mere bliskosti entiteta u klaster analizi: mere distanci Mere bliskosti izmeu objekata (npr. ispitanika) ili varijabli predstavljaju polaznu osnovu klaster analize. Kada nam je zadatak grupisanje objekata, to je najei sluaj u klaster analizi, mera bliskosti izraava razlike izmeu dva objekta. U tom sluaju, mera bliskosti odreuje stepen meusobnog rastojanja, pa je nazivamo merom distance. Mere distance su naini transformisanja svih skorova jednog ispitanika na svim varijablama, u jedan jedinstven skor. U mere distanci se ubrajaju: Euklidska, Manhattan i Mahalanobisova distanca. Najpoznatija od mera distanci je Euklidska distanca. Ona je jednostavna geometrijska distanca u multidimenzionalnom prostoru. Predstavlja sumirane razlike izmeu rezultata na varijablama razliitih ispitanika. Euklidsk a distaca se rauna iz sirovih, a ne standardizovanih skorova. Njena najvea mana je u tome to nije kompatibilna sa transformacijama podataka tj. menja se ako se zameni skala podataka na osnovu koje su izraunate distance. Osim prostih Euklidskih postoje i kvadrirane Euklidske distance koje su praktine zbog toga to distance izmeu objekata prikazuju veim, to olakava diferencijaciju meu njima. Manhattan distanca je nalik kvadriranim Euklidskim distancama, ali ona umesto da razlike kvadrira uzima u obzir njihovu apsolutnu vrednost time zanemarujui njihov predznak. Ona, dakle, predstavlja aritmetiki sredinu razlika rezultata ispitanika na varijablama izraenu u apsolutnim vrednostima. Najee daje vrlo sline rezultate onima dobijenim primenom Euklidkske distance. Manhattan odstojanje je manje osetljivo na prisustvo nestandardnih opservacija (outlier-a), zato to se razlika izmeu rezultata ne kvadrira. U upotrebi je i Mahalanobisova distanca koja vodi rauna o kovarijacionoj strukturi podataka, pa se zbog toga i naziva multivarijacionom merom distance. Ona eliminie efekat koreliranosti promenljivih, pa se, ukoliko je u analizi upravo ovaj efekat bitan za razlikovanje objekata, Mahalanobisova distanca esto zamenjuje Euklidskom distancom. 28. Mere bliskosti entiteta u klaster analizi: mere slinosti profila Tehnike klasterovanja koje se zasnivaju na merama slinosti profila koriste se matricama slinosti. One su uglavnom matrice korelacija. Ovakve mere slinosti zasnovane na korelacijama se u poslednje vreme dosta esto koriste, i to kada nam je bitnija slinost strukture profila nego distanca izmeu njih. Prilikom poreenja slinosti profila zanemaruje se predznak koeficijenta korelacije. Ova mera slinosti (zasnovana na r koeficijentu) se moe u velikoj meri razlikovati od Euklidske distance. Pored mere distance izmeu dva profila, kao sumarnog pokazatelja razlike izmeu njih, za analizu slinosti i razlika meu njima koristimo grafik profila. Njega je mogue dati ako su varijable istovrsne ili je prethodno izvrena njihova standardizacija. Pri poreenju dva profila moemo gledati njihove NIVOE, stepen VARIJABILITETA i njihov OBLIK. (Kvadriranu Euklidsku distancu moemo razloiti na tri komponente od kojih svaka ukazuje na doprinos ukupnom odstojanju: meusobne razlike u nivou, variajbilitetu i oblicima profila ) 29. Klaster analiza: hijerarhijsko grupisanje Kada se odabere prikladna mera slinosti ili razlike izmeu objekata, vri se izbor metode grupisanja. Jedan skup metoda grupisanja su hijerarhijske metode koje se mogu podeliti na dve grupe prema tome da li su zasnovane na iterativnom spajanju ili deljenju grupa i objekata. 1) Prva grupa hijerarhijskih metoda polazi od individualnih objekata, koji na poetku predstavljaju klastere, i koji se prema odreenom kriterijumu udruuju u grupe (npr. kod pojedinanog povezivanja u svakoj iteraciji se spajaju dva klastera sa najmanjom distancom). U narednim koracima formiraju se nove grupe udruivanjem ranije formiranih grupa ili individualnih objekata. Pri tome, jedanput udruene grupe ostaju zajedno tj. u kasnijim iteracijama nema mogunosti prelaska iz jedne u drugu grupu. Udruivanje se zavrava jednim klasterom koji sadri sve objekte. Ove metode grupisanja nazivaju se HIJERARHIJSKE METODE UDRUIVANJA ili metode koje se zasnivaju na BOTTOM -UP algoritmima. 2) Druga grupa metoda se naziva HIJERARHIJSKIM METODAMA DEOBE ili metodama zasnovanim na TOP-DOWN
13
algoritmima. One prelaze isti put, ali se kreu u suprotnom smeru, polazei od jedne grupe koja sadri sve objekte. Prema odreenom kriterijumu izdvajaju se objekti ili grupe dok se ne formira onoliko grupa koliko ima objekata. Bez obzira na metodu hijerarhijskog grupisanja rezultati koje na kraju postupka dobijamo informiu nas o: sastavu grupa, homogenosti grupa i, dopunski, o redosledu udruivanja. Bottom-up algoritam se ee koristi nego Top-down. Metode hijerarhijskog udruivanja, zasnovane na ovom algoritmu, razlikuju se prema tome kako odreuju meusobnu bliskost grupa tj. distancu meu klasterima. Tako postoje razliite podvrste metoda hijerarhijskog udruivanja. Poznate su kao metode povezivanja, a najee primenjivane meu njima su: 1) pojedinano povezivanje poznato i kao metod najblieg suseda; uvek se vri izmeu dva entiteta/grupe koje se nalaze na najmanjoj distanci 2) proseno povezivanje distanca se ovde odreuje prema prosenom odstojanju svih objekata koji pripadaju dvema grupama; to znai da se ovde povezivanje onda vri meu centroidima grupa 3) potpuno povezivanje poznato i kao metod najdaljeg suseda; uvek se vri izmeu dva entiteta koji se nalaze na najveoj distanci Potpuno povezivanje proizvodi kompaktne klastere krunog oblika, a pojedinano izduene klastere. (Treba probati razliite metode, videti koja od njih proizvodi najznaajnije reenje, te njega prihvatiti. Ne postoji postupak za testiranje znaajnosti) Proces udruivanja moemo predstaviti u formi obrnutog drveta poznatog kao DENDOGRAM. Ovaj grafiki prikaz poseduje i skalu koja pokazuje kako greka raste u procesu udruivanja. Na osnovu dendograma moemo zakljuivati o broju grupa koje treba zadrati, i to prema sledeim kriterijumima: 1) porast greke 2) saglasnost sa postojeim ili oekivanim reenjem 3) saglasnost dela sa celinom 30. Klaster analiza: K-means grupisanje K-means grupisanje je najpopularniji nehijerarhijski metod grupisanja. Za razliku od hijerarhijskih, ove metode doputaju mogunost premetanja objekata iz jedne u drugu grupu, ukoliko to doprinosi optimalnosti reenja. Kod K-means grupisanja broj grupa je unapred definisan. Nakon odreivanja broja grupa potrebno je sl uajno odrediti inicijalnu poziciju centroida za svaku od grupa. Potom se odredi distanca izmeu svakog objekta i svake grupe (njenog inicijalnog centroida). Svi objekti se dodeljuju klasterima u skladu sa kriterijumima (lociraju se u grupe koje su im najblie). Nakon pridruivanja objekta nekoj novoj grupi, ponovo se izraunava centroid grupe iz koje je objek at premeten i klastera kome je objekat pridruen. Ponovo, za svaki objekat, izraunavamo njegovo odstojanje od centroida grupa i vrimo preraspodelu objekata izmeu grupa sve dok reenje ne konvergira (tj. postane stabilno). Obino se pretpostavlja da tokom preraspodele nije dolo do promene. Dakle, K-means grupisanje se svodi na problem optimizacije tj. minimiziranja sume kvadrata distanci unutar klastera (analogno principu najmanjih kvadrata u regresionoj analizi koji glasi: Najpotenija je ona regresijska linija koja ima najmanju sumu kvadrata odstupanja pojedinih rezultata od tog pravca.). Najvei problem u K-means grupisanju predstavlja pitanje: Kako odrediti broj klastera? Ne postoji sasvim jasan odgovor na ovo pitanje i jednostavno reenje ove ozbiljne slabosti ovog metoda grupisanja. Ipak, postoje dva mogua pristupa u reavanju ovog problema: 1) preenje kvaliteta razliitih reenja dobijenih variranjem broja klastera (najee primenjivano, a moda i najbolje reenje; problem-preterana arbitrarnost) 2) modeli zasnovani na verovatnoama (problem-teko je nai nepristrasno reenje)
14
31. Multidimenzionalno skaliranje: namena i upotreba Multidimenzionalno skaliranje je prvenstveno tehnika za vizuelizaciju podataka. Njen primarni cilj je rasporeivanje entiteta u multidimenzionalnom prostoru i otkrivanje latentnih dimenzija koje se nalaze u osnovi opaenih slinosti i razlika izmeu entiteta. MDS prua dodatne informacije za interpretaciju rezultata klaster analize. Uz pomo njega se klasteri reprodukuju u multidimenzionalnom prostoru, gde pokuavamo da pribavimo informacije o tome po emu su oni slini, a po emu se razlikuju. Dakle, kao to je reeno, u MDS se utvruje latentna struktura entiteta (ne varijabli). MDS radi sa distancama i njegova je prednost u tome to doputa rad sa svim matricama distanci i slinosti. Multidimenzionalno skaliranje se primenjuje npr. u istraivanjima koja se bave time kako opaamo druge osobe. Tu se analiziraju slinosti izmeu razliitih deskriptora osobina kako bi se otkrila skrivena (latentna) viedimenzionalnost opaanja osobina kod drugih ljudi. 32. Multidimenzionalno skaliranje: matematiko -statistike osnove MDS se smatra alternativom faktorskoj analizi. Kod njega se, kao i u faktorskoj analizi otkrivaju latentne dimenzije, ali ove dimenzije nisu zasnovane na interkorelacijama varijabli, nego na distancama izmeu entiteta. MDS je, takoe, i tehnika sa liberalnijim zahtevima u odnosu na faktorsku analizu. Moe da analizir a varijable svih nivoa merenja, ne obraajui panju na zahtev za normalnou di stribucije. Osim toga, u faktorskoj analizi, slinosti izmeu objekata (tj. varijabli) su izraene iskljuivo u matricama interkorelacija, dok je sa MDS mogue analizirati bilo kakve matrice slinosti i razlika, ukljuujui i matrice interkorelacija. to se tie razlika u dobijenim rezultatima, faktorska analiza naginje ka tome da izoluje vie faktora (dimenzija) nego MDS. Zbog toga, MDS esto daje jednostavnija i interpretabilnija reenja. Kao to smo rekli, polazna matrica u MDS je najee matrica distanci. Da bi distance predstavili manjim brojem dimenzija u multidimenzionalnom prostoru, one se transformiu. Svaka transformacija podrazumeva greku. Logino, to je manje izolovanih dimenzija greka e biti vea, a to ih je vie greka je manja, ali je interpretacija tea. Najire koriena mera greke u MDS je STRESS. Stress predstavlja razliku izmeu opaenih i reprodukovani h distanci tj. razliku izmeu distanci iz matrice distanci i transformisanih distanci tj., najjednostavnije reeno, razliku izmeu distanci pre i posle transformacije. Za MDS ne postoji poseban test znaajnosti. Stress se najee koristi kao pokazatelj broja dimenzija koje e ui u interpretaciju. Grafiki kriterijum za odreivanje broja dimenzija jeste Scree Plot, koji na x -osi ima broj dimenzija, a na y-osi vrednost stresa. Na kraju, najprostije reeno, kriterijum za odreivanje broja dimenzi ja jeste dobra vizuelizacija i interpretabilnost rezultata. 31. Multidimenzionalno skaliranje: interpretacija rezultata Interpretacija dimenzija obino predstavlja poslednji korak u analizi. Ona je u potpunosti arbitrarna i subjektivna. Preduslov za interpretaciju u MDS je grafiko predstavljanje entiteta, najee dvodimenzionalnim skater dijagramima. Trodimenzionalna reenja su takoe u upotrebi, ali je njihova interpretacija tea i komplikovaija. Entiteti se u prostoru rasporeuju na osnovu distanci, a osobine entiteta koji ine grupu omoguavaju interpretaciju dimenzija. Osim traenja znaajnih dimenzija, zanimljivo je uoiti i klastere taaka ili p osebne sklopove i konfiguracije. U interpretaciji koristimo i meru greke, poznatu kao Stress, prvenstveno kao pokazatelj broja dimenzija.
15

Multivarijatna Analiza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Multivarijatna Analiza

Uploaded by

Copyright:

Available Formats

NAPOMENE (od Tanje Jevremov): -na pitanja koja se tiu matematiko-statistikih osnova razliitih tehnika, preporuljivo je obuhvatiti sledee

Izum faktorske analize se esto pripisuje arlsu Spirmanu, koji:

You might also like