You are on page 1of 19

SVEUČILIŠTE U ZADRU

Multidimenzionalno skaliranje
Seminarski rad

ZADAR, veljača, 2019.

1. Uvod
"There is no statistical tool that is as powerful as a well-chosen graph"
- Chambers, 1983

U psihologiji, ali i drugim društvenim znanostima u kojima se proučava i analizira


međusobni odnos više od dvije varijable istovremeno Chambersov (1983) citat može biti
uvelike koristan. Naime, grafičkim metodama prikazivanja podataka lakše se zahvaćaju i
razumiju odnosi između velikog broja varijabli. Tijekom posljednja dva desetljeća,
razvijen je velik broj novih metoda za grafičko prikazivanje podataka (Banjanin, 2016).
Osnovni cilj grafičkog prikaza podataka trebao bi biti smanjivanje kognitivnog napora
potrebnog da se napravi raspored odnosa među varijablama. Ovaj rad će se baviti jednom
od tehnika koja pomaže pri obradi velikog broja podataka: multidimenzionalnim
skaliranjem.
Često u pokušajima analiziranja i organiziranja podataka u visokodimenzionalnom
prostoru istraživači mogu naići na problem, koji je Richard Bellman opisao kao "kletvu
dimenzionalnosti". Multidimenzionalno skaliranje je jedna od multivarijatnih statističkih
tehnika pomoću koje se pronalazi skup točaka malih dimenzija koji najbolje aproksimira
visoko dimenzionalnu konfiguraciju podataka, predstavljenu početnom matricom
bliskosti- izbjegavajući na taj način "kletvu dimenzionalnosti".
Na početku seminara govorit će se općenito o multidimenzionalnim analizama, o
tome kako se dobiva matrica bliskosti iz skupa podataka, zatim kakvi tipovi podataka
mogu biti korišteni u MDS-u. U nastavku seminara govorit će se o dvije metode-
klasičnom MDS-u i ne-metrijskom MDS-u.
U drugom dijelu seminara ukratko će se usporediti klaster analiza i MDS i predstavit
će se primjer korištenja MDS-a u psihologijskom istraživanju.
Na posljetku, bit će demonstrirano korištenje tehnike multidimenzionalnog
skaliranja u programu XLSTAT.

2. Multidimenzionalni postupci
U prirodnim situacijama postoji mnoštvo varijabli koje su međusobno povezane.
Govorimo o multidimenzionalnosti pojava, tj. o pojavama (događajima ili stanjima) koje
su opisane s velikim brojem varijabli. Pritom je svaka varijabla posebna manifestna
(mjerljiva) dimenzija. Primjereno je poželjeti te varijable (zbog dinamičkog ekvilibrija u
kojem se nalaze) analizirati sve zajedno (kao entitet u cjelini) i istovremeno, a ne jednu
po jednu ili par po par jer tako varijable bivaju izvučene iz njihovog realnog konteksta
(Kujundžić Tiljak i Ivanković, 2011). Manje je, dakle, prirodno razbijati cjelinu na
dijelove i promatrati ih neovisno od drugih varijabli. Analitičke postupke kojima
analiziramo više varijabli istovremeno nazivamo multivarijatnim ili multidimenzionalnim
analitičkim postupcima.

2. Matrica sličnosti

Većina multidimenzionalnih podataka prikazuje se u pravokutnom obliku, gdje


elementi svakog reda odgovaraju vrijednostima jednog sudionika u svakoj danoj
varijabli, a elementi svakog stupca odgovaraju vrijednostima jedne varijable. Neka je n
broj različitih sudionika i neka su razlike (sličnosti) između sudionika i i j dani sa xij.
Polazna matrica (matrica podataka) X je pravokutna matrica formata n X q

gdje je n broj sudionika, a q broj zavisnih varijabli. Dakle xij predstavlja vrijednost j-te
varijable i i-tog sudionika.

Matrica udaljenosti (sličnosti ili razlike) je n X n matrica dobivena iz matrice X.


Svaka MDS analiza počinje s matricom udaljenosti D. Postoji više načina definiranja
udaljenosti dvije točka u prostoru, a svaki od njih je određen u modelu prostora; odnosno
svaki model prostora ima svoju funkciju udaljenosti. Neki od ovih modela su Euklidski
prostor, Minkowski model, Attneave prostor i drugi. U ovom seminarskom radu koristit
će se model Euklidskog prostora. Standardna euklidska udaljenost računa se kao
kvadratni korijen iz sume kvadriranih razlika vrijednosti za svaku varijablu. Prikazano
formulom:

(X i  Yi ) 2
D (X,Y) =

Tablica 1 Primjer izračuna Euklidske udaljenosti

V1 V2 V3 Udaljenost
(D)
X 6 2 3
Y 4 2 5
X-Y 2 0 2
(X-Y)2 4 0 4 8  2.828

3. Osnovni algoritam MDS-a i stress funkcija

Računski gledano, MDS nema egzaktnu proceduru nego iterativno pronalazi


konfiguraciju točaka u višedimenzionalnom prostoru koja najbolje aproksimira
promatrane udaljenosti (sličnosti/razlike). Koristi se, dakle, algoritam funkcije
minimizacije koji premješta objekte u prostoru definiranom određenim brojem dimenzija
te uspoređuje na svakom koraku koliko dobro udaljenosti među točkama predstavljaju
sličnosti/razlike u ulaznim podacima. Na svakom koraku uspoređuje se stanje s
prethodnim iteracijama, a proces završava kada je pronađena konfiguracija koja je
minimizirala nepodudaranje pronađene konfiguracije točaka s promatranim
udaljenostima među podacima. Mjera kojom se prosuđuje koliko dobro (ili loše)
određena konfiguracija točaka u prostoru reprezentira matricu podataka naziva se stress
funkcija. Stress vrijednost, za koju je karakteristično da se smanjuje povećanjem broja
dimenzija, izračunava se prema sljedećoj formuli:

U prikazanoj formuli, dij predstavlja stvarnu udaljenost među točkama, a xij udaljenost
predviđenu MDS modelom. U svom originalnom radu o multidimenzionalnom
skaliranju, Kruskal (1964) iznosi da stress vrijednost manja od 0,2 znači dobro slaganje
podataka prikazanih MDS-om i stvarnih, promatranih podataka:

Tablica 2 Pristajanje podataka u funkciji stress vrijednosti prema Kruskalu (1964)


Stress Pristajanje podataka
0,2 loše
0,1 prihvatljivo
0,05 dobro
0,025 izvrsno
0,00 savršeno

Dakle, što je manja stress vrijednost, bolja je primjerenost reproducirane matrice


udaljenosti stvarnoj matrici podataka. Ova sličnost (ili različitost) stvarnih nasuprot
transformiranih udaljenosti može se vizualizirati Shepardovim dijagramom.

4. Shepard dijagram
Shepardov dijagram sučeljava transformirane udaljenosti na ordinati (y) s originalnim
sličnostima na apscisi (x).
Slika 1 Primjer Shepard dijagrama

Vertikalne udaljenosti između točaka i regresijske linije predstavljaju grešku


odgovarajuće udaljenosti i MDS rješenja. Laički rečeno, što točke bolje prianjaju
regresijskoj liniji, to udaljenosti dobivene MDS-om i stvarni podaci više korespondiraju.

5. Broj dimenzija
Općenito gledajući, što se više dimenzija koristi za reprodukciju stvarnih udaljenosti,
veća je korespondentnost stvarnih i transformiranih udaljenosti (i sukladno tome, manja
je stress funkcija). Međutim, cilj MDS-a je reducirati danu matricu podataka kako bi se
lakše donosili zaključci. Dakle, izbor dvije ili tri dimenzije optimalan je jer omogućava
vizualizaciju dijagrama što bitno pojednostavljuje interpretaciju. Uobičajeni način
odlučivanja koliko dimenzija uzeti naziva se scree test. Scree test je dijagram koji
sučeljava broj dimenzija s pripadajućim stress vrijednostima. Cilj je pronaći točku u kojoj
se blagi pad stress vrijednosti "izravnava", odnosno točku nakon koje se ne događa
značajan pad (metoda "lakta").
Stress vrijednost

Broj dimenzija

Slika 2 Primjer scree plota


6. Interpretacija dimenzija

Posljednji korak MDS analize jest interpretacija dimenzija. Stvarna orijentacija


osi je proizvoljna i grafikon se može rotirati u bilo kojem smjeru, bez posljedica za
lakoću interpretacije rezultata, no još uvijek ostaje problem smislenosti dimenzija.
Dimenzije su smislene ako njihova interpretacija ostaje stabilna kada se podaci
promijene. Ako se dimenzije ne mogu ni na koji način interpretirati stabilno rješenje uz
niske stress vrijednosti ništa ne znači. Najčešći način interpretacije dimenzija je intuitivno
izvesti zajedničke značajke objekata na ekstremnim krajevima dimenzije. Ako su objekti
sa ekstremnim vrijednostima koordinate različiti po određenoj značajki od ostalih
objekata te ako su s druge strane (promatrajući istu os) objekti na krajnjim točkama
različiti od ostalog po istoj značajki onda se ova značajka može koristiti za identifikaciju
dimenzije.
Analitička interpretacija dimenzija može se izvesti korištenjem multiple
regresijske analize nad varijablama koje su na koordinatama različitih dimenzije
(Johnson, 1987).
7. Klasično i nemetrijsko multidimenzionalno skaliranje
Osnovna razlika klasičnog i nemetrijskog MDS krije se u tome što su kod
klasičnog MDS-a udaljenosti na mapi u istoj metrici (skali mjerenja) kao i originalni
podaci. Suprotno, recimo u društvenim znanostima, vrlo često će vrijednosti biti
interpretirane u ordinalnom smislu, kao što je slučaj sa subjektivnim uspoređivanjem
objekata. U tom slučaju govori se o nemetrijskom ili ordinalnom MDS-u.
Budući da je ovaj seminarski rad u domeni psihologije, društvene znanosti, bit će
detaljnije opisano ordinalno multidimenzionalno skaliranje.
U nekim psihologijskim radovima i u istraživanju tržišta, matrice sličnosti
dobivaju se postavljanjem pitanja sudionicima i bazirano na njihovim procjenama o
sličnosti i razlikama objekata, kreiraju se matrice. Prilikom prikupljanja takvih podataka,
može se steći dojam da su sudionici u mogućnosti dati samo "ordinalne" ocjene. Na
primjer, kada se uspoređuje više boja, sa sigurnošću se mogu dobiti odgovori da je neka
boja svjetlija od druge, ali ako bi pitanje bilo koliko je točno svjetlija jedna boja od druge,
odgovorima bi nedostajalo pouzdanosti. Zbog toga je 1960-ih nastala metoda MDS-a
koja koristi samo rang sličnosti da bi se napravio prostorni prikaz. Drugim riječima,
osmišljena je metoda ordinalnog MDS-a koja je invarijantna na monotone transformacije
promatrane matrice sličnosti. Ovu je metodu prvi predstavio Joseph Kruskal.

8. Klaster analiza i multidimenzionalno skaliranje

Izbor između udaljenosti i bliskosti nije od tolikog značaja u klaster analizi, dok je
u MDS-u udaljenost primarni koncept. To znači da iako se počne s matricom sličnosti ili
razlike, vjerojatno će se morati pretvoriti u matricu udaljenosti. Pravilnom primjenom i
dobrim razumijevanjem kako multidimenzionalnog skaliranja tako i klaster analize,
velika količina podatka se može lako obrađivati, i potom koristiti u razne svrhe. Od
marketinga, koji iziskuje obradu velikog broja podataka zbog targetiranja, pa sve do
medicine gdje je veoma važno imati prave klasifikacije i podatake o samim grupama
lijekova ili bolesti.
9. Primjer korištenja MDS-a u psihologijskim istraživanjima

Hout i suradnici (2016) su proveli istraživanje iz područja psihologije u kojem su


koristili multidimenzionalno skaliranje pri obradi podataka. Vizualna pretraga spada u
domenu široko proučavanih tema u znanosti, i kao područje velikog interesa i kao alat za
proučavanje vizualne kognicije i pažnje. U brojim radovima je proučavano na koji način
ljudi pronalaze objekte pod različitim uvjetima složenosti. Primarna determinanta
vjerojatnosti uspjeha pri pronalaženju jest sličnost odnosa koji postoji u okruženju
pretraživanja, primjerice sličnost između fokusa pažnje i okoline. Međutim, osjećaj
sličnosti je intuitivan što vodi nepreciznoj operacionalizaciji ograničavajući istraživača da
valjano ispita njihov utjecaj. U spomenutom istraživanju prezentiran je novi pristup u
prevladavanju navedenog problema koji kombinira pristup multidimenzionalnog
skaliranja (MDS) s bihevioralnim ponašanjem i mjerama za praćenje pokreta očiju. Stoga
je predložena metoda kojom MDS-om se može provesti uspješna kvanitifikacija sličnosti
eksperimentalnih podražaja. Navedene kvantifikacije, zajedno s ponašajnim mjerama i
mjerama okulomotorike, omogućavaju kritička opažanja o tome kako sličnost utječe na
izvedbu, odabir i obradu informacija. Nudi se postupak provedbe pristupa, identificiraju
se područja primjene, korisnost primjene komplementarnih računalnih metoda, te
potencijalne koristi primjene navedene tehnike.

10. Literatura

Banjanin, M. (2016) Analiza sličnosti podataka. (Magistarski rad). Dostupno na:


http://www.dmi.uns.ac.rs/site/dmi/download/master/primenjena_matematika/MilosBanja
nin.pdf
Hout, M. C., Godwin, H. J., Fitzsimmons, G., Robbins, A., Menneer, T. i
Goldinger, S. D. (2016). Using multidimensional scaling to quantify similarity in visual
search and beyond. Attention, Perception & Psychophysics, 78, 3-20.
Johnson, S.C. (1987). Hierarchical clustering schemes. Psychometrika 32, 241.-
254.
Kruskal, J. B. (1964). Multidimensional scaling by optimizing goodness of fit to a
nonmetric hypothesis. Psychometrika, 29, 1–27;
Kujundžić Tiljak, M. i Ivanković, D. (2011). Multivarijatne metode. Dostupno na:
http://www.sfzg.hr/_download/repository/Multivarijatne_metode.pdf
<
11. Primjer MDS-a u XLSTAT

Osmišljeni primjer nemetrijskog multidimenzionalnog skaliranja se veže za subjektivnu


procjenu pet različitih vrsta čokoladica: Mars, Snickers, Bounty, Twix i Milky way. U
primjeru istraživanja ispitano je deset ispitanika koji su imali zadatak da na skali od pet
stupnjeva odredu (gdje 1 znači najmanje mi se sviđa, dok 5 najviše mi se sviđa) koliko im
se pojedina čokoladica sviđa. Čokoladica Twix im se najviše svidjela (Slika 1).

Slika 1 Prikaz matrice podataka X procjene sviđanja različitih čokoladica (N=10)

Da bi se moglo primijeniti multidimenzionalno skaliranje potrebno je matricu podataka


(X) pretvoriti u matricu udaljenosti. Stoga, u programu XLSTAT se klikom na
Describing data odabere Similarity/ Dissimilarity matrices (Slika 2). Zatim se trebaju
označiti dobiveni podatci u početnoj tablici te odabrati prikladna mjeru bliskosti (u ovom
primjeru je odabrana Euklidska distanca) te u outputs označiti mjeru bliskosti (proximity
matrix), odnosno odznačiti deskriptivnu statistiku (Slika 3 i Slika 4).

Slika 2 Prikaz postupka pretvorbe matrice podataka X u matricu udaljenosti

Slika 3 Označavanje podataka iz matrice podataka i odabir mjere bliskosti


Slika 4 Odabir matrice udaljenosti

Klikom ''OK'' izbacuje se matrica udaljenosti (Slika 5). Tek na dobivenoj matrici se može
primijeniti multidimenzionlano skaliranje. Sljedeći korak jest označavanje dobivene
matrice udaljenosti te odabir u XLSTAT Analyzing data, Multidimenzional scaling
(MDS) (Slika 6).

Slika 5 Dobivena matrica udaljenosti


Slika 6 Prikaz provedbe multidimenzionlanog skaliranja

Nakon odabira multidimenzionlanog skaliranja, potrebno je označiti matricu udaljenosti


te odabrati Absoulte model, prema kojem su udaljenosti u konačnom prikazu bliske
početnim Euklidskim udlajenostima (te se eliminira scale effect). Također, za odabir
broja dimenzija, u ponuđenom se određuje analiza od 2 (minimum) od 4 dimenzije
(maksimum) kako bi se provjerila distorzija povezana sa smanjenjem broja dimenzija
(Slika 7). Zatim se pod Opcijama odabire Kruskalov stress funkcija kojom se rješava
problem optimizacije (Slika 8).
Slika 7

Slika 8

Klikom 'OK' u XLSTAT programu se pojavljuje scree-plot koji prikazuje promjenu


Kruskalove stress funkcije kako se povećava broj dimenzija. Kao što se može primijetiti,
dolazi do naglog pada u stres funkciji između dvodimenzionalnih i trodimenzionalnih
prikaza te stabilnost između tri i četiri dimenzije. Kruskal stress funkcija za dvije
dimenzije iznosi 0.151 što se smatra slabom procjenom fita, dok za tri dimenzije iznosi
0.002 te za četiri dimenzije 0.001, za što se oboje smatra odličnom procjenom fita (Slika
9).
Slika 9 Prikaz Kruskal stress funkcije za različiti broj dimenzija te screeplot

Od velikog značaja za multidimenzionalno skaliranje je upravo analiza Shepardovog


dijagrama iz kojeg je moguće zaključivati je li dobivena MDS reprezentacija originalnih
podataka interpretabilna. Prema Slici 10, Slici 11 i Slici 12 vidljiva je valjanost
konfiguracije za odabrane tri i četiri dimenzije. Naime, kod dvodimenzionalnog prikaza,
vidljivo je raspršenje, odnosno točke ne prianjaju točno na regresijsku liniju, dok se kod
trodimenzionalnog i četverodimenzionalnog prikaza točke nalaze točno na regresijskoj
liniji. Problem optimizacije je manji što je veći broj dimenzija međutim kod odabrane
četiri dimenzije javlja se problem teže interpretacije. Stoga, na temelju dobivenih Kruskal
stress funkcija može se zaključiti da je najbolja opcija odabir tri dimenzije s kojom se
rješava problem optimizacije.
Slika 10 Prikaz Shepardovog dijagrama za dvije dimenzije

Slika 11 Prikaz Shepardovog dijagrama za tri dimenzije


Slika 12 Prikaz Shepardovog dijagrama za četiri dimenzije

Kako bi se dobila još bolja kvaliteta prikaza, koristili smo XLSTAT -3DPlot za prikaz
podataka u tri dimenzije. Za navedeno se trebaju odabrati podaci konfiguracije za tri
dimenzije i kliknuti Visualizing data/ XLSTAT-3DPlot (Slika 13). Kao što je moguće
vidjeti, čokoladice su u trodimenzionalnom prikazu prikazane različitim bojama. Da bi se
mogle raspoznati kojom su bojom koje čokoladice prikazane, potrebno je pogledati
tablicu konfiguracija na kojom smo napravili trodimenzionalni prikaz. Crvenom bojom je
označena čokoladica Milky way, žutom bojom Bounty, svijetlozelenom Twix,
tamnozelenom Snickers te plavom bojom Mars (Slika 13, Slika 14). Da bi se odredilo o
kojim se točno dimenzijama radi na temelju kojih su ispitanici razlikovali navedene
čokoladice potrebno bi bilo daljnje istraživanje te veće znanje o pojedinim čokoladicama
(koliki je udio kakaa, lješnjaka itd.).
Slika 13 Prikaz odabira trodimen<zionalnog prikaza
Slika 14 Trodimenzionalni prikaz za tri dimenzije

You might also like