You are on page 1of 382

Nije uvek lako dati taan odgovor

na pogreno postavljeno pitanje.


Stojan Hadigali,
seljak iz Nemenikua

IDEJA ZA IZRADU OVE KNJIGE DOLA JE


OD PROF. DR ALEKSANDRA KOSTIA I
DR LAZARA TANJEVIA SA ODELJENJA ZA PSIHOLOGIJU
FILOZOFSKOG FAKULTETA U BEOGRADU NA KOM JE RADNI VEK
ZAVRIO PROFESOR KONSTANTIN MOMIROVI
KNIGA JE PRIREENA I NAMENJENA
ZA UVANJE SEGMENATA NAUNOG RADA
PROFESORA KONSTANTINA MOMIROVIA
TE NIJE ZA KOMERCIJALNU UPOTREBU.
ISTO TAKO SE NI DELOVI OVE KNJIGE NE MOGU KOMERCIJALNO KORISTITI,
NI SAMOSTALNO, NI U OKVIRU NEKOG DRUGOG IZDANJA.

REPUBLIKI ZAVOD ZA STATISTIKU


STATISTIKO DRUTVO SRBIJE

KONSTANTIN MOMIROVI
U STATISTICI
PRIREDILI
PROF. DR SRAN BOGOSAVLJEVI
PROF. DR MILADIN KOVAEVI

BEOGRAD, 2010.

KONSTANTIN MOMIROVI U STATISTICI


Izdava:
Republiki zavod za statistiku
Statistiko drutvo Srbije
Za izdavaa:
prof. dr Dragan Vukmirovi
Priredili:
prof. dr Sran Bogosavljevi
prof. dr Miladin Kovaevi
Redakcioni odbor:
prof. dr Sran Bogosavljevi
prof. dr Miladin Kovaevi
mr Milena Radanov-Radiev
Svetlana Dimitrijevi
Ljiljana Gaji-Majer
Priprema:
Ljiljana Stani
Milan ormaz
Dragana Stelji
Nataa Cvjetianin
Gordana Isailovi
tampa:
Republiki zavod za statistiku
Tira: 350

Uvod

Prof. dr Miladin Kovaevi

PREDGOVOR
Profesor Konstantin Momirovi
U STATISTICI

Istorija nije samo naslee ve i pamenje. Profesor Kosta Momirovi je neko ko se pamti ne
samo zbog neverovatno irokog i velikog naunog i istraivakog naslea ve, pre svega, kao ovek
sa kojim susret menja optiku i ubeenja. Ako smo pre tog susreta verovali da su matematike
discipline ezoterini okvir u kome se zabavljaju matematiari, kao svet za sebe, nemajui
naroitog dodira ak ni sa istraivaima u prirodnim naukama (biologija, medicina, fizika...) koji
imaju posla sa primenama matematike statistike, posle smo morali da shvatimo da je standardna
matematiko-statistika teorija ak nedovoljno generalna za potrebe adekvatnih primena u polju
socijalnih disciplina. Kada je na inicijativu prof. Branislava Ivanovia i prof. Srana
Bogosavljevia, u organizaciji nekadanjeg Saveznog zavoda za statistiku 1988. pokrenut Majski
skup Sekcije za klasifikacije Statistikog drutva Jugoslavije, odrana je prva sednica u Mostaru u
maju te godine. Prvi put sam tada video profesora Kostu Momirovia i bio u prilici da sluam
njegovo izlaganje i diskusije gotovo o svim radovima koji su prezentovani i ticali su se teorije
klasifikacija i njene primene u socijalnim istraivanjima. Profesor Kosta Momirovi je tu
metodologiju radije nazivao taksonomskom analizom, a u literaturi o tehnikama multivariacione
analize ta metodologija se uobiajeno naziva klaster analizom. Nisam bio jedini matematiar koji je
bio iznenaen nivoom apstrakcije i optosti, kao i umeem baratanja matematikom aparaturom,
poglavito onom koja se odnosila na linearne modele i linearno statistiko zakljuivanje, algebru
matrica, probabilistike discipline i metode i, uopte, multivariacionu statistiku. Njegov pristup je
bio na prvi pogled gotovo hermetian i za posveene matematiare. U isto vreme prelaz na
konkretna pitanja i opservacije u polju socijalnih disciplina bio je zapanjujui. Kasnije, saznavi da
je profesor Kosta Momirovi po osnovnom obrazovanju i preokupaciji bio psiholog, uvaavanje je
bilo samo uveano. Jo se seam njegovog anegdotskog odgovora na moje pitanje kako je savladao
toliko matematike ako ve nije proao standardne matematike kole:
Moj filozofski fakultet bio je na spratu vie iznad Matematikog, u istoj zgradi. Ja sam
silazio da sluam lekcije algebre, analize i probabilistike, a na mom spratu sam samo polagao i
upisivao ocene iz drutvenih disciplina. To je bio spoj lepog i korisnog.
Radovi profesora Koste Momirovia prikazani u ovoj knjizi upravo su posveeni teorijskim
generalizacijama i razradama sa, ne retko, primerom primene u socijalnom polju i odgovarajuim
softverskim reenjem. Obuhvaeni su uglavnom radovi iz tri izvora: oni koji su objavljeni u
zbornicima radova pomenutog Majskog skupa Sekcije za klasifikacije Statistikog drutva
Jugoslavije, radovi koji su objavljeni u Statistikoj reviji, asopisu Statistikog drutva Jugoslavije,
kasnije SR Jugoslavije a sada Srbije, i reprint jedne retke knjige profesora Koste Momirovia
(koja nam je bila dostupna u fototipskom izdanju) pod naslovom Uvod u analizu nominalnih
varijabli. U tim radovima tretirane su metode analize nominalnih varijabli na osnovama teorije
linearnih modela koja obuhvata poglavito tri najznaajnija koncepta, a to su:
5

Konstantin Momirovi u statistici

faktorska analiza,
kanonika analiza kovarijansi, i
klaster analiza.

Radovi koji su dominantno aplikativni i posveeni odreenom socijalnom problemu ili


pitanju, ovde su izostavljeni sa namerom da u jednom serijalu ovakvih publikacija budu posebno
obuhvaeni. Naalost, ovom prvom knjigom nisu obuhvaeni ni mnogi njegovi radovi koji imaju i
deskripciju teorijskog bekgraunda i aplikativnu sadrinu jer smo, u nastojanju da obuhvatimo sve,
uvideli da jednom knjigom to nije celishodno i razumno, pa ostaje namera da se prirede naredne.
Brojni radovi aplikativnog karaktera nastali su kao rezultat znaajnih istraivanja u podruju
antropologije, kriminologije, socijalne psihologije, kineziologije i drugih socijalnih disciplina, gde
je profesor Momirovi bio najaktivniji. On je, u stvari, okupio i izgradio ceo jedan tim vrsnih
istraivaa u socijalnim disciplinama. Pomenuu samo neke, koji se najee pojavljuju u
zajednikim radovima, kao Marijan Gredelj, Stanislav Fajgelj, Sran Bogosavljevi, Ankica Hoek,
Vesna Dobri, Boris Volf, Hubert Maver, Lazar Tenjevi, Aleksandar Zori i drugi, tim koji je sa
njim vodio permanentnu raspravu kako o metodama koje su primenjivane, tako i o nalazima i
interpretacijama derivata koje obezbeuju metode lineranih modela, najee kroz primenu
bazinog koncepta kanonike korelacije.
I sam je, pored svojih saradnika kao to je Marijan Gredelj, radio na programima za
kompjutersku obradu primenom izvornih programskih jezika ili optih alata.
Kada je re o radovima koje pokriva ova, prva, knjiga, oni obuhvataju najvei deo teorijskih
uoptavanja i prilagoavanja koje je profesor Momirovi izveo na liniji primene linearnih modela,
poglavito analize kanonike korelacije koju je on dobro interpretirao kao najoptiji koncept koji,
kao posebne, obuhvata sve ve standardne koncepte faktorske i klaster analize. Ovo je podruje
znatne matematike optosti i kompleksnosti, a sa nekom lakoom je profesor Momirovi teorijske
modele prevodio na istraivake zadatke. Oni koji bolje poznaju ove oblasti kau da teorijski
doprinosi profesora Momirovia imaju vrednost najznaajnijih, mada ne sasvim vidljivih na sceni
velike naune zajednice, jo uvek, jer status autora i njegovog rada, naalost, znatno odreuje
veliina matice iz koje dolazi. On je, na primer, u kontekstu faktorske analize bitno unapredio
Guttman-ovu teoriju imaa (image) i antiimaa, kao modela merenja, kreirajui kompleksne
pokazatelje pouzdanosti, homogenosti i reprezentativnosti. Psiholoka kola u Beogradu je dobila
sasvim nove obrise i zamajac u primeni multivariacione analitike zahvaljujui istraivakom i
pedagokom radu profesora Momirovia. Istraivai u oblasti psihologije, teorije linosti i
povezanih disciplina smatraju da je njegov, moda, najvei doprinos Kibernetski model linosti,
koji je duga istorija velikih projekata koje je vodio, kao to su Osamnaest patolokih faktora,
Istraivanje maloljetnike delinkvencije, Klasifikacija i selekcija u JNA. Na ovim projektima,
profesor Kosta Momirovi je okupljao znaajne institute i institucije u bivoj Jugoslaviji kao to su:
Centar za klasifikaciju i selekciju ljudstva za potrebe JNA u okviru tadanjeg Saveznog
sekretarijata za narodnu odbranu, Institut za socioloka i kriminoloka istraivanja u Beogradu,
Institut za kineziologiju u Zagrebu. Bavei se statistikom metodologijom i programerstvom
profesor Momirovi je, naizgled usput, osnivao i institute ili centre koji su delovali, i deluju, kao
jedinstveni pregaoci na podrujima za koja su osnivani. To je sluaj sa Sveuilinim raunskim
centrom SRCE u Zagrebu, koji je godinama bio rasadnik kadrova i znanja u automatskoj obradi
podataka, u bivoj Jugoslaviji.
Ovaj kratak osvrt na naunu biografiju i rad Koste Momirovia zavriu reenicama iz In
memoriam, koji mu je posvetio jedan od uenika i saradnika, Stanislav Fajgelj: ... Karl Pearson
je svoj mentalitet opisao kao misionara iz vremena Francisa Drakea. Taj poriv i posveenost koji je
Hanibala vodio preko Alpa, a Marka Pola u Kinu, posjedovao je i Kosta. Uvijek prvi, uvijek u
novim stvarima, uvijek ispred drugih....

Uvod

Konstantin Momirovi u statistici

Uvod

BIOGRAFIJA
Konstantin Momirovi

Konstantin Momirovi je roen 13. januara 1932. godine u Tetovu (sada BJR Makedonija),
gde je iveo do 1939. godine. Od 1939. do 1942. godine iveo je u Ivangradu (sada Berane, Crna
Gora).
Od 1942. do 1950. godine iveo je u Beogradu, gde je zavrio Prvu beogradsku gimnaziju,
kao odlian uenik. Iste godine je preao u Zagreb, upisao psihologiju na Filozofskom fakultetu i
diplomirao 1955. godine. Za vreme i posle studija pohaao je i studije medicine, filozofije i istorije
umetnosti. Doktorirao je na Filozofskom fakultetu Univerziteta u Zagrebu, sa tezom Struktura
faktora nekih simptoma neuroza. U Beograd se vraa 1991. godine, i u njemu ivi i radi do kraja.
U Bilei je 1959/60. zavrio kolu za rezervne oficire JNA.
Aktivno se bavio sportom, kao junior koarkom, a kasnije prvenstveno dudom. Od 1952.
do 1955. bio je ampion Zagreba, Hrvatske i Jugoslavije, od 1957. je trener duda u Institutu za
fiziku kulturu u Zagrebu, izmeu 1961. i 1968. bio je kapiten i selektor nacionalnog dudo tima.
1957. osvaja (crni pojas) 1. Dan, 1961. 2. Dan, 1966. 3. Dan, sve na Kodokan institutu u Tokiju. Od
1975. nosilac je 4. Dana.
Istovremeno se aktivno, i vrlo uspeno, bavio ahom.
Prvi posao Momirovi je dobio u Vojnoj bolnici u Zagrebu kao ef odeljenja za primenjenu
psihologiju. Izmeu 1956. i 1966. radio je u Institutu za istraivanje problema u razvoju dece i
omladine, gde je predvodio grupu za eksperimentalne projekte i statistiku.
U Zagrebu (od 1960) vanredno predaje na Vioj koli za fiziko vaspitanje, da bi 1966.
postao vanredni profesor. Na Fakultetu za fiziko vaspitanje postaje redovni profesor 1971. za
predmet kinezioloka psihologija. Na isto mesto izabran je i 1982, a od 1983. je redovni profesor za
predmet kvantitativne metode.
Od 1966. profesor Momirovi vodi program, kasnije odeljenje Kinezioloke psihologije.
Dekan na Vioj koli za fiziko vaspitanje (kasnije Fakultetu za Kineziologiju) postaje 1969. i na
tom mestu ostaje do 1971. Od 1978. do 1985. na elu je odeljenja za Kinezioloku informatiku i
statistiku.
U Univerzitetskom kompjuterskom centru, SRCE (Sveuilini Raunski CEntar), profesor
Momirovi radi honorarno od osnivanja 1971. Sredinom 1976. poinje stalno da radi u Centru kao
direktor naunoistraivakih programa. Generalni direktor centra SRCE postaje jula 1979. i na tom
mestu ostaje do jula 1983. Od 1978. do 1990. bio je u njemu predsednik Naunog vea.
U okviru programa obuke u centru SRCE vodio je vie kurseva iz podruja analize i obrade
podataka.
Na Filozofskom fakultetu u Zagrebu profesor Momirovi je predavao izborni predmet
psihologija sporta, a na postdiplomskim studijama implementiranje kompjutera u analizu
psiholokih podataka.
Na postdiplomskim studijama Medicinskog fakulteta, od 1964. je predavao psihologiju
sporta, a do 1983. i predmet softver za analizu bilokih podataka.
Profesor Momirovi je takoe predavao metode naunoistraivakog rada na Prirodnomatematikom fakultetu u Zagrebu, kao i sline kurseve na postdiplomskim studijama fizike
kulture u Beogradu i Novom Sadu.
1980. i 1989. kao gost je predavao statistiku i programiranje na Fakultetu za mehaniku i
matematiku Dravnog univerziteta u Moskvi, zatim na moskovskom Fakultetu za primenjenu
matematiku i kibernetiku.
1990. Momiroviu je dodeljena titula poasnog profesora Univerziteta u Zagrebu, bio je
lan komisija za doktorske disertacije Univerziteta u Zagrebu, na Fakultetu za fiziko vaspitanje,
9

Konstantin Momirovi u statistici

Filozofskom, Elektrotehnikom, Medicinskom, Mainskom. Na beogradskom i ljubljanskom


univerzitetu takoe je bio lan komisija za doktorske disertacije.
Od 1991. do 1997. Momirovi je bio redovni profesor statistike na Filozofskom fakultetu u
Beogradu. Od 1991. je, takoe, bio nauni konsultant i glavni menader projekata na Institutu za
kriminoloka i socioloka istraivanja.
Predavao je na 40 inostranih i preko 80 domaih konferencija i simpozijuma o statistici,
informatici, antropologiji, kriminologiji, medicini i kineziologiji.
Za svoj nauni rad profesor Momirovi je dobitnik Majske nagrade SOFK Hrvatske (1963),
a 1968. je dobio i prestinu nagradu Ramiro Bujas koju dodeljuje Udruenje hrvatskih psihologa.
Pored ovih nagrada Momirovi je dobio i niz priznanja za nauni doprinos na poljima informatike,
kineziologije i bioloke antropologije.
Jo kao mlad obavljao je mnoge funkcije u studentskim i omladinskim organizacijama, a i
kasnije je ostao veoma angaovan kao uvaen i uticajan strunjak.
Sport je bio velika Momirovieva ljubav. Bio je predsednik ahovskog kluba Partizan,
predsednik dudo kluba Mladost iz Zagreba, predsednik i potpredsednik Dudo saveza Zagreba i
Dudo saveza Hrvatske, potpredsednik i lan Izvrnog odbora SFK Hrvatske, lan Izvrnog odbora
Dudo saveza Jugoslavije, Predsednik Udruenja sudija i Udruenja trenera Dudo saveza
Jugoslavije, lan strunog taba Jugoslovenskog olimpijskog komiteta, predsednik Dudo saveza
Jugoslavije.
Ugled profesora Momirovia vidan je i po mnogim strunim funkcijama koje je obavljao.
Bio je prvi predsednik, kasnije potpredsednik, Republikog vea za informacione tehnologije SR
Hrvatske, predsednik Odbora za razvoj informacionih tehnologija, predsednik Odbora za
optenarodnu odbranu, lan Odbora za informatiku Istraivakog centra oruanih snaga SFRJ, lan
Izvrnog vea Univerziteta u Zagrebu, lan Naunog vea Hrvatske, predsednik Komisije za
koordinaciju istraivanja na polju obrazovanja pri Ministarstvu za obrazovanje SR Hrvatske, lan
Odbora za fiziko vaspitanje Centralnog komiteta Saveza komunista Hrvatske, lan Odbora za
informacije pri Izvrnom veu Skuptine SR Hrvatske, predsednik Komisije za informatiku, nauku i
tehnologiju, lan Vea za obrazovanje SR Hrvatske, lan Komisije za obrazovanje, nauku i kulturu
SSRNJ, lan Saveta za nauku i obrazovanje Univerziteta u Zagrebu.
Mnoga udruenja se mogu pohvaliti da je profesor Momirovi bio njihov lan: Udruenje
psihologa Hrvatske, Udruenje sociologa Hrvatske, Hrvatsko udruenje informatiara, Sekcija za
klasifikaciju i Sekcija za kompjutersku statistiku Jugoslovenskog udruenja statistiara, Savez
antropologa Jugoslavije, FEPSAC (evropska asocijacija sportskih psihologa), Evropsko
antropoloko drutvo, Udruenje psihometriara, Internacionalna asocijacija za klasifikaciju,
Internacionalna asocijacija za kompjutersku statistiku.
Profesor Momirovi je, bio i lan ureivakih odbora Glasnika Antropolokog drutva
Jugoslavije, Kineziologije i asopisa Collegium Antropologicum.
Od druge polovine 1990. profesor Momirovi se povukao iz svih udruenja, sa svih funkcija
i posvetio se iskljuivo naunom i istraivakom radu.
Rekonstrukcija naune ostavtine profesora Momirovia pokazuje da je do 2007. godine
zavrio 38 knjiga i monografija, objavio 499 lanaka i studija u naunim i tehnikim publikacijama
kao i na mnogim simpozijumima, i brojne kompjuterske programe i makroe, pisane u nekom od
softvera za statistiku analizu, veinom u SPSS-u.
Profesor Konstantin Momirovi je umro 28. marta 2004. godine.

10

Uvod

Stanislav Fajgelj

SEANJA NA
KONSTANTINA MOMIROVIA

Predlog glavnog urednika Psihologije da napiem ovaj In memoriam stavio me je u


neprijatnu situaciju. Ne vjerujem da je uloga takvog pisca ikada ikome bila prijatna. Zato moram
da objasnim odakle dolazi moja neprijatnost. Jednostavno. Moj uzor, mentor i, nadam se, prijatelj,
Konstantin Momirovi, injenicom svog bogatog i preplodnog ivota, koga je prerano napustio,
osudio je svakoga ko pokua, i naravno mene, da bude kus, bledunjav i manji od tog ivota
unaprijed. Prihvatio sam ulogu samo zato to je Kosta to zasluio, zato to je meni mnogo znaio i
zato to znam da moj osvrt nije i nee biti jedini.
11

Konstantin Momirovi u statistici

Kada sam prvi put uo za Kostu? Ne sjeam se godine, ali se sjeam okolnosti. U to vrijeme, kao
student prve ili druge godine psihologije (19671969), zainteresovao sam se za faktorsku analizu. Ve
tada se faktorska analiza u velikom svijetu obavljala putem raunara koji su se u tom trenutku kod nas
nazivali elektronskim mozgovima. Zato sam sm prema svom predmetu interesovanja, mada tada
veoma mladalaki poletan, gajio skrivene elje i snove, ba kao to se radi prema mladalakim
ljubavima. Sve dok mi, sasvim sluajno, pokojni edomir Dragievi nije rekao otprilike: pa, ima
jedan na koji se bavi time. Kada danas gledam unazad, taj trenutak bih mogao oznaiti poetkom
svoje karijere. Moda je patetino, moda bi moja karijera izgledala slino i bez Koste, ali tadanje
saznanje da se i kod nas neko bavi raunarima, da pie programe, da faktorski analizira podatke, moje je
snove pribliilo stvarnosti.
Mnogo godina kasnije, koje su se stalno preplitale sa Kostinim stvaralatvom, iako bez mnogo
linih susreta, sazrilo je vrijeme da se definitivno odluim ta mi je karijera: informatika ili psihologija.
U mom sluaju to je znailo gdje, kod koga i kakav doktorat u pisati. Nekako u to vrijeme raspadala se
moja domovina, u krvi, i kao jedna mala i sporedna posljedica tog raspada dogodio se odlazak Koste iz
Zagreba i dolazak u Beograd. Ta mala i sporedna posljedica rata imala je za mene ogroman znaaj jer
sam odjednom, neoekivano i iznenada rijeio pitanje mentora, pa prema tome i doktorata. Trebalo bi da
je ona i za Kostu imala veliki znaaj, ali nikad nisam uo da se alio. Ta flora, albe, kod Koste
jednostavno nije uspjevala.
Dakle, dva kljuna momenta moje karijere vezana su za Kostu Momirovia. Zato neka ovaj tekst
bude moj pogled tuno putovanje izmeu uspomena i fakata. Neu pokuavati da napiem
faktografiju, jer bi bilo uzaludno u ovako kratkom roku, ali je neu ni izbjegavati, u dobroj vjeri, sve
koliko mi je poznata i koliko me sjeanje slui.
Meu prvim saznanjima o Kosti bilo je i to da je on vrhunski sportista. Bio je lan nae dravne
reprezentacije u dudou (imao je 2. Dan), a sportski dio karijere nastavio je kao dugogodinji
predsjednik Hrvatskog dudo saveza. U to vrijeme je napisao i dvije knjige o dudou, moda jedine kod
nas. Bio je i dugogodinji profesor dudoa koji, po rijeima savremenika, nije imao nita protiv da
prebije studente i, po rijeima poznavalaca, vrhunski trener. Za mene kome se bavljenje vrhunskim
sportom inilo kontraindikacijom za intelektualne poslove, to je samo dodalo nekoliko dijelova u
slagalicu Kostinog ivota.
Velika posveenost sportu transformisala se u interes za nauno bavljenje fizikom kulturom
koju je on zvao kineziologijom. Zbog autoriteta koga je on kod mene uivao, ja sam tada smatrao, a i
danas smatram, da je upravo Kosta bio protagonista tog naziva discipline, pa otuda i naziv za dananji
Kinezioloki fakultet u Zagrebu. Uenici i saradnici Kostini su i danas okosnica nastavnog osoblja tog
fakulteta, a znaaj koji je on imao za njih i za fakultet, osvjedoili su svojim masovnim prisustvom na
Kostinoj sahrani u Nemenikuama.
Karl Pearson je svoj mentalitet opisao kao gusara iz vremena Francisa Drakea. Taj poriv i
posveenost koji je Hanibala vodio preko Alpa, a Marka Pola u Kinu, posjedovao je i Kosta. Uvijek
prvi, uvijek u novim stvarima, uvijek ispred drugih. Priao mi je kako je, kad je odluio, nazvao
republikog sekretara za nauku Hrvatske u pola noi i traio da primi njega i ekipu koja e mu objasniti
nunost formiranja Sveuilinog raunskog centra SRCE, kao i vanost SRCA za presti i budunost
nauke u Hrvatskoj. Ja sam, kao vojnik, 1973. godine obiao SRCE i njihov UNIVAC raunar, zavidan,
kao to smo mi beogradski programeri u to vrijeme uvijek bili zavidni na slovenake i zagrebake
velike sisteme. Mnogim mladim informatiarima su, godinama nakon toga, SRCE i njegov ef,
Konstatin Momirovi, bili odskona daska u karijeri.
Njegove organizacione i liderske sposobnosti sam neposredno upoznao tek kad je doao u
Beograd, na Institut za kriminoloka i socioloka istraivanja. U to vrijeme, on je ostvarivao svoje
organizacione zamisli leereno, bez sukoba, ini mi se da su svi mislili da treba upravo tako kako on
kae. Kako je Max Weber govorio, oko njega je bila harizma.
Meutim, za taj snaan, obezoruavajui utisak koji je ostavljao na ljude, njemu, izgleda, nije
trebalo da ostari imao ga je i kao mlad. To zakljuujem iz jedne stare prie ede Dragievia koji je s
njim, kao i vie drugih naih poznatih psihologa, sluio vojsku u Beogradu. Oni su, kao vojnici, bili
angaovani kao struna lica na nekom projektu, a projektima uvijek isteknu rokovi i resursi. Umjesto da
u panici i nervozi pokuaju bar da dovre posao sa pristojnim kanjenjem, Kosta im je ponudio da odu u
12

Uvod

kafanu, ruaju, popiju pie... Nakon toga, on je u jednom dahu, iz glave, izdiktirao daktilografkinji
kompletan elaborat. Ovu fascinantnu sposobnost je pokazivao u mnogim prilikama i mnogi su bili
svjedoci. eda Dragievi ga je testirao i dobio najvii IQ za koji sam kod nas uo 185.
Sljedee ime sam bio impresioniran je Kostina kadrovska politika. Ako bih pokuao da
odredim koliko ljudi je sa njim saraivalo, koliko ih ga je pitalo za savjet, koliko ih je obradilo podatke,
bilo koautor, magistrant, doktorant, asistent, jedino to mogu da kaem je bezbroj. On je na izvjestan
sistematski, ali nenapadan nain znao ko je ko, mjerio sklonosti i podobnosti kod ljudi i prije nego to bi
ih upoznao. Nakon toga, prvom prilikom, predloio bi da se zajedniki napie neki rad ili ode na nauni
skup. Mene je to neodoljivo podsjealo na najbolju tradiciju pozitivizma postavi hipotezu i empirijski
je provjeri. Ali ja ne vjerujem da je on svoje saradnike traio na osnovu pozitivistike paradigme. To je
bio prosto dio njegove slagalice, kao neumornog naunog djelatnika.
Ja sam pokuao da uim od njega i da primijenim neto od njegovog organizacionog repertoara
oputene efikasnosti. Nije mi uspjevalo, jer za to treba cjelina. Poslije toga bih se sa naporom odupirao
malodunom zakljuku da je lako njemu. Kosta nije nikad bio u toj neprijatnoj situaciji, situaciji
punoj iskuenja, kada mentor posmatra vrijeme koje ga gazi i mlae koji ga prevazilaze. Istina, iz
njegovih pria se moglo zakljuiti da mu takve situacije nisu nepoznate, ali su meni one djelovale
apstraktno. Na primjer, kada je nekom prilikom posmatrao mlade japanske (ili kineske) matematiare
koji znaju sve, a on ih gleda kao malo dijete.
Vrlo vaan za razumijevanje Kostine ivotne slagalice je podatak o njegovoj naunoj
produktivnosti i citiranosti. Naalost, ja ne znam tane podatke (ako ih iko zna), ali je najblii tome Pero
ipka. Po njemu, Kosta je najplodniji i najvie citiran autor ne samo u oblasti psihologije, nego i svih
drutvenih nauka, ne samo na teritoriji bive SFRJ, nego i ire.
Konstantin Momirovi je bio psiholog koji je prije toga studirao medicinu, a filozofiju zapoeo.
Bavio se raunarima, sportom, kineziologijom, antropologijom, metodologijom, statistikom,
psihometrijom i teorijom mjerenja, kriminologijom. Posredno, preko primjene raunara i statistike,
njegovi radovi su se mogli razvrstati u jo iri krug naunih disciplina; na primjer u ekonomiju i
sociologiju. Bavio se, izmeu ostalog, ekspertskim sistemima za interpretaciju listinga iz statistike
analize podataka (posebno MVA), a posljednje godine ivota proveo je u pasioniranoj analizi i provjeri
neuronskih mrea kao taksonomskoj alatki. Od Ministarstva prosvjete i sporta RH (tada se moda nije
tako zvalo), dobio je godinju nagradu za 1963. godinu.
U emu je Kostin nauni doprinos? Iznijeu vlastiti pogled, uz prilinu nelagodnost i
nesigurnost u pogledu obuhvatnosti, tanosti i prioriteta. Po svemu sudei, osnovni doprinos je
Kibernetski model linosti. Model je imao dugu i intenzivnu predistoriju, od poetka ezdesetih godina
XX vijeka. Prethodili su mu mamutski projekti: 18 patolokih faktora, istraivanje maloljetnike
delinkvencije i klasifikacija i selekcija u JNA (to nisu njihovi puni nazivi). U te projekte bio je
ukljuen Institut za kineziologiju, Institut za kriminoloka i socioloka istraivanja u Beogradu i Centar
za klasifikaciju i selekciju ljudstva za potrebe JNA, ispred Saveznog sekretarijata za narodnu odbranu.
U tim projektima evaluirane su tadanje teorije linosti, prvenstveno Eysenckova i Cattellova,
prevedeno je i napisano na hiljade ajtema, ispitano na hiljade ispitanika, obavljeno na stotine faktorskih
analiza, a uestvovale su na desetine psihologa, kineziologa i drugih struka, prvenstveno iz Zagreba i
Beograda.
Prvi njegov projekt sa kojim sam se susreo bio je upravo Klasifikacija i selekcija ljudstva za
potrebe JNA. Kao mladom, vojniku i tek zavrenom psihologu, meni su nestvarni izgledali tomovi
knjiga koje je obuhvatao taj projekt. Danas imam utisak da je u tom trenutku, u psiholoko
metodolokom pogledu, taj projekt imao znaajno mjesto na svjetskoj skali. Kasnije sam godinama
uestvovao u projektovanju informacionih sistema i razvio duboko potovanje prema projektovanju
uopte, a prema velikim projektima strahopotovanje. Za izradu i sprovedbu tako velikih projekata (a
Kosta ih je imao vie) potrebno je mnogo vie od strunosti i obrazovanja. Potreban je pojedinac sa
onim Pearsonovim mentalitetom.
Termin kibernetski je vjerovatno posljedica nade koju je Kosta, kao i mnogi od nas, gajio
prema mogunosti da e tada vrlo popularna kibernetika, teorija upravljanja i teorija informacija pomoi
da psihologija postane egzaktna nauka. Uglavnom, tokom sprovoenja ta tri projekta pojavljivale su se
izvjesne stabilne faktorske strukture, da bi nakon nekoliko revizija i kolebanja preostalo est faktora: ,
13

Konstantin Momirovi u statistici

2, , , i . Model je u znaajnoj mjeri zasnovan na autorovoj sklonosti ka fiziolokoj utemeljenosti


psihikih pojava. Jedan od vodeih koautora na tim projektima, Ignjat Ignjatovi, opisao mi je glavna
svojstva modela. Dimenzije kibernetskog modela imaju logiku i statistiku povezanost sa dimenzijama
drugih, klasinih i savremenih, teorija linosti. Meutim, to je ipak, jedina domaa teorija linosti,
tanije, po mom saznanju jedina domaa psiholoka teorija veeg obima. Istina, njeni autori su, u
poetku, bili uzdrani i smatrali su da model jo ne znai teoriju, ali u sutini to je to. Na osnovu ove
teorije linosti konstruisana je poznata baterija testova KON 6. Po mom uvjerenju, ako bi se gradila
domaa psihologija, kibernetski model bi morao biti jedan od temelja.
Sljedei doprinos Konstantina Momirovia je kanonika analiza kovarijansi koju je on u poetku
nazivao kvazikanonikom korelacionom analizom. Matematiki koncept na kome poiva kvazikanonika
je zdrav i jasan. U odnosu na model obine kanonike korelacione analize on sadri neznatne izmjene,
ali sa znaajnim posljedicama na kanonike korelacije i kanonike faktore, ali ne i na njihovu
interpretaciju. Model je praktino provjeren na mnogim skupovima podataka. Postoji softverska podrka
u obliku SPSS makroa QCCR. Metoda se pokazala veoma robusnom na slabo strukturisane podatke. Po
mom uvjerenju, da je metodu predloio autor koji pripada nekoj velikoj naunoj zajednici (koja pri
tome koristi engleski jezik), ona bi imala vrlo visok status.
Moja softverska i statistika karijera je bila pod znatnim uticajem Kostinih izbora, preferencija i
opredjeljenja. To je bio sluaj i jeste sluaj sa veinom naih psihologa i nepsihologa koji su
kvantitativno orijentisani. Jedan od tih Kostinih izbora je bila i Guttmanova teorija imagea. Kosta je
mnogo pisao o primjeni image teorije u faktorskoj analizi, za koju ju je Guttman i namijenio. Meutim,
Kosta je uoio njen znaaj kao modela mjerenja, pa ju je u tom smislu sistematino razradio i dopunio.
Takoe, uoio je i korisna svojstva koja imaju parcijalni image i antiimage skorovi. U oblasti
psihometrije, Kosta je izveo niz pokazatelja pouzdanosti, homogenosti i reprezentativnosti koji su
bazirani na teoriji imagea. Uglavnom, zahvaljujui Kostinom radu, u domaoj psihologiji su pojmovi
imaa i antiimaa znatno prisutniji nego napolju.
Vrlo slino teoriji imagea, u domaoj psihologiji je, zahvaljujui Kosti, vrlo prisutan i rad
Chestera Harrisa. Harris je poznat po tome to je otkrio i matematiki formulisao slinost faktorskih
matrica iz razliitih faktorskih modela, ukljuujui i Guttmanov. To je omoguilo drugim autorima,
posebno Henryju Kaiseru, da faktorsku analizu tretiraju kao univerzalan model, koji ima razliite
aspekte, ali se jedan moe izvesti iz drugog. Kosta je onda uoio da se, ako se primijene Harrisove
formule, faktorski skorovi mogu izraunati tako da budu univerzalni u univerzalnoj metrici, kako je on
to formulisao.
Jedna od ranih Kostinih invencija je i metod za zaustavljanje faktorizacije: poznati plum brandy
kriterijum. Inspiraciju za naziv je dala no tokom koje je nastao ovaj kriterijum za odreivanje broja
faktora na osnovu sume koeficijenata determinacije, no uz ljivovicu sa Janezom talecom. Danas se
kriterijum, zbog pristojnosti, naziva PB kriterijumom. Taj kriterijum ima zdrav i jasan teorijski koncept
i poznat je kao kriterijum koji tei da potfaktorie.
Analiza nominalnih varijabli je bila jedna od trajnih Kostinih preokupacija. Moj magisterijum i
doktorat su slijedili njegove ideje. Nominalne (nenumerike) varijable su rak rana drutvenih nauka
repertoar raspoloivih statistikih tehnika za njihovu analizu je ogranien. Pretpostavljam da je Kostu
bezgranino nervirao jedan drugi aspekt: stie se, naime, utisak da drutveni istraivai koriste
nominalne varijable kao alibi za procente, tabele i 2 testove. Jedna od njegovih prilino rijetkih knjiga,
Uvod u analizu nominalnih varijabli standardni je udbenik diljem bive SFRJ (kod nas u alosnom,
fototipskom izdanju).
Osnovna Kostina ideja u pogledu analize nominalnih varijabli poinje sa transformacijom
nominalnih varijabli u binarne, da bi se, zatim, dobijena indikatorska matrica prilagodila tako da
izgleda kao obina matrica podataka. Na takvoj prilagoenoj indikatorskoj matrici se onda primenjuju
analize glavnih komponenti, faktorska analiza i taksonomska analiza. Moje iskustvo sa takvim
pristupom nije sjajno. Unato tome, radei sa Kostom na faktorskoj i klaster analizi nominalnih
varijabli, po prvi put sam u ivotu vidjeo na djelu matematikog arobnjaka.
Jedna od trajnijih preokupacija Konstantina Momirovia je bila i taksonomska analiza. On je
insistirao na tom nazivu, iako se meni inilo da bi u optem interesu to trebalo zvati klaster analizom,
onako kako je uobiajeno. Vjerujem da njegov interes za taksonomsku analizu potie iz druenja sa A.
14

Uvod

Ferligoj i V. Batageljom, vrlo poznatim svjetskim autorima u toj oblasti. Kosta je predloio niz tehnika
klaster analize, a vrhunac su njegovi posljednji radovi u oblasti neuronskih mrea. Kosta je bio stub
taksonomske sekcije Statistikog drutva Jugoslavije i pokreta brojnih njenih skupova. Nekom
arolijom je uspio da nas ak i ovdje, u ratnim godinama, okupi par puta u Sirogojnu i na Kosmaju.
Danas se na Internetu ime Konstantina Momirovia najee sree kao urednika zbornika radova
sa COMPSTATA 1990. g. u Dubrovniku To je svjetski poznat simpozijum posveen raunarskoj
statistici, koji se odrava od poetka osamdesetih godina XX vijeka. Radovi koji su objavljeni u tom
zborniku, a jo vie imena njihovih autora, ulivaju duboko potovanje. Urednitvo nad zbornikom sa
tako znaajnog skupa je vjerovatno najvee priznanje koje je neki na psiholog dobio.
Da li je Konstantin Momirovi bio genije? Jedan od njegovih saradnika iz Zagreba mi je na
sahrani uvjereno rekao da jeste. Utvrdio sam da je takvu odluku vrlo teko donijeti geniji nastaju
posthumno. Sreo sam nekoliko ljudi koji su me impresionirali, recimo Rudi Supek, ali nijedna druga
osoba kod mene nije podstakla takvu dilemu. Ako postoje geniji, Kosta je od svih koje znam, najblii da
bude taj. Takvu jedinstvenu kombinaciju sposobnosti i posveenosti ne oekujem da domaa psihologija
uskoro iznjedri.
Da budemo poteni, mnogi su ga se bojali. Njegove astronomski visoke kriterijume teko je bilo
pratiti. Vrlo dobro razumijem ljude koje je on plaio. Moram biti poten i rei da sam smatrao da to ne
pogoduje ugledu statistike i kvantitativnih metoda meu psiholozima. Ali to je individualni efekt. Efekt
njegovih visokih kriterijuma u naoj maloj naunoj zajednici je, meutim, po mom najdubljem
uvjerenju bio koristan. Zebem pri pomisli kako e biti bez njega. Zato to su njegovi visoki kriterijumi
imali legitimitet, oni su proisticali iz njegovog vlastitog djela, a ne iz kaprica.
Ve sam spomenuo Kostinu sposobnost da fascinira ljude. Mnogi ljudi brzo misle. Meutim,
bilo bi profano rei da je Kosta brzo mislio. On je imao nevjerovatnu brzinu prikupljanja i obrade
informacija, ali i donoenja zakljuaka i rjeenja. Moda je najjednostavnije rei da je uvijek i o svemu,
ma koliko to bilo neoekivano, imao kvalifikovano miljenje.
Oduevljala me, takoe, njegova sposobnost sinteze matematikih modela. za to je, razumljivo,
potrebno znanje i iskustvo, ali i stvaralatvo. Poznata je, recimo, njegova interpretacija regresione,
faktorske i diskriminacione analize kao specijalnih sluajeva kanonike analize. Takoe, veoma je jasno
demonstrirao, u svojoj notaciji i svojom argumentacijom, da su svi koeficijenti pouzdanosti tipa interne
konzistencije, kao to su 2, Spearman-Brown i drugi, matematiki jednaki, ako su indiaktori paralelni.
Ja volim i znam da programiram. Meutim, sve manje to radim zato to programiranje od mene
trai bolnu koncentraciju. Zbog toga ve odavno smatram da vie nisam dobar za taj posao
programiranje je za mlade. Svi moji prijatelji informatiari se s time apsolutno slau, svi osim Koste
on je pisao programe doslovno do kraja ivota. Ja to naprosto ne mogu da objasnim. Jedino ta bi moglo
da objasni taj dio Kostine slagalice koji se odnosi na programiranje je njegov dar dar genijalnosti.
Negdje sam proitao da su geniji jednako podloni zabludama, ba kao i mi. ta rei, imao ih je i
Kosta. Naravno, sve njegove zablude za koje ja znam, odnosno mislim da su zablude, je on donosio
svjesno i namjerno. Ako su i poele kao previdi, on ih je pretvarao u tvrd stav, kao to sam rekao,
kvalifikovan i argumentovan. Nije ovdje mjesto za Kostine zablude, ali moram sa psiholokom javnou
da podijelim jednu od kritika koju sam mu upuivao zato nije napisao par dobrih udbenika za
psihologe, prije svega za statistiku i MVA. Njegov stav prema knjigama je, u cjelini, bio negativan i
podcjenjivaki. Meutim, uz sve to, on jeste pisao knjige. Neke sam ve spomenuo. Posebno bih elio
da skrenem panju na dodatak u knjizi Uvod u teoriju merenja. To je istina kratak, ali odlian
udbenik matrine algebre za korisnike multivarijatne analize. Ne mogu a da se ne sjetim svojih
poetaka kada mi je najvie nedostajalo upravo neto takvo.
In memoriame piu ivi za ive. Kosti nita vie ne znai moj in memoriam. Njegov gubitak je
konaan; za njegove, za mene, za domae psihologe.

15

Konstantin Momirovi u statistici

16

Uvod

I DEO

UVOD U ANALIZU
NOMINALNIH VARIJABLI
REPRINT

17

Konstantin Momirovi u statistici

18

Uvod

19

Konstantin Momirovi u statistici

20

Uvod u analizu nominalnih varijabli

0. PREDGOVOR
Ova je knjiga namijenjena onima koji imaju tu nesreu da u svojim znanstvenim ili strunim radovima
moraju primjenjivati postupke iji su rezultat nenumeriki podaci koji se obino nazivaju kvalitativne ili
nominalne varijable. Kako je broj situacija u kojima je pojave koje se istrauju ili naprosto opisuju nemogue
ili neprilino opisati tako da je rezultat mjera neke veliine, ili barem nekog poretka, vrlo veliki, mnogo je i
onih koji su prisiljeni da manipuliraju nenumerikim podacima. No, takve situacije nisu podjednako
rasporeene u razliitim znanostima ili strukama, pa iako nema znanstvene discipline u kojoj se nominalne
varijable nikada ne javljaju, najvie ih je u takozvanim drutvenim znanostima1, a meu ovima najvie u
sociologiji. To je i razlog zato ova knjiga izlazi u okviru Metodolokih svezaka koje izdaje Sekcija za
metodologiju i statistiku Jugoslovenskog udruenja sociologa iako, naravno, nije namijenjena samo
sociolozima.
Mada je osnovna namjena knjige da bude podloga za kratki seminar o elementarnim metodama za
analizu nominalnih varijabli, namijenjen prije svega sociolozima koji ele da upotpune ili sistematiziraju
svoje poznavanje kvantita-tivne metodologije2, sadraj koji je obuhvaen i razina na kojoj je taj sadraj
razmatran izabrani su i pod vidom mogueg koritenja teksta kao udbenika za ona poglavlja Kvantitativnih
metoda koja se predaju na dodiplomskom i postdiplom-skom studiju kineziologije, psihologije i
defektologije, postdiplomskom studiju medicinske informatike i bioloke antropologije, i dodiplomskom
studiju sociologije na Sveuilitu u Zagrebu, i postdiplomskom studiju kineziologije na Univerzi u Ljubljani.
To je, zajedno sa osnovnom namjenom knjige, i uslovilo izbor metoda na jednostavne postupke koji se,
naalost ne uvijek na korektan nain, redovno primjenjuju u tim znanostima i strukama. Izuzetak su
loglinearni modeli i kanonika analiza kontingencijskih tabela, metode koje se, mahom iz neznanja, ili zbog
nedostatka ili nepristupanosti prikladnih programskih proizvoda, primjenjuju relativno rijetko, iako spadaju
u osnovne postupke za analizu relacija nominalnih varijabli.
Iako su multivarijantne metode za analizu nominalnih varijabli3 u posljednjih desetak godina postale
vrlo popularne, u ovoj su knjizi svedene na jedno jedino poglavlje i razmatrane na krajnje saet i sasvim
formalan nain. To nipoto nije zato to bi ih autor smatrao nevanima. Razlog je u tome to za ekstenzivni
tretman tih metoda jednostavno nema mjesta u knjizi koja itaoce bez pretjeranog matematikog i
statistikog obrazovanja treba da uvede u jedno od najsloenijih podruja analize podataka; stoga je knjiga u
kojoj e multivarijantne metode biti opisane planirana za jedan od narednih brojeva Metodolokih svezaka.
Oekivana razina matematike i statistike izobrazbe veine onih kojima je knjiga namijenjena
odredila je, naravno, i razinu izlaganja. Izostavljeni su stoga svi, ili gotovo svi, izvodi i dokazi, i sadraj
reduciran na finalni rezultat i formalni opis metode ili algoritma. Kako autor nije sasvim siguran da je u vezi
s tim dobro postupio, u svakom su poglavlju navedene knjige ili lanci u kojima se sadraj tog poglavlja
tretira na dovoljno strog i dovoljno potpun nain. Za one kojima se ini da je i ta razina formalizma
pretjerana, u uvodnom dijelu svakog poglavlja nalazi se sasvim neformalan opis problema ili metode. Autoru
se ini da je to, zajedno sa opisom ponaanja najvanijih programa za analizu nominalnih varijabli i
ekstenzivnim primjerima u posljednjem poglavlju, dovoljno da knjigu priblii i onima koji inae zaziru od
matematike, statistike, analize podataka i informatike.

Nije ba sasvim jasno na temelju kojih su kriterija taksonomizirane znanstvene discipline; primjera radi, psihologiju mnogi uvrtavaju u takson
drutvenih znanosti, iako je svakom psihologu koji se profesionalno bavi znanou jasno da je psihologija prirodna znanost, uostalom kao i veina
ostalih antropologijskih znanosti.

Iako je uo da u sociolociji postoji i neto to se naziva kvalitativnom metodologijom, ovaj autor mora priznati da nikada nije uspio pravo
razabrati o emu se tu radi, svjestan, naravno, da ga za neukost ne ispriava to to nije sociolog, ve obini raundija.

U stvari, sve metode za analizu nominalnih varijabli pripadaju klasi multivarijantnih metoda; ovdje se pod tim nazivom razumiju metode za analizu
skupova objekata opisanih s vie od dvije nominalne varijable.

21

Konstantin Momirovi u statistici

1. UVOD
Kome je sueno da bude jeben,
tome gae same spadaju.
Narodna poslovica
Nema, vjerojatno, nijednog ovjeka koji je zavrio bilo koji fakultet na kome se slua ma i
najelementarniji kurs statistike koji se nikada nije susreo s pojmovima kao to su kontingencijska tabela, 2
test4 i koeficijent kontingencije, a vrlo su rijetki istraivai u bilo kojoj znanstvenoj oblasti, a posebno u
oblasti drutvenih znanosti, koji nikada u ivotu nisu analizirali neku kontingencijsku tabelu, primjenili 2
test za procjenu znaajnosti veza ili razlika izmeu dva razna naina klasifikacije ljudi ili drugih objekata, i
pokuali, najee na temelju koeficijenta kontingencije, da ocijene intenzitet tih veza ili tih razlika.
Kako, osim toga, praktiki nema nijednog udbenika elementarne statistike koji na neki nain ne
tretira postupke za analizu povezanosti dviju nominalnih varijabli svodei ih, najee, na 2 test pridruen
kontingencijskim tabelama, koeficijent kontingencije i, moda, jo nekoliko drugih mjera asocijacije, bilo
kakav uvod u metode za analizu nominalnih varijabli koje e biti razmatrane u ovoj knjizi vjerojatno je
sasvim nepotreban.
Zbog toga su razlozi zbog kojih je ovo poglavlje napisano uglavnom potpuno iracionalni. Jedan je od
njih to nema uljudno napisanog udbenika iz bilo kojeg podruja statistike u kome ne bi postojalo neko,
vie ili manje neformalno uvodno poglavlje5. Drugi poiva na didaktikom postulatu da ljude valja postupno
neemu uiti, potujui principe od lakeg ka teem i, naroito, od poznatog ka nepoznatom; kako su ti
principi, kao, uostalom, i mnogi drugi principi u pedagogiji, uglavnom iracionalni, i ovaj je razlog, naravno,
iracionalan. Trei e razlog biti jasan svima koji ovu knjigu proitaju do kraja, pa zato odmah valja priznati
istinu: svrha ove knjige nije da ljude motivira da se bave analizom nominalnih varijabli, nego, naprotiv, da ih
od toga odvrati; ovo poglavlje je stoga napisano i zato da motivira itaoce da knjigu proitaju do kraja.
Ako, dakle, treba s neim poeti, najbolje je da to bude neto zabavno. Za ljude koji se znanou bave,
ili namjeravaju to initi, nema nita zabavnije nego otkrie neije gluposti. To je, naravno, sasvim shvatljivo:
svaki e psiholog potvrditi da je primarna agresivnost mnogo jai motiv za bavljenje znanou nego li
intelektualna znatielja; uostalom, agresivnost je u znatno veoj korelaciji s rezultatima postignutim u
znanosti, ma kako ti rezultati bili mjereni ili procjenjivani, nego inteligencija6.
Razmotrimo stoga jedan primjer, koji je namjerno uproen da bi stvari bile jasnije, ali koji nije
sasvim izmiljen, i koji se sutinski ne razlikuje od gomile rezultata priopenih u znanstvenim radovima, ili
ak u udbenicima statistike.
Recimo da je netko odluio da utvrdi ima li kakve veze izmeu vrste muzike koju netko najvie voli
sluati i stupnja njegove drutveno-politike angairanosti7. U tu je svrhu ispitao 2000 ljudi, starih od 25 do
50 godina, utvrdivi prethodno da meu njima nema ni gluhih, ni nepismenih, briljivo sastavljenom
anketom. Jednostavnosti radi, muziku je podijelio na ozbiljnu, zabavnu i narodnu; upute su bile sainjene
tako da je ozbiljna muzika obuhvatala sve to nije ni zabavna ni narodna muzika, kategorija narodne muzike
nije definirana, "jer svako zna ta je narodna muzika", a kao primjer zabavne muzike navedeni su "lageri,
pop i rok". Drutveno-politika angairanost utvrena je tako da je ispitanik zapitan da kae ima li kakvih
funkcija u opini, sindikatu, Socijalistikom savezu, Savezu komunista ili u republikim i saveznim
organima; ako je bilo to od toga imao, uvrten je u kategoriju "aktivan". Ako nije imao nijednu rukovodeu
funkciju u tim organima i organizacijama, ali je bio lan tih organizacija, delegat u nekom SIZ-u ili lan
nekog samoupravnog tijela, uvrten je u kategoriju "prisutan". Svi ostali uvrteni su u kategoriju "neaktivan".
Nakon toga otiao je u oblinji raunski centar, donio rezultate koje mu je asistent napisao na disketu, i
4

Moglo bi se dokazati jednostavnim ispitivanjem da veliki postotak ljudi ije je statistiko obrazovanje na alosnoj razini koju nudi veina naih
fakulteta pojam x2 testa uvijek asocira s pojmom kontingencijska tabela, iako je x2 funkcija raspodjele na kojoj se temelji nekoliko stotina
statistikih testova u vrlo razliitim podrujima statistike.

Ima, naravno, mnogo izvanrednih udbenika bez takvog poglavlja, ali, kao to je poznato, jo nitko nije dokazao da su statistiari preteno uljudne
osobe.

Ovo ne samo zato to e se netko stvarno pametan teko odluiti da se bavi nekim zaludnim poslom, ve i zato to je podsvjesni cilj
svakog istraivaa, bez obzira to on o tomu govori ili misli, da dokae da je jedino on u pravu, i da su, prema tome, svi prije
njega bili obine budale.

Mada problem izgleda trivijalan, to nipoto nije tako. Dovoljno je podsjetiti se na korelaciju reda veliine 0.7 izmeu inteligencije i
sposobnosti za donoenje ispravnih estetskih sudova (ispravnih, naravno, po kriterijima matematike estetike), i na efekte nekih odluka
koje su donijeli organi ili organizacije sastavljeni od drutveno-politiki angairanih osoba.

22

Uvod u analizu nominalnih varijabli

zamolio "da naprave kontingencijsku tabelu i 2. Dobio je rezultate koji su ovako izgledali:
CAT
AKTIVAN
PRISUTAN
NEAKTIVAN
F(J)

OZBILJNA
50
80
70
200

ZABAVNA
150
520
130
800

NARODNA
200
300
500
1000
CHI-SQUARE
DF
Q
C
V

F(I)
400
900
700
2000
270.00
4
.0000
.34
.26

Budui da nije bio sasvim siguran to znae oznake F(I), F(J), Q, C i V (za CHI-SQUARE je znao da
znai 2, a zakljuio je da DF znai stupnjevi slobode), priupitao je konsultanta koji mu je odgovorio da F(I)
znai zbroj u retcima, F(J) zbroj u stupcima, a da je C Pearsonov koeficijent kontingencije; na pitanje to je
V dobio je odgovor da je to "neka bezvezna mjera asocijacije koju je najbolje zaboraviti". Dobivi potvrdu
da F(I) oznaava broj ljudi koji su drutveno-politiki aktivni, prisutni i neaktivni, a F(J) broj onih koji vole
ozbiljnu, zabavnu i narodnu muziku, a kako je saznao da Q zapravo znai znaajnost, i da je znaajnost vea
to je Q manji (to mu se, uzgred reeno, uinilo vrlo glupo), sjeo je i napisao "da je povezanost izmeu
drutveno-politike aktivnosti i preferencije za razliite vrste muzike visoko signifikantna jer je Hi-kvadrat
270.00 uz koeficijent kontingencije 0.34". I, zatim, da "50% svih ispitanika najvie voli narodnu muziku, a
samo 10% ozbiljnu; zabrinjava, meutim, to 40% njih voli zabavnu muziku, u kojoj se esto nailazi na
nama tua shvatanja i ideje". Sreom, "20% ispitanih je drutveno-politiki vrlo aktivno, a jo daljih 45%
sudjeluje u radu drutveno-politikih organizacija i ukljueno je u razliita samoupravna tijela, to pokazuje
da je samoupravljanjem obuhvaen vrlo irok krug radnih ljudi i graana". Kako bi potkrijepio ove nalaze,
priloio je "strukturu ispitanih", u tabeli koja je izgledala ovako:
%
AKTIVAN
PRISUTAN
NEAKTIVAN
%

0ZBILJNA
2.50
4.00
3.50
10.00

ZABAVNA
7.50
26.00
6.50
40.00

NARODNA
10.00
15.00
25.00
50.00

%
20.00
45.00
35.00
100.00

I, na kraju, da bi utvrdio zbog ega je dobio "visoko signifikantan" 2, naveo je i "strukturu ispitanih
po stupnju drutveno-politike angairanosti" i zakljuio da "povezanost izmeu drutveno-politike
angairanosti i preferencije za razliite vrste muzike moe biti pripisana tome to oni koji su stvarno
drutveno-politiki aktivni manje preferiraju zabavnu muziku od onih koji su samo prisutni u drutvenopolitikim i samoupravnim tijelima".
%
AKTIVAN
PRISUTAN
NEAKTIVAN

OZBILJNA

ZABAVNA

NARODNA

12.50
8.89
10.00

37.50
57.78
18.57

50.00
33.33
71.43

100.00
100.00
100.00

Razmislimo malo paljivije o ovom istraivanju. Ostavljajui, privremeno, na stranu statistike


probleme, prvo to pada u oi jeste definicija kategorija u okviru kojih su ispitanici grupirani. Kategorija
"ozbiljna muzika" obuhvaa virtualno sve, od baroka do moderne glazbe, od violinskih koncerata do opera,
od tonalne do atonalne muzike. Svako tko je ikada ispitivao diferencijalnu preferenciju za razne vrste glazbe
vjerojatno zna da onaj tko preferira Bacha, Core-llia ili Vivaldija obino ne podnosi operu, a uasava se nad
baletnom muzikom. U kategoriju "zabavna muzika" ukljueni su i dez, i rok, i pop, ali i ansone; svakome
je jasno da je i ova kategorija prilino heterogena. lako tako ne izgleda, heterogena je i kategorija "narodna
muzika"; primjera radi, sigurno je da ima dosta ljudi koji cijene i rado sluaju makedonske, grke ili, recimo,
23

Konstantin Momirovi u statistici

panske narodne pjesme, ali zato "unjkavo mukanje nekih naih naroda, "naroda" i narodnosti8 smatraju
napadom na svoj intelektualni integritet9. Jo je, zapravo, gore s kategorijama drutveno-politike
angairanosti. U kategoriju "aktivan" spadaju i delegati u Vijeu udruenog rada opine, od kojih mnogi za
itavo vrijeme svoga mandata nisu otvorili usta, osim kad piju kavu, i predsjednik Saveznog Izvrnog vijea,
da je, ne daj boe, bio izabran u uzorak10. I meu "prisutnim" ima svaega; jasno je da ovdje spadaju i
delegat radne zajednice u Savjetu (vrlo esto, drugarica zaduena za higijenu, to znai istaica, jer to je
jedini nain da se potuje klju po spolu), i lan Komiteta za znanost koji, sluajno, nije predsjednik nijedne
komisije. Jedino je kategorija "neaktivan", ipak, homogena; u njoj doista ima svakakvih ljudi, ali je sigurno
da su homogeni pod vidom obiljeja kojim je odreena.
Jasno je da se na podacima ove vrste teko moe dobiti neki smisleni rezultat. Osnovni problem u
spomenutom istraivanju ne pripada stoga podruju statistike, ve podruju teorije mjerenja. Ono to je
valjda svakome jasno jeste da statistika ne moe uiniti nita pametno sa sutinski loim podacima11, i da,
ak i na najnioj razini mjerenja definiranoj nominalnim skalama, postoje znatni problemi, od kojih je
najvaniji da se osigura stvarna homogenost podskupova definiranih kategorijama neke nominalne varijable.
Vratimo se sada na statistiku raspravu o ovom pounom primjeru. "Bezvezna mjera" je zapravo
Cramerov koeficijent asocijacije, jedna od rijetkih smislenih skalarnih mjera povezanosti dvije nominalne
varijable. No, visina tog koeficijenta alosno je niska; prema tome, unato "visokoj signifikantnosti",
drutveno-politika angairanost i preferencija za muziku su vrlo slabo povezane varijable, bar onako kako
su ovdje definirane. Jer, u statistici, rije znaajnost nije nikako sinonim rijei vanost; znaajna veza prosto
znai da je vjerojatnost da je ta veza jednaka nuli vrlo mala, i nita vie od toga.
Zaboravimo, ako je to mogue, na loe definirane varijable i tretirajmo ovaj primjer kao statistiki, a
ne kao realni problem. Koeficijent asocijacije V od 0.26 jeste, zapravo, prosjek dvije nezavisne mjere
asocijacije izmeu analiziranih varijabli12, i kao svaki prosjek, moe prikriti realnu istinu. Da je zaista tako,
vidi se iz naredne tabele, u kojoj je doprinos svake elije analizirane kontingencijske tabele "visoko
signifikantnoj" vrijednosti 2 testa.
OZBILJNA

ZABAVNA

NAR0DNA

AKTIVNI

2.50

0.63

0.00

3.13

PRISUTNI

1.11

71.11

50.00

122.22

NEAKTIVNI

0.00

80.36

64.29

144.65

3.61

152.10

114.29

270.00

Oito, ni kategorija "ozbiljna muzika", ni kategorija "aktivni" ne doprinosi skoro nita asocijaciji ovih
varijabli. Da bismo vidjeli kakva je, zapravo, veza tih varijabli, eliminirajmo ove kategorije i izraunajmo
ponovo 2 iz njega izvedene mjere asocijacije13. Kontingencijska tabela, zajedno sa postocima u odnosu na
svaku varijablu, izgledala bi ovako:
ZABAVNA

NARODNA

F(I)

263.62

PRISUTNI
NEAKTIVNI

520
130

350
500

820
630

F(J)

650

800

1450

df
P
C
V

.0000
.39
.43

Nije ba sasvim jasno to znae ovi termini; jesu li, na primjer, Jugosloveni narod, "narod" ili narodnost; uostalom, nikad vas nitko ne pita ta ste po
narodu, ve ta ste po narodnosti, ali vas odgovor moe uvrstiti u jedno, drugo ili tree, u ovisnosti od toga ta kome kad, a naroito prilikom
popisa stanovnitva, padne na pamet.

I ako nitko nikada nije dokazao da sluanje narodne muzike izaziva demenciju; prema tome, dok se to ne dokae, takav stav treba najotrije osuditi.

10

Tu, naravno, spada i predsjednik sindikalne podrunice osnovne kole u Babinoj Gredi, i predsjednik moje mjesne zajednice (koga, sreom, ne
poznajem) i svakojaka druga eljad, na primjer, ministri prosvjete.

11

Ali zato moe uiniti mnoge gluposti i s najpametnije prikupljenim podacima.

12

Vie o tome u poglavljima 6. i 7.

13

Naravno da je ovaj brutalan postupak uinjen samo za didaktike svrhe. Kanonika analiza i/ili primjena loglinearnih modela na korektan bi nain
pokazala o emu se zapravo radi.

24

Uvod u analizu nominalnih varijabli

PRISUTNI
NEAKTIVNI

ZABAVNA NARODNA %
63.41
36.59
100.00
20.63

79.37

100.00

PRISUTNI

ZABAVNA NARODNA
80.00
7.50

NEAKTIVNI 20.00
%
100.00

62.50
100.00

Sada je oito ne samo to da postoji bar osrednja veza izmeu analiziranih varijabli, ve i da se ta veza
zaista moe pripisati praktiki iskljuivo tome to "prisutni" preferiraju "zabavnu", a "neaktivni" ispitanici
"narodnu" muziku.
Meutim, u veini realnih sluajeva izlaz ne bi bio tako jednostavan. Stvarna struktura veza izmeu
dvije nominalne varijable moe biti vrlo sloena, i posljedica vrlo razliitih generatora. U narednih nekoliko
poglavlja vidjet emo kako se problemi povezani sa analizom nominalnih varijabli mogu formalizirati, i to
se sve moe uiniti da bi se njihova povezanost mogla objasniti.

25

Konstantin Momirovi u statistici

2. SKALE MJERENJA

It is important to make a clear distinction between measurement,


which is directly concerned with the real world, and mathematics,
which is purely an abstract enterprise that need have nothing to do
with the real world.
J. C. Nunnally
Mjerenjem u najirem znaenju tog pojma zvati emo svaku operaciju koja, u skladu s nekim
potpunim i tonim skupom pravila, omoguava da se nekom objektu koji je lan nekog homogenog skupa
objekata pridrui oznaka ili broj koji se odnosi na neko odreeno svojstvo, tako da se ma koja dva objekta
koja se po tom svojstvu razlikuju mogu razlikovati, i ma koja dva objekta koja su po tom svojstvu identina
mogu smatrati identinim.
Oigledno je da ovako iroko definiran pojam mjerenja obuhvaa operacije vrlo razliite naravi, i da
stoga rezultati tih operacija mogu imati vrlo razliite osobine.
Razmotrimo, primjera radi, tri objekta iz nekog skupa objekata. Pretpostavimo da se radi o skupu
ljudi, mukog spola, starih od 30 do 40 godina, i nazovimo izabrane objekte ej, ek i eq. Objekte koji su ili
mogu biti predmet mjerenja nazivat emo, ponekad, i entitetima, i uvijek emo ih oznaavati sa ej, gdje
indeks i moe poprimiti neku cjelobrojnu vrijednost u intervalu (1 i n ), a skup takvih objekata
oznaavat emo sa E = {ei; i = 1,..., n}. Pretpostavimo, dalje, da nas o objektima ej , ek , eq zanimaju ove
karakteristike:
w1 = broj djece
w2 = broj lanova ue porodice
w3 = masa tijela
w4 = inteligencija
w5 = obrazovanje
w6 = sportska igra koju najvie vole
Zamislimo da smo w1 odredili prebrojavi djecu koju entiteti imaju, w2 tako da smo prebrojali lanove
njegove ue porodice, ukljuivi, naravno, i entitete, w3 tako da smo, u skladu s procedurom iz nekog
antropolokog prirunika, izmjerili teinu entiteta u gramima, w4 na taj nain da smo entitetima primijenili, u
skladu sa uputama o primjeni, neki test inteligencije koji se sastoji od 60 zadataka i utvrdili koliko su
zadataka ispravno rijeili, w5 tako da smo utvrdili najviu razinu zavrene kole u skladu s klasifikacijom
Prosvjetnog savjeta, i jednostavnosti radi, jer smo zakljuili da je postojee oznaavanje glupo i nespretno,
dogovorili sami sa sobom da emo nivo VII/2 kodirati sa 1, VII/l sa 2, VII sa 3, VI sa 4, V sa 5, IV sa 6, III
sa 7, II sa 8 i I sa 9, i konano w6 tako da smo im dali popis sportskih igara koji je obuhvaao koarku,
odbojku, rukomet, nogomet, vaterpolo, hokej na ledu, hokej na travi, ragbi i oznaku "nita od svega toga", i
zamolili ih da oznae jednu i samo jednu igru koja im se najvie svia, a ako im se nijedna od ponuenih ne
svia, da oznae "nita od svega toga".
Neka smo, nakon toga, sredili i prokontrolirali rezultate i uvrstili ih u ovu tabelu:
w1

w2

w3

w4

w5

w6

ej

64.000

20

nogomet

ek

86.520

40

koarka

eq

128.000

nogomet

Budui da na svakoj od ispitanih karakteristika entiteti mogu imati razliite rezultate, realizacija
ispitivanja proizvodi nizove oznaka ili brojeva koji se mogu razlikovati; zbog toga emo rezultate dobijene
utvrivanjem neke karakteristike nazivati varijablama.
Razmislimo sada, na sasvim neformalan nain, o osobinama svake od ovako dobijenih varijabli.
26

Uvod u analizu nominalnih varijabli

Varijabla w1, broj djece, oito moe poprimiti samo pozitivne, cjelobrojane vrijednosti, ukljuujui i
nulu. Nema sumnje da moemo ustvrditi da entitet ej ima dvoje djece vie od entiteta ek, i dvoje djece manje
od eq, i da moemo rei da eq ima dva puta vie djece od ej. Sva tri entiteta imaju, u prosjeku, dvoje djece, ali
je oito besmisleno ustvrditi da u odnosu na prosjek ek ima -2 djeteta, a jo je besmislenije izraziti rezultat u
w1 u bilo kojim mjernim jedinicama, osim u cijelim brojevima. Prema tome, rezultati u varijabli w1 ne mogu
se na smislen nain podvrgnuti nikakvoj transformaciji, ve moraju ostati takvi kakvi jesu. Kako varijable
ovog tipa daju nesumnjiv podatak o koliini, spadaju u grupu kvantitativnih ili metrikih skala; a kako su
mjerne jedinice definirane onim to se mjeri, nazivaju se apsolutnim skalama.
Slino se, ali ne i identino, ponaa varijabla w2, broj lanova ue porodice. I ovdje je mogue
jednoznano zakljuiti o koliini onoga to je izmjereno: u porodici entiteta ej ima 2 lana manje nego u
porodici entiteta eq, a ovaj posljednji ima 5 lanova vie od entiteta ek, koji je, oito, samac bez djece.
Uoimo, meutim, da je varijabla w2 tako definirana da i sam entitet ulazi u broj lanova ue porodice, i da
se nita ne bi promijenilo ako od svakog rezultata oduzmemo 1; meutim, omjer izmeu rezultata entiteta eq i
ej, koji je prije iznosio 1.5, nakon te operacije nije vie 1.5, ve 1.67. Zbog toga varijabla w2, kao i sve
varijable tog tipa, doputa da se od rezultata oduzme (ili da mu se doda) neka konstanta; ali kako, u tom
sluaju, nula ne znai odsustvo nekog svojstva, nemogue je razumno definirati omjere izmeu rezultata.
Naravno, druge transformacije, na primjer, mnoenje ili dijeljenje nekom konstantom, ni ovdje nemaju
smisla. Varijable ovog tipa su svakako kvantitativne, ali je veliina odreena do na neku proizvoljnu
konstantu, koju moemo pribrojiti ili oduzeti, i zato se nazivaju aditivnim skalama.
Varijabla w3, masa tijela, u neem se bitnom razlikuje od prve dvije. Ono to im je zajedniko je da je
nesumnjivo i w3 kvantitativna varijabla, jer sigurno moemo rei da entitet ej ima 22.520 grama manje od
entiteta ek, a eq 64.000 grama vie od ej. Uoimo, meutim, da varijabla w3 ima realnu nultu toku (iako,
naravno, nijedan ovjek ne moe teiti nula grama), i da je stoga doputeno rei da je eq dva puta tei od ej.
Tako neto ne bi bilo mogue ako bi od rezultata oduzeli ili im pribrojili neku konstantu; na primjer, ako bi
od svakog rezultata oduzeli 30.000 grama, omjer izmeu rezultata eq i rezultata ej ne bi vie bio 2, ve 2.88.
Uoimo, meutim, da se nita bitno ne bi promijenilo ako bi svaki rezultat podijelili s nekom konstantom, na
primjer sa 1.000. U tom bi sluaju, naravno, rezultati bili oznaeni u kilogramima, a ne u gramima, ali bi sve
informacije bile sauvane, kako udaljenost izmeu entiteta, tako i omjer izmeu njihovih rezultata. Prema
tome, ovaj tip varijabli, koji pripada grupi omjernih skala, koje se tako nazivaju jer postojanje realne nulte
toke doputa odreivanje omjera izmeu rezultata, moe biti podvrgnut mnoenju ili dijeljenju nekom,
pozitivnom realnom konstantom; to ne mijenja prirodu rezultata, jer su ionako definirani u proizvoljnim
mjernim jedinicama14.
Varijabla w4 se od varijable w3 razlikuje prije svega po tome to oito nema realnu nultu toku15. Jer,
sasvim je jasno da entitet eq, koji nije rijeio niti jedan zadatak, nema zbog toga inteligenciju jednaku nuli;
teko je i zamisliti ivo ljudsko bie s nultom inteligencijom. Rezultat entiteta eq moe biti posljedica toga
to su zadaci od kojih je test sastavljen preteki da bi se na temelju njih mogli razlikovati entiteti suvie
niskih intelektualnih sposobnosti; na isti nain, ne bi imalo nikakvog opravdanja zakljuiti da neki hipotetski
entitet, koji bi rijeio svih 60 zadataka, ima apsolutnu inteligenciju. Meutim, ako je test dobro konstruiran,
tj. ako zaista mjeri inteligenciju na valjan i pouzdan nain, moglo bi se razloito zakljuiti da je razlika
izmeu rezultata entiteta ej i eq jednaka razlici u inteligenciji izmeu entiteta ej i ek, i da je, tavie, razlika
izmeu entiteta ek i eq dva puta vea od razlike izmeu entiteta ek i ej. Kako, dakle, ovaj tip varijabli nema
realnu nultu toku, doputeno je svakom rezultatu pribrojiti ili od svakog oduzeti neku realnu konstantu; to
nee promijeniti udaljenost izmeu rezultata. Osim toga, mjerne jedinice su i u varijablama ovog tipa stvar
konvencije; nita se ne bi promijenilo kada bi, na primjer, za svaki rijeeni zadatak entitet dobio dva, a za
svaki nerijeeni zadatak jedan bod. Skale ovog tipa nazivaju se intervalnim, jer je jedino razmak ili interval
izmeu rezultata definiran; no, kako nemaju realnu nulu i kako su im mjerne jedinice proizvoljne, rezultati
mogu biti podvrgnuti bilo kakvoj afinoj transformaciji, tj. od rezultata moe biti oduzeta ili rezultatu
pribrojena bilo koja realna konstanta, i razlika moe biti pomnoena ili podijeljena bilo kojim realnim brojem, razliitim od nule.
Varijabla w5 tek uvjetno spada u kvantitativne varijable, jer oznaka ranga najvieg obrazovnog nivoa
koji je netko postigao nije, sama po sebi, nikakva mjera koliine. Potujui konvenciju uvedenu pri kodiranju
obrazovnog nivoa, mogli bismo jedino zakljuiti da je obrazovna razina entiteta ek vea od obrazovne razine
14

Lako je vidjeti da se nita ne bi promijenilo ako bi masu iskazali, na primjer, u funtama.

15

Pretpostavimo, naravno, da je test koji je primijenjen konstruiran u skladu sa psihometrijskim pravilima, i da ima zadovoljavajue visoku
pouzdanost i valjanost.

27

Konstantin Momirovi u statistici

entiteta ej, a obrazovna razina ovoga vea od obrazovne razine entiteta eq. Brojevi kojima smo te razine
oznaili ne oznaavaju, oito, koliinu, ve rang, pa se stoga varijable ovog tipa nazivaju ordinalnim
varijablama, ili varijablama koje lee na nekoj ordinalnoj skali16. Zbog toga se bilo koji niz oznaka, koje idu
po nekom redu, moe upotrijebiti za oznaku redoslijeda; to mogu biti i slova, a ne nuno brojevi, a i brojevi
mogu biti invertirani; na primjer, sasvim je dopustivo oznaiti obrazovni stupanj VII/2 sa 9, a obrazovni
stupanj I sa 1. Oito, ordinalne varijable doputaju svaku transformaciju koja zadrava redoslijed, Ipak, zbog
toga to redoslijed doputa zakljuke tipa "vee od" ili "manje od", ordinalne su skale jo uvijek, iako slabe,
kvantitativne skale; ovo pogotovo stoga to je, pod nekim uvjetima, mogue zamijeniti oznake redoslijeda
brojevima koji se ponaaju kao da lee na nekoj intervalnoj skali17.
Konano, w6 je varijabla iji rezultat ne govori nita ni o koliini, ni o redoslijedu, ve samo o tome
koje svojstvo ima neki entitet iz grupe meusobno iskljuivih svojstava. Tako entitet ek spada u grupu onih
koji vole koarku, a entiteti ej i eq u grupu onih koji vole nogomet. Te grupe, same po sebi, nisu ni u kakvom
redoslijedu, pa kako oznaka pripadanja ne oznaava nikakvu veliinu, varijable ovog tipa nazivaju se
kvalitativnim ili nominalnim varijablama. Oito je da se svi entiteti koji pripadaju nekoj grupi mogu smatrati
identinim pod vidom osobine koja je definirana tom grupom. Sasvim je, naravno, svejedno kako su
oznaene grupe, sve dok je jasno ta oznake znae; primjera radi, mogli bismo one koji najvie vole koarku
oznaiti brojem 1, a one koji vole nogomet brojem 2; to nita ne bi promijenilo na stvari, niti bi ti brojevi
oznaavali neku veliinu ili redoslijed.
Ova e knjiga biti posveena iskljuivo analizi kvalitativnih ili nominalnih varijabli. Ipak, korisno je
znati neka formalna obiljeja kvantitativnih varijabli, jer se pod nekim uvjetima i nominalne varijable mogu
kvantificirati, ili predstaviti kao skupovi u biti kvantitativnih varijabli. Zbog toga e u ovom poglavlju
najprije biti dat kratak formalni prikaz metrikih varijabli, a zatim e na formalan nain biti definirane nominalne varijable i nain njihove kvantitativne reprezentacije. Posljednja sekcija ovog poglavlja dati e prikaz
onih tipova diskontinuiranih i kontinuiranih funkcija raspodjele koji se u pravilu sreu pri kvantitativnoj
analizi kvalitativnih varijabli ili pri ispitivanju vjerodostojnosti nekih hipoteza o njihovu ponaanju ili
njihovim meusobnim vezama.

2.1 KVANTITATIVNE VARIJABLE


Neka je ei, i = 1,... neki skup objekata i neka je w neka karakteristika definirana na skupu realnih
brojeva {xj, - < xj < }. Varijablu definiranu pridruivanjem broja xj objektu ei.
Yj = (ei xi)
nazvat emo kontinuiranom ako yj moe poprimiti bilo koje vrijednosti u intervalu (- a yj b ), a
diskretnom ako u tom intervalu moe poprimiti samo neke vrijednosti. Oito, ako se skup {xj} sastoji samo
od cijelih brojeva, yj je realizacija neke diskretne varijable.
Neka su yj, yk i yq, k = j+1, q = k+1 vrijednosti dobijene na varijabli y. Varijablu y nazvat emo strogo
kvantitativnom18 ako vrijede ovi uvjeti:
(1) yj < yk < yq = wj < wk < wq na cijelom intervalu a yj b, u kojem emo sluaju tu varijablu zvati
normalno skaliranom varijablom, ili
yj < yk <yq = wj > wk > wq, na cijelom intervalu a yj b, u kojem emo sluaju varijablu y zvati
inverzno skaliranom varijablom;
(2) djk = yk -yj = dqk = yq - yk na cijelom intervalu a yj b, znai
wk - wj, = wq - wk, na cijelom rasponu svojstava w.
Ako vrijedi samo uvjet (1), ali ne i uvjet (2), varijablu y zvat emo slabom kvantitativnom varijablom
ili ordinalnom varijablom.

16

Strogo uzevi, varijabla w5 pripada klasi ordinalnih kategorijalnih varijabli; stroge ordinalne varijable definirane su time to je mogue
odrediti redoslijed svakog pojedinog entiteta iz skupa E = {ei; i = 1,..., n}.

17

Na primjer, ako je poznata stvarna funkcija distribucije osobine definirane na nekoj ordinalnoj skali, mogue je rezultate kvantificirati
na temelju inverznog integrala te distribucije uz proizvoljno definirane parametre.

18

Drugi naziv za strogo kvantitativne skale jeste metrika skala.

28

Uvod u analizu nominalnih varijabli

Meu strogo kvantitativnim varijablama mogu se razlikovati ovi tipovi skala mjerenja:
(1) Apsolutne skale, u kojima se svojstva (l) i (2) zadravaju samo kod identinih transformacija
zj = yj;
za apsolutne skale vrijedi i uvjet
y = 0 => w = 0.
(2) Aditivne skale, u kojima se svojstva (1) i (2) zadravaju i nakon transformacije
zj = yj - c,
gdje je C proizvoljna, pozitivna ili negativna realna konstanta.
(3) Omjerne skale, za koje vrijedi dodatni uvjet
yj = 0 => w = 0
i kod kojih taj uvjet zadravaju samo transformacije
zj = yj m-1
gdje je m 0 proizvoljna realna konstanta.
(4) Intervalne skale, kod kojih, zato to nemaju realnu nultu toku, transformacija
zj = (yj - c) m-1
zadrava svojstva (1) i (2), ako je c proizvoljna, a m nenulta realna konstanta.
Iako razliiti tipovi metrikih skala ne doputaju identine operacije nad vrijednostima yj ili nad
vrijednostima izvedenim iz tih vrijednosti19, metrike skale openito doputaju primjenu velike veine
postupaka za analizu podataka i testiranje statistikih hipoteza. Naalost, ima dosta pojava u prirodi i drutvu
koje se ne mogu opisati ni na jednoj od metrikih skala, bilo zato to su te pojave takve naravi da im se ne
moe pridruiti neki sud o veliini, pa ak ni sud o redoslijedu20, ve samo sud o egzistenciji, bilo zato to
nema pogodnih instrumenata za procjenu veliine ili redoslijeda. Ali je zato gotovo uvijek mogue nekoj
pojavi pridruiti sud o egzistenciji, to je dovoljno da budu definirane na najnioj razini mjerenja, dakle na
nekoj nominalnoj varijabli.

2.2 NOMINALNE VARIJABLE


Nominalnom varijablom naziva se skup
V = {vj; j = 1, ..., r}, r 2 koji ima ova svojstva:
(1)

vj

j = 1,..., r

(2)

vj vk =

jk

(3)

U rj vj =V.

Oito, svaka je nominalna varijabla invarijantna na pridruivanje bilo kojih oznaka podskupovima vj, i,
kako tim podskupovima nije pridruena nikakva relacija ureenja, svaka je nominalna varijabla invarijantna
na permutaciju indeksa kojim su podskupovi vj oznaeni.
Ako je definiran neki skup objekata
E = {ei; i = 1 ,..., n},
19

Tako, na primjer, omjer dviju vrijednosti definiranih na intervalnoj skali nema smisla; no, zato afine transformacije na omjernim skalama
zadravaju svojstva (l) i (2), iako se, naravno, pri tome gubi realna nulta toka.

20

Ako je takav sud mogu, mogue ih je opisati na varijablama koje imaju samo svojstvo ureenosti, dakle ispunjavaju uvjet (1), ali ne nuno i
svojstvo veliine; pa spadaju u slabe kvantitativne skale. Vie o formalnim karakteristikama kvantitativnih skala vidi u Pfanzagl (1968).

29

Konstantin Momirovi u statistici

n r, opis skupa E na skupu V, definiran Descartesovim produktom E V u stvari klasificira ili kategorizira
objekte ei E u jednu od kategorija definiranih podskupovima vj V. Zbog toga se nominalne varijable
katkada nazivaju i kategorijalnim varijablama; a kako na skupu V nije definirana nikakva relacija ureenja21,
pripadanje nekog objekta ei nekoj od kategorija vj ne oznaava nikakav redoslijed meu objektima ej iz E, pa
stoga ni veliinu neke karakteristike. To je razlog zbog koga se nominalne varijable ponekad nazivaju i
kvalitativnim varijablama; ova nespretna oznaka trebala bi, u stvari, oznaavati da vrijednosti na nekoj
nominalnoj varijabli nisu ni omjernog, ni intervalnog, pa ni ordinalnog tipa, i da stoga nemaju kvantitativan
karakter.
Nominalne varijable predstavljaju oito najniu razinu mjerenja i zbog toga se relativno ee javljaju
u instrumentariju onih znanosti koje su tek na putu da dostignu neki razuman stupanj metodoloke zrelosti,
ili onih nauka ija transpozicija u neku djelatnost nije podvrgnuta evaluaciji na temelju dovoljno jasnih,
razgovjetnih i objektivnih kriterija. Meutim, ima karakteristika i u razvijenijim antropolokim, pa ak i u
fizikalnim znanostima koje nije mogue definirati drugaije do na razini neke nominalne varijable, ili, iako je
tako neto teorijski mogue, u tu svrhu ne postoji valjani, pouzdani ili ekonomini instrumentarij. Zato se
problem tretmana podataka definiranih nominalnim varijablama javlja, naravno u nejednakoj mjeri, u svakoj
znanosti i svakoj nauci.
Osnovni razlog zbog koga nominalne varijable, ponekad, egzistiraju i tamo gdje je mogue postii
neku viu, i stoga jednostavniju razinu mjerenja lei u tome to ako se objekti iz nekog skupa E uope meu
sobom razlikuju, te je razlike, ma kakve one bile, uvijek mogue definirati na nekoj nominalnoj varijabli.
Meutim, laka primjenljivost ne znai i jednostavnu traktabilnost; i, kako e se vidjeti iz daljeg teksta ove
knjige, najnia razina mjerenja u pravilu povlai primjenu najsloenijih metoda za analizu podataka i
testiranje hipoteza., ako je iz izvornih podataka potrebno izvui iole upotrebljive informacije.

2.3 KVANTITATIVNA REPREZENTACIJA NOMINALNIH VARIJABLI


Rezultati dobijeni opisom nekog skupa objekata E na nekoj nominalnoj varijabli V obino se
predstavljaju strukturom u kojoj je svakom objektu ei iz E pridruena alfanumerika oznaka kategorije vj iz V
kojoj ei pripada22. U stvari, radi se o nizu
(e1 ,vj e1 vj),..., (ei ,vj ei vj),..., (en ,vj en vj).
Meutim, rezultate dobijene opisom skupa E na skupu V mogue je predstaviti i na drugi, u sutini
kvantitativniji nain.
Neka je
S = (sij)

i = 1,..., n
j = 1,..., r

matrica reda (n, r) iji su lanovi sij definirani ovako

S ij =1 ei v j
S ij = 0 ei v j

i = 1,..., n
j = 1,..., r

Oito, zbog toga to za svaku nominalnu varijablu vrijedi vj vk = 0 i


ei vj vk, k j, i, matrica S ima ova svojstva:
(1) STS = D = (djj),

j = 1,..., r

gdje je D dijagonalna matrica


(2) STEn = DEr = F = (fj)

j = 1,..., r
23

gdje je En sumacioni vektor reda (n, 1), a Er sumacioni vektor reda (r, 1).
21

Ako je na skupu V definirana i neka, makar slaba, relacija ureenja , tako da vrijedi vj vj+1 ili vj vj-1, radi se o ureenoj kategorijalnoj varijabli
koja pripada skupu (emi) ordinalnih varijabli. Te varijable nee biti predmet daljeg razmatranja.

22

U razliitim sistemima za analizu podataka ova se struktura razliito naziva i razliito tretira. U GENSTAT jeziku takva se struktura naziva
FACTOR.

23

Sumacionim vektorom naziva se vektor iji su svi lanovi jednaki 1.

30

Uvod u analizu nominalnih varijabli

Lako je vidjeti da vrijedi


djj = fj

j = 1,..., r

i da je svaki fj u stvari
fj = num (ej vj)

j = 1,..., r

tj. da sadri broj objekata u podskupu vj skupa V.


Matrice tipa matrice S nazivaju se, obino, indikatorske ili selektorske matrice. Katkada se ovom
nazivu pridruuje i prefiks koji oznaava da elementi matrice S mogu poprimiti samo vrijednosti 0 i 1, pa se
S naziva binarna selektorska ili binarna indikatorska matrica.
Uoimo da ova reprezentacija definira neku nominalnu varijablu V koja ima r 2 kategorija kao skup
od r ortogonalnih binarnih vektora varijabli. Jasno je, meutim, da je samo (rl) tih varijabli stvarno
nezavisno, jer, ako su poznate vrijednosti za ma koji niz sij, j = 1,..., r1, poznata je i vrijednost sir.
Prema tome, za razliku od kvantitativnih varijabli kod kojih je vrijednost objekta na toj varijabli
definirana jednim jedinim brojem, vrijednost nekog objekta na nekoj nominalnoj varijabli sa r moguih
ishoda definirana je na skupu od r binarnih varijabli. Stoga su, u stvari, sve metode za analizu podataka
definiranih nominalnim varijablama u sutini multivarijantne procedure, to je i glavni razlog to se podaci
dobijeni na najprimitivnijoj razini mjerenja moraju tretirati sloenim matematikim i statistikim
procedurama.

2.4 NEKE FUNKCIJE VJEROJATNOSTI VANE ZA ANALIZU NOMINALNIH VARIJABLI


Nominalne su varijable definirane realizacijom jednoga ili vie nezavisnih ishoda. Prema tome, sve
funkcije vjerojatnosti koje se odnose na nominalne varijable pripadaju klasi diskretnih raspodjela. U
ovisnosti od karakteristika nominalnih varijabli i naina odreivanja uzorka ili provoenja pokusa, realizacija
ishoda neke nominalne varijable moe imati, najee, jednu od ovih funkcija vjerojatnosti24.
(1) Hipergeometrijska raspodjela
Neka je P neki konani skup sa lanova, i neka je V = {v1, v2}, v1 v2 = neka nominalna varijabla
definirana tako da p1 lanova skupa P ima karakteristiku definiranu kategorijom v1 a p2 lanova skupa P
karakteristiku definiranu kategorijom v2; p1 + p2 = 1. Neka je iz P izvuen podskup E sa n lanova.
Oznaimo sa f1 = num(ei v1 ei E) broj lanova skupa E koji imaju karakteristiku v1; oito, broj lanova
tog skupa koji imaju karakteristiku v2, jer nemaju karakteristiku v1, biti e nf1. Ako je p(e1 E) = 1/, f1 e
imati funkciju vjerojatnosti
p
p

p ( f 1 ) = f 1 n2f
1
1

(n )

koja se naziva hipergeometrijska raspodjela. Prva dva momenta, definirana kao aritmetika sredina i
varijanca ove raspodjele, jesu, naravno,

= np1 i 2 = ((-n) / ( -1))np1p2.


(2) Multivarijantna hipergeometrijska raspodjela
Neka je P neki skup sa lanova i neka je V = {vj; j = 1,..., r}, vj vk = ako j k definirana na P
tako da ga dijeli u r > 2 podskupova sa efektivima pj,

p
j =1

= 1 . Neka je iz P sluajno izabran neki uzorak

E = {ei; i = 1,..., n},


p(ei E) = l/, i neka su fj, j = 1 ,..., r frekvencije definirane izrazom
24

Vidi, na primjer, Wilks (1962) ili Rao (1973).

31

Konstantin Momirovi u statistici

fj = num(ei vj ei E). Oito, varijabla f1, f2..., fj..., fr imat e samo (r1) nezavisnih ishoda. Funkcija
vjerojatnosti tih frekvencija otuda je

r p j
p ( f1 ,..., f r 1 ) = f
j =1 j

(n )

i naziva se (r1) varijantna hipergeometrijska raspodjela. Momenti ove funkcije su

j = npj

j2= ((-n)/(n-1))npj (1-pj)

a kovarijacije funkcija fj, fk, j k


cjk = - ((-n)/(n-1))npjpk
(3) Binomijalna raspodjela
Pretpostavimo da je P neki skup sa efektivom . Neka je iz P sluajno izabran neki uzorak E =
{ei, i = 1,..., n}, i neka je definirana nominalna varijabla V = {v1, v2}, v1 v2 = . Neka je f1 = num(ei v1
ei E) broj entiteta iz E u kategoriji v1; f2 = nf1 biti e, naravno, broj entiteta u kategoriji v2. Vjerojatnost
ishoda definiranog brojem entiteta u kategoriji v1 biti e

p ( f1 ) = nf p f1 (1 p ) f 2
1
gdje su parametri p i (1p) vjerojatnosti p(ei v1) i p(ei v2); ovi se parametri, na uzorku E, mogu
procijeniti operacijama p = f1/n i (1p) = f2/n.
Prva dva momenta ove raspodjele su

= np i 2= np (1p)
Oito, hipergeometrijska raspodjela je poseban sluaj binomijalne raspodjele za uzorke iz konanih
populacija.
(4) Multinomijalna raspodjela
Neka je P neka populacija sa efektivom , neka je E = {ei; i = 1,..., n) neki sluajni uzorak iz P, i
neka je V = {vj; j = 1,..., r} neka nominalna varijabla definirana na P tako da je vj vk = ako j k, i neka
r

su pj,

p
j =1

= 1 vjerojatnosti pj = p(ei vj), j = 1,..., r.

Neka su fj = num (ei vj ei E) frekvencije ishoda definiranih kategorijama vj, j = 1,..., r. Za fiksni n
nezavisno je, oito, samo (r1) takvih ishoda. Vjerojatnost nezavisnih frekvencija f1...fr-1 definirana je
funkcijom
r

j 1

j 1

p( f1 ,..., f r 1 ) = (n! / f j !)( p j j )


f

koja se naziva (r1) varijantnom multinomijalnom raspodjelom i ima prva dva momenta

j = npj i = npj(1pj)
i kovarijance izmeu fj, fk (j k)
cjk = -npjpk.
(5) Poissonova raspodjela
Ova se raspodjela moe izvesti iz binomijalne ako dopustimo da uz fiksirani f1 = num (ei v1 ei E)
efektiv uzorka E tei ka , a p(ei v1 ) 0 tako da je = np neki fiksirani broj. Tada je vjerojatnost
ishoda f1 u nominalnoj varijabli V = {v, v2}
32

Uvod u analizu nominalnih varijabli

p( f1 ) = ( f1 e n )

f1!

i ishod definiran pripadanjem kategoriji v, nominalne varijable V ima Poissonovu raspodjelu, koja se inae
naziva i raspodjela rijetkih sluajeva. Prva dva momenta ove raspodjele su identina; naime
=
i 2 =
su istovremeno aritmetike sredine i varijance Poissonove distribucije.
Iako nominalne varijable, po prirodi stvari, imaju neku diskretnu raspodjelu, neke funkcije tih varijabli
imaju, asimptotski, kontinuirane funkcije distribucije. Ovo vrijedi za varijable dobijene kvantifikacijom
veeg broja nominalnih varijabli u okviru nekog modela analize glavnih komponenata ili analize kanonikih
relacija, i naroito za varijable koje su rezultat testiranja statistikih hipoteza o distribuciji vjerojatnosti ili
vrijednostima nekih mjera asocijacije.
1/ Normalna raspodjela
U oba sluaja rezultiraju da varijabla moe, naalost ne suvie esto, imati normalnu, Gaussovu
raspodjelu, definiranu funkcijom

f ( x) = ( 2 ) 1 / 2 1e 1 / 2 ( x )

/ 2

gdje je Ludolfov broj, e baza prirodnih logaritama, a


= E(x) i 2 = E(x-)2
prva dva momenta funkcije f(x). Na rezultatima, dobijenim na nekom sluajnom uzorku, nepristrasna
procjena ovih parametara je
n

= xi
i =1

2 = ( xi ) 2

i =1

1
n 1

Mnogo ee, a redovito kad se radi o testiranju statistikih hipoteza, funkcija normalne gustine
definirana je za neku standardiziranu varijablu
z = (x-) /
i ima oblik

f ( z ) = (2 ) 1 / 2 e

1 2
z
2

tako da je kumulativna funkcija normalne raspodjele standardiziranih varijabli

g ( z ) = (2 )

1 / 2

1 2
z
2

z .

2/ 2 raspodjela
Neka su zi, i = 1,...,n nezavisne varijable s normalnom funkcijom raspodjele f(zi). Varijable, definirane
kao

= zi2
i =1

imati e tada 2 raspodjelu, definiranu funkcijom gustine


/2

f ( x ) = (2
2

( / 2)) e

1
2
2

( 2 ) ( / 2 )1

gdje je oznaka gama funkcije25, a , jedini parametar 2 raspodjele, oznaava broj nezavisnih komponenata
varijable

i naziva se brojem stupnjeva slobode.

Prva 4 momenta raspodjele 2 su


= , 2 = 2, 3 = 8; 4 = 48 + 122
Najvei dio funkcija dobijenih testiranjem statistikih hipoteza u podruju analize nominalnih varijabli
ima 2 raspodjelu.

25

(x) = (x-1)! ako je x cijeli broj; inae, (x) = (x-1) (x-2)... (), gdje je 0 < < 1. Veina funkcija definirana je u funkcijama raspodjele na x =
i*0,5, gdje je i neki pozitivni cijeli broj. Posebno, (0,5) = 1/2.

33

Konstantin Momirovi u statistici

3. DESKRIPTIVNA ANALIZA NOMINALNIH VARIJABLI


Pa ta ako su svi ispitanici odgovorili sa 'slaem se'.
Jasno je da svako zna da je sport koristan za zdravlje.
Profesor statistike
na jednom fakultetu u Jugoslaviji
Ima, ali, naravno, vrlo malo, sluajeva kada je za opis nekog skupa objekata pod vidom problema koga
treba rijeiti potrebna i dovoljna jedna jedina nominalna varijabla. Meutim, i u sluajevima kada je u tu
svrhu skup objekata nuno opisati na dvije ili vie nominalnih varijabli, uvijek je vrlo korisno najprije
temeljito preispitati rezultate dobijene svakom varijablom posebno. Ovo ne samo zbog toga to je za valjano
razumijevanje odnosa izmeu dvije ili vie nominalnih varijabli potrebno dobro razabrati posebna svojstva
svake od njih, ve i zato to je, paljivim ispitivanjem svojstava neke nominalne varijable, mogue stei
informacije koje su same po sebi zanimljive ili znaajne.
Za razliku od kvantitativnih varijabli, koje su definirane na jednodimenzionalnom kontinuumu, ili se,
u pravilu bez velikog gubitka informacija, mogu tretirati kao da lee na nekom jednodimenzionalnom
kontinuumu, svaka je nominalna varijabla, zapravo, skup vie binarnih varijabli, kojima je, esto, zajedniko
samo to to se njihovi ishodi meusobno iskljuuju. Stoga je esto nuno analizirati ponaanje svake binarne
varijable koja spada u komponente neke nominalne varijable, ispitati da li je broj ishoda u svakoj od njih u
skladu s nekim oekivanjem, i utvrditi kolika je, zapravo, koliina informacija koja je dobijena opisom
nekog skupa objekata na odreenoj nominalnoj varijabli.

3.1 FREKVENCIJE I PROCJENE VJEROJATNOSTI


Neka je E = {ei; i = 1,..., n} sluajni uzorak iz neke populacije P izabran tako da je unaprijed fiksiran
efektiv uzorka n, neka je V = {vj; j = l,..., r} nominalna varijabla ije kategorije iscrpljuju skup E, i neka je
S=EV
indikatorska matrica kojom je reprezentiran opis skupa E na skupu V.
Tada su u vektoru
F = STEn =(fj)

j=1,...,n

gdje je En sumacioni vektor reda (n,1), frekvencije objekata iz E u podskupovima vj, a u vektoru

P=F

= (pj)
n
relativne frekvencije u podskupovima vj, j = 1,..., r.
Frekvencije fj, odnosno relativne frekvencije pj oito su linearno zavisne, jer, ako sa Er oznaimo
sumacioni vektor reda (r,1),
FTEr= odnosno PTEr=1.
Kako, stoga, varijabla V ima (r1) nezavisnih ishoda, funkcija raspodjele sluajne varijable f1,..., fr-1 je
multinomijalna raspodjela

p ( f1 ,..., f r 1 ) =
s momentima
j = npj

n!
( f 1!... f r !)( p1f1 ... p rf r )
j = 1,..., r

= np j (1 p j )

j = 1,..., r

2jk = np j p k

j, k = 1,..., r

2
j

i
Ako je E dovoljno veliki i zaista sluajan uzorak iz P, u vektoru p su nepristrasne procjene
vjerojatnosti pj.

34

Uvod u analizu nominalnih varijabli

3.2 MJERE KOLIINE INFORMACIJA


Realizacija neke nominalne varijable reducira neku apriornu nesigurnost o karakteristikama skupa E
definiranim nominalnom varijablom V. Ta je redukcija, naravno, proporcionalna apriornoj nesigurnosti o
karakteristikama skupa E V. Stoga je mjera koliine informacija koju emitira neka realizirana varijabla V
r

H = p j log e p j
j =1

koja se naziva entropijom varijable V. (26


Za fiksni r entropija dostie maksimum kada je
j, j = 1,..., r
pj = 1 / r,
tj. kada je apriorna nesigurnost o ishodu realizacija varijable V najvea.
Maksimalna entropija neke varijable zavisi, naravno, i od r, broja kategorija te varijable. Maksimalna
entropija neke varijable V za r kategorija je
Hr = -loge(1/r);
ova se veliina, dodue rijetko, upotrebljava za izraunavanje relativne entropije neke varijable, definirane
izrazom
R = H/Hr.
Entropija se ponaa kao neka mjera rasprenja rezultata, i stoga je logiki slina varijanci. tavie, entropija se, kao i varijanca, moe dekomponirati na aditivne komponente, koje mogu biti pridruene nekom
skupu inilaca odgovornih za rezultate u varijabli V. Ovo svojstvo moe biti upotrebljeno za konstrukciju
razliitih analitikih postupaka, izmeu ostalog i za procjenu povezanosti dviju nominalnih varijabli.

3.3 TESTIRANJE HIPOTEZA O DISTRIBUCIJI VJEROJATNOSTI


Pretpostavimo da je na temelju teoretskog modela ili na temelju rezultata ranijih istraivanja prije
realizacije varijable V postavljena hipoteza da su vjerojatnosti ishoda p*j, j = 1,..., r. Nakon realizacije
varijable V na uzorku E procjena vjerojatnosti ishoda definirana je vrijednostima pj, j = l,..., r. Neka je p=(pj),
F = (fj) i P* = (p*j). Hipoteza
HO : P = P*
protiv alternativne hipoteze
H1 : P P*
moe se testirati na temelju oekivanih frekvencija
e j = p j n
j = 1,..., r
jer funkcija
r

2 = ( f j e j )2 / e j
j =1

ima, pod H0, 2 raspodjelu sa (r1) stupnjeva slobode.

26

U ovom su

tekstu sve mjere koliine informacija definirane na bazi prirodnih logaritama. Vrlo esto se kao mjera koliine informacija
r

upotrebijava H b = p j log2 p j s vrijednou izraenom u bitovima, a ponekad


j =1

i H h = p j log 10 p j s vrijednou izraenom u


j =1

Hartley-ima.

35

Konstantin Momirovi u statistici

4. TABELE KONTINGENCIJE
Ja sam protiv toga da mu se dozvoli da dri predavanja na
postdiplomskom studiju. U njegovoj disertaciji nema nita
drugo sem gomile pogreno interpretiranih CONTAB-a.
Iz rasprave na vijeu postdiplomskog
studija jednog fakulteta u Zagrebu
Najvei dio svih postupaka za analizu nominalnih varijabli temelji se na strukturama podataka, koje se
obino nazivaju tabele kontingencije.
Ove je tabele, formalno, mogue definirati, pa stoga i konstruirati na vie naina, no njihova je
struktura uvijek ista: to su tabele koje se dobijaju ukrtanjem jedne nominalne varijable sa r 2 i jedne
nominalne varijable sa c 2 kategorija, pa stoga imaju formu matrice reda (r, c), sa elementima koji su
definirani brojem objekata ili entiteta iz nekog skupa E koji, istovremeno, imaju svojstvo definirano nekom
kategorijom prve varijable i nekom kategorijom druge varijable.
Ovako formiranim tabelama ponekad se pridruuje jedan dodatni stupac, u kome su brojevi entiteta u
svakoj od kategorija prve varijable, i jedan dodatni redak, u kome su brojevi entiteta u svakoj od kategorija
druge varijable. U donjem desnom kutu ove strukture obino se navodi ukupan broj entiteta u skupu Z.
Prema tome, tipina kontingencijska tabela, koju emo u daljem tekstu oznaavati sa F, ima ovaj
oblik:

1
2
.
.
F= .
j
.
.
.
r

1 2 ...
f11 f21 ...
f21 f22 ...

fj1

fj2

...

fr1

fr2

...

k
f1k
f2k
.
.
.
fjk
.
.
.
frk

...
...
...

c
f1c
f2c

...

fjc

...

frc

gdje su sa fjk, j = 1,..., r; k = 1,... ,c oznaene frekvencije


fjk = num(ei vj vk)
ako nominalne varijable oznaimo sa V] = {vj; j = l,..., r} i Vr= {vk; k = 1,...,c.}.
Ako se tabeli F pridrue stupac i redak sa elementima
fj = num(ei vj)
odnosno
fk = num(ei vk)
koje emo oznaiti sa F1 i F2, i skalar
n = num(ei E),
takva struktura podataka ima ovaj oblik:

36

Uvod u analizu nominalnih varijabli

F=

1
.
.
.
j
.
.
.
r

Fr=

1
f11
.
.
.
fj1
.
.
.
fr1
f1

...

...

k
f1k
.
.
.
fjk
.
.
.
frk
fk

...

...

c
f1c
.
.
.
fjc
.
.
.
frc

F
f1
.
.
.
fj
.
.
.
fr

fc

Problemi povezani sa ovakvim strukturama podataka mogu se svesti na nekoliko bitnih pitanja:
(1) Kako se formalno moe predstaviti jedna kontingencijska tabela i kakva su njena osnovna
svojstva?
(2) Kakvo znaenje imaju elementi fjk i to se iz njih moe zakljuiti?
(3) Kakvi odnosi postoje izmeu elemenata fjk, i elemenata fj i fk?
(4) Kako moemo izraunati koliinu informacija koju emitira neka kontingencijska struktura?
(5) Kako moemo izraunati koliinu informacija svake od varijabli V1 i V2 ako je njihova veza
definirana kontingencijskom strukturom F?
(6) Koje hipoteze moemo testirati u vezi sa strukturom F?
(7) Na koji nain moemo provjeriti da li izmeu varijabli V1 i V2 postoji neka veza?
U ovom e poglavlju biti opisani postupci kojima se rjeavaju ova pitanja. Drugi problemi povezani s
kontingencijskim tabelama, i openito s relacijama dviju nominalnih varijabli V1 i V2 biti e razmatrani u
poglavljima 5, 6, 7. i 8.

4.1 FORMIRANJE TABELA KONTINGENCIJE


Neka je
S1 = (sij)

i = 1,..., n
j = 1,..., r
indikatorska matrica dobijena opisom nekog skupa objekata E = {ei; i = 1,..., n} na nominalnoj varijabli V1 =
{ vj; j = 1,..., r}, i neka je
S2 = (sik)

i = 1,..., n
k = 1,..., c

indikatorska matrica dobijena opisom skupa E na nekoj drugoj nominalnoj varijabli V2 = {vk; k = 1,...., c}
Tabelom kontingencije naziva se matrica27

F = S1T S 2 =(fjk)

j=1,...,r
k=1,...,c.

Neka je E1 sumacioni vektor reda (r, l), i neka je E2 sumacioni vektor reda (c, 1). Definirajmo

D1 = S1T S1 = ( f jj )

j = 1,..., r

D2 = S 2T S 2 = ( f kk )

k = 1,..., c.

i
Oito, D1 i D2 su dijagonalne matrice iji su lanovi jednaki
27

Iako se, gotovo uvijek, tabela kontingencije formira nekim algoritmom koji se svodi na sortiranje i pretraivanje (vidi, npr., Knuth (1973)), vrlo je
korisno znati da je svaka kontingencijska tabela u biti matrica iji su lanovi skalarni proizvodi vektora dviju indikatorskih matrica.

37

Konstantin Momirovi u statistici

fjj = num(ei vj)

j = 1,..., r

fkk = num(ei vk)

k = 1,..., c

Formirajmo od ovih matrica vektore operacijama


i

F1 = D1E1 = (fj)

j = 1,..., r

F2= D2E2 = (fk)

k = 1,..., c

i uoimo da svaka kontingencijska matrica ima ova svojstva:


F E2 = F1
FTE1 = F2
i
E1T FE 2 = n .
Zbog toga je u svakom retku matrice p slobodno samo (cl), a u svakom stupcu samo (r1) lanova,
pa je broj stupnjeva slobode svake kontingencijske matrice reda (r, c)
= (r1) (c1).

4.2 FREKVENCIJE I PROCJENE VJEROJATNOSTI


Iz konstrukcije kontingencijske matrice F oito je da za njene lanove vrijedi
j = 1,..., r
fjk = num(ei vj vk)
k = 1,..., c
dakle, da su fjk, frekvencije objekata u podskupovima (vj v). Stoga su vektoru F1 frekvencije objekata u
podskupovima vj skupa V1, a u vektoru F2 frekvencije objekata u podskupovima vk skupa V2.
Pretpostavimo da je E sluajni uzorak iz neke populacije P sa fiksiranim efektivom n. U tom sluaju
lanovi matrice F imaju polinomijalnu raspodjelu sa vjerojatnostima ~
p jk , j = 1,...,r; k = i,...,c. Ako je E
dovoljno veliki i zaista sluajan uzorak iz populacije P, u matrici
1

P = F = (pjk)
n

j = 1,..., r
k = 1,..., c

~
p .

biti e nepristrane procjene vjerojatnosti jk Iz definicije frekvencija fjk, slijedi


j = 1,..., r
pjk = p(ei vj vk) = fjk /n
k = 1,..., c
Naravno, pjk, su procjene vjerojatnosti samo ako je E sluajan uzorak iz P i ako vjerojatnosti u
vektorima

P1 = F1

P2 = F2

= (pj)

j = 1,..., r

= (pk)

k = 1,..., c

i/ili
n

nisu fiksirane. Ako E nije sluajni uzorak iz P, pjk nisu vjerojatnosti, ve obine relativne frekvencije28.
Meutim, ako je E sluajni uzorak iz P s fiksnim vjerojatnostima pj; j = l,..., r i/ili pk; k = l,..., c, vjerojatnosti
pjk su osnov za procjenu uvjetnih vjerojatnosti.
U svakom sluaju
PE 2 = P1 ,

PT E1 = P2 i
E1T PE2 = 1 .
28

Zbog nejasnih razloga, mnogi korisnci ove grupe postupaka za analizu podataka obino mnoe vrijednosti pjk sa 100 i interpretiraju ih kao postotke.

38

Uvod u analizu nominalnih varijabli

4.3 UVJETNE FREKVENCIJE I UVJETNE VJEROJATNOSTI


Pretpostavimo da je uzorak E izabran iz populacije P tako da su vjerojatnosti pj iz vektora. P1 bile
poznate, i frekvencije fj iz vektora F1 fiksirane unaprijed tako da je, do na najblii cijeli broj, F1 = p1n. U tom
sluaju, elementi iz kontingencijske matrice F biti e distribuirani u skladu s multinomijalnom raspodjelom s
vjerojatnostima pj, uz uvjete
c

~
pj = ~
pk j = 1 , i
k =1

f j = f jk
k =1

fiksirane unaprijed.
Nepristrana procjena uvjetnih vjerojatnosti ishoda definiranih kategorijama {vk vjvj} biti e, ako
je E sluajan uzorak u odnosu na skup V2,

P21 = D11 F = P11P = ( p jk j )

j = 1,..., r
k = 1,..., c

gdje je

1
P1 = D1 ;
n
oito,

P1 = P1 E1.
Uvjetne vjerojatnosti ~
pk j , mogue je, u tom sluaju, procijeniti operacijom

P21 = P2T1E1 = ( pk j )

k = 1,..., c.

Analogno, ako su poznate vrijednosti pk iz vektora P2,

P12 = FD21 = PP21 = ( p jkk )

j = 1,..., r
k = 1,..., c

biti e matrica uvjetnih vjerojatnosti p(ei vj vk vk), a u vektoru

P12 = P21 E2 = ( p jk )

j = 1,..., r

biti e procjene uvjetnih vjerojatnosti p(ei vjvk).


Smisao matrica uvjetnih vjerojatnosti biti e, vjerojatno, neto jasniji, a njihova uloga u nekim
postupcima za analizu relacija nominalnih varijabli sasvim oigledna ako ih definiramo na neto drugaiji
nain.
Neka je B12 matrica izabrana tako da vrijedi

S1 B12 = S 2 + G2 trace(G2T G2 ) = min


i neka je matrica B21 izabrana tako da vrijedi analogna relacija

S 2 B2i = S1 + G1 trace(G1T G1 ) = min


tj. neka su B12, odnosno B21 matrice koje omoguuju da se na temelju jedne selektorske matrice predvidi
druga, s najmanjom moguom pogrekom. Radi se, oito, o opem regresijskom problemu, pa je

B12 = ( S1T S1 ) 1 S1T S 2


= D11F
= P21
39

Konstantin Momirovi u statistici

B21 = ( S 2T S 2 ) 1 S 2T S1
= D21 F T
= P1T2
a otuda

S 2 = S1 B12
= S1 ( S1T S1 ) 1 S1T S 2
i

S1 = S 2 B21 = S 2 ( S 2T S 2 ) 1 S 2T S1 ;
dakle, projekcije binarnih vektora iz jedne nominalne varijable u prostor koga razapinju vektori druge
nominalne varijable.

4.4 MJERE KOLIINE INFORMACIJA


Mjere koliine informacija varijabli V1 i V2 su, naravno,
r

H 1 = p j log e p
j =1

, i

H 2 = p k log e p k

k =1

Meutim, na isti nain kao to je definirana entropija skupova V1 i V2, moe se definirati i entropija
skupa V1 V2. Mjera koliine informacija kontingencijske tabele F biti e
r

H 12 = p jk log e p jk .
j =1 k =1

Oito,

H12 H1 + H2 .

Lako je pokazati da H12 dostie maksimum u sluaju da vrijedi pjk = 1/(rc)n, j, kao to je, meutim,
mogue onda i samo onda kada je pj = 1/r,j, pk = 1/c,k, iz ega slijedi da je, u tom sluaju
j = 1,..., r
p jk = p j p k
k = 1,..., c
tada e, naravno, vrijediti i H12 = H1 + H2.
Mjera H12 obino se naziva totalnom entropijom kontingencijske tabele, a mjere H1 i H2 entropijama
marginalnih varijabli.

4.5 UVJETNE MJERE KOLIINE INFORMACIJA


Pod uvjetnim mjerama koliine informacija razumiju se mjere koliine informacija koju emitira jedna
varijabla, ako su ishodi u drugoj varijabli poznati.
Parcijalna entropija varijable V1, ako su poznati ishodi definirani varijablom V2, biti e
r

H 12 = p jk log e p jk k ,
j =1 k =1

a parcijalna entropija varijable V2 ako su poznati ishodi definirani varijablom V1 e biti


r

H 21 = p jk log e p jk j .
j =1 k =1

Parcijalne entropije obino se nazivaju uvjetnim entropijama, i oito zavise od uvjetnih vjerojatnosti
ishoda.
40

Uvod u analizu nominalnih varijabli

Lako je pokazati da vrijedi


H12 = H1 + H 21

= H 2 + H12

i da je

H1 H12
i

H 2 H 21
pri emu je, naravno, H1 = H12 i H2 = H21 onda i samo onda kada je H12 = H1 +H2, to je jedna od definicija
nezavisnosti varijabli V1 i V2.

4.6 TESTIRANJE HIPOTEZA O DISTRIBUCIJI VJEROJATNOSTI


Hipoteze o raspodjeli vjerojatnosti u nekoj kontingencijskoj tabeli zavise prije svega od toga na koji je
nain uzorak E izabran iz populacije P. Pod tim vidom mogu se definirati ovi sluajevi i s njima povezane
hipoteze:
1. Sluaj 1:
Uz fiksni efektiv uzorka, n, fiksirane su i marginalne vjerojatnosti pj, j=l,...,r i, pk k = 1,...,c, pa otuda i
marginalne frekvencije fj, j = 1,...,r i fk, k = 1,...,c. Otuda u matrici F mogu slobodno varirati (r1)(c1)
lanova; hipoteza o raspodjeli frekvencija fjk pripada klasi hipoteza o interakciji.
2. Sluaj 2:
Uz fiksni efektiv uzorka fiksirane su ili marginalne vjerojatnosti pj, j=1,...,r ili marginalne vjerojatnosti
pk, k=l,...,c; otuda ili varijabla V1, ili varijabla V2 definiraju stratume uzorka E, i problem je najee da li je
distribucija vjerojatnosti u varijabli ije marginalne vjerojatnosti nisu fiksirane jednaka u svim stratumima. I
ovdje, naravno, mogu slobodno varirati samo (r1)(c1) lanova matrice F. Hipoteze o raspodjeli
frekvencija fjk spadaju u ovom sluaju u klasu hipoteza o homogenosti29.
3. Sluaj 3:
Uzorak E iz P je potpuno sluajan; ni u V1 ni u V2 marginalne frekvencije nisu fiksirane, ali je fiksiran
efektiv uzorka n. Za ovu shemu izbora uzorka tipina je hipoteza o tome da su varijable V1 i V2 nezavisne, pa
se ova klasa hipoteza naziva klasom hipoteza o nezavisnosti. Kontingencijska matrica F ima i dalje (r
1)(c1) nezavisnih lanova, ali se, posebno, mogu testirati hipoteze o raspodjeli marginalnih frekvencija.
Oito, shema 1. doputa samo testiranje hipoteza o fjk; shema 2, pored toga, i hipoteza o marginalnim
frekvencijama jedne od varijabli, a shema 3. i hipoteze o raspodjeli frekvencija fjk, i hipoteze o raspodjeli
frekvencija fj i fk. Meutim, iako se radi o logiki razliitim problemima, postupci za testiranje hipoteza o
raspodjeli frekvencija fjk identini su u sva tri sluaja i svode se, najee, na testiranje hipoteze o
nezavisnosti.

4.7 TESTIRANJE HIPOTEZE O NEZAVISNOSTI


Hipoteza da su distribucije ishoda definiranih varijablama V1 i V2 nezavisne moe se formulirati na
nekoliko naina; uobiajeni su
H01 : pjk = pj pk
i
H02 : H12 = H1 + H2
jer se obje ovako formulirane hipoteze mogu testirati na vrlo jednostavan nain.
Oito, ako vrijedi H01, oekivane frekvencije u tabeli F bie
ejk = n (pjpk)
= (fjfk)/n

29

Kod ove sheme izbora uzorka mogue je, oito, pored hipoteze o raspodjeli frekvencija fjk testirati i hipoteze o raspodjeli marginalnih frekvencija
varijable ije marginalne vrijednosti nisu bile fiksirane.

41

Konstantin Momirovi u statistici

pa funkcija
r

12 = ( f jk e jk ) 2 / e jk = n ( f jk /( f j f k ) 1)
j =1 k =1

j =1 k =1

ima, asimptotski, 2 raspodjelu sa


= (r1) (c1)
stupnjeva slobode30.
Pod hipotezom H02, funkcija
r

j =1

k =1

22 = 2( f jk log e f jk f j log e f j f k log e f k + n log n)


j =1 k =1

ima takoer, aproksimativno, 2 raspodjelu sa r stupnjeva slobode.


Premda je, osobito ako je n mali broj, 22 neto sigurnija mjera ispravnosti hipoteze o nezavisnosti,
openito su rezultati dobijeni testovima 21 i 22 prilino podudarni.
U nekim sluajevima, a posebno za procjenu varijance mjera asocijacije izvedenih iz vrijednosti 21
korisno je poznavati varijancu ove veliine. Aproksimativna procjena ove varijance je
r

2 = 4n(n 1 (( f jk e jk ) 2 / e 2jk ) + 12 / n ( 12 / n) 2 ) .
2

j =1 k =1

Ako n , asimptotska procjena 2 2 je prosto

2 2 = 4 12 .
1

30

Broj stupnjeva slobode neke kontingencijske tabele vrlo je lako definirati. Za fiksni n, matrica F reda (r, c) ima rc-1 nezavisnih
lanova i (r-1) + (c-1) restrikcija na raspodjelama marginalnih varijabli. Otuda =(rc-1) - (r-1) - (c-1) = (r-1) (c-1).

42

Uvod u analizu nominalnih varijabli

5. POSEBAN SLUAJ DVIJU BINARNIH VARIJABLI I


LOKALNE MJERE ASOCIJACIJE
Moe da bidne, al' ne mora da znai.
Srpska uzreica
Ima vie razloga zbog kojih je korisno posebno razmatrati sluaj r = c = 2, tj. sluaj kada se skupovi V1
i V2 sastoje samo od po dva podskupa. Prvi je, naravno, povezan s injenicom da su mnoge nominalne
varijable sutinski dihotomne, definirane samo prisustvom ili odsustvom nekog obiljeja, ili mogunou da
se skup objekata podijeli samo na dvije meusobno iskljuive podgrupe. Drugi je povezan s potrebom da se,
bez obzira na to koliko podskupova sadre skupovi V1 i V2, u svakome od njih razmatra samo jedan podskup
i njegov komplement, definiran unijom preostalih podskupova; ovo je posebno vano za procjenu lokalnih ili
segmentalnih mjera asocijacije izmeu V1 i V2. Trei, i moda najvaniji razlog proistie iz injenice da je u
sluajevima kada je V1 = {v11, v12} i V2 = {v 21, v 22} ukupna koliina informacija, uz fiksni n, sadrana samo u
v11 i v21 (ili u v12 i v22), tj. u samo dvije binarne varijable; a kako su binarne varijable po definiciji
kvantitativne varijable, ovaj sluaj doputa procedure koje inae nisu primjerene nominalnim varijablama, i
omoguava usporedbu izmeu postupaka tipinih za analizu kvantitativnih, i postupaka uobiajenih u analizi
kvalitativnih varijabli. I, konano, zbog jednostavnosti strukture podataka, mogue su operacije, i iz njih
izvedene funkcije i mjere koje nisu mogue u opem sluaju; ovo, naravno znai da sluaj r = c = 2 doputa
osjetno precizniji uvid u relacije izmeu V1 i V2.
Zbog svih ovih razloga je sluaj r = c = 2, koji se ponekad naziva i sluajem kontingencijskih tabela
reda (2,2), a ponekad analizom relacija binarnih varijabli, razmatran posebno u veini tekstova posveenih
analizi nominalnih varijabli31, pa je tako uinjeno i u ovom tekstu.

5.1 KONTINGENCIJSKE TABELE REDA (2,2)


Neka je V1 = {v11, v12} skup s dva mutualno ekskluzivna, i neka je V2={v21,v22} neki drugi skup s dva
meusobno iskljuiva podskupa. Ako je
E={ei; i = 1,..., n} neki skup objekata, sluajno izvuen iz neke
populacije P,
S1 = E V1
= (sij)
j = 1, 2
i
S2 = E V2
= (sik)
k = 1, 2
e biti indikatorske matrice reda (n, 2) sa lanovima definiranim funkcijama

si1 = 1 ei v 11

si 2 = 1 ei v11
s i1 = 1 ei v 21

s i 2 = 1 ei v 21

to znai da, i u V1 i u V2, pripadanje jednoj od kategorija jednoznano definira status objekata.
Zbog toga je u kontingencijskoj matrici

F = S1T S 2
= (fjk)

j, k = 1, 2

nezavisan samo jedan lan (f11, recimo), a element p11 u matrici vjerojatnosti

P=F

1
n

= (pjk)

j, k = 1, 2

je mjera slaganja izmeu V1 i V2.


31

Vidi, na primjer, Bialock (1972), Hays (1963), Kendall and Stuart (1961), Mc Nemar (1969), Reynolds (1977). U poslijednje vrijeme, zbog
dominantnog utjecaja kanonikih modela u analizi nenumerikih podataka, ovaj se dobar obiaj polako naputa.

43

Konstantin Momirovi u statistici

5.2 TESTIRANJE HIPOTEZE O NEZAVISNOSTI FISHEROV EGZAKTNI TEST


U sluaju r = c = 2 test nezavisnosti varijabli V1 i V2

2 = ( f jk e jk ) 2 / e jk
j =1 k =1

= ( f
j =1 k =1

2
jk

e jk ) n

gdje su
ejk = fjfk/n

j, k = 1, 2

oekivane frekvencije pod hipotezom o nezavisnosti


H0 : pjk = pj pk , a
2

f j = f jk

j = 1, 2

f k = f jk

k = 1, 2

k =1
2

j =1

i
pj = fj/n
pk = fk/n

j = 1, 2
k = 1, 2

kao i pjk nepristrasne procjene vjerojatnosti

pj = p(ei vj)
pk = p(ei vk)

j = 1, 2
k = 1, 2

pjk = p(ei vj vk)

j, k = 1, 2

moe se napisati i u obliku

2 = (n (f11f22 - f12f21)) / ((f11 + f12) (f21 + f22) (f11 + f21) (f12 + f22))
i ima pod H0 2 raspodjelu s jednim stupnjem slobode.
Kako je 2 raspodjela, naravno, kontinuirana, pogodno je vrijednost 2 korigirati tako da aproksimira
vrijednost na kontinuiranoj 2 raspodjeli. U tu se svrhu obino primjenjuje Yatesova korekcija

c2 = (n(f11f22 - f12f21-n/2)2) / ((f11+f12) (f21+f22) (f11+f21) (f12+f22))


koja, naravno, reducira vrijednost 2, ali vjerojatnost

= p (2 1)
ini bliom onoj koja se moe u sluaju r = c = 2 tono izraunati.
Fisher je, naime, naao da je pod hipotezom H0
2

j =1

k =1

= (( f11 + f12 )!( f 21 + f 22 )!( f11 + f 21 )!( f12 + f 22 )!) /(n! f ! f !)


vjerojatnost realizacije matrice F ako je nulta hipoteza tona. Zbog toga je, posebno ako je n relativno mali
broj, pogodnije testirati H0 Fisherovim postupkom nego na temelju 2 ili 2C testa.

44

Uvod u analizu nominalnih varijabli

5.3 MJERE POVEZANOSTI DVIJU BINARNIH VARIJABLI


Ako se skupovi V1 i V2 sastoje samo od po dvije binarne varijable, samo je jedna iz svakog skupa oito
dovoljna da opie objekte iz E na tim skupovima. Kako su binarne varijable uvijek ureene, obian produktmoment koeficijent korelacije
n

i =1

i =1

i =1

= ( sij p j )( sik p k )) /(( ( sij p j ) 2 )( ( sik p k ) 2 ))1 / 2


jeste prirodna mjera povezanosti izmeu V1 i V2. Lako je, meutim, pokazati, da je

= ( f11 f 22 f12 f 21 ) /(( f11 + f12 )( f11 + f 21 )( f12 + f 22 )( f 21 + f 22 ))1 / 2 = ( 2 / n)1 / 2 , tj. poseban sluaj mjere

dobijene nepotpunom standardizacijom vrijednosti 2, Cramerovog koeficijenta asocijacije, koeficijenta


asocijacije Tschuprowa i jedne od mjera koju su predloili Goodman i Kruskal32. Kako e se vidjeti u
poglavlju 7, je i jedina netrivijalna kanonika korelacija izmeu varijabli V1 i V2.
Znaajnost koeficijenta moe se, naravno, odrediti na temelju 2 testa, ili, posebno za male uzorke,
na temelju ishoda Fisherovog egzaktnog testa.

2 = (1

Iako se, ponekad, kao gruba aproksimacija varijance ovog koeficijenta uzima
2

) / n,

stvarna je asimptotska varijanca

1
n

1
2

3
4

2 = (1 2 + ( + 3 ) a1 2 (a2 a3 ))
gdje je

a1 = (( f11 f 22 ) 2 ( f12 f 21 ) 2 ) /(( f11 + f12 )( f11 + f 21 )( f12 + f 22 )( f 21 + f 22 ))1/ 2 ,


a2 = ( f11 + f12 f 21 f 22 ) 2 /(( f11 + f12 )( f 21 + f 22 )),
a3 = ( f11 + f 21 f12 f 22 ) 2 /(( f11 + f 21 )( f12 + f 22 )).
Mada je sigurno najpogodnija mjera povezanosti izmeu V1 i V2, predloeno je jo nekoliko mjera
asocijacije od kojih svaka ima neka korisna, ili bar zanimljiva svojstva.
Jedna od njih, poznata kao jedna od formulacija koeficijenta slaganja, predmet je vrlo kontroverznih
stavova statistiara, i unato jednostavnosti i neposredne razumljivosti, upotrebljava se vrlo rijetko. Ta mjera,
definirana kao

d = ( f11 f 22 f12 f 21 ) / n,
oito je proporcionalna intenzitetu veze izmeu V1 i V2, i za konstantne marginalne frekvencije d je razlika
izmeu frekvencija fjk i oekivanih frekvencija fjk; no, kako nije ni odozgo ni odozdo omeena, predloeno je
nekoliko drugih mjera koje su parcijalna funkcija od d.
Meu najstarijim takvim mjerama, pored koeficijenta kontingencije
K. Pearsona

k = ( 2 /(n + 2 ))1 / 2
koji i u ovom sluaju ima iste nedostatke kao i u opem sluaju33, jeste i Yule-ov koeficijent asocijacije

= ( f 11 f 22 f 12 f 21 ) /( f 11 f 22 + f 12 f 21 )
koji varira u granicama (-1, 0, +1), dostiui -1, odnosno +1 samo u sluajevima strogog neslaganja, odnosno
strogog slaganja izmeu V1 i V2. Yule-ov koeficijent, koji se moe napisati i u obliku

= nd /( f 11 f 22 + f 12 f 21 )
32

Ove su mjere, definirane za proizvoljno dimenzionirane kontingencijske tabele, oznaene u poglavlju 6, sa , , 1,2 (odnosno 2,1).

33

O karakteristikama koeficijenta kontingencije opirnije je raspravljeno u poglavlju 6.

45

Konstantin Momirovi u statistici

nije, iz ne ba sasvim jasnih razloga, pretjerano omiljen, iako je jasna funkcija stvarne povezanosti izmeu V1
i V2, a njegova varijanca
2
2
1
2 = ( 1 2 )2 ( f jk1 )
4
j =1 k =1

omoguava testiranje hipoteza o stvarnoj vrijednosti ovog koeficijenta i odreivanje intervala pouzdanosti.
Slino je i s drugom Yule-ovom mjerom
Y

= (( f 11 f 22 )1 / 2 ( f 12 f 21 )1 / 2 ) /(( f11 f 22 )1 / 2 + ( f 12 f 21 )1 / 2 ,

koja se obino naziva koeficijent koligacije, ima varijancu

Y2 =

2
2
1
(1 Y 2 ) 2 ( f jk1 )
16
j =1 k =1

a povezana je koeficijentom relacijom

= 2Y /(1 + Y 2 ).
Meu ostalim, slabo poznatim i rijetko upotrebljavanim mjerama valja spomenuti omjer krosprodukata

w = f11 f 22 / f12 f 21
koji varira izmeu 0 i 1 za sluaj neslaganja izmeu V1 i V2, poprima vrijednost 1 u sluaju potpune
nezavisnosti, i varira od 1 do za sluaj slaganja izmeu V1 i V2. Neto ugodniji raspon ima logaritam
omjera krosprodukata
w = log e ( f11 f 22 / f12 f 21 )

= log e f11 + log e f 22 log e f12 log e f 21


koji varira u rasponu (-, 0, +).
Obje su mjere, oito, invarijantne na mnoenja broja entiteta u ma kojoj marginalnoj kategoriji
proizvoljnim realnim skalarom, i na permutaciju redaka i stupaca u matrici F. Posebno je svojstvo ovih mjera
da postiu maksimum i kod slabe perfektne asocijacije, tj. u sluajevima kada jedna od vrijednosti f12, ili f21
nije jednaka nuli. Mjera w* ima varijancu
2

w2 = w2 ( f jk1 ),

j =1 k =1

a mjera w
2

w2 = f jk1 ;
j =1 k =1

naravno, obje su varijance definirane uz uvjet fjk > 0, j , k.


Za analizu relacija varijabli V1 i V2, u sluaju r = c = 2 mogu se, naravno, primijeniti i sve entropijske
mjere asocijacije34, mjere asocijacije izvedene iz redukcije pogreke prognoze35, i, svakako, mjera dobijena
kanonikom dekompozicijom kontingencijske matrice , ako je, uzgred, potrebno odrediti skalne vrijednosti
kategorija u V1 i V2 i skalne vrijednosti entiteta iz E.

34

Te su mjere opisane u sekciji 6.3.

35

Ove su mjere opisane u sekciji 6.2; kako e se vidjeti, jedna od tih mjera, , koincidira sa produkt-moment koeficijentom korelacije binarnih
varijabli.

46

Uvod u analizu nominalnih varijabli

5.4 LOKALNE I SEGMENTALNE MJERE ASOCIJACIJE


Neka su V1 = {vj, j = 1,..., r} i V2 = (vk , k = 1,..., c} dvije nominalne varijable, sa svojstvima r 3, c 3.
Definirajmo nove varijable

W1 = {w1 j ; j = 1,2}

, i

W2* = {w2 k ; k = 1,2}


tako da je

w11 = v j
w12 = U rj j v j

w21 = vk
w22 = U kc k v k ,
tj. izaberimo po jedan podskup iz V1 i V2 i definirajmo drugi podskup u W1 i W2 kao komplement izabranih
podskupova.
Na ovaj je nain mogue, formiranjem iz W1 i W2 kontingencijske tabele reda (2, 2) na skupu E,
ispitati znaajnost i intenzitet veze izmeu ma kog svojstva definiranog kategorijom vj = w11 iz skupa V1, i
ma kog svojstva definiranog kategorijom vk = w21 iz skupa V2.
Naravno, u tu se svrhu mogu primijeniti bilo koje ili sve metode primjerene kontingencijskim
tabelama reda (2, 2). Meutim, valja upozoriti da se, vrlo esto, konkatenacijom preostalih podskupova iz V1
i V2, mogu dobiti veze koje iskrivljavaju stvarnu povezanost izmeu svojstava definiranih podskupovima vj i
vk; osim toga, ako se ova operacija izvede na vie podskupova iz V1 i V2, rezultati statistikih testova nisu
vie nezavisni.
Na slian je nain mogue formirati dihotomne varijable konkatenacijom veeg broja podskupova i
odreivanjem kornplementa tako formiranog skupa u V1 i V2.
Mjere asocijacije dobijene selekcijom jednoga od skupova iz V1 i jednoga iz V2 nazivaju se, obino,
lokalnim mjerama asocijacije, a mjere dobijene podjelom podskupova iz V1 i V2 na dva segmenta
segmentalnim mjerama asocijacije.
Ako je konkatenacija podskupova u V1 i V2 uinjena tako da je od stvarnog interesa utvrditi intenzitet
suglasnosti izmeu jednog obiljeja iz V1 i jednog obiljeja iz V2, moe biti zanimljiva primjena nekih
koeficijenata asocijacije izvedenih iz definicije generalnog koeficijenta asocijacije bilo kog tipa metrikih
varijabli36. Ovo zato to su binarne varijable sigurno metrike, ali nije apriori jasno pripadaju li klasi
apsolutnih, aditivnih, omjernih ili intervalnih skala.
Definirajmo
fj = num(ei vj , j = 1)
fk = num(ei vk , k = 1)
fjk = num(ei vj vk , j,k = 1 )
i generalni koeficijent asocijacije metrikih varijabli
n

g = 1 (( ( xij xik ) 2 ) /( xij2 + xik2 )


i =1

i =1

i =1

i =1

i =1

i =1

= (2 ( xij xik ) /( xij2 + xik2 )

36

Zegers and Ten Berge, 1985.

47

Konstantin Momirovi u statistici

gdje su xij = f{sij) i xjk = f{sjk) transformacije binarnih varijabli definiranih pripadanjem entiteta kategorijama
vj, j = 1 varijable V1 i vk, k = 1 varijable V2.
Oito, ako f() definira kao dopustiva uniformirajua transformacija intervalnih skala, tj. kao afina
transformacija

f r ( s ij ) = xij = ( s ij p j ) /( p j (1 p j ))1 / 2
f r ( s ik ) = xik = ( s ik p k ) /( p k (1 p k ))1 / 2
n

i =1

i =1

g i = (2 xij xik ) /( xij2 + xik2 ) = xij xik / n

= = = = 12 = 21
pa je jasno da gotovo sve mjere (osim koeficijenta kontingencije) asocijacije u 2 metrici, i mjere osnovane
na redukciji pogreke prognoze Goodmana i Kruskala implicitno tretiraju binarne varijable kao intervalne.
Razmotrimo, meutim, sluaj uobiajen u teoriji binarnih funkcija, u kome se sj i sk tretiraju kao
aditivne skale; u tom sluaju, dopustive uniformirajue transformacije vrijednosti sij i sik su

f a ( sij ) = xij = sij p j


f a ( sik ) = xik = sij pk .
Sada je

g a = ( 2( p jk p j pk )) /((( p j ( 1 p j )) + ( pk ( 1 pk )))
pa je ga, koji se obino naziva koeficijentom aditivnosti, alternativna mjera asocijacije dviju binarnih
varijabli.
Binarne skale mogu se, naravno, tretirati i kao omjerne skale, jer odsustvo nekog obiljeja predstavlja
realnu nultu toku. U tom sluaju, dopustive uniformirajue transformacije su

f r ( sij ) = xij = sij / p1j / 2


f r ( sik ) = xik = sik / p1k / 2
pa je
n

g r = ( s ij s ik ) /( s ij sik )1 / 2
i =1

= f ij /( f j f k )

i =1

1/ 2

to nije drugo do kosinus kuta izmeu vektora Sj i Sk poznat pod imenom Burt-Tuckerov koeficijent
kongruencije, ili kao Hemingov kut dviju binarnih varijabli.
Iako rijetko, ima sluajeva u kojima se binarne varijable mogu tretirati kao da lee na nekoj apsolutnoj
skali. U tom je sluaju, naravno, dozvoljena samo identina transformacija sij = xij i sik = xik, pa je koeficijent
identiteta

g e = ( 2 f ij ) /( f j + f k )
jednak starom, dobro poznatom, i ne uvijek opravdano napadanom koeficijentu slaganja.

48

Uvod u analizu nominalnih varijabli

6. MJERE ASOCIJACIJE
U nevolji vrag i muhe dere.
Narodna poslovica
Statistika znaajnost povezanosti ili razlika37 dviju nominalnih varijabli ne znai nita vie od toga
da, uz dopustivu pogreku zakljuivanja, izmeu dvije varijable postoji neka veza razliita od nule, dakle da
distribucije dviju nominalnih varijabli nisu nezavisne. Pojam statistike znaajnosti nije stoga identian
pojmu vanosti; ako je uzorak E dovoljno veliki, i relativno male inkongruencije distribucija varijabli V1 i V2
biti e statistiki znaajne, ali to uope ne mora znaiti da je intenzitet povezanosti tih varijabli dovoljno
visok da bi se mogao smatrati vanim sa znanstvene, naune ili praktine toke gledita.
Zbog toga je, ako se uz dopustivu pogreku zakljuivanja odbaci hipoteza da su dvije nominalne
varijable nezavisne, nuno procijeniti intenzitet njihove povezanosti. Naalost, zbog toga to su nominalne
varijable u stvari skupovi meusobno iskljuivih binarnih varijabli, nije mogue definirati neku jedinstvenu
skalarnu mjeru intenziteta njihove povezanosti, osim pod kanonikim modelom za specijalni sluaj r = c = 2.
Ova je situacija dovela do toga da su predloene vrlo brojne skalarne mjere meusobne povezanosti
dviju nominalnih varijabli. Ove su mjere definirane pod razliitim teoretskim modelima, i openito nisu
meusobno sukladne; ovo vrijedi i za mjere koje su definirane u okviru istog teoretskog modela.
Veina predloenih jedinstvenih skalarnih mjera moe se, pod vidom osnovnog teoretskog modela iz
koga su izvedene, podijeliti u ove grupe:
(1) mjere asocijacije u 2 metrici, u koje spadaju koeficijent kontingencije
K. Pearsona, Cramerov koeficijent asocijacije, koeficijent asocijacije Tschuprowa, i jedna mjera dobijena
nepotpunom standardizacijom vrijednosti 2; osim ovih, predlagane su i mnoge druge mjere izvedene,
direktno ili indirektno, iz vrijednosti 2 pridruene nekoj kontingencijskoj tabeli, no nijedna od njih se nije
uspjela odrati38;
(2) mjere asocijacije izvedene iz redukcije pogreke prognoze rezultata u jednoj varijabli, ako su
poznati rezultati u drugoj; meu mjerama ove vrste, koje su predloili Goodman i Kruskal, najee se
primjenjuju koeficijenti i , u svom izvornom asimetrinom, ili simetriziranom obliku;
(3) entropijske mjere asocijacije, dobijene normiranjem mjera protoka informacija izmeu dviju
nominalnih varijabli, kao i mjere osnovane na redukciji pogreke prognoze; i entropijske mjere asocijacije su
izvorno asimetrine, ali postoje i u simetriziranom obliku.
Za ocjenu adekvatnosti predloenih mjera vano je razmotriti da li ispunjavaju ove uvjete:
* da li je donja granica mjere 0, koja se postie onda i samo onda kada su varijable V1 i V2 striktno
nezavisne;
* da li je gornja granica mjere 1, koja se postie onda i samo onda kada je V1 = V2;
* mogu li se usporeivati vrijednosti dobijene na razliito dimenzioniranim kontingencijskim
tabelama;
* da li je vrijednost mjere neka funkcija stvarnog intenziteta meusobne povezanosti dviju varijabli, i
da li je ta funkcija bliska linearnoj funkciji;
* da li je poznata funkcija raspodjele mjera; ili, bar, da li se mjeri jednoznano moe pridruiti neki
test znaajnosti;
* da li mjera doputa dalje manipulacije, kao to su, ali ne iskljuivo, raunanje parcijalnih i multiplih
korelacija.
Kako e se vidjeti iz formalnog opisa skalarnih mjera asocijacije, nijedna od njih ne dozvoljava svaki
od navedenih uvjeta.

37

Kod nominalnih varijabli, pojam povezanost i pojam razlika imaju, sa statistike toke gledita, identino znaenje. Uostalom, ovo vrijedi i za sve
kvantitativne varijable, jer je lako dokazati da se sve mjere razlika izmeu grupa mogu svesti na neku mjeru povezanosti izmeu indikatorske
matrice koja odreuje pripadanje grupama i kvantitativnih varijabli ili njihovih linearnih kombinacija.

38

Kako e se vidjeti iz razmatranja onih mjera koje su se uspjele odrati, i koje su stoga ugraene u veinu raunarskih programa za analizu
kontingencijskih tabela, neke meu njima egzistiraju zbog razloga koje je potpuno nemogue shvatiti. Inae, 2 u ovom poglavlju odnosi se na
klasinu vrijednost, oznaen sa 12 u poglavlju 4.

49

Konstantin Momirovi u statistici

6.1 MJERE ASOCIJACIJE U 2 METRICI


Kako je vrijednost 2 nesumnjivo ovisna od stupnja povezanosti varijabli, prirodno je da su prve mjere
koje su bile predloene za procjenu intenziteta asocijacije osnovane na toj vrijednosti; ovo pogotovo stoga
to svaka takva mjera ima odmah ugraen i test statistike znaajnosti, jer je

= p( 2 (r 1) (c 1))
ne samo vjerojatnost pogreke pri odbacivanju hipoteze o nezavisnosti, ve i pri odbacivanju hipoteze da je
neka mjera asocijacije, izvedena iz 2 testa, jednaka nuli.
Meutim, vrijednost 2 ne zavisi samo od intenziteta povezanosti, ve i od vie drugih faktora, od
kojih su neposredno oiti broj objekata, n, i dimenzije kontingencijske tabele39. Zbog toga su sve mjere
izvedene iz vrijednosti 2 zapravo pokuaji da se izvorno dobijena vrijednost 2 normira na neki pogodan
nain.

6.1.1 NEPOTPUNA STANDARDIZACIJA 2 I KOEFICIJENT 2


Ova je mjera definirana kao

2 = 2 / n ,
i esto referencirana kao , tj. drugi korijen iz 2. Kao i sve mjere izvedene iz 2, ima donju granicu,
naravno, 0, ali je gornja granica omeena sa jedan samo za poseban sluaj q = min(r, c) = 2. Zbog toga je, u
opem sluaju, vrijednost koeficijenata dobijenih na kontingencijskim tabelama razliitih dimenzija
neusporediva. Iako je stoga 2 slabo upotrebljiv u praksi, ima nekoliko vanih svojstava i pored onih koja su
oita: najvanije od svojstava koja nisu neposredno jasna je to da je 2, u stvari, zbroj kvadrata kanonikih
korelacija izmeu svih netrivijalnih, linearno nezavisnih kombinacija binarnih varijabli sadranih u
skupovima V1 i V2, i da je stoga sigurno funkcija ukupnog intenziteta meusobne povezanosti varijabli V1 i
V2.

6.1.2 CRAMEROV KOEFICIJENT ASOCIJACIJE


Cramerov koeficijent asocijacije je neposredno izveden40 iz koeficijenta 2 i definiran je kao

= ( 2 /(q 1))1 / 2
= ( 2 /(n(q 1)))1 / 2 .
Koeficijent izveden je na temelju nalaza da je maksimalna vrijednost koeficijenta 2 ba (ql), gdje
je i dalje q = min (r, c). Kako e se vidjeti u poglavlju o kanonikoj dekompoziciji kontingencijskih tabela
je, u stvari, drugi korijen iz prosjeka kvadrata kanonikih korelacija izmeu V1 i V2, pa ima jasan statistiki
smisao. Gornja granica ovog koeficijenta je, naravno, 1, jer 0 2 (q-1).
Kako je , zapravo, neka vrsta kanonikog indeksa, nije procjena maksimalne povezanosti izmeu V1 i
V2, osim ako je V1 = V2, i znatno zavisi ne samo od visine maksimalne, ve i od visine ostalih, pa i
beznaajnih, koeficijenata kanonike korelacije (osim, naravno, ako je q = 2, jer su tada V1 i V2 povezani
samo jednim netrivijalnim koeficijentom kanonike korelacije).
Iako, dakle, ima tendencu potcjenjivanja stvarnog intenziteta povezanosti, je, sigurno, najrazumnija
od svih mjera asocijacije izvedenih iz vrijednosti 2, jer zadovoljava veinu od uvjeta koji definiraju neku
dobru mjeru meusobne povezanosti dviju nominalnih varijabli.
Procjena varijance koeficijenta , za 12 0 0

39

Ostali inioci biti e razmatrani pri opisu kanonike dekompozicije kontingencijskih tabela.

40

I mjera 2 se katkada pripisuje Crameru. Inae, koeficijent ovdje oznaen sa se u veini tekstova oznaava sa V, ponekad sa C, a katkada i sa ,
to, naravno, izaziva zbrku.

50

Uvod u analizu nominalnih varijabli

2 = 2 2 /( 4n(q 1) 2 )
1

to omoguava testiranje hipoteza tipa

H : = * , * 0.
i procjenu intervala u kome lei stvarna vrijednost ove mjere.

6.1.3 KOEFICIJENT ASOCIJACIJE TSCHUPROWA


Ovaj je koeficijent definiran kao41

= ( 2 /((r 1)(c 1))1 / 2 )1 / 2


= ( 2 /(n((r 1)(c 1)))1 / 2 )1 / 2
i oito je da je u opem sluaju , jer vrijedi relacija

= ((m 1) /(q 1))1 / 2 ,


gdje je m = max (r, c). Naravno, = samo u sluaju kada je r = c; u posebnom sluaju r = c = 2 , = =
.
Iako nije sasvim jasno to, zapravo, u opem sluaju predstavlja ova mjera, ipak se, vjerojatno,
upotrebljava, jer se spominje u veini tekstova u kojima su opisani postupci za analizu nominalnih varijabli,
a ugraena je i u mnoge raunarske programe. Ovo unato tome to pretjerano potcjenjuje stvarnu vezu dviju
varijabli i u opem sluaju nije odozgo omeena sa 1; jedini vidljivi razlog preivljavanja ove mjere jeste da
je, prividno, pogodna za usporedbu mjera povezanosti definiranih na razliito dimenzioniranim
kontingencijskirn tabelama.
Lako je pokazati da je gornja granica koeficijenta Tschuprowa

max = ((q 1) /(m 1))1 / 2


gdje je i dalje m = max (r, c). Otuda moe, i u sluaju potpune povezanosti, dostii 1 samo ako je r = c.
Kao i za sve mjere izvedene iz vrijednosti 2, i za koeficijent nije teko nai procjenu varijance. Za
sluaj 2 0 0, varijanca Tschuprowljevog koeficijenta je

2 = 2 2 /( 4n ((r 1) (c 1)) 2 2 )
1

pa se mogu testirati hipoteze tipa

H : = * , * 0
i procijeniti vrijednost intervala pouzdanosti oko .

6.1.4 KOEFICIJENT KONTINGENCIJE K. PEARSONA


Ako u koeficijentu postoji neko zrno racionalnosti, to je teko rei za koeficijent kontingencije K.
Pearsona42, definiranom kao

k = ( 2 /(n + 2 ))1 / 2 .
Oito, 0 k < 1,43 i jasno je da gornju granicu ne moe nikada dosei; usporedba dva koeficijenta
kontingencije, dobijena na dvije tabele razliitih dimenzija je nemogua, a pored toga k ima i prilino

41

U veini tekstova koeficijent Tschuprowa oznaen je za T, ili T& ; u ovom se tekstu izbjegavaju velika slova za oznaku skalarnih veliina, da bi se
izbjeglo mjeanje notacije upotrebljene za oznaku matrica i vektora.

42

Racionala ovog koeficijenta je da, ako su V1 i V2 normalne varijable i rc, k2 2, gdje je 2 produkt moment koeficijent korelacije normalno
distribuiranih varijabli. Meutim, naravno, r*c<<, i k je sumnjiva procjena stvarne asocijacije izmeu V1 i V2 ak i u tom sluaju:

43

ak i za V1 i V2 r = c, kmax = (1-1/q)1/2. U opem s1uaju kmax = ((q-1)/(1+(q-1))1/2.

51

Konstantin Momirovi u statistici

sloene veze sa ostalim mjerama asocijacije izvedenim iz 2.


Tako, na primjer,

k 2 / 2 = (((r 1)(c 1))1 / 2 ) / (1 + 2 ),


a i varijancu ovog koeficijenta nije lako procijeniti, jer je

~ 2 (n + ~
k2 = (n 2 2 2 ) / (4
2 )3 )
1

gdje je ~
2 populacijska vrijednost 12 koja je, naravno, openito nepoznata. Ipak, valja priznati da je
aproksimacija ~
2 = 12 obino sasvim zadovoljavajua.

6.2 MJERE IZVEDENE IZ REDUKCIJE POGREKE PROGNOZE


Goodman i Kruskal su predloili jednu grupu mjera za procjenu povezanosti koje se temelje na
veliini relativne redukcije pogreke prognoze pripadanja objekata kategorijama jedne varijable ako je
poznato njihovo pripadanje kategorijama druge varijable.
Osnovni model svih mjera ovog tipa je

1.2 = ( p1 p1.2 ) / p1
gdje je p1 vjerojatnost pogrene klasifikacije u kategorije varijable V1, a p1.2 vjerojatnost pogreke
klasifikacije u kategorije V1 ako je poznata klasifikacija u kategorije varijable V2. Naravno, za inverzno
definirani problem

2.1 = ( p 2 p 2.1 ) / p 2
pa kako 1.2 ne mora biti jednako 2.1 , ove su mjere openito asimetrine; meutim, lako je izvesti i
simetrinu varijantu, no naalost sa vrlo kompliciranom funkcijom raspodjele.
Oito je da mjere tipa , imaju jasno i intuitivno svakome razumljivo znaenje, to ne vrijedi za mjere
definirane u 2 metrici, bez obzira na jasan statistiki smisao nekih od tih mjera.

6.2.1 KOEFICIJENTI GOODMANA I KRUSKALA


Iako nije teko opisati konstrukciju ovih mjera, moda je jednostavnije shvatiti njihov smisao na
temelju njihove formalne definicije.
Neka je
F = (fjk)

j = 1,..., r
k = 1,..., c

neka kontingencijska tabela,

P=F

1
( p jk )
n

j = 1,..., r
k = 1,..., c

matrica procijenjenih vjerojatnosti,


j = 1,..., r
F1 = (fj)
i
k = 1,..., c
F2 = (fk)
vektori marginalnih frekvencija, a
j = 1,..., r
P1 = (pj)
i
k = 1,..., c
P2 = (pk)
njima pridrueni vektori marginalnih vjerojatnosti.
Definirajmo

p *j = max p j ,
j

52

Uvod u analizu nominalnih varijabli

pk* = max pk ,
k

= max p jk

j = 1,..., r

p*jk . j = max p jk

k = 1,..., c

*
jk .k

pa je
c

1.2 = ( p*jk.j p *j )/(1 + p *j )


k =1

= 1 (1 p*jk.j )/(1 + p *j )
k =1

mjera relativne redukcije pogreke klasifikacije u kategorije V1 ako je poznata klasifikacija u V2, a
r

2.1 = ( p*jk.k p*k )/(1 + p*k )


j =1

= 1 (1 p jk.k )/(1 + p*k )


j =1

analogna mjera ako V1 ima logiki status nezavisne, a V2 logiki status zavisne varijable.
Obje se mjere, naravno, mogu definirati i na frekvencijama; ako je

f j = max f j ,
j

f k = max f k ,
k

jk .k

= max f jk ,
k

f jk . j = max f jk ,
j

onda je
c

1.2 = ( f jk .k f j ) /(n f j )
k =1

a
r

2.1 = ( f jk . j f k ) /( n f k ).
j =1

Procjena varijance koeficijenta 1.2 je


c

21.2 = (( n f jk .k )( f jk .k + f j 2 f jk .k
k =1

k =1

k =1

)) /( n f j )3

gdje izraz
c

f
j =1

jk .k

oznaava sumaciju uz uvjet da je f jk .k , u retku u kome je i f j . Analogno


r

2 2.1 = ((n f jk . j )( f jk . j + f k 2 f jk . j
j =1

j =1

j =1

)) /(n f k ) 3 .

Ovo omoguava testiranje hipoteza tipa

~
~
H 1.2 : 1.2 = 1.2 , 0 < 1.2 < 1

odnosno
53

Konstantin Momirovi u statistici

~
~
H 2.1 : 2.1 = 2.1 , 0 < 2.1 < 1
jer pod H1.2 i H2.1 funkcije

~
z1.2 = (1.2 1.2 ) / 1.2

~
z 2.1 = (2.1 2.1 ) / 2.1

imaju, aproksimativno, normalnu raspodjelu s parametrima = 0 i = l.


injenica da nije mogue neposredno testirati hipoteze 1.2 = 0 ili 1.2 = 1, odnosno analogne hipoteze
za 2.1 nije od velikog znaaja, jer se o njima moe zakljuivati na osnovu intervala pouzdanosti omeenih
sa

l = 1.2 z 1.2 i

u = 1.2 + z 1.2
gdje je z vrijednost na apscisi normalne raspodjele za pouzdanost zakljuivanja (1 - ); naravno, na isti se
nain moe odrediti l i u za 2.1 , pa ako se ovi intervali prepokrivaju, ima smisla raunati i simetrini
koeficijent .
Simetrina mjera asocijacije, izvedena iz istog konstrukcionog modela kao i 1.2 odnosno 2.1 , jeste
c

k =1

j =1

k =1

j =1

= ( p jk .k + p *jk . j p *j p k* ) /(2 p *j p k* )
= ( f jk .k + f jk* . j f j* f k* ) /(2n f j* f k* ).
6.2.2 KOEFICIJENTI GOODMANA I KRUSKALA
Mjere definirane relativnom redukcijom pogreke prognoze mogu se izvesti i uz dodatan uvjet da
klasifikacija objekata u kategorije varijabli V1, odnosno V2 u uvjetima odsustva informacija o klasifikaciji u
kategorije varijabli V2, odnosno V1, sadri vrijednosti pj, j = 1,..., r, odnosno pk, k = 1,..., c.
Uz ove se uvjete mogu definirati asimetrini koeficijenti asocijacije
r

j =1

j =1

k =1

k =1

1.2 = ( p 2jk / p k p 2j ) /(1 p 2j )


j =1 k =1
r

2.1 = ( p 2jk / p j p k2 ) /(1 p k2 )


j =1 k =1

koji takoer variraju u granicama (0,1) i imaju neposredno jasno znaenje. tavie, ovi su koeficijenti
neposredno povezani sa asimetrinom kanonikom dekompozicijom kontingencijskih tabela, na isti nain na
koji je Cramerov koeficijent povezan sa simetrinom kanonikom analizom relacija izmeu V1 i V2.
Za poseban sluaj r = c = 2,

1.2 = 2.1 = 2 ,
pa bez obzira na to to su izvedene pod potpuno drugim modelom, ovi koeficijenti su po svom ponaanju
slini mjerama definiranim u 2 metrici.
Ponekad je jednostavnije izraunati koeficijente 1.2 i 2.1 neposredno na temelju frekvencija fjk i
marginalnih frekvencija fj i fk . Tako je
r

1.2 = (( (n f jk f j f k ) 2 / f j )) / n((n 2 f k2 ))
j =1 k =1

54

k =1

Uvod u analizu nominalnih varijabli


r

2.1 = (( (n f jk f j f k ) 2 / f k )) /(n(n 2 f j2 )).


j =1 k =1

j =1

Simetrina verzija koeficijenta , definirana frekvencijama fjk, i marginalnim frekvencijama fj i fk je


r

= (( (n f jk f j f k ) ( f
2

j =1 k =1

1
j

+ f )) /(n(2 n f f k2 ))
1
k

j =1

2
j

k =1

i moe biti korisna za procjenu ope povezanosti izmeu V1 i V2, ali, naalost, ima vrlo nespretnu funkciju
raspodjele, kao, uostalom, u opem sluaju i koeficijenti 1.2 i 2.1.

6.3 ENTROPIJSKE MJERE ASOCIJACIJE


Zbog toga to su uvjetne entropije inverzna, asimetrina mjera povezanosti dviju nominalnih varijabli,
i zato to se entropija ponaa kao varijanca, relativno je jednostavno definirati entropijske mjere asocijacije
koje imaju mnoga pogodna svojstva, i uglavnom se razlikuju po metrici. Sve entropijske mjere povezane su
sa testom znaajnosti koji je izveden na osnovu hipoteze o nezavisnosti izmeu V1 i V2 formulirane u
terminima odnosa izmeu totalne entropije kontingencijske tabele i entropija marginalnih varijabli44.
Meutim, kako pritok informacija izmeu dvaju receptora-emitera ne mora biti jednak u oba smjera,
tako ni povezanost izmeu dviju nominalnih varijabli, definirana na vrijednostima uvjetnih, marginalnih i
totalne entropije ne mora biti simetrina; zbog toga se sve mjere asocijacije izvedene iz entropija mogu
definirati i kao simetrini, i kao asimetrini koeficijenti asocijacije.

6.3.1 KOEFICIJENTI JEDNOSMJERNE I DVOSMJERNE PROPUSNOSTI KOMUNIKACIJSKOG


KANALA
Mjere definirane relativnom jednosmjernom u dvosmjernom propusnou komunikacijskog kanala
izmeu V1 i V2 obino se pripisuju Garneru, i definirane su kao

c1.2 = ( H 1 H 1.2 ) / H 2
ako se V2 definira kao odailja, a V1 kao prijemnik, odnosno

c 2.1 = ( H 2 H 2.1 ) / H 2
ako se V1 definira kao odailja, a V2 kao prijemnik.
Simetrina mjera asocijacije definirana je kao

c = ( H 1 + H 2 H 12 ) /( H 1 + H 2 ).
Sve ove mjere, oito, variraju izmeu 0, za potpunu nezavisnost, i 1, za potpunu zavisnost izmeu V1 i V2.

6.3.2 ASIMETRINI I SIMETRINI KOEFICIJENTI KORELACIJE NOMINALNIH VARIJABLI


W. PEARSONA
Garnerove mjere asocijacije su intuitivno lako shvatljive, no njihova metrika nije kongruentna metrici
produkt-moment koeficijenata korelacije, na koju je priviknuta veina istraivaa. Takvu metriku imaju,
meutim, koeficijenti korelacije nominalnih varijabli koje je predloio W. Pearson. Asimetrini koeficijenti
definirani su kao

q1.2 = (1 ( H 1.2 / H 1 ) 2 )1 / 2
ako se V2 tretira kao nezavisna, a V1 kao zavisna varijabla, odnosno

q 2.1 = (1 ( H 2.1 / H 2 ) 2 )1 / 2
kada se V1 tretira kao odailja, a V2 kao prijemnik.
44

Test oznaen sa 22 u poglavlju 4.

55

Konstantin Momirovi u statistici

Simetrina mjera asocijacije definirana je kao

q = (1 ( H 1.2 / H 1 + H 2.1 / H 2 ) / 2) 2 )1 / 2 .
Svi ovi koeficijenti variraju izmeu 0, za potpunu nezavisnost, i 1, za potpunu zavisnost varijabli.
Njihovo ponaanje u rasponu (0,1) slino je ponaanju produkt-moment grupe mjera asocijacije: kvadrati
koeficijenata c1.2, c2.1 i c jesu, priblino, linearna funkcija generatora koji su zajedniki za distribucije
varijabli V1 i V2.

6.3.3 DIREKTNE ENTROPIJSKE MJERE POVEZANOSTI


Konceptualno je najjednostavnije definirati mjeru povezanosti izmeu dvije nominalne varijable kao

h = H 1 + H 2 H 12

koja oito ima vrijednost 0 u sluaju potpune nezavisnosti, ali ija gornja granica nije odreena. Meutim, iz
ove se mjere mogu izvesti asimetrini koeficijenti asocijacije definirani kao

h1.2 = h / H 1

h2.1 = h / H 2

koji se ponaaju, takoer, kao obini koeficijenti korelacije i variraju u rasponu od 0 do 1.

56

Uvod u analizu nominalnih varijabli

7. KANONIKA DEKOMPOZICIJA KONTINGENCIJSKIH TABELA


Statistique n 'est pas probabilit. Sous le nom de statistique
mathmatique des auteurs ont difi une pompeuse disci-pline,
riche en hypothses qui ne sont jamais satisfaite dans ta pratique.
Ce n'est pas de ces auteurs qu'il faut attendre la solution de nos
problmes typologiques.
J. P. Benzecri

U biti vrlo jednostavna metoda, koja se svodi na spektralnu dekompoziciju kontingencijske matrice p
ili matrice vjerojatnosti P uz neke metrike uvjete predloena je, pod raznim imenima, od nekoliko desetina
autora. Ova prividna zbrka posljedica je istih onih razloga koji su doveli i do posvemanje zbrke u analizi
kvantitativnih podataka. Iako se bez tekoa moe pokazati da su gotovo sve klasine statistike metode, kao
to su, na primjer, procjene parametara, analiza varijance, regresijska analiza, diskriminativna analiza,
komponentna i faktorska analiza i dobar dio taksonomskih procedura, samo posebni sluajevi kanonike
korelacijske analize, jo uvijek se ove metode uglavnom posebno razmatraju, to dovodi ne samo do gomile
redundantnih informacija, ve vrlo esto i do nerazumijevanja njihove prave sutine. Tako je, ili je donedavno bilo tako i sa analizom kontingencijskih tabela. Pod imenom analiza korespondencije, optimalno
skaliranje, dualno skaliranje, analiza homogenosti, i pod modelima ili metodama recipronih prosjeka,
analize varijance, glavnih komponenata i, naravno, pod metodom kanonike ili generalizirane kanonike
analize krila se, u biti, jedna jedina metoda. I, kako je kanoniki model openitiji od svih ostalih,
najpogodnije je da se jedan stari, ali, naalost, ne openito poznati postupak za razumnu analizu
kontingencijskih tabela definira pod ovim modelom45.
U tu svrhu definirajmo najprije klasini model kanonike korelacijske analize kvantitativnih, normalno
distribuiranih varijabli.
Neka je E = {ei; i = 1,..., n} P skup objekata sluajno izabran iz neke populacije P, i neka su W1 =
{wj; j = 1,.., m1} i W2 = {wk; k = 1,.., m2} dva skupa kvantitativnih, multivarijantno normalno distribuiranih
T
varijabli. Neka je
E = (1...1) sumacioni vektor reda (n, 1) i neka je
E = E (ETE)-1 ET
centroidni projektor reda n. Neka su
B1 = E W1

B 2 = E W2

matrice podataka dobijenih opisom skupa E na skupovima W1 i W2. Kako je, kao to e se kasnije vidjeti,
kanoniki model invarijantan na afine transformacije varijabli, transformirajmo matrice B1 i B2 u standardnu
normalnu formu operacijama

Z 1 = ( B1 EB1 ) D11 n 1 / 2

Z 2 = ( B2 EB2 ) D21 n 1 / 2
gdje su

D12 = diag C1

D22 = diag C 2
a C1 i C2, matrice kovarijanci varijabli iz W1 i W2,

C1 = ( B1T B1 B1T EB1 )n 1

C 2 = ( B2T B2 B2T EB2 )n 1


45

Ovaj, a
(1976),
(1956),
(1987),

i neki
Bosnar i
Kendall
Lerman

drugi pristupi ovom problemu opisani su u mnogim tekstovima, npr. u , i (1985), Benzecri
Pavii (1982), Bosnar i Hoek (1983), Burt (1950), De Leeuw, Young i Takane (1976), Guttman (1941), Hayasht
i Stuart (1961), De Leeuw (19S4), Lauro i D'Ambra (1984), Lebart, Morineau i Tabard (1977), Mornirovii sur.
(1984), Williams (1952); vjerojatno najsaetije i najpotpunije u Tenenhaus i Young (1985).

57

Konstantin Momirovi u statistici

Definirajmo jo matrice interkorelacija i kroskorelacija varijabli iz W1 i W2.

R11 = Z 1T Z 1
R22 = Z 2T Z 2
R12 = Z1T Z 2
i pretpostavimo, bez gubitka mogunosti generalizacije, da je m1 m2.
Definirajmo, na kraju, i bazine strukture matrica Z1 i Z2 kao

Z 1 = Y1 1 X 1T

Z 2 = Y2 2 X 2T ,

gdje su Y1, Y1T Y1 = I i Y2, Y2T Y2 = I lijevi vektori matrice Z1, odnosno Z2, reda (n, m1), odnosno (n, m2),
X1, X 1T X 1 = X 1 X 1T = I i X2, X 2T X 2 = X 2 X 2T = I desni vektori tih matrica, reda, naravno, m1 i m2, a 1 i
2 dijagonalne matrice sa singularnim vrijednostima matrica Z1 i Z2.
Sada se model kanonike korelacijske analize moe definirati kao problem

Z1V1 p = K1 p p = K 1Tp K 2 p = max


p p +1
Z 2V2 p = K 2 p K1Tp K1 p = pq

K 2T p K 2 q = pq
K1Tp K 2 q = 0
p = 1,..., s

pq
s = min(m1 , m2 )

gdje je pq Kroneckerov simbol, s dobro poznatim rjeenjem, koje se lako dobije derivacijom funkcija p po
V1p i V2p uz navedena ogranienja

( R21 R111 R12 2p R22 )V2 p = 0

p = 1,..., s

V1 p = R111 R12V2 p p1

p = 1,..., s

ili, jednostavnije, kao problem

Y1W1 p = K1 p p = K 1Tp K 2 p = max


p p +1
Y2W2 p = K 2 p W1TpW1q = pq

W2TpW2 q = pq
p = 1,..., s

s = min(m1 , m2 )

s neposredno jasnim rjeenjem

W1TpY1T Y2W2 p = p

p = 1,..., s

koje se svodi na spektralnu dekompoziciju matrice krosprodukata lijevih svojstvenih vektora matrica Z1 i Z2.
Lako se moe dokazati da je rjeenje kanonikog problema invarijantno na operacije tipa ZT, gdje je T
proizvoljna nesingularna matrica, i da su ne samo rjeenja obje reprezentacije kanonikog problema
ekvivalentna, ve i da je standa-rdizacija varijabli pogodna, ali ne nuna operacija.
Kako su bazine strukture matrica R11 i R22

R11 = X 1 21 X 1T

R22 = X 2 22 X 2T

oito je da vrijedi i da se, u stvari, kanoniki problem moe definirati i kao ortonormalna transformacija
matrica X1 i X2, tj. kao transformacija glavnih komponenata matrica Z1 i Z2, jer su te komponente ba lijevi
58

Uvod u analizu nominalnih varijabli

vektori tih matrica, pa, naravno

Y1 = Z 1 X 1 11

Y2 = Z 2 X 2 21 .

Identifikacija sadraja kanonikih varijabli K1p i K2p mogua je na temelju vektora V1p i V2p odnosno u
terminima glavnih komponenata ija je struktura definirana matricama

H 1 = X 11

H 2 = X 2 2

na temelju vektora W1p i W2p, koji oito sadre korelacije izmeu glavnih komponenata i kanonikih
varijabli. Meutim, u identifikacijske svrhe ee se, i lake, primjenjuju strukturalni vektori

G1 p = Z1T K1 p = R11V1 p

G2 p = Z 2T K 2 p = R22V2 p

a od neke su koristi i krosstrukturalni vektori

Q1 p = Z 2T K1 p = R21V1 p

Q2 p = Z1T K 2 p = R12V2 p .

Distribucija kvadrata kanonikih korelacija 2p , p= 1,..., s je


s

p =1

p =1

p< q

f (12 ... 12 ) = s / 2 p ( (pm1m 21) (1 2p ) ( n m1m 2 2) ( 2p 2q )


gdje je

1
1
1
1
p = (( (n p))) /( (n m1 p ))( (m2 + 1 p))( (m1 + 1 p)))
2
2
2
2
a () oznaka gamma funkcije, ali se za testiranje hipoteza

~ =0
H p :
p
obino primjenjuje Bartlett-ova procedura
s

2p = ( n ( m1 + m2 ) / 2 ) log e ( 1 2p )

p = 1,..., s

jer pod HOp funkcija p2 ima 2 raspodjelu sa

p = (m1 p + 1)(m2 p + 1)
stupnjeva slobode46.
Lako je vidjeti da je regresijska analiza poseban sluaj kanonike korelacijske analize za s = 1; da je
diskriminativna analiza poseban sluaj kada je jedan od skupova W1, W2 nominalna varijabla; da to isto
vrijedi i za (jednofaktorsku) multivarijantnu analizu varijance, dok za univarijantnu analizu varijance vrijedi
s = 1, a drugi skup je nominalna varijabla. Komponentna i faktorska analiza su posebni sluajevi kod kojih je
jedan od skupova W1, W2 nepoznat, a analiza stohastikih procesa je poseban sluaj u kome su varijable u
jednom od skupova (polinomijalna) funkcija neke vremenske varijable. Sve metode za taksonomsku analizu
ne mogu se neposredno podvesti pod ovaj model, ali veina moe: taksonomska analiza je poseban sluaj
kanonike korelacijske analize u kome je jedan od skupova W1, W2 nepoznat, ali se zna da predstavlja neku
nominalnu varijablu47.

7.1

KANONIKI MODEL

Model kanonike korelacijske analize moe se neposredno primijeniti na problem odreivanja relacija
dviju nominalnih varijabli iz jednostavnog razloga to je svaka nominalna varijabla skup binarnih, dakle
kvantitativnih varijabli. Ovaj model, takoer, omoguava pridruivanje kvantitativnih veliina kategorijama
46

Vrijednost konstante u p2 se, ponekad, definira kao -(n-l-(m1+m2-l )/2) , to je, naravno, praktiki isto.

47

Da je zaista tako najlake se uvjeriti ako se sa olovkom u ruci i papirom pokraj sebe proita ma koja ozbiljno napisana knjiga iz podruja statistike
ili ak analize podataka, na primjer, Anderson (1958), Kendall and Stuart (1961), Labert Morineau et Tabard (1977), Anderberg (1973), Wi Iks
(1962), Rao (1973), Horst (1965), itd., da spomenemo samo klasine tekstove.

59

Konstantin Momirovi u statistici

svake od analiziranih nominalnih varijabli, i pridruivanje kvantitativnih veliina rezultatima objekata na


svakoj od analiziranih nominalnih varijabli48.
Definirajmo najprije, jednostavnosti radi, ali bez gubitka mogunosti generalizacije, nominalne
varijable V1 = {vj; j = 1,..., r} i V2 = {vk; k = 1,..., c} tako da je q = min (r, c) = c, odredimo E = {ei; i = 1,...,
n} kao bilo koji tip sluajnog uzorka iz neke populacije P uz uvjet n>>(r c), i formirajmo binarne matrice

S1 = E V1

S 2 = E V2

s kontingencijskom tabelom

F = S1T S 2 ,
dijagonalnim matricama marginalnih frekvencija

D1 = S1T S1

D2 = S1T S 2

matricama vjerojatnosti

P1 = D1

1
n

P2 = D2

1
n

matricom vjerojatnosti na skupu V1 V2

P=F

1
n

i matricama uvjetnih vjerojatnosti

P1.2 = FD21 = PP21


i

P2.1 = D11 F = P11 P.


Neka su K1p i K2p, p = 1,.., q nepoznati vektori reda (n, 1), neka su X1p, p = 1,..., q nepoznati
vektori reda (r, 1) i neka su X2p, p = 1,..., q nepoznati vektori reda (c, 1), i neka su p, p = 1,..., q neke
nepoznate skalarne veliine, definirane tako da je p p+1.
Model kanonike korelacijske analize moe se sada definirati kao rjeenje problema

S1 X 1 p = K1 p p = K1Tp K 2 p

1
= ps
n
1
K 2Tp K 2 s = ps
n
1
K 1Tp K 2 s = 0
n
p p +1
K 1Tp K 1s

S2 X 2 p = K 2 p

1
= max
n
p, s = 1,..., q
p, s = 1,..., q

p s

gdje je ps Kroneckerov simbol.


Deriviranjem po X1p i X2p uz navedene uvjete, i reorganizacijom rezultata tako da matrica

N = D21F T D11F
= P21PT P11P
bude kvadratna matrica reda q = c, dobije se, primjenom standardnih procedura za ekstremizaciju cilja49,
rjeenje

48

Moe se pokazati (vidi, na primjer, Tenenhaus and Young (1985), , i (1985), Kendall and Stuart (1961), Lebart,
Morinesu et Tabard (1977), (1986) da se virtualno identini rezultati dobi jaju pod modelom glavnih komponenata, pod modelom analize
varijance, i metodom recipronih prosjeka. Kanoniki model u ovoj sekciji formaliziran je na nain opisan u Bosnar i Pavii (1982), Bosnar i
Hoek (1983) i Momirovi i suradnici (1987).

49

Vidi, na primjer, Rao (1973), Mulaik (1972), ili bilo koji pristojan udbenik linearne algebre.

60

Uvod u analizu nominalnih varijabli

( F T D11 F 2p D2 ) X 2 p = 0

p = 1,..., q

X 1 p = D11 F X 1 p p1

p = 1,..., q

koje se, naravno, moe napisati i u nekoliko ekvivalentnih formi, na primjer,

( PT P11 P 2p P2 ) X 2 p = 0

p = 1,..., q

X 1 p = P11 P X 2 p p1

p = 1,..., q

( N p2 I ) X 2 p = 0

p = 1,..., q

X 1 p = P2.1 X 2 p

p = 1,..., q

ili
1
p

Uoimo, meutim, da je 1 trivijalno rjeenje, jer je za binarne matrice uvijek mogue definirati X11 =
E1 i X21 = E2 kao vektore jedinice reda (r, 1), odnosno (c, 1) tako da su K11 i K21 takoer vektori jedinica, i 1
= 1. Zbog toga su zanimljiva samo rjeenja p, p = 2,..., q i njima pridrueni vektori X1p, X2p, K1p i K2p, p =
2,..., q.

7.2 KANONIKI KOEFICIJENTI ASOCIJACIJE


Zbog toga to je kanoniki model, kao i svi modeli koji se, zapravo, svode na funkciju lijevih svojstvenih vektora matrica podataka, invarijantan na afine transformacije, koeficijenti p, p = 2,..., q su, u stvari,
koeficijenti korelacije izmeu varijabli K1p i K2p.
Neka od svojstava ovih koeficijenata su oita. Prije svega, varijable V1 i V2 povezane su sa (q1)
mjera asocijacije, pridruenih parovima K1p i K2p netrivijalnih kanonikih varijabli, definiranih linearnim
kombinacijama vektora Sj, j = 1,..., r iz matrice S1 i Sk, k = 1,..., c iz matrice S2 preko vektora X1p, X2p, p =
2,..., q. Prema tome, ako je q > 2, povezanost izmeu V1 i V2 ne moe se svesti na jednu jedinu skalarnu
mjeru asocijacije bez gubitka znaajnih informacija, iz prostog razloga to nijedan od p, p = 2,..., q ne mora
biti jednak nuli.
Zatim, iz definicije p > p+1 slijedi da sve mjere asocijacije definirane kanonikim korelacijama ne
moraju biti jednakog intenziteta, pa stoga ni jednako vane; neki od ovih koeficijenata mogu biti statistiki
beznaajni, u smislu da je njihova prava vrijednost u populaciji P jednaka nuli. Meutim, povezanost izmeu
V1 i V2, definirana koeficijentima p, definirana je zapravo povezanou izmeu razliitih linearnih
kombinacija varijabli iz V1 i V2; njihov smisao stoga zavisi od toga kako su formirane varijable K1p i K2p,
dakle od toga kakav je sklop vektora X1p i X2p.
U stvari, ako definiramo dijagonalnu matricu
R = ( p )
p = 2,..., q

X1 = ( X1p ) i

X2 = ( X2p )

p = 2,..., q

K1 = ( K1 p ) i

K2 = ( K2 p )

p =2,..., q

a
oito je da vrijedi

1
n
T
= X 1 PX 2

R = K1T K 2

pa su koeficijenti kanonike korelacije definirani na spektru matrice vjerojatnosti P uz uvjete

K1T K1

1
= X 1T P1 X 1 = I
n

K 2T K 2

1
= X 2T P2 X 2 = I .
n

Naravno, koeficijenti p pripadaju klasi produkt-moment koeficijenata korelacije. To se dobro vidi u


specijalnom sluaju r = c = q = 2, u kome postoji samo jedan netrivijalni koeficijent kanonike korelacije.
Ako za taj sluaj napiemo eksplicitno elemente matrice
61

Konstantin Momirovi u statistici

N = P21 PT P11 P
= (nkj )

k, j = 1, 2

lako se moe pokazati da je

2 = = = (( p jk p j p k )) /((( p j (1 p j ))(( p k (1 p q )))1 / 2


tj. da je 2 obina produkt-moment korelacija izmeu jedine nezavisne binarne varijable Sj iz S1 i jedine
nezavisne binarne varijable Sk iz S2, i da stoga vrijedi i

2 = ( X 2 / n )
= = = 11./22 = 12/.12
iz ega slijedi da je, u sluaju q = 2, 2 jednak i koeficijentu , i Tschuprewljevom koeficijentu , i korijenu
iz Goodman-Kruskalove mjere , a ne samo Cramerovom koeficijentu .

7.3 KVANTIFIKACIJA NOMINALNIH VARIJABLI


Koeficijenti u vektorima X1p, p = 2,..., q odreuju (q1) moguih skalnih vrijednosti50 kategorija vj, j =
1,..., r iz nominalne varijable V1, a koeficijenti u vektorima X2p, p = 2,..., q odreuju t (ql) moguih ili
smislenih skalnih vrijednosti kategorija vk; k = 1,..., c iz nominalne varijable V2. Iz svojstava

X 1T P1 X 1 = I

X 2T P2 X 2 = I

gdje su X1 i X2 matrice zadranih t (q1) vektora X1p i X2p slijedi da su skalne vrijednosti kategorija
varijabli V1 i V2, ili, to je, naravno, isto, teine binarnih varijabli Sj iz S1 i Sk iz S2, P1, odnosno P2
ortonormalne.
Budui da je na ovaj nain mogue kvantificirati vrijednosti na nominalnim varijablama, kvantificirani
su i rezultati objekata iz E na tim varijablama, jer vektori K1p i K2p definiraju skalne vrijednosti entiteta na
svakoj od t (ql) nezavisnoj linearnoj kombinaciji binarnih varijabli iz S1 odnosno svakoj nezavisnoj
linearnoj kombinaciji binarnih varijabli iz S2 vrijednosti entiteta na K1p definirane su, naravno, njegovim
pripadanjem podskupovima vj V1 i skalnim vrijednostima tih podskupova za kanonike varijable

K1 p = S1 X 1 p

i = 1,..., n

= (ki1 p )

j = 1,... r

= ( s ij x1 jp )

p = 2,..., t q

j =1

a vrijednosti entiteta iz E na kanonikim varijablama K2p na analogan nain

K 2 p = S2 X 2 p
= ( ki 2 p )

i = 1,..., n
k = 1,... r

= ( s ij x 2 kp )

p = 2,..., t q

k =1

Uoimo, meutim, da je kvantifikacija nominalnih varijabli V1 i V2 relativna, jer zavisi od njihovih


meusobnih odnosa. Skalne vrijednosti kategorija iz V1 mogu biti sasvim drugaije u odnosu na neku treu
nominalnu varijablu V3, to vrijedi, naravno, i za skalne vrijednosti kategorija iz V2. Za razliku od metrikih
varijabli, ija je kvantifikacija definirana njihovom metrikom, jedina kvantifikacija nominalnih varijabli koja
je nezavisna od njihova odnosa s drugim varijablama jeste primitivna binarna reprezentacija.
Nije nevano uoiti da ak i u sluaju kad je kvantifikacija definirana kanonikim odnosima izmeu S1
i S2, svaka binarna varijabla iz ovih matrica ima t (q1) nezavisnih smislenih kvantifikacija. Ovo je,
50

U stvari, broj smislenih skalnih vrijednosti je u pravi i u t < (q-l), gdje je t odreen na temelju ishoda testova znaajnosti koeficijenata kanonike
korelacije p , p = 2,...., q.

62

Uvod u analizu nominalnih varijabli

dakako, posljedica injenice da su, osim u sluaju r = c = 2, nominalne varijable samo primitivan nain
reprezentacija muitivarijantnih skupova binarnih varijabli.
Za interpretaciju dobijenih rezultata, osim matrica X1 i X2 i, naravno, matrice kanonikih korelacija R,
ponekad je, analogno s postupcima uobiajenim u kanonikoj analizi kvantitativnih varijabli, korisno
razmatrati i strukturalne matrice

1
= P1 X 1
n
, i
1
T
G 2 = S 2 K 2 = P2 X
n
G1 = S 1T K 1

kao i krosstrukturalne matrice

1
= P X2
n
,i
1
T
T
G21 = S 2 K 1 = P X 1 .
n

G12 = S1T K 2

Uope uzevi, interpretacija rezultata dobijenih kanonikom analizom kontingencijskih tabela nije sasvim jednostavna; u biti, nema velikih razlika u koliini napora i vremena potrebnog da se interpretiraju
rezultati kanonike korelacijske analize dva skupa kvantitativnih varijabli i kanonike analize samo dvije
nominalne varijable. Kako je, meutim, stvarno razumijevanje odnosa dviju nominalnih varijabli bez takve
analize gotovo nemogue, jasno je da e svaki razuman istraiva po svaku cijenu nastojati da iz svoga
instrumentarija, ako to ikako moe, iskljui postupke koji generiraju nominalne varijable.

7.4 TESTOVI ZNAAJNOSTI KANONIKIH KOEFICIJENATA ASOCIJACIJE


Iz definicije matrice

N = D21 F T D11 F
= P1T.2 P2.1
= ( f kj2 / f k f j )

k, j = 1,..., q

slijedi da je

trace N = 2 / n + 1
= 2 + 1
a kako je
q

p =2

2
p

= trace N 1
= 2 / n
= 2

oito je da vrijedi
q

2 = n 2p
p =2

iz ega slijedi da funkcije

2p = n 2p

p = 2,..., q

predstavljaju komponente ukupne vrijednosti 2 neke kontingencijske tabele. I zaista, kako je svaka od
vrijednosti 2p , p = 2,..., q dobijena uvoenjem po jedne restrikcije za svaku kanoniku varijablu izvedenu iz
S1, odnosno S2, vrijednosti 2p imaju, pod hipotezom

H p : ~
p = 0

p = 2,..., q

aproksimativno 2 raspodjelu sa

p = r + c 2 p +1

p = 2,..., q
63

Konstantin Momirovi u statistici

stupnjeva slobode, to omoguava testiranje znaajnosti komponenata spektra neke kontingencijske matrice
F.51
Ova procedura, meutim, nije openito prihvaena. Neki autori (vidi, npr. , i
, 1985) predlau samo testiranje znaajnosti 2 prvog i najveeg netrivijalnog koeficijenta
kanonike korelacije, na temelju vrijednosti

22 = ( n 1 ( r + c 1 ) / 2 ) log e ( 1 22 )
sa p = r + c 2p + 1 = r + c 3 stupnjeva slobode, dok ostali primjenjuju test koji je primjeren
kvantitativnim, normalno distribuiranim varijablama, ali ne, naravno, i varijablama s multinomijalnom
raspodjelom
q

X p2 = ( n 1 ( r + c 1 ) / 2 ) log e ( 1 22 )
p

p = 2,...,q

procjenjujui stupnjeve slobode sa p = (r p + l) (c p + l).

7.5 GENERALIZIRANI KANONIKI INDEKS I CRAMEROV KOEFICIJENT ASOCIJACIJE


U generalnom kanonikom modelu, kao jedna od opih mjera povezanosti skupova W1 i W2 ponekad
se upotrebljava skalarna veliina, koja se obino naziva generalizirani kanoniki indeks. Ta je veliina
definirana kao
s

= ( 2p / s )1 / 2 .
p =1

Nije teko dokazati da je 2, istovremeno

2 = trace ( R12 R221 R21 ) / m1


= trace ( R21 R111 R12 ) / m2

dakle, da je prosjek kvadrata kanonikih korelacija jednak prosjeku koeficijenata determinacije varijabli iz
W1, ako se skup W2 tretira kao prediktorski skup, i prosjeku koeficijenata determinacije varijabli iz W2, ako
se skup W1 tretira kao skup prediktorskih varijabli.
Analogno tome, za netrivijalne kanonike korelacije nominalnih varijabli V1 i V2,
q

2 = 2p /(q 1)
p =2

pa je generalizirani kanoniki indeks, u ovom sluaju, korijen iz prosjeka kvadrata netrivijalnih koeficijenata
kanonike korelacije.
Ali,
q

2 ( q 1 ) = 2p
p =q

= 2
= 2( q 1 )
pa je

2 = 2

to znai da je Cramerov koeficijent asocijacije, u stvari, generalizirani kanoniki indeks. Oito,


2
i stoga Cramerov koeficijent asocijacije nije mjera maksimalne povezanosti nominalnih varijabli V1 i V2.
Jasno je, takoer, da Cramerov koeficijent znatno zavisi od distribucije kanonikih koeficijenata p,
p = 2,..., q; u tabelama gdje je q = min (r, c) dovoljno veliki broj, neki od koeficijenata p2 mogu biti vrlo
niski, a ostali vrlo visoki, pa je stoga pitanje kakvo znaenje moe imati mjera izvedena iz njihova prosjeka.
Naravno, ovo vrijedi i za sve ostale skalarne mjere povezanosti izmeu V1 i V2, pa je stoga razumno
zakljuiti da je kanonika analiza asocijacija nominalnih varijabli zapravo elementarna procedura za analizu
nenumerikih podataka.

51

Kendall and Stuart, 1961. Treba upozoriti na razlike u notaciji, jer je tamo definirano p = l,..., q-1, tj. prva netrivijalna vrijednost indeksirana je sa 1,
a ne sa 2.

64

Uvod u analizu nominalnih varijabli

8. LOGLINEARNI MODELI

, , ,

,
,
-
- . ,
.
..

Pod loglinearnim modelima razumiju se, u stvari, modeli analogni dvo ili k-faktorskim52 modelima
analize varijance u kojima se dvije ili vie nominalnih varijabli tretiraju kao prediktori, a frekvencije u iz njih
izvedenoj dvo ili k-dimenzionalnoj kontingencijskoj strukturi kao kriterijska varijabla.
Osnova loglinearnih modela lei u injenici da se probabilistiki modeli, koji su sutinski
multiplikativni pod vidom parametara koji odreuju vjerojatnost neke pojave koja zavisi od dva ili vie
nezavisnih inilaca, mogu logaritmiranjem oekivanih frekvencija u podskupovima definiranim presjecima
podskupova od kojih se nominalne varijable sastoje pretvoriti u jednostavne aditivne modele. Ovo omoguava dekompoziciju ukupnog varijabiliteta frekvencija u nekoj kontingencijskoj strukturi na aditivne
komponente, definirane razliitim hipotezama o izvorima tog varijabiliteta, pa stoga i primjenu jednostavnih
modela dvo ili viefaktorske univarijatne analize varijance.
Za razumijevanje logike loglinearnih modela korisno je najprije razmotriti nekoliko jednostavnih
statistikih modela. Osnova tih modela je struktura vrijednosti varijable 2 pod uvjetima da su marginalne
vjerojatnosti poznate ili fiksirane na temelju nekog teoretskog modela.
Pretpostavimo da su marginalne vjerojatnosti pj, j = 1,..., r i pk, k = 1,..., c u nekoj kontingencijskoj
tabeli poznate i da vrijedi hipoteza o nezavisnosti pjk = pjpk. Ako je pod tim modelom iz neke populacije P
izabran neki sluajni uzorak E i formirana kontingencijska tabela F sa frekvencijama fj, svaka se frekvencija
iz F moe definirati kao
j = 1,..., r
f jk = n p jk + e jk ,
k = 1,..., c
gdje je n efektiv uzorka E, a ejk, sluajna, normalno distribuirana varijabla. Prema tome, u tom e sluaju
varijabla
r

t2 = ( f jk n p j p k ) 2 /(n p j p k )
j =1 k =1

biti, asimptotski, distribuirana kao zbroj kvadrata (rc) standardiziranih normalnih varijabli, uz ogranienje
r

n = f jk , pa e prema tome imati 2 raspodjelu sa


j =1 k =1

r c1 stupnjeva slobode. Pod istim uvjetima, varijabla


r

12 = ( f j n p j ) 2 /(n p j )
j =1

imati e raspodjelu sa (r 1) stupnjeva slobode, varijabla


c

22 = ( f k n p k ) 2 /( n p k )
k =1

raspodjelu sa (c1) stupnjeva slobode, a varijabla u kojoj su teorijske frekvencije procijenjene na temelju
podataka, a ne na temelju apriornih vjerojatnosti
52

Stvarnu efikasnost loglinearni modeli postiu tek u sluaju k 3, dakle pri simultanoj analizi vie od dvije nominalne varijable, jer omoguuju
efikasan tretman vrlo sloenih hipoteza o strukturi vjerojatnosti. Meutim, nisu nekorisni ni pri analizi obinih kontingencijskih tabela, a
poznavanje njihova ponaanja u jednostavnim kontingencijskim strukturama sigurno je korisno za razumijevanje njihova ponaanja pri rjeavanju
problema koji se bez primjene loglinearnih modela teko mogu rijeiti.

65

Konstantin Momirovi u statistici


r

2
12
= ( f jk f j f k / n) 2 /( f j f k / n)
j =1 k =1

2 raspodjelu sa (rl) (c1) stupnjeva slobode. Oito


r c 1 = (r1) + (c1) + (r1) (c1)
i
2
t2 = 12 + 22 + 12
;

pa se t2 mjera ukupnog varijabiliteta frekvencija iz F moe dekomponirati na komponente pridruene


efektima varijabli V1, V2 i interakciji izmeu V1, V2.
Ovo, naravno, omoguava da se definira model analogan dvofaktorskoj analizi varijance tipa
KOMPONENTA

STUPNJEVI SLOBODE

2
t

r c 1

2
1

r 1

c 1

2
2

(r 1) (c 1)

2
12

VJEROJATNOST

p( t2 )

(r c 1)

p ( )

(r 1)

p ( )

(c 1)

2
1
2
2

p ( )
2
12

(r 1) (c 1)

i da se, na temelju parametara procijenjenih pod razliitim modelima, ispita znaaj svakoga od faktora od
koga zavisi ukupni varijabilitet frekvencija fjk53.

8.1 MODEL ANALIZE VARIJANCE


Neka je F = (fjk); j = 1,..., r; k = 1,..., c kontingencijska tabela dobijena ukrtanjem nominalnih
varijabli V1 = {vj; j = 1,..., r} i V2 = {vk, k = 1,..., c} na nekom uzorku E = {ei, i = 1,..., n} izvuenom,
sluajno ili u skladu s nekim eksperimentalnim nacrtom iz neke populacije P.
Definirajmo
j = 1,..., r
k = 1,..., c

jk = Ek ( f jk )

kao oekivanu vrijednost frekvencije objekata u podskupovima {vj vk} pod nekom hipotezom ili modelom
Hh, i oznaimo sa
j = 1,..., r
jk = log e jk
k = 1,..., c
prirodne logaritme oekivanih frekvencija u F pod modelom Hh.
Neka su ; j, j = 1,..., r; k, k = 1,..., c i jk, j = 1,..., r; k = 1,..., c neki nepoznati parametri, odreeni
tako da vrijedi

jk = e

( + j + k + jk )

odnosno

jk = ( + j + k + jk )
uz uvjete
r

j =1

k =1

j =1

k =1

jk = jk = j = k = 0.
Pod standardnim dvofaktorskim modelom analize varijance, koji vrijednosti pa varijablama V1 i V2
tretira kao faktore, a fjk; j = 1,..., r; k = 1,..., c kao zavisne varijable, parametar definira neki opi efekt,
53

Vie i bolje o loglinearnim modelima nalazi se u , i (1985), Reynolds (1977), Bishop, Flienberg and Holland (1975);
iako ne na eksplicitan nain, statistika osnova loglinearnih modela moe se nai i u Kendall and Stuart (1961) i Wllks (1962).

66

Uvod u analizu nominalnih varijabli

parametri j, j = 1,..., r glavne efekte faktora definiranog varijablom V1, parametri k, k = 1,..., c glavne
efekte faktora definiranog varijablom V2, a parametri jk, j = 1,..., r; k = 1,..., c efekte interakcije faktora
definiranih varijablama V1 i V2.
Oito da ovaj model, uz navedene uvjete, ima ukupno (rc) nezavisnih parametara, jer je broj
nezavisnih parametara za glavne efekte varijable V1 jednak (r1), za glavne efekte varijable V2 jednak (c1),
interakcija izmeu V1 i V2 ima (r 1) (c1) nezavisnih parametara, pa uz parametar pridruen opem efektu

(r 1) + (c 1) + (r 1)(c 1) + 1 = (r c);
otuda su stupnjevi slobode za glavne efekte

1 = r 1
2 = c 1
a za interakciju

12 = (r 1)(c 1).
Definirajmo
r

= jk /( r c)
j =1 k =1
r

j = 1,..., r
k = 1,..., c

j = jk / c
k =1

k =

j =1

jk

/r

Sada je parametre modela mogue definirati kao

= ,

j = j
k = k

j = 1,..., r

jk = jk j k +

j = 1,..., r
k = 1,..., c

k = 1,..., c

i ispitati koliki je udio razliitih efekata u ukupnoj varijanci frekvencija iz F.


Iz modela

jk = ( )
gdje je skup svih parametara {, j, k, jk} a aditivna funkcija, i koji oito potpuno definira jk, pa
stoga i fjk i naziva se saturiranim modelom, mogue je, u skladu s nekom hijerarhijom, definirati ove
submodele:

(1)

jk = + j + k

j, k

koji oito implicira jk=0, j, k i odgovara hipotezi o nezavisnosti izmeu V1 i V2;

( 2)

jk = + j

j, k

koji implicira jk = 0, j, k i k = 0, k i odgovara hipotezi da su frekvencije u F definirane, do na opi


efekt, samo glavnim efektom varijable V1, ili

jk = + k

j, k

koji pretpostavlja da su frekvencije iz F, do na opi efekt, posljedica samo glavnog efekta varijable V2, jer,
ako je taj model ispravan, jk = 0, j, k i j = 0;

(3)

jk =

j, k
67

Konstantin Momirovi u statistici

koji, zbog toga to pretpostavlja da je {} = 0, ispituje hipotezu da osim opeg nema drugih efekata, to
je ekvivalentno hipotezama

p jk = 1 /( r c) j , k ,

p j = 1 / r j i

gdje su pjk elementi matrice vjerojatnosti P = F

P2 = F2

p k = 1 / c k ,

1
1
a pj i pk elementi vektora vjerojatnosti P1 = F1
i
n
n

1
. Kako je oito da je ovaj model sasvim nerealan, razmotrimo samo modele koji se odnose na
n

glavne efekte i na interakciju varijabli V1 i V2.

8.2 GLAVNI EFEKTI


Hipoteza

H j : jk = + j

j , k

j = 1,..., r

izraava, u stvari, pretpostavku da je struktura matrice F, ili iz nje izvedene matrica vjerojatnosti P,
posljedica nejednakih vjerojatnosti u vektoru p1 = (pj).
Uz pretpostavku da vrijedi jk = 0 j, k, nulta hipoteza pridruena hipotezi Hj je

H j : jk = ;
na slian nain, hipoteza

H k : jk = + k

j , k

k = 1,..., c

pretpostavlja da su vjerojatnosti u vektoru P2 = (Pk) nejednake; nulta hipoteza pridruena hipotezi Hk je,
naravno, takoer

H k : jk = .
Oito je da se i Hj i Hk mogu testirati na najjednostavniji mogui nain na temelju marginalnih
frekvencija varijabli V1 odnosno V2, najobinijim 2 testovima tipa
r

2j = ( f j e j ) 2 / e j
j =1

odnosno
c

k2 = ( f j ek ) 2 / ek
k =1

gdje su oekivane frekvencije pod Hoj jednake ej = n/r j, a oekivane frekvencije pod HOh jednake ek = n/c
k , uz j = r1 , odnosno k = c1 stupnjeva slobode.
Meutim, koliko hipoteze o glavnim efektima varijabli V1 i V2 bile, same po sebi, trivijalne, parametri
j, j = 1,..., r odnosno k, k = 1,..., c pod tim hipotezama mogu imati neki smisao; no, hipoteze o glavnim
efektima, ili, tonije, vrijednosti glavnih efekata mogu biti vani u okviru sheme koja je definirana
dekompozicijom ukupnog varijabiliteta frekvencija fjk kontingencijske matrice F, ili testiranjem hipoteza o
nezavisnosti, dakle hipoteze o nultom efektu interakcije varijabli V1 i V2.

8.3 INTERAKCIJA
Najea hipoteza koju se ispituje pri analizi kontingencijskih tabela je
j = 1,..., r
H jk : jk = + j + k
j , k
k = 1,..., c
koja se oito svodi na hipotezu pjk = Pj Pk, tj. na hipotezu o nezavisnosti, jer samo ako je ta hipoteza istinita
vrijedi jk = 0 j, k.
Kako je vjerojatnost saturiranog modela
68

Uvod u analizu nominalnih varijabli

H : jk = + j + k + jk

j = 1,..., r
k = 1,..., c
jednaka, naravno, 1, Hjk se, obino, ispituje u odnosu na H tako da se ukupan varijabilitet frekvencija fjk iz F
dekomponira na sve izvore, i odredi znaajnost svakoga od njih. Inae, jasno je da je neposredni test hipoteze
Hjk,obian 2 test, definiran ovdje kao
r

2jk = ( f jk e jk ) 2 / e jk
j =1 k =1

gdje su oekivane frekvencije pod Hjk jednake ejk = npjpk; broj stupnjeva slobode je, naravno,

jk = (r 1)(c 1).
Parametri jk, definirani pod saturiranim modelom H, zajedno s parametrima j i k, definirani pod
tim modelom mogu biti od izvjesne koristi pri interpretaciji odnosa izmeu V1 i V2. U istu svrhu mogu
posluiti i s njima povezane mjere
j = 1,..., r
jk2 = ( f jk e jk ) 2 / e jk
k = 1,..., c
koje su, oito, aditivne komponente 2 testa. U istu svrhu neki upotrebljavaju i proporcije

jk = jk2 / 2jk .
Mada se ini da se, bar kad je re o relacijama samo dviju varijabli, loglinearni modeli svode na
jednostavne i dobro poznate procedure, nije ba sasvim tako, ne samo zbog toga to skup parametara {}
moe sadravati interpretativno vane informacije, ve i zbog mogunosti dekompozicije 2 vrijednosti i
ispitivanja relativnog utjecaja svakog izvora varijabiliteta.

8.4 POSTUPCI ZA PROCJENU PARAMETARA MODELA


Parametri iz skupa {} su funkcije frekvencija jk oekivanih pod nekim modelom ili hipotezom H.
Za nesaturirane modele oekivane frekvencije jk nije sasvim jednostavno izraunati u opem sluaju54.
Meutim, za sve saturirane modele, pa tako i za saturirani model definiran odnosima dviju nominalnih
varijabli, procjena parametara je vrlo jednostavna. Naime, procjena logaritama frekvencija jk pod modelom
najvee vjerodostojnosti je prosto
j = 1,..., r
jk = log e f jk
k = 1,..., c
pa je stoga procjena parametara u skupu {} uvijek mogua ako vrijedi fjk, 0,
j, k. Za sluaj da su neke frekvencije iz F jednake nuli, pogodno je uvesti korekciju

jk = log e ( f jk ),

gdje je neki pozitivni broj u rasponu 0 < < 1; obino se uzima = 0.5. Moe se pokazati da su u tom
sluaju procjene i dalje asimptotski (tj. kada n ) takve da zadovoljavaju kriterij najvee vjerodostojnosti.

8.5 TESTOVI ZNAAJNOSTI


Premda se obinim 2 testovima mogu lako testirati hipoteze o glavnim efektima i interakciji varijabli
V1 i V2, vrlo je korisno eksplicitno definirati sve komponente saturiranog modela, odrediti njima pridruene
stupnjeve slobode, dekomponirati vrijednost 2 na dijelove koji pripadaju nezavisnim efektima, i testirati
hipoteze o svim komponentama.
U tu je svrhu posebno pogodno uvesti jo jednu mjeru varijabiliteta, definiranu kao 2m tj. kao
vrijednost 2 procijenjenu pod modelom najvee vjerodostojnosti. Ta je mjera
r

m2 = 2 ( f jk log e ( f jk / e jk )
j =1 k =1

a ima tu pogodnost da se moe razbijati na aditivne komponente, definirane komponentama modela.


Shema analize varijance, definirane za saturirani model, navedena je u slijedeoj tabeli.
54

Za k-dimenzionalne kontingencijske strukture, za koje su posebno pogodni loglinearni modeli, te se frekvencije procjenjuju jednim numerikim
algoritmom, koji se naziva iterativno proporcionalno podeavanje.

69

Konstantin Momirovi u statistici

Tabela 8.5.1. Shema analize varijance za saturirani dvofaktorski loglinearni model


IZVOR VARIJABILITETA STUPNJEVI SLOBODE

P( 2m )

OPI EFEKT

0 = 1

02

P( 02 s )

VARIJABLA V1

j = r 1

2j

P( 2j j )

VARIJABLA V2

k = c 1

k2

P( 2k k )

INTERAKCIJA V1 V2

jk = (r 1)(c 1)

2jk

P( 2jk

jk )

Dekompozicija 2 definirana je, naravno, procjenama ejk nad raznim modelima; tako, na primjer, za
opi efekt ejk = n / (rc), j, k.

70

Uvod u analizu nominalnih varijabli

9. PREGLED METODA ZA MULTIVARIJANTNU ANALIZU


NOMINALNIH VARIJABLI
Ako se neki problem u analizi podataka
ne moe rijeiti sredstvima linearne algebre,
onda je ili pogreno postavljen, ili uope nema rjeenja.
Egon Zakrajek
Kada bi osnovna razina matematike, statistike i metodoloke izobrazbe na fakultetima prirodnih,
tehnikih i drutvenih znanosti u nas, i ne samo u nas, bila primjerena pravoj prirodi problema u tim
znanostima, ova bi knjiga zapoela ovim poglavljem.
Razlog za to je vrlo jednostavan. Skup objekata, pogotovo onih koji se prouavaju u drutvenim
znanostima, gotovo se nikada ne moe na zadovoljavajui nain opisati s jednom ili dvije nominalne
varijable.
U stvari, u veini realnih situacija mogu je neki od ovih sluajeva:
(1) skup objekata moe se opisati s nevelikim (3 m 5, gdje je m broj nominalnih varijabli) brojem
logiki ravnopravnih varijabli; u tom je sluaju vjerojatno najjednostavnije, ali ne nuno i najbolje,
analizirati podatke pod nekim loglinearnim modelom;
(2) skup objekata moe se opisati sa m = 3, 4 varijable, od kojih jedna ili dvije imaju logiki status
kontrolnih ili prediktorskih varijabli; u tom je sluaju, ako je skup objekata dovoljno veliki, vjerojatno
najpogodnije analizirati uvjetne kontingencijske tabele reda 2, dobijene parcijalizacijom kontrolne ili
kontrolnih varijabli;
(3) skup objekata moe se na pristojan nain opisati samo s relativno velikim brojem (m 4) varijabli
koje su logiki ravnopravne; u tom je sluaju, ako je svrha analize odreivanje latentnih generatora
dobijenih rezultata, ili naprosto kvantifikacija nominalnih varijabli, najpametnije odrediti glavne komponente
matrice podataka i, eventualno, transformirati koordinatni sustav pridruen nekom reduciranom broju
znaajnih ili vanih glavnih komponenata u neku parsimonijsku poziciju;
(4) skup objekata je opisan sa m 4 logiki ravnopravnih nominalnih varijabli, a jedina je svrha
analiza detekcija latentnih generatora odgovornih za asocijacije varijabli; u takvom je sluaju vjerojatno
najrazumnije primijeniti, opet, metodu glavnih komponenata, ali e se, naalost, veina istraivaa prije
odluiti da podatke analizira pod nekim faktorskim modelom za odreivanje latentnih struktura;
(5) skup varijabli kojima je opisan neki skup objekata moe se podijeliti u dva logiki nezavisna
podskupa sa po dvije ili vie varijabli u svakom od njih; ta dva skupa mogu biti logiki ravnopravna, ili jedan
od njih moe imati logiki status prediktorskog, a drugi kriterijskog skupa varijabli. U oba sluaja
najrazumnije je provesti kanoniku analizu relacija ta dva skupa, nakon to su rezultati na nominalnim
varijablama tansformirani u glavne komponente;
(6) skup varijabli kojima je opisan neki skup objekata moe se podijeliti u dva podskupa, od kojih
drugi sadri samo jednu jedinu nominalnu varijablu; ta varijabla moe imati logiki status kriterijske
varijable, ili oznaavati pripadanje objekata subpopulacijama iz populacije iz koje je skup objekata izvuen.
U oba sluaja najjednostavnije je transformirati skup koji sadri vie od jedne varijable u glavne
komponente, a zatim provesti regresijsku, odnosno diskriminativnu analizu na temelju vrijednosti na jedinoj
kriterijskoj ili selektorskoj varijabli; naime, ako se analiziraju nominalne varijable, regresijski i
diskriminativni model su ekvivalentni, ako su izvedeni kao posebni sluajevi generalnog kanonikog
modela;
(7) skup objekata je opisan na skupu od vie nominalnih varijabli, a svrha je analize odreivanje
taksona u skupu objekata, dakle razbijanje skupa objekata na nekoliko homogenih podskupova. U tom je
sluaju mogue primijeniti itavu gomilu razliitih taksonomskih procedura, primjerenih nenumerikim
podacima, no ini se da je najjednostavnije, iako ne nuno i najbolje, odrediti taksone parsimonijskom
transformacijom nestandardiziranih glavnih komponenata.
Po sebi se razumije da je, za sasvim elementaran opis svake od ovih metoda, potrebna znaajna
71

Konstantin Momirovi u statistici

koliina teksta, pogotovo stoga to se te metode ponaaju kao posebni sluajevi komponentne, faktorske,
kanonike, regresijske, diskriminativne i taksonomske analize, ili multivarijantne analize varijance i
kovarijance. Zbog toga je u ovom poglavlju dat samo vrlo reducirani pregled najjednostavnijih postupaka,
namijenjen vie opoj naobrazbi, nego stvarnom informiranju o logikim, matematikim i upotrebnim
karakteristikama multivarijantnih procedura za analizu nominalnih varijabli.
U prvoj sekciji opisane su dvije metode za analizu m-dimenzionalnih kontingencijskih struktura:
analiza uvjetnih kontingencijskih tabela, logiki ekvivalentna analizi parcijalnih asocijacija, i primjena
loglinearnih modela u analizi struktura sa m = 3, logiki ekvivalentna 3-faktorskoj analizi varijance. Ove su
metode opirnije opisane u mnogim standardnim tekstovima, na primjer, u , i
(1985), Kendall and Stuart (1961), Reynolds (1977), Blalock (1972) i dr.
U drugoj sekciji opisan je jedan od moguih algoritama za komponentnu analizu nominalnih varijabli,
proceduru koju su, izmeu ostalih, predloili Burt (1950), Guttman (1941), Hayashi (1956), Benzecri (1976)
i drugi; algoritam koji je opisan u ovoj sekciji analogan je algoritmu koji je definiran u Momirovi, Dobri,
Gredelj i Szirovicza (1980). Taj se algoritam svodi na ortonormalnu parsimonijsku transformaciju
informacijski znaajnih desnih svojstvenih vektora matrice podataka dobijene konkatenacijom m
indikatorskih matrica.
U treoj sekciji opisan je McDonaldov (1969) postupak za faktorsku analizu nominalnih varijabli, u
verziji definiranoj u Momirovi (1972); u sutini, radi se o jednom od moguih postupaka za analizu
latentnih struktura, logiki analognom klasinom faktorskom modelu.
Svi ostali postupci za multivarijantnu analizu nominalnih varijabli izvedeni su na glavnim
komponentama konkateniranih indikatorskih matrica. U etvrtoj sekciji definiran je algoritam za analizu
kanonikih asocijacija dva skupa nominalnih varijabli, u verziji koju su predloili Momirovi, Gredelj i
Herak (1980), a u petoj algoritam za regresijsku, odnosno diskriminativnu analizu na temelju nenumerikih
podataka, u poneto egzotinoj varijanti opisanoj u Momirovi, Szirovicza, Dobri i Gredelj (1980). Najvei
je problem, naravno, bio izbor postupaka za taksonomsku analizu objekata opisanih nad skupom nominalnih
varijabli, jer je u tu svrhu predloeno mnogo priblino jednako dobrih, ili, tonije, jednako loih postupaka.
U skladu sa shvaanjem da su glavne komponente osnov za svaku multivarijantnu proceduru, u estoj je
sekciji opisan algoritam koji se sastoji u ortonormalnoj parsimonijskoj transformaciji denormiranih lijevih
vektora matrice dobijene konkatenacijom m indikatorskih matrica, postupak koga su predloili Momirovi,
Szirovicza, Gredelj i Dobri (1980).
Oito, izbor metoda, ili, tonije, izbor algoritama bio je prilino subjektivan. Mnogi drugi algoritmi
mogli su na priblino isti nain posluiti istoj svrsi. Meutim, ovaj autor se ne bi ni trudio da konstruira nove
algoritme, niti da na to goni svoje prijatelje i suradnike, kada ne bi bio uvjeren da se mnogi problemi u
multivarijantnoj analizi nominalnih varijabli ne bi mogli rijeiti na jednostavniji i efikasniji nain no to je
bio obiaj u onom periodu razvoja metoda za analizu podataka u kome je svako ludovao na svoj nain.

72

Uvod u analizu nominalnih varijabli

9.1 m-DIMENZIONALNE KONTINGENCIJSKE STRUKTURE


Neka su Vl , l = 1,..., m nominalne varijable tipa Vl = { vlj , j = 1,..., cl}. Paralelotop definiran
intersekcijama svih podskupova ovih varijabli naziva se m-dimenzionalna kontingencijska struktura.
sa

Razmotrimo nekoliko takvih struktura. Neka je m = 3. Oznaimo kategorije varijabli sa Vl , l = 1, 2, 3


V1 = {vj; j = l ,..., r},
V2 = {vk; k = l ,..., c} i
V3 = {vg; g = l ,..., h}.
Podskupovi skupa, definiranog kao

V 3 = I 3l V l
biti e vjkg, j = 1,..., r; k = 1,..., c; g = 1,..., h. Oito, struktura V3 sadravati e (rch) podskupova. Na
slian nain, za m = 4 s varijablama V1 = {vj; j = l ,..., r}, V2 = {vk; k = l ,..., c} i V3 = {vg; g = l ,..., h} i
V4 = {vs; s = l ,..., t}, struktura

V 4 = I 4l Vl
sadravati e (rcht) podskupova vjkgs, j = 1,..., r; k = 1,..., c; g = l,..., h; s = 1,...,t. Openito, struktura

V m = I ml Vl
m

sadravati e

c
l =1

= w podskupova va, gdje je a indeks definiran svim moguim redoslijedima indeksa

l j , l = 1,..., m j ; j = 1,..., c l .
Za analizu m-dimenzionalnih kontingencijskih struktura primjenjuje se nekoliko postupaka.
Najuobiajeniji je analiza uvjetnih kontingencijskih tabela, najjednostavniji je primjena loglinearnih modela
koji svode problem na
m-faktorsku analizu varijance, a najpametniji je da se m-dimenzionalne
strukture niti ne formiraju, pa stoga ni ne analiziraju, ve da se problem rijei komponentnom analizom
nominalnih varijabli, ili nekom drugom multivarijantnom tehnikom55. Prva dva postupka biti e ukratko
opisana u ovoj sekciji; o treem e biti rijei u ostalim sekcijama ovog poglavlja.
Valja odmah upozoriti na glavni problem analize k-dimenzionalnih kontingencijsklh struktura,
zajedniki za oba postupka koja se nad tim strukturama primjenjuju. Ukupan broj podskupova, w, i za
relativno mali m esto je tako veliki broj da skup E = {ej; i = 1,... , n} opisan nad nekom strukturom Vm mora
sadravati enormno veliki broj entiteta da bi bilo kakav pokuaj procjene parametara, testiranja hipoteza ili
odreivanja mjera asocijacije imao smisla, ili uope bio mogu. Na primjer, za sasvim realan, neveliki
problem m = 6 i cl = 4 l , w=46=4096; pa ako bi, kao to je obiaj kod uzimanja uzoraka, broj entiteta u E
bio 2000, vie od pola svih podskupova a bilo bi sasvim sigurno nepopunjeno, a frekvencije u veini
preostalih bile bi suvie male za primjenu bilo kog jednostavnog ili uobiajenog postupka.

Zbog toga je formiranje i analiza m-dimenzionalnih kontingencijskih struktura eventualno razuman


postupak samo za relativno mali m (2 m 5 bio bi, vjerojatno, realan raspon ako c nisu suvie veliki
brojevi56), i to samo u sluajevima kada je mogue osigurati vrlo veliki broj entiteta u uzorku E.
To je i glavni, ali ne i jedini razlog zbog koga e dalje biti eksplicitno razmatrani samo sluajevi m = 3
i m = 4. To su, naime, jedini sluajevi koji se u praksi veine istraivaa mogu tretirati analizom mdimenzionalnih kontingencijskih struktura. Drugi razlozi su povezani s problemima specifinim za mfaktorsku analizu varijance i analizu uvjetnih kontingencijskih tabela, i biti e navedeni u okviru prikaza tih
postupaka.
55

Ostale multivarijantne metode jesu kanonika analiza, regresijska ili diskriminativna analiza i taksonomska analiza nominalnih varijabli; ovdje
spada, naravno, i faktorska analiza nominalnih varijabli, no pitanje je da li ta metoda spada u grupu pametnih procedura.

56

Na primjer, za m = 3 i C1 = 10, c2 = 16 i c3 = 12, w = 1920 to zahtijeva n od najmanje 10000 da bi bilo koja takva analiza uope imala smisla.

73

Konstantin Momirovi u statistici

9.1.1 UVJETNE KONTINGENCIJSKE TABELE


Neka su V1 = {vj; j = l ,..., r}, V2 = {vk; k = l ,..., c} i V3 = {vg; g = l ,..., h} tri nominalne varijable
definirane na nekom dovoljno velikom uzorku E={ei,i=1,...,n}. Pretpostavimo da jedna od tih varijabli ima
logiki status prediktorske ili nezavisne varijable; recimo da je to varijabla V3, i neka su fg, g=1,..., h
marginalne frekvencije u kategorijama te varijable.
Kontingencijske tabele

F12 g = ( f jk g )

g = 1,..., h
j = 1,..., r
k = 1,..., c

ije su elementi frekvencije

f jk g = num( ei v j v k

ei v g )

i = 1,..., fg
j = 1,..., r
k = 1,..., c
g = 1,..., h

zvati emo uvjetnim ili parcijalnim kontingencijskim tabelama varijabli V1 i V2 u odnosu na varijablu V3.
Oito, kontingencijske tabele tipa F12.g definirane su na subuzorcima varijable V3, i opisuju relacije
kategorija vj, vk varijabli V1 i V2 za entitete koji imaju svojstvo definirano kategorijom vg varijable V3.
Naravno, na isti se nain, ako to ima smisla, bilo koja druga varijabla iz skupa (V1, V2, V3) moe tretirati kao
logiki nezavisna varijabla, i u odnosu na nju formirati kontingencijske tabele preostale dvije varijable.
Svaka od h kontingencijskih tabela F12.g moe se analizirati bilo kojim od postupaka za analizu
kontingencijskih tabela. Smisao tih analiza jeste da utvrde povezanost varijabli V1 i V2 pod uvjetom da
entiteti imaju svojstvo definirano sa vg. Naravno, relacije izmeu V1 i V2 za razliite subuzorke vg mogu biti
razliite; ako jesu, moe se zakljuiti da varijabla V3 utie, ili, tonije, odreuje relacije izmeu V1 i V2.
Razmotrimo sada sluaj m = 4, definiran varijablama V1 = {vj; j = l ,..., r}, V2={vk; k = l ,..., c} i V3 =
{vg; g = l ,..., h} V4 = {vs; s = 1,..., t}. Pretpostavimo da dvije od ovih varijabli, recimo V3 i V4, imaju logiki
status nezavisnih ili prediktorskih varijabli, i da je zbog neega potrebno utvrditi relacije izmeu V1 i V2, tako
da se parcijaliziraju efekti pripadanja objekata iz E = {ei; i = l,..., n} kategorijama vg i vs varijabli V3 i V4. U tu
svrhu definirajmo najprije kontingencijsku tabelu izmeu V3 i V4.
F34 = ( f gs )
g = 1,..., h
s = 1,..., t
i formirajmo (h t) kontingencijskih tabela
F12gs = ( f jkgs )
g = 1,..., h
s = 1,..., t
j = 1,..., r
k = 1,..., c
sa elementima definiranim kao

F jk gs = num(ei v j v k ee v g v s ) i = 1,..., fgs


j = 1,..., r
k = 1,..., c
g = 1,..., h
s = 1,..., t
Tabele tipa F12.gs oito su definirane na subuzorcima sa efektivom fgs definiranim istovremenim posjedovanjem svojstva vg i svojstva vs. Naravno, svaka od (h t) kontingencijskih tabela F12.gs moe biti
analizirana bilo kojom metodom za analizu dvodimenzionalnih kontingencijskih tabela; eventualne razlike u
dobijenim rezultatima mogu se pripisati efektima varijabli V3 i V4.
Dvije su stvari neposredno jasne, osim naravno injenice da efektivi fg u prvom, odnosno fgs u drugom
sluaju moraju biti dovoljno veliki da bi analiza uvjetnih kontingencijskih tabela bila smislena ili mogua.
Prva je da ova tehnologija proizvodi veliku koliinu rezultata, iju sintezu nije lako uiniti ni u sluaju m = 3,
74

Uvod u analizu nominalnih varijabli

a sigurno teko u sluaju m = 457. Druga je da je bilo koju varijablu u sluaju m = 3, ili bilo koje dvije u
sluaju m = 4 mogue proglasiti nezavisnima, i tako formirati enormnu koliinu uvjetnih kontingencijskih
tabela iji smisao esto nije jasan, ili je samo uvjetno jasan. Svaki pokuaj da se iz svega definiraju neki
pouzdani, pa ak i razumljivi sudovi ili zakljuci praktiki je osuen na neuspjeh sa vjerojatnou bliskoj 1.
To je dodatan razlog to analizu uvjetnih kontingencijskih tabela treba initi samo u velikoj nevolji.

9.1.2 LOGLINEARNI MODELI I m-FAKTORSKA ANALIZA VARIJANCE


Neka je

F 3 = ( f jkg )

j = 1,..., r
k = 1,..., c
g = 1,..., h
trodimenzionalna kontingencijska struktura definirana opisom nekog uzorka
skupu V 3 = I 3l Vl i neka je

E = {ei; i = 1,..., n} na

M 3 = ( jkg ) = log e 3 = log e ( jkg )


gdje 3 trodimenzionalna struktura definirana frekvencijama pod nekim modelom ili hipotezom. Ako se
oekivane frekvencije jkg procijene nekim pogodnim numerikim postupkom, na primjer, iterativnim
proporcionalnim podeavanjem, saturirani model 3-faktorske analize varijance biti e definiran na skupu
parametara ( ) funkcijama

jkg = + j + k + g + jk + jg + kg + jkg
gdje je { } skup definiran elementima

{ = ,

j = j ,

k = k ,

g = g ,

jk = jk j k + ,
jg = jg j g + ,
kg = kg k g + ,

jkg = jkg j k g jk jg kg + },
a,
c

= jkg / (r c h)
j =1 k =1 g =1

j = jkg / (c h)

j = 1,..., r

k =1 g =1
r

k = jkg / (g h)

k = 1,..., c

j =1 g =1
r

g = jkg / (r c)

g = 1,..., h

j =1 k =1
h

jk = jkg / h

j = 1,..., r
k = 1,..., c

jg = jkg / c

j = 1,..., r
g = 1,..., h

kg = jkg / r

k = 1,..., c
g = 1,..., h.

g =1

k =1
r
j =1

57

Prilino je jasno da je u sluajevima m 5 tako neto nemogue svakom normalnom ovjeku, sve kad bi analize ove vrste i bile tehniki izvedive;
meutim, u analize uvjetnih kontingencijskih tabela za m 5 ionako se ne bi upustio nijedan normalan ovjek.

75

Konstantin Momirovi u statistici

Na analogan nain moe se definirati parametarski prostor { } za sluaj


m = 4, tj. za
4
kontingencijsku strukturu F = (fjkgs) definiranu varijablama V1... V4, sa saturiranim modelom

jkgs = + j + k + g + s + jk + jg + js + kg + ks + gs +
+ jkg + jks + jgs + kgs + jkgs .
Shema analize varijance za m = 3 je
IZVOR VARIJABILITETA

STUPNJEVI SLOBODE

m2

P( 2m )

OPI EFEKT

0 = 1

02

P( 2m 0 )

VARIJABLA V1

j = r 1

2j

P( m2 j )

VARIJABLA V2

k = c 1

h2

P( 2m k )

VARIJABLA V3

g = h 1

g2

P( m2 g )

INTERAKCIJA V1 V2

jk = (r 1)(c 1)

2jk

P( m2 jk )

INTERAKCIJA V1 V3

jg = (r 1)(h 1)

2jg

P( m2 jg )

INTERAKCIJA V2 V3

kg = (c 1)(h 1)

kg2

P( 2m kg )

INTERAKCIJA V1 V2 V3

jkg = (r 1)(c 1)(h 1)

2jkg

P( m2 jkg )

pri emu je bolje 2m funkcije definirati kao funkcije vjerodostojnosti, sa oekiva-nim vrijednostima
definiranim modelom.
Analogno se moe definirati i shema analize varijance za m = 4.
Primjena loglinearnih modela u analizi m-dimenzionalnih kontingencijskih struktura sigurno je
razumnija i jednostavnija nego analiza uvjetnih kontingencijskih tabela i u pravilu ne stvara vee tekoe ako
je n dovoljno veliki za stabilnu procjenu parametara i ako je model odabran tako da glavni i interakcijski
efekti imaju smisla. Problemi nastaju ako ne postoji nikakav teorijski okvir koji omoguuje redukciju
parametara, dakle testiranje modela hijerarhijski nieg reda. Jer, saturirani model ve kod m = 4 ima 4 glavna
efekta, 6 interakcijskih efekata drugog reda, 4 interakcijska efekta treeg reda, 1 interakcijski efekt etvrtog
reda (i, naravno, opi efekt), pa je uz gomilu testova tih efekata potrebno, u pravilu, pronai neki smisao
parametara pridruenih znaajnim efektima; o emu je re vidi se po tome to ve saturirani model za m =3
ima (rch) nezavisnih parametara58. Osim toga, nije sasvim jasno kakvu vanost imaju efekti nieg reda ako
su znaajni efekti vieg reda; kako je dobro poznato, ni u obinoj analizi varijance ne vlada opa suglasnost o
smislu, recimo, glavnih efekata ako je bilo koja interakcija znaajna. Zbog svega ovoga, ni primjena
loglinearnih modela u analizi m-dimenzionalnih kontingencijskih struktura nije neki osobiti blagoslov.

9.2 KOMPONENTNA ANALIZA NOMINALNIH VARIJABLI


Lako se moe pokazati da se sve klasine statistike metode mogu svesti na analizu glavnih
komponenata i relacija izmeu glavnih komponenata. U izvjesnoj mjeri ovo vrijedi i za analizu nominalnih
varijabli reprezentiranih indikatorskim matricama. Zbog toga je analiza glavnih komponenata nekog skupa
nominalnih varijabli u stvari elementarna procedura za detekciju njihovih osnovnih svojstava. Osim toga,
ostale multivarijantne metode, kao to su kanonika, regresijska, diskriminativna i taksonomska analiza,
mogu se na jednostavan i efikasan nain definirati na glavnim komponentama nominalnih varijabli. Ovaj
pristup u biti ukida granice izmeu metoda za analizu numerikih i metoda za analizu nenumerikih
podataka, pa stoga i otre granice izmeu kvantitativnih i kvalitativnih varijabli, i spada u najvanije, ili
barem najkorisnije rezultate postignute u analizi podataka u posljednjih desetak godina59.

58

Primjera radi, za r = c = h =10 ukupno 1000 nezavisnih parametara.

59

Zapravo je tek u posljednjih deset godina ovaj pristup postao dominantan, iako su prve metode i algoritmi za komponentnu analizu nominalnih
varijabli predloeni prije gotovo 50 godina. Dobar pregled povijesti ovih metoda moe se nai u Tenenhaus i Young (1985). Postupci opisani u
ovoj i narednim sekcijama ovog poglavlja opisani su, ne naravno uvijek na identian nain, u mnogim tekstovima (Benzecri, 1976; Burt, 1950; De
Leeuw, Young and Takane, 1976; Guttman, 1941; Hayaski, 1956; LeLeeuw, 1984; Lebsrt, Morineau et Tabard, 1977; Anderberg, 1973; Tou and
Gonzales, 1974; Lerman, 1984; i , 1986; Me Donald, 1969; Momirovi, Gredelj i Herak, 1980; Momirovi, Szirovicza, Dobri
i Gredelj, 1980; Momirovi, Szirovicza, Gredelj and Dobri, 1980 itd.).

76

Uvod u analizu nominalnih varijabli

9.2.1 DEFINICIJE
Neka je V= {vj; j= 1,..., m} skup nominalnih varijabli vj i neka je qj, j= 1,..,m broj kategorija nominalne
varijable vj. Definirajmo q =

q
j =1

kao ukupan broj kategorija u skupu V.

Neka je E = {ej; i = 1,..., n} skup entiteta opisanih na skupu V; pretpostavimo, za sada, da je n q.


Uvedimo, za svaki ei E opisan na varijablama Vj V reprezentaciju definiranu vektorom
i = 1,..., n
BijT = ( bij1 ,...,bijp ,...,bijq j )
j =1,..., m
tako da vrijedi
i = 1,..., n
bijp = 1 ako ei v jp
j =1,..., m
P = 1,..., qj
bijp = 0 ako ei v jp
pri emu je vjp Vj podskup definiran kategorijom nominalne varijable V.
Organizirajmo vektore Bij koji reprezentiraju E na skupu Vj= {vjp; p=1,..., qj} u matrice

B j = ( BijT )

j =1,..., m

reda (n, qj) i organizirajmo matrice Bj u supermatricu


B = (Bj)
reda (n, q).
Definirajmo
C = BTB
i uoimo da C ima strukturu
j = 1,..., n
C = (Cjk)
k = 1,..., m
i da su matrice Cjk, j k kontingencijske tabele izmeu nominalnih varijabli Vj i Vk iz V opisanih nad skupom
E; matrice Cjj su, oito, matrice iji su dijagonalni elementi c p j p j jednaki num (ei vjp), a vandijagonalni
elementi jednaki nuli, iz ega slijedi tr Cjj = n, j i trC = n m.
Uoimo, dalje, da je uvijek mogue nad ma koje dvije matrice Bj, Bk izvesti transformacije
K1j = Bjj
K1k = Bkk
s pomou vektora j i k koji se sastoje od qj i qk, jedinica tako da je

K1Tj K1k = n
i otuda

( K1Tj K1k ) /( K1Tj K 1 j )1 / 2 ( K1Tk K1k )1 / 2 =


(l Tj C jk l k ) /(l Tj C jj l j )1 / 2 (l Tk C kk l k )1 / 2 = 1
i da je, za svaku matricu Bj u odnosu na matrice Bk, k j mogue izvesti m1 takvih transformacija, tako da
je C uvijek pozitivna semidefinitna matrica iji je maksimalni rang q m + 1.
Pretpostavimo, sada, da je E sluajni uzorak iz neke populacije i uvedimo pojam ekspektativne
matrice

1
E (C ) = P = C .
n
Matrica P ima strukturu
P = (Pjk)

j = 1,..., n
k = 1,..., m
pa su dijagonalni elementi matrica Pjj procjene vjerojatnosti p (ei vjp), a elementi matrica Pjk, j k procjene
vjerojatnosti p(ei vjp vkp). Oito, trPjj = 1, j, i otuda trP = m.
77

Konstantin Momirovi u statistici

9.2.2 GLAVNE KOMPONENTE NOMINALNIH VARIJABLI


Neka je = (r) r = 1,..., s (q-m+l) matrica nenultih svojstvenih vrijednosti matrice P, i neka je X =
(Xr) matrica njima pridruenih svojstvenih vektora skaliranih tako da je XTX = 1. Tada je bazina struktura
matrice P

P = X XT
s

= r X r X rT .
r =1

Neka su svojstvene vrijednosti r ureene tako da je r > r+1, i neka su analogno tome ureeni
svojstveni vektori xr u X. Vektore
Kr = B Xr

r = 1,..., s

nazvat emo glavnim komponentama nominalnih varijabli iz V, opisanih na E , a matricu


K = (Kr)

r = 1,..., s

matricom glavnih komponenata. Uoimo da je

KT K

1
= X T PX =
n

i da sukcesivne ortogonalne komponente Kr maksimalno diferenciraju entitete iz E i, potencijalno, iz , u


prostoru koji je definiran nominalnim varijablama iz V.
Jer, ako je X* = (X*r) matrica nekih vektora odabranih tako da je uz, uvjet X*TX*=I,

1
= max
n

r = 1,..., s

f ( X r* ) / ( X r* ) = 2 PX r* 2*r X r*

r = 1,..., s

f = ( X r* ) = X r*T B T BX r*
deriviranjem

pa, svoenjem parcijalnih izvoda na nulu i dijeljenjem sa 2,

PX r* = *r X r*

r = 1,..., s

odnosno

( P *r I ) X r* = 0

r = 1,..., s

iz ega slijedi *r = r i X r* = X r .
Razmotrimo sada relacije vektora iz B i vektora iz K. Matrica skalarnih produkata tih vektora,
pomnoena konstantom l/n je

F * = BT K

1
= PX = X
n

i oito je faktorska matrica od P2, jer

F * F *T = X2 X T = P 2 ;
prema tome, faktorska matrica od P je matrica glavnih osovina

F = F *1/ 2 = X1/ 2
jer je

FF T = XX T = P.

78

Uvod u analizu nominalnih varijabli

9.2.3 REDUKCIJA BROJA GLAVNIH KOMPONENATA


Sve glavne komponente60 ne moraju biti neophodne za reprodukciju znaajnih informacija iz B. Neka
je t neki cijeli broj izmeu 1 i s, odreen tako da se sauvaju znaajne informacije iz B.
Sada se moe napisati
t

P = r X r X rT +
r =1

r =t +1

X rT

odnosno, ako sada definiramo

X * = (Xr )
* = ( r )

r = 1,..., t
r = 1,..., t

E=
u obliku

r =t +1

X rT

P = X ** X *T + E
ili

P = F * F *T + E
ako je reducirana matrica glavnih osovina definirana kao

F * = X **1/ 2
pomou matrica X* i * koje sadre prvih t svojstvenih vektora, odnosno svojstvenih vrijednosti matrica P.
Eckart-Youngova aproksimacija matrice B u t dimenzionalnom prostoru biti e

B* = BX * X *T
a takva aproksimacija matrice P

P * = X ** X *T .
Ako je aproksimacija ovih matrica dovoljno dobra, reducirana matrica glavnih komponenata

K * = BX *
zadrat e i dalje znaajne informacije o entitetima iz E opisanih nad skupom V.
Ako nema neke valjano utemeljene hipoteze o t, vjerojatno je najrazumnije odrediti broj zadranih
glavnih komponenata u skladu s Guttman-Kaiserovom strategijom. U tu svrhu, definirajmo

~
X = m/ s
tj. prosjenu vrijednost nenultih svojstvenih vrijednosti matrice P, i definirajmo

~
t * = num( r ).

Manje je konzervativan postupak za odreivanje broja zadranih glavnih komponenata ako se definira

= m/q
~
t * = num( r ).

9.2.4 PARSIMONIJSKE TRANSFORMACIJE NAD VARIJABLAMA


Neka je sada X = (Xjr), j=1,..., q, r=1,..., t matrica prvih t zadranih svojstvenih vektora matrice P, i
neka je = (r ) , r = 1,..., t dijagonalna matrica njima pridruenih svojstvenih vrijednosti. Razmotrimo
transformaciju
60

Prva glavna komponenta je, naravno, definirana vjerojatnou ishoda u kategorijama analiziranih nominalnih varijabli, i stoga je u izvjesnom
smislu trivijalna; medutim, ta je komponenta nuna za reprodukciju matrice B i/ili P.

79

Konstantin Momirovi u statistici

j = 1,..., q
r = 1,..., t

XT = A = (a jr )

koja ekstremizira neku funkciju f(A) koja se ponaa kao mjera jednostavnosti opisa kategorija vjp, p = l,..., qj;
j = 1,..., m varijabli Vj V u prostoru to ga razapinju vektori iz X.
Uvedimo restrikcije TTT = TTT = I, i definirajmo f(A) kao varimax funkciju
t

r =1

j =1

j =1

v = (q a 4jr ( a 2jr ) 2 )q 2 = max .


Projekcija entiteta ei na prvih t glavnih komponenata transformiranih u varimax poziciju biti e

L = BA = KT
ako sa K = BX oznaimo glavne komponente odreene samo na prvih t svojstvenih vektora matrice P.
Dimenzije iz L su, naravno, vie ortogonalne, jer

E ( LT L) = LT L

1
= T T T = M
n

ne moe biti dijagonalna matrica, osim za trivijalne sluajeve T = I ili = I, budui da ne postoji
ortogonalna matrica razliita od I koja zadrava dijagonalnost neke matrice razliite od I nakon
transformacije tipa T T T .
Razmotrimo sada i relacije kategorija vjp, p=1,...,qj; j=1,...,m s varijablama iz L. Te su relacije
definirane ortogonalnim projekcijama vektora iz B na vektore iz L, tj.

E ( B T L) = B T L

1
= PA = PXT = XT = F .
n

Uoimo da par (A, F) predstavlja faktorske matrice od PE jer

AF T = XTT T X T = XX T = P E
ako je X=X* i = * gdje su X* i * matrice definirane u (3).
9.3 FAKTORSKA ANALIZA NOMINALNIH VARIJABLI
Mc Donaldova metoda za odreivanje faktorske strukture nominalnih varijabli (Mc Donald, 1969;
Momirovi, 1972), od kojih svaka moe imati proizvoljan broj kategorija, u biti je sinteza faktorske analize i
jednog od moguih modela za analizu latentnih struktura. Zbog razloga koje je teko jasno razabrati, ili bar
neprilino jasno formulirati, ova je metoda intuitivno shvatljivija za veinu onih koji se bave analizom
nenumerikih podataka od jednostavnog modela analize glavnih komponenata.
Neka je E = {ei; i = 1,..., n} P skup objekata izvuen, nadajmo se sluajno, iz neke populacije P,
neka je V = {vj; j = 1 ,..., m} skup nominalnih varijabli tipa Vj = {vjk; k = 1,..., tj}. Definirajmo t =
formirajmo indikatorske matrice

S j = E V j = ( s jik )

i organizirajmo ih u supermatricu

S = (S j )

j =1,..., m
i = 1,..., n
k = 1,..., tj
j =1,..., m

Neka je ET = (l...l) vektor jedinica reda n. Definirajmo

K = ST S
1
M =F
n
1
P=K
n
80

t
j =1

reda (n, t), t < n.

F = ST E

Uvod u analizu nominalnih varijabli

i uoimo da je F = (Fj) vektor dobijen konkatenacijom vektora u kojima su frekvencija objekata iz E u


kategorijama vjk varijabli Vj, M = (Mj) vektor dobijen konkatenacijom vektora u kojima su procjene
vjerojatnosti p(ei vjk), K supermatrica tipa

K = ( K jl )

j, = 1,... ,m

s kontingencijskim tabelama u vandijagonalnim elementima, i dijagonalnim matricama Kjj u dijagonalnim


elementima, a

P = ( Pjl )

j, = 1,... ,m

matrica vjerojatnosti, ili barem relativnih frekvencija izvedena iz K.


Kao i u ostalim modelima faktorske analize, i ovdje je svrha nai latentne strukture odgovorne za
asocijaciju analiziranih varijabli, a ne dimenzije koje se ponaaju kao generatori matrice podataka. Stoga je
osnova dalje analize matrica

C = P MM T = (C jl )
dakle, matrica iz koje su eliminirane teoretske vjerojatnosti pripadanja objekata iz E intersekcijama
kategorija iz Vj, V, j, = 1,..., m pod hipotezom da su asocijacije nominalnih varijabli jednake nuli.
Meutim, sada su dijagonalni elementi Cjj supermatrice C nedijagonalne matrice, to je prilino besmisleno
stanje; zbog toga je metoda za odreivanje latentnih struktura matrice C definirana uz specifikaciju
rezidualne matrice
R=ND
= C - HHT
gdje je N nepoznata matrica reda t, D dijagonalna supermatrica tipa

D = ( D jj ),
D jj = E j E Tj
gdje je EjT = (1...1) vektor jedinica reda tj, oznaka Hadamardovog mnoenja dviju matrica, a

H = (H j )

j = 1,..., m

matrica latentnih struktura reda (t, w), gdje je w neki, unaprijed specificirani broj dimenzija, dobijena
konkatenacijom matrica Hj reda (tj, w), koje definiraju pozicije kategorija varijabli Vj na latentnim
dimenzijama.
Ovako definiran model latentne strukture matrice

G=CR
= HH T
nema, naravno, algebarsko rjeenje u zatvorenoj formi. Meutim, iterativni proces

(C-Na D ) X a = X a a
Na D = ( C H a* 1 H a*T1 ) D
H a = X a 1a/ 2
= ( H aj )
H aj* = ( I j E j ( E Tj E j ) 1 E Tj ) H aj

j = 1,..., m

H a* = ( H aj* )

j = 1,..., m

a =

s = w+1

2
aj

(t w) 1

ako a , stop
inae a = a + 1
81

Konstantin Momirovi u statistici

gdje je a oznaka iteracije, proizvoljno mali realni broj, a = (as) matrica prvih w svojstvenih vrijednosti
matrice Ga = C Na D, a Xa matrica njima pridruenih svojstvenih vektora gotovo uvijek konvergira. U
iteraciji a = 1 matrica Na moe biti bilo koja proizvoljna simetrina matrica reda t. Nakon finalne iteracije,
konano je rjeenje

H * = ( H *j )
gdje su

H *j = ( I E j ( E Tj E j ) 1 E j ) H j ,
Hj submatrice matrice

H = X1/ 2 ;
meutim, adekvatnost rjeenja u pravilu treba provjeriti analizom dijagonalnih submatrica Rjj rezidualne
matrice

R = C H * H *T .
Kao i kod drugih faktorskih solucija, ponekad je korisno transformirati matricu H* u neki jednostavniji
oblik. U opem sluaju, neortogonalne ili semiortogonalne transformacije nemaju pod ovim modelom
mnogo smisla. Zbog toga je, vjerojatno, najpogodnija ortogonalna transformacija

V = H *Q

QT Q = QQT = I
f (V ) = ext,

gdje je f(V) neka parsimonijska funkcija od V, u principu brutto varimax funkcija


t

r =1

s =1

v = t vsr4 ( vsr2 )2 = max.


s =1 r =1

Iako je to oito iz algoritma, nije zgorega upozoriti da su matrice H*, odnosno V, faktorske matrice za
matricu

G =CND
= P MMT - N D
= HH T
= VV T
koja nema ba mnogo veze sa stvarnom matricom vjerojatnosti P, odnosno kontingencijskom matricom K, a
jo manje sa selektorskom supermatricom S kojom su reprezentirani podaci dobijeni opisom skupa E na
skupu V. Meutim, kako G sadri samo lanove definirane asocijacijama nominalnih varijabli razliitim od
nule, matrice H, odnosno V, mogu biti interpretirane kao identifikatori moguih generatora asocijacije analiziranih nominalnih varijabli.

9.4 KANONIKA ANALIZA NOMINALNIH VARIJABLI


Neka su Va = {vja; j = 1,... , m} i Vb = {vkb; k = 1,... , p} dva skupa nominalnih varijabli sa qa i qb
kategorija; neka je sa = qa m + l, sb = qb p + 1, i neka je sb sa.
Neka je Ba matrica koja reprezentira Va na skupu E i neka je Bb, matrica koja na tom skupu
reprezentira Vb.
Neka su

1
n
1
Pb = BbT Bb
n

Pa = BaT Ba

82

Uvod u analizu nominalnih varijabli

i neka su a i Xa matrice svojstvenih vrijednosti i vektora od Pa, a b i Xb matrice svojstvenih vrijednosti i


vektora od Pb; neka je zadrano samo sa, odnosno sb, nenultih svojstvenih vrijednosti i njima pridruenih
vektora.
Matrice glavnih komponenata varijabli iz Va i Vb, opisanih matricama Ba i Bb, bit e

K a = Ba X a

K b = Bb X b .
Kanonike relacije izmeu varijabli iz Va i Vb, svode se na relacije izmeu varijabli iz Ka i Kb.
Utvrdimo, prethodno, da je

1
= X aT Pa X a = a
n
1
E ( K bT K b ) = K bT K b = X bT Pb X b = b
n
E ( K aT K a ) = K aT K a

1
1
= X aT BaT Bb X b
n
n
1
= X aT Cab X b
n
T
= X a Pab X b

E ( K aT K b ) = K bT K b

gdje je Cab matrica koja sadri kontingencijske tabele izmeu varijabli vja Va i vkb Vb, a Pab, ako je E
uzorak iz neke populacije , vjerojatnosti p(eivja vkb).
Definirajmo kanonike varijable

Lia = KYia
Lib = KYib

i = 1,..., sb
i = 1,..., sb

kao varijable, koje, uz uvjete

1
=1
n
1
LTib Lib = 1
n
1
LTia L ja = 0
n
1
LTib L jb = 0
n
1
LTia L jb = 0
n
LTia Lia

i = 1,..., sb
i = 1,..., sb
ij
ij
ij

zadovoljavaju uvjete

LTia Lib

1
= i = max
n

i > i +1

i = 1,..., sb.61

Deriviranje funkcija f(Yia,Yib) vodi do dobro poznatog rjeenja, koje se, u ovom sluaju, moe napisati
u obliku

( X bT Pba X a a1 X aT Pab X b i2 b )Yib = 0

i = 2,..., sb

pri emu su vektori koji transformiraju Ka u Lia.


61

Naravno, 1 = 1 zbog toga to je iz ma kako definiranih skupova indikatorskih matrica mogue formirati kolinearne vektore, pa je to mogue i iz
svih afinih transformacija indikatorskih matrica.

83

Konstantin Momirovi u statistici

Yia = 1 X aT Pab X bYib i1

i = 2,..., sb.

Organizirajmo vektore Yia i Yib u matrice Ya i Yb. Operacije

K aYa = Ba X aYa = La
K bYb = Bb X bYb = Lb
proizvode kanonike varijable La i Lb, a operacije

1
= aYa = Fa
n
1
K bT Lb = bYb = Fb
n
K aT La

kanonike faktore, definirane u prostoru glavnih komponenata varijabli iz Va i Vb, koji mogu biti od znaaja
za interpretaciju nestandardiziranih glavnih komponenata pod vidom njihova uea u formiranju kanonikih
varijabli.
Znaaj varijabli iz Va i Vb, za formiranje kanonikih varijabli proporcionalan je koeficijentima u
matricama

1
= X a aYa = X a Fa = S a
n
1
BbT Lb = X b bYb = X b Fb = Sb .
n
BaT La

9.5 DISKRIMINATIVNA I REGRESIJSKA ANALIZA NOMINALNIH VARIJABLI


Neka je Vc neka nominalna varijabla sa qc kategorija vcp, p = 1,..., qc i neka je qc < s. Neka je E opisan
na Vc i neka je reprezentiran matricom Bc reda (n, qc).
Pridajmo varijabli Vc logiki status kriterijske varijable, a varijablama Vj iz V logiki status
prediktorskih ili eksplanatorskih varijabli.
Kako je B singularna matrica, standardna regresijska procedura nije mogua. Uoimo, meutim, da
matrica glavnih komponenata K sadri iste informacije koje i B, pa je stoga regresijski problem mogue
formulirati u obliku

KR = Bc + G
gdje je G matrica pogreaka reda (n, qc), a R matrica reg resijskih koeficijenata reda (s, qc) koja zadovoljava
uvjet tr (GTG) = min.
Derivacija funkcije

f ( R ) = ( Bc KR )T ( Bc KR )
vodi do rjeenja

R = ( K T K )1 K T Bc
= 1 K T Bc

1
n

= 1 X T BT Bc
= 1 X T Cc
= 1 X T Pc

1
n

1
n

1
n

gdje je Cc = BTBc matrica sa strukturom

C = ( B Tj Bc )

= ( C jc )
84

1
n

Uvod u analizu nominalnih varijabli

i sadri kontingencijske tabele izmeu varijabli Vj i varijable Vc, a Pc = Cc


p(ei Kjp Kcp). Definirajmo

1 matrica procjena vjerojatnosti


n

B * = KR
= BX1 X T Pc

= BP Pc
gdje je P- = X -1XT pseudoinverz matrice P, i

G = Bc Bc*
= Bc KR

= Bc BP Pc .
oito,

E( Bc* T Bc* ) = Bc*T Bc*

1
n

= R T R
= PcT X1 X T Pc
= PcT P Pc
i

1
n

E (G T G ) = G T G

= ( Bc Bc* )T ( Bc Bc* )

1
n

= D PcT P Pc
= D
=
1
gdje je D = BcT Bc matrica iji su dijagonalni elementi procjena vjerojatnosti p(ej vcp).
n
Naravno,

E( B T Bc* ) = B T Bc*

1
n

= B T BP Pc

1
n

1
n
T
= XX Pc ;
= CP Pc

E ( BT G )

= B T ( Bc BP Pc )

1
n

= Pc PP Pc
= ( I XX T )Pc
E( Bc* T G ) = PcT P B T ( Bc BP Pc )

1
n

= PcT P Pc PcT P PP Pc
=0
i

85

Konstantin Momirovi u statistici

E( BcT G ) = BcT ( Bc BP Pc )

1
n

= D PcT P Pc
= D
= .
Pogreke eksplanacije ili prognoze pripadanja kategorijama vcp Vc proporcionalne su elementima
matrice diag . Uoimo, meutim, da te pogreke nisu nezavisne, jer nije, u opem sluaju, dijagonalna
matrica.
Uvedimo sada neku mjeru efikasnosti eksplanacije ili prognoze cijele varijable Vc. Prirodna mjera te
efikasnosti je minimum funkcije

f ( Y ) = (Y T Y ) /(Y T DY )

= 1 (Y T Y ) /(Y T DY ) = min
odnosno

f * (Y ) = (Y T Y ) /(Y T DY ) = max .
Derivacija f*(Y) uz uvjet YTDY=1 vodi do rjeenja
Y = DY.
pa je rjeenje najvea svojstvena vrijednost dobijena rjeavanjem karakteristinih jednadbi
( i D)Yi = 0
i = 2,..., qc.
Medjutim, iz oblika

( D 1 i I )Yi = 0

i = 2,..., qc

odnosno

( D 1 PcT X1 X T Pc i I )Yi = 0

i = 2,..., qc

vidi se da se rjeenje svodi na analizu kanonikih relacija izmeu varijabli iz V reprezentiranih matricom B, i
varijable Vc, reprezentirane matricom Bc. Maksimum f*(Y); odnosno minimum f(Y) je trivijalno rjeenje, jer
je f*(Y)= l, i otuda f(Y)= 0, budui da je uvijek mogue binarne matrice kondenzirati u vektore jedinica. Ali
svojstvene vrijednosti 2,..., qc su kvadrati kanonikih relacija izmeu nezavisnih linearnih kombinacija
binarnih varijabli koje opisuju Vc, i nezavisnih linearnih kombinacija binarnih varijabli koje opisuju V. U
stvari, kanonike varijable
Li = BcYi
i = 2,..., qc
i
H i = KZ i
i = 2,..., qc
gdje su

Z i = 1 X T PcYi i1 / 2
= RYi i1 / 2

i = 2,..., qc

kanoniki vektori koji transformiraju K u kanonike varijable Hi, koje imaju maksimalne relacije s
kanonikim varijablama Li, odreuju zajedniki potprostor vektora iz B i vektora iz Bc.
Vektori u matrici Y= (Yi), i = 2,..., qc i matrici

Z * = ( X1 X T PcYi i1 / 2 )
koji formiraju diskriminativne varijable i
i

L = BcY
H = BZ *

omoguavaju procjenu vanosti pripadanja kategorijama vcp i vjp, za formiranje varijabli iz V i VC koje imaju
maksimalne kanonike relacije.
86

Uvod u analizu nominalnih varijabli

Vektori u matrici

R* = XR = X1 X T Pc = P Pc
omoguuju procjenu vanosti pripadanja kategorijama vjp, za predikciju pripadanja pojedinim kategorijama
vcp iz Vc.

9.6 TAKSONOMSKE METODE


Taksonomska analiza, tj. formiranje homogenih podskupova iz nekog skupa objekata E = {ei; i = 1,..., n}
koji je opisan nad nekim skupom nominalnih varijabli V = {Vj; j = 1,..., m} mogua je na vrlo mnogo vrlo
razliitih naina. Ovdje je, primjera radi, a i zato da se ouva konzistentnost postupaka koji se temelje na
transformacijama glavnih komponenata, opisana samo jedna, u sutini vrlo jednostavna procedura, koja se
sastoji u ortonormalnim parsimonijskim transfor-macijama nad entitetima koji su opisani na podskupu
nestandardiziranih glavnih komponenata.
Neka je

K = BX
gdje je X= (Xjr) , j=1,...,q; r=1,...,t<s. Razmotrimo transformaciju
i = 1,..., n
KQ = W = ( wir )
r = 1,..., t
koja ekstremizira neku funkciju f(W) koja se ponaa kao mjera jednostavnosti opisa entiteta ei, i = 1,...,n u
prostoru to ga razapinju vektori iz X.
Uvedimo restrikciju QTQ = QQT = I i definirajmo f(W) kao varimax funkciju
t

r =1

i =1

i =1

n = (n wir4 ( wir2 ) 2 )n 2 = max .


Relacije izmeu varijabli iz W su

1
= QT Q =
n

E (W T W ) = W T W

i oito je da varijable iz W nisu ortogonalne, osim u trivijalnim sluajevima Q = I i/ili = I.


Koordinate vektora entiteta u sustavu to ga tvore vektori iz W su

= W 1 = K 1QT = B X 1QT
a relacije izmeu varijabli iz L i varijabli iz W

E ( LT W ) = LT W

1
= T T Q.
n

Relacije izmeu kategorija vjp, i varijabli iz W, dakle struktura taksonomskih varijabli definirana je
matricom

E ( B T W ) = BTW

1
= P X Q = X Q = S
n

a sklop vektora koji reprezentiraju kategorije u prostoru taksonomskih vektora definiran je matricom

S 1 = X Q = V ;
uoimo da je V ortogonalna matrica, jer VTV = I.
Relacije koordinatnih sustava dobijenih parsimonijskim transformacijama nad varijablama i nad
entitetima definirane su ortonormalnom matricom

AT V = T T Q.

87

Konstantin Momirovi u statistici

10. PROGRAMI
- Vai su rezultati - besmisleni. Nemogue
je da se ortonormalnim transformacijama realnih matrica podataka
dobiju imaginarne vrijednosti varijanci latentnih dimenzija.
- Nemam pojma kako se to dogodilo. Sve je
to kompjuter uradio.
Iz rasprave na obrani doktorske disertacije
na najstarijem fakultetu u naoj zemlji
Skoro svaki paket statistikih programa sadri jedan ili nekoliko programa za formiranje i analizu
kontingencijskih tabela. Meutim, ti se paketi obino znatno razlikuju i po algoritmima za formiranje
kontingencijskih tabela, i po metodama za njihovu analizu.
Veina algoritama za formiranje kontingencijskih tabela omoguava formiranje viedimenzionalnih
kontingencijskih struktura, ali mnogi doputaju samo to da se analiziraju dvodimenzionaIne sekcije. Gotovo
svi imaju ugraenu kontrolu nedopustivih vrijednosti. Ono po emu se ti algoritmi ponajvie razlikuju jeste
brzina formiranja tabela i zauzee memorije, a naroito interni tretman kontingencijskih struktura. Dok neki
uope ne doputaju transfer tih struktura drugim programima u paketu i, to je s tim u najuoj vezi, formalnu
promjenu tipa strukture podataka, drugi, kojih je, naalost, vrlo malo, to omoguuju, to znai da
kontingencijske matrice i njima pridruene marginalne strukture mogu biti analizirane drugim programima u
paketu, ili podvrgnute transformacijama uz pomo ugraenih algebarskih i logikih funkcija, ili funkcija za
manipulaciju bazama podataka.
Za mnoge korisnike vrlo je vana i mogunost manipulacije ulaznim podacima, kao to su rekodiranje,
konkatenacija, ili formiranje subkategorija na osnovu ishoda logikih funkcija. Iako, u nekoj mjeri, i ne
uvijek na udoban nain, ovo omoguava veina statistikih paketa, razlike su u ovom pogledu veoma znatne;
ini se da je popularnost nekih programa za analizu kontingencijskih tabela mnogo vie posljedica tih
mogunosti, nego nivoa, adekvatnosti i fleksibilnosti ugraenih analitikih postupaka.
Analitike procedure ugraene u standardne, komercijalno raspoloive, statistike pakete, najee su
koncipirane tako da omogue testiranje hipoteze o nezavisnosti, u pravilu uobiajenim 2 testom, i izraunaju
nekoliko, ne uvijek najsretnije izabranih, koeficijenata asocijacije. Loglinearni modeli ukljueni su u vrlo
mali broj takvih programa, a kanonika dekompozicija u jo manji. Izraunavanje mjera koliine i prenosa
informacija nije ugraeno u mnoge programe.
U ovom e poglavlju najprije biti ukratko prikazane karakteristike programa za analizu
kontingencijskih tabela sadranih u nekim, u sociologiji i drutvenim znanostima najee upotrebljavanim
programskim paketima. Koliko je bilo mogue utvrditi inspekcijom paketa instaliranih u velikim raunskim
centrima, i paketa koji se nalaze na mikroraunalima, i koliko se moglo zakljuiti na temelju primijenjenih
postupaka za analizu podataka u publiciranim znanstvenim i strunim radovima u podruju sociologije i
drugih antropologijskih znanosti, u ovu grupu spadaju SPSS, BMD, SAS, CONTAB, STATGRAPHICS i
SYSTAT62.
O svakom programu za analizu kontingencijskih tabela iz ovih paketa biti e date kratke informacije o
osnovnim svojstvima, nainu aktiviranja i eventualnim posebnostima.
U drugom dijelu ovog poglavlja biti e opirnije prikazan jedan program, napisan u GENSTAT jeziku,
ije funkcije pokrivaju sve razumne postupke za analizu kontingencijskih tabela opisane u ovoj knjizi,
izuzev, naravno, multivarijatnih procedura. Programi za multivarijatnu analizu nominalnih varijabli biti e
samo ukratko spomenuti; ovo zato to su i te metode opisane samo na najopenitiji nain, i to e postupci za
komponentnu, faktorsku, kanoniku, diskriminativnu, regresijsku i taksonomsku analizu nominalnih varijabli
biti, vjerojatno, opirnije opisani u jednoj drugoj knjizi iz ove serije.

62

Zbog utede na prostoru nisu prikazani programi iz paketa MICROSTAT, S, OZIRIS itd., koji se ili rjee koriste, ili se ni po emu bitnom ne
razlikuju od prikazanih.

88

Uvod u analizu nominalnih varijabli

10.1 PROGRAMI ZA ANALIZU KONTINGENCIJSKIH TABELA U NEKIM STANDARDNIM


PAKETIMA
Kvalitet programa za analizu nenumerikih podataka u razliitim standardnim, ili bar esto
upotrebliavanim, paketima statistikih programa vrlo je razliit. Te su razlike oite ve u dokumentaciji; dok
je dokumentacija nekih medju njima potpuna i tona, drugi su dokumentirani povrno, nepotpuno ili ak
netono. Znatne su i razlike u algoritmima za formiranje kontingencijskih struktura; neki programi doputaju
samo 2-dimenzionalne strukture, neki m-dimenzionalne, ali tako da se, u stvari, formiraju 2-dimenzionalne
strukture definirane dvjema varijablama, dok se preostale ponaaju kao kontrolne varijable (pri emu je, u
pravilu, broj takvih varijabli praktiki ogranien raspoloivim kapacitetom memorije, ili ogranien samim
programom), a neki stvarne m-dimenzionalne strukture; pri tome su algoritmi vrlo razliiti pod vidom
efikasnosti, tako da je potrebno raunarsko vrijeme i zauzee memorije kod nekih, zbog trapavog algoritma,
sasvim pretjerano. Sa stanovita korisnika, naravno, posebno je vano koje su analitike metode ugraene, i
mogu li se, razliitim opcijama, odabrati one koje su primjerene prirodi problema; u ovome se, ponovo,
standardni paketi veoma razlikuju; dok neki ne nude nita osim sasvim elementarnih postupaka, drugi nude
svata, izmeu ostalog i postupke koji uope nisu primjereni analizi nenumerikih podataka, pri emu neki
na to upozoravaju, ali neki uope ne.
Veina paketa, razvijena za velike sisteme, postoji sada i u verziji za personalna raunala, dodue ne
uvijek sa punim skupom mogunosti. Kako su personalna raunala dostupna veini onih koji e takve
programe upotrebljavati, i kako nema znatnih razlika u nainu koritenja i za korisnika bitnim svojstvima
verzija za 'velika' i 'mala'63 raunala, u ovom je tekstu, za sve pakete koji postoje u vie verzija, u pravilu
prikazana verzija za personalna raunala.
Po sebi se razumije da su ovi prikazi vie ilustracija karakteristika programskih proizvoda, nego upute
za njihovu primjenu, i pored toga to su, za svaki program, navedeni i postupci za njegovu aktivaciju i
eventualnu kontrolu postupka. Ovo zato to je, naravno, potrebno poznavati i osnovne karakteristike paketa i
postupke za unos i manipulaciju podacima, kao i osnovne kontrolne naredbe. Navoenje svega toga nije bilo
ni mogue, ni potrebno, budui da u tu svrhu postoje primjereni prirunici. Ti su prirunici navedeni uz svaki
prikazani programski paket, i referirani u popisu literature.

10.1.1 SAS
Programski sistem SAS64, bez sumnje daleko najbolji proizvod za analizu podataka i statistiku
analizu, jer, osim statistikih procedura, sadri i vrlo jak programski jezik i dobar sistem za formiranje i
manipulaciju bazama podataka, sadri i jedan od najboljih programa za analizu nenumerikih podataka.
Taj je program ugradjen u SAS/STATTM dio SAS sistema kao posebna procedura pod nazivom FREQ;
procedura se, kao i ostale SAS procedure, poziva naredbom PROC <FREQ>.
Kontingencijske se tabele formiraju naredbom
TABLES < zahtjevi / opcije >
pri emu <zahtjevi> definiraju varijable koje treba tabelirati, a <opcije> odredjuju dodatne operacije koje se
zahtijevaju i njima pridruene izlazne strukture.
Marginalne frekvencije se, za bilo koju listu varijabli, mogu dobiti naredbom
TABLES <lista varijabli>,
na primjer za varijable V1, V2, V3, V4 naredbom
TABLES V1 V2 V3 V4;
ili
TABLES (V1 - - V4) ;
Kontingencijske se tabele formiraju tako da se ukrtanja varijabli oznae sa * izmedju njihovih
63

Uostalom, granice izmedju 'velikih" i 'malih' raunala sve su manje jasne; suvremena 32-bitna personalna raunala ni po raspoloivoj
memoriji, ni po procesnoj moi, praktiki se ne razlikuju od 'velikih' raunala od prije desetak godina.

64

SAS Institute Inc.: SAS/STATTM Guide for personal computers, Ver.6 edition.,SAS Institute, Cary, NC.

89

Konstantin Momirovi u statistici

identifikatora.
Na primjer, 2-dimenzionalne tabele za varijable V1 i V2 mogu se dobiti naredbom
TABLES
V1 * V2;
naredba
TABLES
V1 * (V2 V3);
ekvivalentna je naredbi
TABLES
V1 * V2 V1 * V3;
Viedimenzionalne tabele formiraju se naredbom
TABLES V1 * V2 * V3;
Ova e naredba formirati kontingencijske tabele izmeju V2 i V3 za svaku vrijednost varijable V1. Na
slian nain
TABLES V1 * V2 * V3 * V4
proizvesti e kontingencijske tabele (V3 * V4) za svaku eliju dobijenu ukrtanjem varijabli (V1 * V2).
Prema tome, posljednje dvije varijable u ovom tipu zapisa definiraju tabelu, a sve se ostale ponaaju kao
kontrolne varijable.
Opcije definiraju podatke koje naredba koristi, oblik izlaznih struktura i posebne zahtjeve za primjenu
nekih analitikih postupaka. Najvanije su
DATA = <naziv skupa podataka u SAS sistemu>;
ako ova opcija nije navedena, FREQ e upotrebiti posljednji formirani SAS skup;
ORDER = <FREQ ili DATA ili INTERNAL ili FORMATED>
koja odredjuje redoslijed kategorija (FREQ e formirati tabele tako da su kategorije rangirane u skladu sa
frekvencijama; DATA e kategorije urediti tako da ih razvrsta po redoslijedu pojavljivanja u ulaznim
podacima; INTERNAL (pretpostavljena opcija) e kategorije odrediti na temelju njihovih internih oznaka, a
FORMATED na temelju vanjskog formata);
MISSING
ukljuuje kategoriju sa entitetima koji nemaju nikakvu dopustivu vrijednost na analiziranim
varijablama;
OUT = <SAS skup podataka>
specificira u koji e SAS zapis biti prenesene formirane strukture, ovo, naravno, omoguava da se te
strukture dalje testiraju drugim procedurama iz SAS sistema;
CHISQ
e izraunati standardni 2 test, 2 test pod kriterijem najvee vjerodostojnosti i Mantel-Haenszel-ov
2
, test linearnosti relacija izmedju varijabli, koji je, naravno, primjeren samo ako se radi o urejenim
kategorijalnim varijablama, ili diskretiziranim kvantitativnim varijablama, a i mjere asocijacije u 2 metrici
(, i k) .
Ostale statistike operacije (MEASURES65, CMH) su besmislene ako se radi o nominalnim
varijablama; medjutim, dodatne se informacije mogu dobiti opcijama
EXPECTED
(tampanje oekivanih frekvencija),
DEVIATION
(tampanje razlika dobijenih i oekivanih frekvencija),
CELCHI2
(tampanje doprinosa svake elije ukupnoj vrijednosti 2),
i
MISSPRINT
(tampanje rezultata kategorija i ukrtanje kategorija u kojima su entiteti bez (doputenih) podataka, u sluaju
da te kategorije nisu uzete u obzir kod raunanja 2 i iz njega izvedenih mjera asocijacije).
65

Ova opcija, medjutim, omoguava dobijanje entropijskih mjera asocijacije.

90

Uvod u analizu nominalnih varijabli

U izvornoj i novijim verzijama SAS sadri i proceduru CATMOD, koja omoguuje analizu podataka pod
loglinearnim modelom. Iako nema posebne procedure za kanoniku analizu kontingencijskih tabelama trice
formirane FREQ procedurom mogu se prenijeti u proceduru CANCORN, koja omoguava bilo koju vrstu analiza
pod generalnim kanonikim modelom.

10.1.2 SYSTAT
SYSTAT (Wilkinson, 1985), jedan od boljih, ili bar dovoljno popularnih statistikih paketa za personalna raunala (osnovna verzija uinjena je, naravno, za IBM PC i kompatibilne maine pod MS-DDS 2.0 ili viom
razinom ovog operativnog sistema, ali postoje verzije za druga personalna raunala koja rade pod CP/M
operativnim sistemom, pa i za mini raunala, npr. za HP 9000) sadri grupu programa, nazvanu TABLES, koja
izvodi neke od postupaka za analizu nenumerikih podataka.
Naredba TABULATE, primijenjena na jednu ili vise nominalnih varijabli, funkcionira na slijedei nain:
(1) TABULATE V166
proizvodi tabelu sa marginalnim frekvencijama kategorija varijable VI dodajui i frekvencije isputenih
vrijednosti; na kraju tako formirane tabele nalazi se ukupan broj entiteta;
(2) TABULATE VI, V2 , V9, SCH
proizvodi, redom, tabele sa marginalnim frekvencijama varijabli VI, V2, V9 i SCH; ove se varijable moraju
nalaziti zajedno na zapisu koji se, kao i u prethodnom sluaju, poziva naredbom USE;
(3) TABULATE SCH/MISS
iskljuuje "kategoriju" sa vrijednostima koje nedostaju iz varijable SCH;
(4) TABULATE V9/CONFI = <l->
izraunava, izraene u procentima, vrijednosti intervala pouzdanosti za pogreku zakljuivanja za frekvencije kategorija varijable V9; medjutim, ova opcija ima smisla samo ako je varijabla binomijalno ili
multinomijalno distribuirana;
(5) TABULATE V1/PERCENT
izraava marginalne frekvencije u postocima.
Opcije se mogu kombinirati na proizvoljan nain; na primjer
TABULATE KRAVE/MIS, PERENT, CONFI = .95
proizvesti e tabelu sa postocima u kategorijama varijable KRAVE, izraunati e 95 - postotni interval
pouzdanosti i eliminirati e objekte za koje nema podataka kojoj kategoriji pripadaju.
Naredba TABULATE proizvodi i kontingencijske tabele. Funkcionira na slijedei nain:
(1) TABULATE V1 * V2
proizvesti e kontingencijsku tabelu za varijable VI i V2, ako se te varijable nalaze u zapisu pozvanom
naredbom USE <ime - zapisa>. Tabeli e biti pridruene i marginalne frekvencije varijabli V1 (sa desne
strane) i V2 (ispod tabele), i (u donjem desnom kutu) ukupan broj objekata;
(2) TABULATE V1, V2, V3 * V4
proizvesti e, redom, kontingencijske tabele (V1 * V4), (V2 * V4) i (V3 * V4) ;
(3) TABULATE V7 * V2 / WEIGHT = COUNT
ponderirati e svaku deliju kontingencijske tabele varijabli V7 i V2 (cjelobrojnim) vrijednostima koje se
nalaze u (kompatibilnoj) tabeli COUNT;
(4) TABULATE V1 * SLONOVI / PERCENT
formirati e kontingencijsku tabelu u kojoj su frekvencije izraene u postocima; u postocima e biti izraene
i marginalne frekvencije.
66

Primjera radi, varijable su oznaene odredjenim imenima. Naravno, opa forma ove naredbe je TABULATE <ime - varijable>.

91

Konstantin Momirovi u statistici

(5) TABULATE V1 * V2/ROWPCT


formirati e, u stvari, tabelu uvjetnih vjerojatnosti, izraenih u postocima, dogadjaja definiranih intersekcijama kategorija varijabli V1 i V2, ako se ishod dogajaja definiranih kategorijama varijable V1 tretira kao
poznat ili utvrdjen; naravno, ako uzorak objekata nije sluajan, odnosno stratificiran, dobijeni rezultati su
prosto izraeni u postocima od marginalnih frekvencija kategorija V1, i ne mogu se interpretirati kao uvjetne
vjerojatnosti;
(6) TABULATE V1 * V2/C0LPCT
ponaa se slino kao i prethodna opcija, ali se sada varijabla V2 tretira kao fiksna varijabla.
I ovdje se, naravno, opcije mogu kombinirati. Na primjer,
TABULATE V1 * V2/PERCENT, ROWPCT, COLPCT
proizvesti e tri tabele izvedene iz kontingencijske tabele (V1 * V2); u prvoj e biti postoci u odnosu na
ukupan broj entiteta, u drugoj postoci u odnosu na frekvencije kategorija varijable V1, a u treoj postoci u
odnosu na frekvencije kategorija varijable V2.
Naredba TABULATE moe proizvesti i uvjetne (odnosno parcijalne) kontingencijske tabele. To se
postie naredbama tipa
(1) TABULATE V1 * V2 * V3
u kojem e sluaju biti proizvedene kontingencijske tabele (V2 * V3) za svaku vrijednost varijable V1, ili
(2) TABULATE V1 * V2 * V3 * V4
kada e biti proizvedena kontingencijska tabela (V3*V4) za svaku vrijednost kontingenci jske tabele
(V1*V2).
SYSTAT formira uvjetne kontingencijske tabele uvijek tako da posljednje dvije varijable u listi
formiraju kontingencijske tabele za sve mogue kombinacije ostalih varijabli. Budui da, ako je lista
varijabli neto dua, ovo moe proizvesti probleme sa memorijom raunala67; ponekad je korisno primijeniti
funkciju BY, koja se ponaa ovako
BY A, B, C
TABULATE V1 * V2 * V3
to znai da e biti proizvedene kontingencijske tabele (V2 * V3) za svaku vrijednost kategorija
varijable V1 i to za svaku vrijednost kategorija u varijablama A, B i C.
SYSTAT automatski ne rauna ni testove znaajnosti, ni mjere asocijacije, jer razumno pretpostavlja
da e se izraunate kontingencijske tabele analizirati pod nekim loglinearnim modelom. Ako su testovi
znaajnosti i neke mjere asocijacije potrebne, bez obzira hoe li se ili nee analiza nastaviti pod nekim
loglinearnim modelom, treba napisati dodatnu naredbu
PRINT = LONG.
Ako se radi o tabelama (2*2) i n < 50, ova e naredba izraunati egzaktni Fisherov test; inae biti e
izraunani standardni 2 test i 2 test izveden pod kriterijem najvee vjerodostojnosti, te njima pridrueni
koeficijenti asocijacije.
SYSTAT zapravo misli da kontingencijske tabele treba analizirati pod nekim specificiranim
loglinearnim modelom. Zbog toga, nakon to je neka (dopustivo k-dimenzionalna) kontingencijska struktura
kreirana naredbom TABULATE, naredbom MODEL moe se specificirati loglinearni model ija se
adekvatnost testira na temelju ishoda 2 testa i 2 izvedenog pod modelom najvee vjerodostojnosti.
Na primjer, za varijable V1 i V2, iz kojih je, naredbom
TABULATE V1 * V2
formirana kontingencijska tabela, naredba
MODEL CONSTANT + V1 + V2 + V1 * V2
67

Problemi sa memorijom i procesorima korisnika su, naravno, sasvim druga stvar

92

Uvod u analizu nominalnih varijabli

generira potpuno saturirani model, a naredba


MODEL V1 + V2
testira, zapravo, nezavisnost varijabli V1 i V2.
Budui da interakcija uvijek ukljuuje glavne efekte, a ovi konstantu, dovoljno je u naredbi MODEL
specifici rati samo interakciju, ako se radi o modelima sa interakcijom, odnosno samo glavne efekte, ako
interakcija nije specificirana. Prema tome, oznaka CONSTANT je potrebna sama da se specificira trivijalni
model
MODEL CONSTANT.
Naredba kojom se inicijalizira analiza pod loglinearnim modelima ima nekoliko opcija:
(1) MODEL V1 + V2 / FITTED
proizvesti e tabelu procijenjenih frekvencija pod modelom glavnih efekata; no to e biti uinjeno i bez ove
opcije;
(2) MODEL V1 + V2 / DIFFERENCES
proizvesti e tabelu reziduala, tj. razlika izmedju dobijenih i pod modelom procijenjenih frekvencija, a
(3) MODEL V1 + V2 / RESIDUALS
tabelu standardiziranih reziduala.
Ako je potrebno otisnuti i procijenjene, i rezidualne frekvencije, treba specificirati
(4) MODEL V1 + V2 /FITTED, RESIDUALS
a ako je potrebno naloiti da se oekivane frekvencije procijene sa vie od 20 iteracija, valja napisati, na
primjer
(5) MODEL V1 + V2 / ITERATIONS = 90.
Pretpostavljena maksimalna razlika izmedju stvarnih i procijenjenih frekvencija je 1. Ovo se moe
promijeniti opcijom
(6) MODEL V1 + V2 / CRITERION = <vrijednost kriterija>.
Opcija
(7) MODEL V1 + V2 / DELTA = <vrijednost>
dodaje <vrijednost> svakoj procijenjenoj vrijednosti, kako bi se izbjeglo gubljenje stupnjeva slobode zbog
onih elija ija je procijenjena vrijednost 0.
SYSTAT na prilino efikasan nain tretira loglinearne modele za k-dimenzionalne kontingencijske
strukture. Na primjer, za strukturu generiranu naredbom
TABULATE V1 * V2 * V3
model kojim se testira interakcija drugog reda, tj. nezavisnost sistema (V1*V2*V3) je
MODEL V1 + V2 + V3 + V1 * V2 + V1 * V3 + V2 * V3.
SYSTAT spada meu pakete koji, posebno zbog loglinearnih modela, zasluuju izvjesnu panju.
Naalost, nema entropijskih mjera asocijacije, niti mogunost kanonike analize asocijacije nominalnih
varijabli, pa je njegova primjena ipak prilino ograniena.

93

Konstantin Momirovi u statistici

10.1.3 STATGRAPHICS
Ne samo zbog svoje izvrsne grafike (koja je, dodue, prilino nepotrebna pri ozbiljnoj analizi
nenumerikih podataka), ve i zbog jednostavnosti upotrebe, osigurane dobrim MENU-em i interaktivnim
radom sistema, STATGRAPHICS (Polhemus, 1985) je vrlo popularan paket statistikih programa.
Analiza kontingencijske tabele (funkcije Contingency Tables), reprezentirana matrinom strukturom
koja je formirana nekom procedurom za manipulaciju podacima, procedurom za formiranje matrica ili
RESHAPE operatorom68 izvodi se, nakon to je izabrana ova funkcija, na poruku
ENTER NAME OF MATRIX CONTAINING TWO-WAY TABLE:
tako da se napie naziv matrine strukture. Program e izraunati 2, stupnjeva slobode, znaajnost 2,
koeficijent kontingencije, i simetrini i oba asimetrina koeficijenta. Nakon toga, ako se na poruku
DISPLEY ADDITIONAL STATISTICS?
napie Y
program e odtampati i Cramerov koeficijent asocijacije, simetrinu i asimetrine mjere nesigurnosti
prognoze, Kendallove koeficijente TB i TC, i jo tri mjere (, i simetrini i oba asimetrina Somerova
koeficijenta), koji su, meutim, stvarno smislene samo ako se radi o ureenim kategorijalnim varijablama.
STATGRAPHICS moe, funkcijom Crosstabulation, formirati kontingenci-jsku tabelu reda 2 ili 3,
nakon ega, bez posebne naredbe, analizira tako formiranu strukturu funkcijom Contingency Tables. To se
odvija na ovaj nain:
Poruka
ENTER NAME OF

Odgovor
<Upisati ime prve varijable>

FIRST DATA VARIABLE:


ENTER MATRIX WITH CLASS
LABELS(defaults)

<Upisati ime matrice koja sadri imena


kategorija analiziranih varijabli> ili
<pritisnuti taster ENTER>69

ENTER NAME OF SECOND DATA


VARIABLE:

<Upisati ime druge varijable>

ENTER MATRIX WITH CLASS


LABELS(defaults)

<Upisati ime matrice > ili

ENTER NAME OF THIRD DATA


VARIABLE, IF ANY

<Upisati ime tree varijable, ako postoji i


eli se 3-dimenzionalna struktura>

COLUMNWISE ROWWISE OR
TABLEWISE PERCENTAGES?

<Upisati C, ili pritisnuti ENTER ako se


eli da se procenti raunaju s obzirom na
stupce, R s obzirom na retke, ili T ako se
ele postoci s obzirom na ukupan broj
entiteta>.

(C/R/T):

<pritisnuti taster ENTER>

Nikakve druge mogunosti za analizu podataka nenumerikog tipa u STATGRAPHICS-u zapravo ne


postoje, pa je oito da se radi o proizvodu koji je, pod tim vidom, priblino na istoj razini kao i veina ostalih
statistikih paketa.

68

Opis ovih procedura nalazi se u spomenutom priruniku.

69

U tom sluaju e kategorije imati oznake CL1, CL2 itd.

94

Uvod u analizu nominalnih varijabli

10.1.4 CONTAB
CONTAB70, u stvari, nije dio nekog programskog paketa, ve samostalni programski proizvod
namijenjen iskljuivo analizi nenumerikih podataka. Napisan je u FORTRAN-u V, podskupu FORTRAN-a
77, i prenosiv je na sva raunala sa standardnim FORTRAN 77 kompilatorom.
Nakon to se, naredbama operacionog sistema, CONTAB pozove iz standardne biblioteke, program se
aktivira ovim naredbama71:
(1) Problemska naredba
PROBLEM,
NV =
FORMAT =
ULAZ =
KT =

<broj varijabli>,
<broj FORMAT naredbi>,
<broj ulazne jedinice ili datoteke na kojoj su podaci>,
<najnia vrijednost teorijske frekvencije koja odreuje koja e se
kategorija uzeti u obzir pri izraunavanju vrijednosti 2 testa>

(2) Naredba kojom se ispisuje tekst


Ova naredba nije obavezna. Ako se, meutim, napie
TEXT = <tekst>
tekst e biti ispisan u zaglavlju svake stranice
(3) FORMAT naredbe
Standardne FORTRAN naredbe s formatom podataka. Ako je, u (1), FORMAT = 0, ovih naredbi ne
treba, i podaci se uitavaju u slobodnom formatu
(4) Naredbe sa imenima varijabli i kategorija
Svakoj varijabli moe biti, u okviru ove grupe naredbi, pridruena naredba kojom se definiraju naziv
varijable i oznake kategorija. Te naredbe imaju ovaj oblik
IMEVAR, = <naziv varijable> <(ifra kategorija)>
<oznaka prve kategorije>...<oznaka posljednje kategorije>.
Ako ove naredbe nisu navedene, CONTAB e varijable oznaiti sa VAR001, VAR002 itd., a
kategorije rednim brojevima.
(5) Naredba za odreivanje intersekcija (TAB)
Ovim se naredbama odreuje to CONTAB treba da uini.
Na primjer:
TAB = 7
Izraunava marginalne frekvencije varijable 7;
TAB = 1 - 20
izraunava marginalne frekvencije varijabli 1, 2,..., 20;
TABSVE
izraunava marginalne frekvencije svih varijabli,
TAB = 1, 2
izraunava kontingencijsku tabelu izmeu varijabli 1 i 2;
TAB = 1, 3 - 6
izraunava kontingencijske tabele varijable 1 s varijablama 3, 4, 5 i 6;
70

Zlobec, Varga i Momirovi (1974). Ovdje je prikazana izvorna verzija programa; osim ove, postoji jo nekoliko verzija, koje se od osnovne verzije
razlikuju samo po nekoliko, za korisnika nevanih tehnikih pojedinosti.

71

Naredbe se piu u card-image modu.

95

Konstantin Momirovi u statistici

TAB = 2 - 6, 8 - 10
izraunava kontingencijske tabele varijabli 2, 3, 4, 5 i 6 s varijablama 8, 9 i 10;
TABSVE = 1, 10
izraunava sva mogua ukrtanja izmeu varijabli 1, 2,..., 10;
TAB = 1, 2 / 3
izraunava kontingencijske tabele varijabli 1 i 2 za sve vrijednosti varijable 3;
TAB = 2, 6 / 3 / 5 /
izraunava sve kontingencijske tabele izmeu varijabli 2 i 6, za sve vrijednosti dobijene intersekcijom varijabli 3 i 572;
TAB = 1, 4 6 / 8 / 9 / 10
izraunava kontingencijske tabele varijable 1 s varijablama 4, 5 i 6, za sve vrijednosti dobijene
trodimenzionalnom strukturom koja je definirana varijablama 8, 9 i 10.
Za sve marginalne varijable CONTAB izraunava frekvencije, relativne frekvencije, entropiju i
automatski testira hipotezu da su, u populaciji iz koje je uzorak izvuen, vjerojatnosti svih kategorija
jednake.
Za sve kontingencijske tabele CONTAB izraunava frekvencije, relativne frekvencije, uvjetne
relativne frekvencije po svakoj varijabli, i teorijske frekvencije uz hipotezu o nezavisnosti. Ovu hipotezu
testira standardnim 2 testom, i 2 testom pod kriterijem najvee vjerodostojnosti73. Osim toga, izraunava
entropije marginalnih varijabli, entropiju kontingencijske tabele i obje uvjetne entropije. Rauna i ispisuje
ove mjere asocijacije: Pearsonov koeficijent kontingencije, Cramerov koeficijent asocijacije, Garnerove
koeficijente relativnog jednosmjernog i dvosmjernog protoka informacija, simetrine i asimetrine
koeficijente asocijacije W. Pearsona, i simetrine i asimetrine indekse prognostike asocijacije ()
Goodmana i Kruskala.

10.1.5 BMD
Jedan od najstarijih statistikih programskih paketa, BMD (Dixon, 1977) postoji u nekoliko verzija za
velika i mala raunala; najnovija i najpotpunija je BMDP.
Program za analizu kontingencijskih tabela u elementarnoj verziji, IS, spada u najsiromanije
programe ove vrste, i doputa samo formiranje kontingencijskih tabela, izraunavanje postotaka, ukljuivi
postotke po redovima i stupcima, 2 testa i Pearsonovog koeficijenta kontingencije, te jedne mjere izvedene
iz omjera vjerodostojnosti .
Program se aktivira ovim naredbama, napisanim u card-image modu:
stupci
naredbe
1-6
7-12
13-15
16-20
21-23
24-26
27-28
29-31
32-34
35-37
40-41
71-72

PROBLEM
<oznake problema>
<broj varijabli>
<broj entiteta>
<naredbe za formiranje intervala, nepotrebne ako su
kategorije oznaene sa 1, 2, ...>
<broj naredbi za formiranje tabela>
<minimalna doputena teoretska frekvencija>
<YES ako treba izraunati postotke>
<YES ako treba izraunati postotke po stupcima>
<YES ako treba izraunati postotke po retcima>
<NO ako ne treba tampati kontingencijske tabele i
tabele sa postocima>
<broj FORMAT naredbi>.

72

CONTAB doputa do 9 kontrolnih varijabli, ali je to, oito, isuvie mnogo za svaki razumno veliki broj
doputa 100 varijabli i 100 kategorija u svakoj od njih, ali se ovaj broj moe, na zahtjev, poveati.

73

Pri izraunavanju 2 eliminira intersekcije kategorija u kojima je teorijska frekvencija manja od one oznaene u specifikaciji KT = < >, i za toliko
smanjuje broj stupnjeva slobode. Ako parametar KT nije naveden, CONTAB smatra da je KT = 1.

96

entiteta. Inae, CONTAB standardno

Uvod u analizu nominalnih varijabli

Naredbe kojima se kontrolira tabeliranje izgledaju ovako:


stupac
1-6
7-10
11-12
13-16
17-20
.
.

TABLES
<indeks prve varijable>
<broj varijabli koje treba ukrstiti s prvom
varijablom>

<indeksi varijabli koje treba ukrstiti s prvom


varijablom>

.
69-72

Oito, u ovoj verziji, BMD je alosna vrsta programskog proizvoda. Meutim, nove verzije ovog
paketa su mnogo ozbiljnije, i omoguavaju gotovo sve uobiajene postupke za analizu kontingencijskih
tabela.

10.1.6 SPSS
SPSS74 je, dijelom i zbog svog naziva, vjerojatno najpopularniji paket statistikih programa ne samo
meu sociolozima, ve i meu svima koji primjenjuju ak i relativno sloene procedure za statistiku analizu
ili analizu podataka.
Analiza kontingencijskih tabela moe se izvesti s dva programa, CROSSTABS i FASTABS, koji se
razlikuju samo po tome to FASTABS zahtijeva da su vrijednosti varijabli kodirane cijelim brojevima, i to
je mnogo bri. Kako su kategorije nominalnih varijabli gotovo uvijek tako kodirane, ima smisla opisati samo
nain aktiviranja programa FASTABS.
Taj se program, nakon to su podaci smjeteni na neki zapis, i nakon to je SPSS aktiviran, aktivira na
ovaj nain:
stupac

naredba

1
RUN NAME
GET FILE
COMMENT
VARIABLES =

16
<naziv posla>
<ime zapisa na kome su podaci>
<tekst sa komentarima>
<ime varijable ili lista varijabli>
<najnia vrijednost, najvia vrijednost>/
<ime varijable ili lista varijabli>
<najnia vrijednost, najvia vrijednost>
<ime varijable ili lista varijabli>
BY <ime varijable ili lista varijabli>
/BY <ime varijable ili lista varijabli>
1, 2, 3, 4, 5, 6, 7

TABLES =
STATISTICS
FINISH

Na primjer, naredba za formiranje kontingencijske tabele izmeu varijabli V1 i V2, pri emu V1 ima
kategorije kodirane od 0 do 7, a V2 kategorije kodirane od 1 do 5, a pohranjene su u zapisu pod imenom
MYDATA, jesu
1
RUN NAME
GET FILE
COMMENT
FASTABS
STATISTICS
FINISH

74

16
RELACIJE VARIJABLI V1 I V2
MYDATA
JEDNOSTAVNI PRIMJER UKRTANJA
VARIABLES = V1(0,7) / V2(1,5)
TABLES = V1 BY V2
1, 2, 3, 4, 5, 6, 7

Nie, Bent and Hull, 1970. Izale su, u skladu s razvojem ovog proizvoda, i druge verzije prirunika; meutim, dio koji se odnosi na analizu
nenumerikih podataka ostao je sutinski neizmjenjen.

97

Konstantin Momirovi u statistici

Slian prirnjer, za analizu relacija izmeu V1 i V2, uz kontrolu varijable V375, biti e
1
16
RUN NAME
RELACIJE V1 SA V2 UZ KONTROLU V3
GET FILE
MYDATA
COMMENT
PRIMJER ZA PARCIJALNU ANALIZU
FASTABS
VARIABLES = V1 (0,7) /V2(1,5) / V3(1,2)
TABLES = V1 BY V2 BY V3
STATISTICS 1, 2, 3, 4, 5, 6, 7
FINISH
FASTABS76 proizvodi kontingencijske tabele u kojima su, osim frekvencija i marginalnih frekvencija,
i postoci, kao i postoci u odnosu na retke i stupce. Naredba STATISTICS doputa izbor statistikih testova i
mjera asocijacije; bro-jevi u toj naredbi imaju ovo znaenje:
1
2 test
2
Cramerov koeficijent asocijacije (nestandardiziran)
3
Koeficijent kontingencije K. Pearsona
4
Simetrini i asimetrini koeficijent Goodmana i Kruskala
5
Simetrini i asimetricni Garnerovi koeficijenti relativnog protoka
informacija
Kendallov Tb
6
7
Kendallov Tc
FASTABS iz SPSS-a je brz, pouzdan i za mnoge standardne primjene dovoljan program za analizu
kontingencijskih tabela. Naalost, nema mogunosti kanonike analize relacija nenumerikih podataka, niti,
za sada, doputa primjenu loglinearnih modela.

10.2 MAKROPROGRAMI NAPISANI U GENSTAT JEZIKU


Zbog toga to nijedan od standardnih programa za analizu kontingencijskih tabela ne sadri sve
elementarne procedure koje se, na veini fakulteta s razumnim programom iz statistike, predaju ve na prvoj
ill drugoj godini dodiplomskog studija, a na ostalima, obino, na postdiplomskom studiju, napisano je, u
verziji 4.04 GENSTAT jezika, nekoliko makroprograma za analizu nenumerikih podataka.
Ti se programi mogu podijeliti u dvije skupine. Prvu ine jednostavni programi za analizu
kontingencijskih tabela, sa selekcijom pristojnih mjera asocijacije, i sa pridruenom kanonikom analizom
relacija nominalnih varijabli. Ovdje spadaju makroprogrami AACONT, ACONT i ACONITE, koji se
razlikuju preteno po internoj organizaciji, nevanoj za normalnog korisnika, i po neznatnim razlikama u
izboru mjera asocijacije. Kako AACONT spada u najjednostavnije, i kako je namijenjen tome da zamijeni
CONTAB, koji je, bar na nekim raunskim centrima, bio do sada najee primjenjivan, taj je program
posebno prikazan, ukljuivi i listing njegove aktualne verzije. Drugu grupu ine programi za analizu
podataka pod loglinearnim modelima i programi za multivarijantnu analizu nominalnih varijabli. Veina tih
programa izvorno je napisana u SS jeziku, pa su GENSTAT verzije najee samo obian prijevod, uz
uglavnom neznatne modifikacije77. Ta grupa programa samo je ukratko spomenuta, kako bi se stekao neki
uvid u raspoloivu programsku podrku za analizu nominalnih varijabli.

10.2.1 MACRO AACONT


Makroprogram AACONT (Momirovi i Radakovi, 1987) analizira relacije dviju nominalnih varijabli
pod standardnim probabilistikim modelom u 2 metrici, pod modelom protoka informacija, i pod
kanonikim modelom. Od mjera asocijacije u 2 metrici AACONT sadri samo Pearsonov koeficijent
kontingencije i standardizirani Cramerov koeficijent asocijacije. Od entropijskih mjera asocijacije sadri
samo simetrinu i obje asimetrine mjere asocijacije W. Pearsona. U kanonikom modelu izraunava i testira
sve netrivijalne mjere asocijacije, i izraunava skalne vrijednosti kategorija obje nominalne varijable za sve
netrivijalne vektore.
Korisnik mora, u REFERENCE programu, ili nekom drugom MACRO programu, prenijeti AACONT75

Neka je i V3 u zapisu MYDATA, i neka ima kategorije kodirane sa 1 i 2.

76

Potpuno je isti izlaz i iz programa CROSSTABS.

77

Veina tih programa jo je u fazi testiranja i dokumentiranja.

98

Uvod u analizu nominalnih varijabli

u dvije FACTOR strukture, pod imenom Fl i F2, u kojima su podaci za prvu i drugu varijablu kodirani
cjelobrojanim kodom, dvije NAME strukture, pod imenom CAT1 i CAT2, u kojima su imena ili oznake kategorija analiziranih varijabli, i jednu skalarnu strukturu, N, u kojoj je broj entiteta.
Makroprogram AACONT se poziva na slijedei nain iz nekog REFERENCE programa:
'REFE / N,D = 150, NUNN = 150' <ime programa>
'SCAL'

'READ'

'RUN'
'NAME' CAT1 = <oznake kategorija prve varijable>
:

CAT2 = <oznake kategorija druge varijable>

'FACTOR' Fl $ CAT1, N
:
'READ'

F2 $ CAT2, N
Fl

'RUN'
'READ'

F2

'RUN'
'GET/FILE = 3'

AACONT $ AACONT

'USE/R, PRIN=Y' AACONT $


'RUN'
'CLOSE'
'STOP'

Ovaj program, koji pretpostavlja da se AACONT nalazi u standardnoj programskoj biblioteci, da je ta


biblioteka pridruena programu, i da su programu pridrueni zapisi s podacima, aktivirati e AACONT,
ispisati e cijeli program, i sve rezultate koji su tim programom dobijeni.
Ostale pojedinosti o ovom makroprogramu vide se iz priloenog simbolikog koda.
'MACRO' AACONT $
WRITTEN BY
K. MOMIROVI
ON
30.03.1987
IMPLEMENTATION
J.RADAKOVI
ON
9.11.1987
FUNCTION
ANALYSIS OF A CONTINGENCY TABLE. THE FOLLOWING
DESCRIPTIVE TABLES ARE COMPUTED AND PRINTED:
(1) C=CONTINGENCY
TABLE
(2) P=PROBABILITY THAT A RANDOM OBJECT BELONGS TO THE
INTERSECTION OF
TWO CATEGORIES OF NOMINAL VARIATES UNDER CONSIDERATION.
(3) U1=PROBABILITY THAT A RANDOM OBJECT BELONGS TO THE
INTERSECTION OF
TWO CATEGORIES OF NOMINAL VARIATES, GIVEN THE PROBABILITIES
OF
CATEGORIES OF THE FIRST NOMINAL VARIATE.
(4) U2=PROBABILITY THAT A RANDOM OBJECT BELONGS TO THE
INTERSECTION OF
TWO CATEGORIES OF NOMINAL VARIATES, GIVEN THE PROBABILITIES
OF
CATEGORIES OF SECOND NOMINAL VARIATE.
(5) T=THEORETICAL PROBABILITIES UNDER THE HYPOTHESIS OF
INDEPENDENCE OF
TWO NOMINAL VARIATES.
ACONT
COMPUTE
THE FOLLOWING MEASURES
OF GLOBAL ASSOCIATION:
99

Konstantin Momirovi u statistici

(1) HIQ=CHI SQUARE TEST OF HYPOTHESIS OF INDEPENDENCE DF=DEGREES OF


FREEDOM OF HIQ
Q=PROBABILITY THAT TWO NOMINAL VARIATES ARE
INDEPENDENT
K=K.PEARSON COEFFICIENT OF CONTINGENCY
V=CRAMER COEFFICIENT OF ASSOCIATION
ALL OF THEM BASED ON CHI-SQUARE METRICS.
(2) H1=ENTROPY OF FIRST VARIATE
H2=ENTROPY OF SECOND VARIATE
H12=TOTAL ENTROPY OF CONTINGENCY TABLE
H1,2=CONDITIONAL ENTROPY OF FIRST VARIATE
H2,1=CONDITIONAL ENTROPY OF SECOND VARIATE
R1,2=W.PEARSON MEASURE OF ASSOCIATION BETWEEN
SECOND(PREDICTOR) AND FIRST (CRITERION)
VARIATE
R2,1=W.PEARSON MEASURE OF ASSOCIATION BETWEEN
FIRST (PREDICTOR) AND SECOND (CRITERION)
VARIATE
R=W.PEARSON
SYMETRIC
MEASURE
OF ASSOCIATION
BETWEEN
TWO NOMINAL VARIATES
ALL OF THEM BASED ON MEASURES OF INFORMATION FLOW BETWEEN VARIATES.
IN THE FINAL STEP AACONT PERFORMS THE CORRESPONDENCE ANALYSIS OF VARIATES
UNDER CONSIDERATION. IN THIS STEP AACONT COMPUTE AND PRINT:
(1) X1=SCALE VALUES OF CATEGORIES OF FIRST NOMINALVARIATE
X2=SCALE VALUES OF CATEGORIES OF SECOND NOMINALVARIATE
PHI=NONTRIVIAL MEASURES OF ASSOCIATION BETWEEN SCALINGS OBTAINED BY
X1 AND X2
QP=PROBABILITIES OF HYPOTHESIS THAT COEFFICIENT
IN PHI ARE EQUAL TO ZERO.
REQUIREMENTS:
REFERENCE PROGRAM MUST TRANSFERS TO AACONT:
(1) TWO FACTOR STRUCTURES, Fl AND F2, DESCRIBING
THE VALUES OF NOMINAL VARIATES
(2) TWO POINTER STRUCTURE, CAT1 AND CAT2, WITH THE
NAMES OF CATEGORIES OF FIRST AND SECOND NOMINAL
VARIATE.
WARNING:
NOMINAL VARIATE WITH SMALER NUMBER OF CATEGORIES MUST BE DECLARED AS
F2.
//
//
SECTION 0, DECLARATION.
//
'LOCAL' D1, D2,FQ1,FQ2,P1,P2,P,PP,C,CC,U2,UU2,Ul,UU1,T,TT,
DUMMY1,DUMMY2,DUMMY3,H1,H2,HH12,H12 r H21,HIQ,DF,LI,
L2,Q,K,L,V,Rl2,R21,R,G,Y2,TR,LAMB DA,Y1,X1,X2,LMB,
FI,HIQFI,QP,W,K1,K2
'SCAL'
H1,H2,HH12,HIQ,H12,H21,DF,L1,L2,Q,K,L,V,R12,R21,R,
TR,LC,Kl,K2
'START'
'CALC '
L1=NVAL(CAT1) : L2=NVAL(CAT2)
'DIAG'
Dl $ LI : D2 $ L2
'MATR'
FQ1 $ Ll,l : FQ2 $ L2,l
'MATR'
P1 $ L1, 1 : P2 $ L2, 1
'MATR'
PP,CC,UU1,UU2,TT $ L1,L2
'MATR'
DUMMY1 $ L1,1 : DUMMY2 $ L2, 1 : DUMMY3 $ L1,L2
'SYMM'
G $ L2 : DD2 $ L2
'DIAG'
LAMBDA $ L2
100

Uvod u analizu nominalnih varijabli

'MATR
Y2 $ L2,L2 : Yl $ L1,L2
'TABLE/M' C $ F1,F2
'TABLE'
C1,U1,U2,T,P $ F1,F2
//
SECTION 1.
CONTINGENCY TABLE.
//
'START'
'VARI '
JED $ N
'START'
'CALC
JED=1
'TABU'
'EQUA'
'EQUA'
'EQDA'
'EQUA'
//

JED:C
C1=C
$
(L2,1X)L1
CC=C1
D1=C $ L2
!
(1X),1
D2=C $
(L2 J X,1X)L1,.L2
SECTION
2.
PROBABILITY ESTIMATES.

//
'START '
'CALC N=SUM(D1)
'EQUA' FQ1=D1
:
FQ2=D2
'CALC P1=FQ1/N
:
P2=FQ2/N
'CALC ' PP=CC/N
'CALC UU2=PDT(CC: 1/D2)
'CALC UU1=PDT(1/D1:CC)
'CALC TT=PDTT(P1:P2)
//
SECTION 3.
ENTROPY MEASURES.
//
'START'
'CALC
DUMMY1=LOG(P1)
:
DUMMY2=LOD(P2)
'CALC
DUMMY 1=P1* DUMMY 1
:
DUMMY2=P2*DUMMY2
'CALC
H1=SUM(DUMMY1)
:
H2=SUM (DUMMY2 )
'CALC
H1=H1*(-1.O)
:
H2=H2*(-1.0)
'START'
'CALC
LC=L1*L2
'SET'
PC=PC(1. . .LC)
'VARI '
PC $ 1
'EQUA'
PC=PP
'FOR'
X=PC
'JUMP'
L*(X.EQ.0)
'CALC
X=LOG(X)
'LABEL'
L
'REPEAT'
'EQUA'
DUMMY3=PC
'CALC '
DUMMY3=PP*DUMMY3
'CALC
HH12=SUM(DUMMY3)
:
HH12-HH12* (-1. 0)
'SET'
U1C=U1C(1...LC)
'SET'
U2C=U2C(1. . .LC)
'VARI '
U1C $
1
'VARI '
U2 C %
1
'EQUA'
U1C=UU1
'EQUA'
U2C=UU2
'FOR'
X=U2C
101

Konstantin Momirovi u statistici

'JUMP'
K1*(X.EQ.0)
'CALC
X=LOG(X)
'LABEL ' Kl
'REPEAT'
'EQUA'
DUMMY3=U2C
'CALC
DUMMY3=PP* DUMMY3
'CALC'
H12=SUM(DUMMY3)
:
H12=H12*(-1.0)
'FOR'
X=U1C
'JUMP'
K2*(X.EQ.O)
'CALC
X=LOG(X)
'LABEL' K2
'REPEAT *
'EQUA'
DUMMY3=U1C
'CALC '
DUMMY3=PP*DUMMY3
'CALC'
H21=SUM(DUMMY3)
:
H2l=H2l*(-1.0)
'DEVA '
DUMMY1,DUMMY2,DUMMY3
//
SECTION
4.
MEASURES
AND TESTS
IN CHI-SQUARE METRICS.
//
'CALC' DUMMY3=TT*N
'CALC ' DUMMY3= (CC-DUMMY3 ) **2 .0/DUMMY3
'CALC' HIQ=SUM(DUMMY3)
'CALC' DF=(Ll-1.0)*(L2-1.0)
'CALC' Q=CPROB(HIQ*DF)
:
Q=1.O-Q
'CALC' K=SQRT(HIQ/(N+HIQ))
'CALC' L=L2-1
'CALC' V=SQRT(HIQ/(L*N))
//
SECTION
ENTROPY

5.
BASED

ASSOCIATION
MEASURES.
//
'CALC ' R12=SQRT(1.0-H12**2.0/HH12**2.0)
'CALC ' R21=SQRT(1.0-H2l**2.0/HH12**2.0)
'CALC' R=SQRT((R12**2.0+R21**2 . 0)/2 . 0 )
//
SECTION 6.
CORRESPONDENCE ANALYSIS.
//
'CALC' G=TPDT(PP;UU1)
:
DD2=1/D2
'LRV ' G,DD2;Y2,LAMBDA,TR
'CALC' Y1=PDT(UU1;PDT(Y2;(1.0/SQRT(LAMBDA))))
'EQUA' P=PP
'EQUA' T=TT
'EQUA' U1=UU1
:U2 = UU2
'START '
'CALC' L=L2-1
'MATE' X1 $ L1,L
:
X2 $ L2,L
'EQUA' X1=Y1
$
(1X,L)
'EQUA' X2=Y2 $
(1X,L)
'MATR' W $ L2 , 1
'EQUA' W= LAMBDA
'MATR' FI,HIQFI,OP,QFI
$
Lrl
'EQUA' FI=VV $
1X, L
'CALC' HIQFI=FI*N
'CALC' QP=CPROB{HIQFI;L)
:
QFI=1.0-QP
'CALC' FI=SQRT(FI)
102

Uvod u analizu nominalnih varijabli

//
SECTION 7.
OUTPUT.
//
'PAGE '
'LINE' 10
'CAPT '
********************************
*
AACONT
*
********************************//
'LINE ' 6
'CAPT' "NUMBER OF ENTITIES"
'PRINT' N $ 16.0
'LINE' 2
'CAPT'
"NUMBER OF CATEGORIES
IN FIRST VARIATE"
'PRINT' L1 $
16.0
'LINE'
2
'CAPT'
"NUMBER OF
CATEGORIES
IN
SECOND VARIATE"
'PRINT' L2 $
16.0
'PAGE '
'LINE'
2
'CAPT'
"FREQUENCIES, PROBABILITIES AND ENTROPY OF FIRST MARGINAL
VARIATE
'LINE'
2
'PRINT/P'
FQ1,P1
$
10.2
'LINE'
2
'PRINT'
HI
$
10.2
'PAGE '
'LINE'
2
'CAPT'
"FREQUENCY,PROBABILITIES AND ENTROPY OF SECOND MARGINAL VARIATE
'LINE'
2
'PRINT/P' FQ2,P2
$ 10.2
'LINE'
2
'PRINT' H2
$
10.2
'PAGE '
'LINE '
2
'CAPT'
"CONTINGENCY
TABLE"
'LINE'
2
'PRINT/P '
C
$
8.0
'PAGE '
'LINE'
2
'CAPT'
"PROBABILITY
MATRIX"
'LINE '
2 '
PRINT/P' P
$
8.2
'PAGE ' '
LINE '
2
'CAPT'
"CONDITIONAL PROBABILITY
MATRIX
SECOND VARIATE
IS
FIXED."
'LINE'
2
'PRINT/P' U2
$
8.2
'PAGE '
'LINE'
2
'CAPT' "CONDITIONAL PROBABILITY MATRIX.
FIRST VARIATE IS FIXED. "
'LINE ' 2
'PRINT/P ' U1 $ 8.2
'PAGE '
'LINE' 2
103

Konstantin Momirovi u statistici

'CAPT'

"ENTROPY MEASURES AND ENTROPY BASED


ASSOCIATION COEFFICIENTS."
'LINE' 2
'PRINT' HH12, H12,H21 $ 10.2
'PRINT' R,R12,R2l $ 10.2
'PAGE '
'LINE ' 2
'CAPT' "CHI-SQUARE TEST AND CHI-SQUARE BASED
MEASURES OF ASSOCIATION. "
'LINE ' 2
'PRINT' HIQ $ 10.3 : DF $ 10.0 : Q,K,V $ 10.3
'PAGE '
'LINE ' 2
'CAPT' "CANONICAL COEFFICIENTS OF ASSOCIATION (FI),
CHI-SQUARE TESTS(HIQFI) AND PROBABILITIES
OF NUL HYPOTHESES(QP)"
'LINE ' 2
'PRINT/P' FI,HIQFI,QP $ 10.3
'PAGE '
'LINE' 2
'CAPT' "SCALE VALUES OF CATEGORIES FOR FIRST NOMINALVARIATE''
'LINE ' 2
'PRINT/P ' XI $ 10.2
'PAGE '
'LINE ' 2
'CAPT' "SCALE VALUES OF CATEGORIES FOR SECOND NOMINAL VARIATE ' '
'LINE ' 2
'PRINT/P ' X2 $ 10.2
'PAGE '
//
END OF ACONT
//
'ENDMACRO/LOCAL=DESTROY'

10.2.2 PREGLED MAKROPROGRAMA ZA MULTIVARIJANTNU ANALIZU NOMINALNIH


VARIJABLI I ANALIZE POD LOGLINEARNIM MODELOM
U programskoj biblioteci SRCE*GENS-MACRO., osim programa AACONT, ACONT i ACONITE,
nalaze se i ovi programi za analizu nenumerikih podataka:
(1) LOGLIN (Momirovi, Dugi i Radakovi, 1988), koji testira razliite hipoteze o generatorima relacija
dvije nominalne varijable pod loglinearnim modelom;
(2) BDRTG (Momirovi, Bosnar i Prot, 1988), GENSTAT verzija SS programa BURT (Momirovi,
Dobri, Gredelj i Szirovicza, 1980), koji analizira latentnu strukturu jednog skupa nominalnih varijabli
pod komponentnim modelom;
(3) HAROLG (Momirovi, Prot i Bosnar, 1988), GENSTAT verzija SS programa LITTLE HAROLD
(Momirovi, Gredelj i Herak, 1980), koji analizira kanonike relacije dva skupa nominalnih varijabli;
(4) RAOG (Momirovi, Bosnar i Prot, 1988), GENSTAT verzija SS programa LITTLE RAO (Momirovi,
Szirovicza, Dobri i Gredelj, 1980), koji izvodi kanoniku diskriminativnu analizu na osnovu
nominalnih varijabli;
(5) CATTELLG (Momirovi, Prot i Bosnar, 1988), GENSTAT verzija SS programa CATTELL
(Momirovi, Szirovicza, Gredelj i Dobri, 1980), koji izvodi taksonomsku analizu, pod modelom
polarnih taksona, jednog skupa objekata opisanih nad skupom nominalnih varijabli;
(6) HERAKLITG (Momirovi, Bosnar i Prot, 1988), koji izvodi metriko multidimenzionalno skaliranje
jednog skupa objekata opisanih nad skupom nominalnih varijabli; ovaj je program GENSTAT verzija
SS programa HERAKLIT (Momirovi, Bosnar, talec i Prot, 1983).
Izvorni programi, napisani u SS jeziku, nalaze se u programskoj biblioteci SRCE*SS-MACRO.
104

Uvod u analizu nominalnih varijabli

11. NUMERIKI PRIMJERI

In order to avoid misunderstanding, it may be interjected here that


to claim that a certain statment is empirical does not at all imply
that it stands for something that is given directly to our senses and
is not contaminated by theoretical artifact. On the contrary, only
by
virtue
of our theoretical structure does the empirical
determination become possible.
Satosi Watanabe
U ovom su poglavlju data tri numerika primjera analize nenumerikih podataka izvedena sa tri razna
programa (SPSS, CONTAB i CANCONT). U stvari, re je o tri ranije objavljena rada koji dobro ilustriraju
razliite stilove u verbalizaciji rezultata dobijenih analizom kontingencijskih tabela.
Radovi su navedeni upravo o onom obliku u kome su objavljeni, bez ikakvih izmjena i dopuna;
posljednji rad, koji je objavljen na engleskom jeziku, nije preveden, jer to nije uinjeno ni prilikom reprinta
tog rada78. Drugi od priloenih radova je u izvornoj formi bio vrlo ekstenzivan, jer je sadravao i niz
kontingencijskih tabela koje su, u tekstu, interpretirane na vrlo saet nain. Taj je lanak skraen na taj nain
da su prikazani samo testovi znaajnosti i mjere asocijacije; svrha ovog primjera je da prui materijal za
vjebe, a i da pokae da se, zapravo, iz gomile kontingencijskih tabela moe izvui relativno malo suvislih i
upotrebljivih informacija.
Postoji vie naina da se iz ovih primjera izvue neka korist. Najmanje je efikasan nain da se tekst
jednostavno proita; najefikasnije je da se rezultati prenesu na medij koji je raunarski itljiv, i da se
podvrgnu reanalizi, razliitim metodama, i, moda, pomou razliitih programskih proizvoda, i da se pokua
utvrditi koje su sve pogreke i gluposti autori uinili pri interpretaciji dobijenih rezultata.

1.1 RELACIJE IZMEU VRSTE KINEZIOLOKE AKTIVNOSTI I KOLSKOG USPJEHA


UENIKA SREDNJIH KOLA
M. Gredelj, A. Hoek, K. Momirovi, K. Petrovi, D. Tarbuk
Kineziologija, 3 (1973), 2 : 103-114
1. UMJESTO UVODA: UENJE I SPORT, DVIJE OSNOVNE INSTITUCIONALIZIRANE
AKTIVNOSTI OMLADINE79
Izmeu brojnih aktivnosti omladine, uenje i sport imaju poseban znaaj, kako pod vidom broja
uenika tako i pod vidom stupnja institucionaliziranosti. To, dakako, nije sluajno; kolski je sistem bitan
subsitem socijalizacijskog subsistema, a tako je, u stvari, i sa sistemom fizike kulture, iako je pozicija ovog
potonjeg odreena, u naoj zemlji, mnogo vie deklarativno, a mnogo manje formalnom i stvarnom
organizacijom kineziolokih aktivnosti.
Pozicija subjekta u kolskom i sportskom subsistemu moe biti odreena na veem broju ne nuno
nezavisnih dimenzija. U kolskom subsistemu ta je pozicija, uz vrstu kole, dominantno definirana kolskim
uspjehom; u sportskom, meutim, vrsta je sporta, ini se bar sa drutvene take gledita, vanija od
78

K. Petrovi i A. Hoek, Prilozi za sociologiju sporta, 1, FFK, Zagreb, 1986, str. 355-362. Dodatni razlog, osim lijenosti autora, to ovaj rad nije
preveden jeste potreba da se italac upozna s teminologijom na jeziku koji je, naalost, postao meunarodni znanstveni standardni jezik.

79

Ovo je istraivanje dio programa istraivakog rada Instituta za kineziologiju Fakulteta za fiziku kulturu, koji je financiran iz sredstava koje je
Sveuilite u Zagrebu dodijelilo Fakultetu za fiziku kulturu na temelju odluke br. 03-687/82 1973, od 26.6.1073. Republiki zavod za
zapoljavanje omoguio je provoenje ispitivanja i sudjelovao u dijelu trokova za obradu rezultata.

105

Konstantin Momirovi u statistici

sportskog uspjeha, pogotovo ako se odsustvo ma kakve kinezioloke aktivnosti smatra znaajnim
indikatorom pozicije subjekta u torn subsistemu.
Ciljevi ovog istraivanja vie su nego skromni. Njegova je osnovna svrha da utvrdi relacije izmeu
uspjeha subjekta u dijelu kolskog sistema, koji se sastoji od kola koje se, sada, nazivaju kolama drugog
stupnja, i vrste preferencijalne kinezioloke aktivnosti; odsustvo ma kakve kinezioloke aktivnosti tretirano
je takoer kao indikator pozicije subjekta u sistemu fizike kulture.
2. METODE ISPITIVANJA
Ispitivanje je provedeno klasinom aktuarskom tehnologijom; uz pomo suvremenih informatikih
ureaja ovaj je nain vjerojatno sasvim pogodan za istraivanja ove vrste.
2.1 Uzorak ispitanika
Populacija na kojoj je provedeno ispitivanje definirana je kao cjelokupna populacija uenika zavrnih
razreda svih srednjih kola drugog stupnja na teritoriju SR Hrvatske. Meutim, 24.782 maturanta, koliko ih
je ulo u konanu obradu rezultata, ne obuhvaa cjelokupnu populaciju predvienu planom istraivanja. Ovo
zato to jedan dio kola nije na vrijeme poslao popunjene anketne listove, dok je jedan dio ispitanika imao
pogrene ili nepotpuno popunjene anketne listove. Tako je iz planirane populacije dobiven uzorak koji nije
bio striktno sluajan, ve je bio proizveden nedostatkom informacija o lanovima skupa ili nekorektnim
informacijama o tim lanovima. Razlozi koji su prouzrokovali gubitke informacija nisu, vjerovatno,
znaajnije povezani s varijablama koje su predmet ovog istraivanja, tako da se pod tim vidom ovaj uzorak
moe smatrati sluajnim. Uzorkom je obuhvaeno 47,2% maturanata trogodinjih kola drugog stupnja i
47,3% uenika zavrnih razreda raznih etverogodinjih srednjih kola. Oko 6% je i maturanata nekih
dvogodinjih kola drugog stupnja. Ispitano je 53,9% uenika i 46,1% uenica, starosne dobi uglavnom
izmeu 18 i 19 godina (38,6%, odnosno 40,5%). Meutim, anketirano je i 1,1% uenika starih 15 ili 16
godina, 11,1% uenika starih 17 godina, 7,5% uenika starih 20 godina, 1,1% uenika starih 21 godinu i
0,2% uenika starih 22 ili vie godina. Od oko 24.000 uenika, anketom je obuhvaeno 42,7% uenika sa
sela, 14,3% uenika iz naselja definiranih kao mjesta, 34,5% uenika iz naselja proglaenih gradovima, dok
je 8,5% uenika koji potiu iz nedefiniranih areala koji se nalaze izvan SRH.
2.2 Nain prikupljanja informacija
Podaci o kolskom uspjehu u predmaturalnom razredu i preferencijalnoj kineziolokoj aktivnosti
prikupljeni su anketom. Anketa je provoena u razredima, pod kontrolom nastavnika; i nastavnici i uenici
prethodno su bili instruirani o nainu popunjavanja anketnih listova. Svoje odgovore na pitanja uenici su
unosili u anketne listove konstruirane tako da se odgovori mogu automatski proitati i registrirati na
optikom itau. Prema svemu to se moglo utvrditi na osnovu dostupnih informacija, uenici normalne
inteligencije, rukovoeni nastavnicima, morali su biti sposobni da bez ikakvih tekoa korektno ispune ovaj
anketni list pod uvjetom da faktori konativne naravi, u osnovi patolokog tipa, nisu, bilo kod uenika bilo
kod nastavnika, mogli izazvati neozbiljan odnos prema ispitivanju. Meutim, unato tome, broj nekorektno
popunjenih anketnih listova je znatan (oko 5.000). Kao nekorektno popunjeni smatrani su svi oni anketni
listovi koji su sadravali nemogue, dakle nedopustive odgovore ili oni koji nisu imali uope nikakvih
odgovora na neko pitanje. Nedopustivim odgovorima smatrani su i oni u kojima je ispitanik na isto pitanje
ubiljeio dva odgovora, budui da su pitanja bila konstruirana tako da proizvode nominalne skale ije su
vrijednosti za svaku skalu tvorile skupove s nultim intersekcijama.
2.3 Uzorak varijabli
U ovom e istraivanju biti analizirane samo one varijable koje pruaju informacije o kineziolokim
aktivnostima kojima se uenici bave, kao i o kolskom uspjehu istih uenika u srednjoj koli.
2.3.1 Osnovne varijable
Kao osnovna varijabla u ovom je istraivanju sluila varijabla za procjenu kinezioloke aktivnosti
kojom se uenik najvie bavi. Kako osim informacije o vrsti sporta kojim se uenik bavi nisu prikupljene
106

Uvod u analizu nominalnih varijabli

nikakve dodatne informacije o intenzitetu bavljenja, kao i o sportskim rezultatima koje uenik postie u toj
aktivnosti, ovu varijablu treba tretirati iskljuivo kao varijablu o preferiranoj kineziolokoj aktivnosti kojom
se uenik bavi bilo sporadino bilo sistematski.
Premda nunost ovakve promjene logikog znaenja odgovora ove varijable onemoguava ispitivanje
veze izmeu vrste kinezioloke aktivnosti kojom se uenik sistematski bavi i njegove sposobnosti da
udovoljava zahtjevima kole, ta promjena prua druge, jednako vane informacije. Vanost tih informacija
odraava se u injenici da sport kojeg uenik preferira ukazuje vie na interese, stavove i sisteme
vrednovanja u prostoru kineziolokih aktivnosti, dok sport kojim se uenik bavi, premda daje i takvu vrstu
informacija, nosi informacije o mogunosti uenika da se tim sportom bavi, a djelomino i o njegovim
psihomotornim sposobnostima. Tako e uenik koji se bavi nekom kineziolokom aktivnou tu aktivnost
sigurno i preferirati, ali onaj uenik koji neku kinezioloku aktivnost preferira ne mora se sistematski tom
aktivnosti baviti, nego se samo sporadino takmii ili rekreira.
Varijabla o preferiranoj kineziolokoj aktivnosti ureena je kao nominalna varijabla sa 23 kategorije,
koje ukljuuju sve kinezioloke aktivnosti znaajnije primjenjivane meu srednjokolskom omladinom, kao i
kategorije "ostali sportovi" i "niti jedan sport".
U reprezentativnom uzorku srednjokolske omladine po preferenciji je izrazito dominantan nogomet
(24%). Mnogo vie nego ostale sportove uenici preferiraju jedino jo koarku (11%) i rukomet (8%).
Izmeu 3% i 6% uenika preferira plivanje, gimnastiku, automoto sport i odbojku, dok je ostale kinezioloke
aktivnosti (atletika, skijanje, streljatvo, boks, rvanje, karate, biciklizam, judo, vaterpolo, stolni tenis,
alpinizam i planinarstvo, klizanje, hokej na ledu i veslanje) preferiralo manje od 2% uenika. Interesantan je
podatak da ak 4% uenika izjavljuju da se bave nekom kineziolokom aktivnou koja nije predloena kao
odgovor. S druge strane, svega 22% uenika izjavljuje da se ne bavi niti jednom kineziolokom aktivnou.
Na osnovu ovih pokazatelja moe se zakljuiti da uenici kinezioloke aktivnosti preferiraju uglavnom
na nain kako su te aktivnosti valorizirane u sredstvima javnog komuniciranja.
Kao druga osnovna varijabla u ovom je istraivanju sluila varijabla kolskog uspjeha uenika u
submaturalnom razredu srednje kole. Kako su osnovni ciljevi cijele ankete diktirali da se prikupe podaci o
kolskom uspjehu u submaturalnom razredu, broj kategorija u toj varijabli ne odgovara teoretskom rasponu
kolskih ocjena. Raspon je umanjen za uspjeh nedovoljan, i to zato to bez obzira na broj ponavljanih upisa u
submaturalni razred, uenik je, da bi upisao maturalni razred, morao imati prolaznu ocjenu u submaturalnom
razredu.
Premda ovakvo smanjivanje broja kategorija dovodi do reduciranja varijance, to moe imati za
posljedicu snienje koeficijenata asocijacije ove varijable i varijable o preferiranoj kineziolokoj aktivnosti,
valja podsjetiti na neke od karakteristika kolskog uspjeha. Broj uenika koji ponavljaju submaturalni razred
relativno je mali, a podaci o povezanosti kolskog uspjeha razliitih nivoa istog obrazovnog stupnja
dozvoljavaju zakljuak da kategorija uenika s uspjehom dovoljan sadri i najvei dio iz grupe onih uenika
koji su ponavljali razred (Tarbuk, Gredelj, Hoek, Momirovi i talec, 1973).
Varijabla kolskog uspjeha u submaturalnom razredu srednje kole sadri kategorije dovoljan, dobar,
vrlodobar i odlian uspjeh i, mada ima svojstvo jedne semiordinalne skale, biti e tretirana kao nominalna.
kolske ocjene u submaturalnom razredu srednje kole distribuirane su u skladu s Rayleighovom
distribucijom kod koje se najvee gomilanje rezultata nalazi pri uspjehu dobar (51%). Uenika koji u tom
razredu postiu uspjeh dovoljan (27%) ima jednako kao i svih uenika koji postiu uspjeh vrlodobar i
odlian (17% i 6%).
Ovakva distribucija ocjena rezultat je vie faktora. Osnovni razlog za velik broj uenika koji slabo ili
tek dovoljno udovoljavaju kolskim obavezama prvenstveno treba traiti u injenici to se najvei dio
uenika (53%) koluju u kolama za KV radnike. Uenici koji se koluju u toj vrsti kole esto su negativno
selekcionirani s obzirom na kolski uspjeh iz osnovne kole (od ukupnog broja uenika koji se koluju u
kolama za KV radnike, njih 93% je osnovnu kolu zavrilo s uspjehom dovoljan (Tarbuk, Gredelj, Hoek,
Momirovi i talec, 1973). S obzirom na poznatu vezu izmeu intelektualnih sposobnosti i kolskog uspjeha,
moemo zakljuiti da je i nivo intelektualnih funkcija kod dijela tih uenika neto nii. Dalji razlog dobivene
distribucije moe se nai u karakteristikama mjernih instrumenata za procjenu uenikovih znanja. Ve je
pouzdano utvreno da nastavnik pri ocjenjivanju uenikovih znanja jedino donekle valjano diskriminira
grupu onih koja udovoljava od grupe onih uenika koja ne udovoljava nastavnim obavezama. U daljnjem
procesu diskriminacije, unutar grupe uenika koji udovoljavaju zahtjevima kole, nastavnik uspijeva
107

Konstantin Momirovi u statistici

razlikovati tek dio uenika, a svim ostalim uenicima pridaje "prosjean" kolski uspjeh (dobar). Vrlo je
vjerojatno da i neke konativne karakteristike uenika, kao i uenikovi stavovi, interesi i nain vrednovanja
cjelokupnog pedagokog procesa, utjeu na kolski uspjeh, ali kako sve te karakteristike ne samo da nisu
predmet ovog istraivanja, nego su i inae zapostavljene u psiholoko-pedagokim istraivanjima, nemogue
je utvrditi kako one utjeu na oblik i distribuciju kolskih ocjena.
Tako moemo zakljuiti da je utvrena distribucija kolskih ocjena posljedica djelovanja razliitih
faktora i njihovih veza, to e u ovom istraivanju imati za posljedicu ne samo sniavanje stupnja asocijacije,
nego e ujedno i oteati diskriminiranje uenika razliitih preferencijalnih kineziolokih aktivnosti s obzirom
na njihov kolski uspjeh.
2.3.2 Kontrolna varijabla
Kod uenika srednjih kola gotovo da je zavreno fizioloko sazrijevanje pa se razliiti akulturalni
utjecaji poinju znaajnije manifestirati pri formiranju stavova, interesa i sistema vrednovanja. Zato je u
ovom istraivanju varijabla spola sluila kao kontrola, kako bi se provjerilo da li se realno razliiti
mehanizmi, koji su odgovorni za velik broj razliitih reakcija osoba diferenciranih po spolu, manifestiraju i u
prostoru koji je predmet ovog istraivanja.
Ispitani uzorak obuhvatio je 13.350 uenika i 11.412 uenica.
Najvee razlike u preferiranom sportu izmeu grupa uenika i uenica utvrene su za kategoriju
nogomet (uenici 43%, uenice 7%) i za kategoriju "niti jedan sport" (uenici 7%, a uenice ak 40%). Osim
ovih razlika, interesantan je i rang sportova uinjen na osnovu preferencija u grupi uenika i u grupi uenica.
Nakon nogometa, uenici najvie preferiraju koarku, automoto sport, plivanje i stolni tenis i "ostali
sportovi". U apsolutno i relativno manjem broju uenica koje imaju pozitivan stav prema kineziolokim
aktivnostima, rukomet je po preferenciji na prvom mjestu, a zatim slijede: koarka, plivanje, gimnastika i
grupa kineziolokih aktivnosti obuhvaenih u kategoriji "ostali sportovi ".
kolski uspjeh uenica znatno je bolji nego kolski uspjeh uenika. Premda ne postoje razlike u broju
uenika koji su submaturalni razred zavrili s uspjehom dobar (52 : 51%) razlike postoje na krajevima
distribucija. Tako su uenici ee dovoljni (31%) nego uenice (21%), ali zato rjee vrlodobri (14 : 21%) i odlini (4
: 9%). Vjerojatnost da je kolski uspjeh uenika identian uspjehu uenica manja je od 10-4 (Tarbuk, Gredelj, Hoek,
Momirovi i talec, 1973).
Pri interpretaciji ovih razlika valja podsjetiti na utvrenu vezu izmeu uspjeha u VII i VIII razredu
osnovne kole kad je varijabla spola bila kontrolna (Tarbuk, Gredelj, Hoek, Momirovi i talec, 1973).
Velike razlike u uspjehu uenika i uenica utvrene u VII razredu osnovne kole u VIII razredu bitno su se
smanjile. Kako uspjeh u maturalnom razredu srednje kole ima sline pedagoke posljedice kao i u osnovnoj
koli, za oekivati je da e te razlike i u maturalnom razredu srednje kole biti manje.
Ovako utvrene razlike u nekim karakteristikama osnovnih varijabli dozvoljavaju zakljuak da je bilo
opravdano uvesti varijablu spola kao kontrolnu.
2.4 Metode obrade rezultata
Uspjeh u predmaturalnom razredu ukrten je s preferencijalnim sportom u cjelokupnom uzorku
ispitanika i u subuzorcima diferenciranim po spolu. U tako formiranim kontingencijskim tabelama
izraunane su slijedee veliine:
(1) F(U)
(2) P(U)
(3) F(S)
(4) P(S)
(5) F(U,S)
(6) P(U,S)
(7) P(U/S)
(8) P(S/U)

= marginalne frekvencije razliitih kategorija uspjeha


= marginalni postoci razliitih kategorija uspjeha
= marginalne frekvencije preferencijalnih sportova
= marginalni postoci preferencijalnih sportova
= frekvencije u intersekciji razliitih kategorija uspjeha i preferencijalnih sportova
= postoci u intersekciji razliitih kategorija uspjeha i preferencijalnih sportova
= postoci u intersekciji razliitih kategorija uspjeha i preferencijalnih sportova, u
odnosu na marginalne frekvencije preferencijalnih sportova
= postoci u intersekciji razliitih kategorija uspjeha i preferencijalnih sportova u
odnosu na marginalne frekvencije razliitih kategorija uspjeha

Veliine (7) omoguavaju diferencijaciju uspjeha uenika koji se bave razliitim sportovima, a
veliine (8) omoguavaju diferencijaciju sportova za razliite kategorije uspjeha.
108

Uvod u analizu nominalnih varijabli

Iako se kolski uspjeh moe tretirati kao ordinalna varijabla, ipak su i kolski uspjeh i preferencijalne
sportske aktivnosti u analizi asocijacije tih varijabli tretirani kao nominalne varijable. Ovo stoga to jednake
kategorije kolskog uspjeha u razliitim vrstama kola nemaju isto znaenje i omoguavaju samo intragrupnu
diferencijaciju ispitanika, ako se kole ili vrste kola tretiraju kao grupe, pa se, prema tome, striktno uzevi,
kolski uspjeh moe tretirati u najboljem sluaju kao semiordinalna varijabla. Kao to je poznato, u tim je
sluajevima primjeren konzervativniji pristup, pa je opravdanije primijeniti metode za izraunavanje
asocijacije skala nieg reda.
Od simetrinih koeficijenata asocijacije izraunani su:
(1) C(U,S)
(2) V(U,S)
(3) LAMBDA(U,S)
(4) H(U,S)

= Pearsonov koeficijent kontingencije


= Cramerov koeficijent asocijacije
= Goodman-Kruskalov koeficijent dvostrukog relativnog doprinosa
prognozi marginalnih probabiliteta na temelju probabiliteta u
intersekcijama kategorija marginalnih varijabli
= Garnerov koeficijent relativnog dvosmjernog protoka informacija

Veliina (2) moe se tretirati kao nepristrasni estimator hipotetskog populacijskog koeficijenta
asocijacije, koji ne ovisi od broja marginalnih kategorija u bilo kojoj varijabli, a veliina (1) kao estimator
populacijskog koeficijenta asocijacije koji je definiran brojem marginalnih kategorija. Veliina (4) je mjera
relativne redukcije nesigurnosti marginalnih varijabli ako je poznata struktura probabiliteta u intersekcijama
kategorija marginalnih varijabli. Veliina (3) je mjera relativnog poboljanja prognoze probabiliteta pojave
razliitih marginalnih kategorija u obje varijable, ako su poznati probabiliteti intersekcija marginalnih
kategorija.
Od nesimetrinih koeficijenata asocijacije izraunani su:
= relativno doprinos prognozi uspjeha ako su poznati probabilitet
razliitih preferencijalnih sportova i intersekcijski probabiliteti
= relativno doprinos prognozi preferencijalne sportske aktivnosti ako
(2) LAMBDA(S/U)
su poznati probabilitet razliitih kategorija kolskog uspjeha i
intersekcijski probabiliteti
= koeficijent relativnog jednosmjernog protoka informacija sa
(3) H(U,S)
varijable kolskog uspjeha na varijablu sport
= koeficijent relativnog jednosmjernog protoka informacija sa
(4) H(S/U)
varijable sport na varijablu kolski uspjeh

(1) LAMBDA(U,S)

Veliine (1) i (2) mogu se tretirati kao koeficijenti jedne marginalne varijable ako se druga shvati kao
prediktor. Koeficijenti (3) i (4) su mjera veliine jednosmjerne propustljivosti kanala kroz koji teku
informacije koje nose marginalne varijable. Hipoteza da je populacijski koeficijent asocijacije marginalnih
varljabli ravan nuli testirana je 2 testom. Vrijednost izraunanog 2, uz broj stupnjeva slobode definiran
produktom marginalnih kategorija umanjenom za 1, izraunana je na temelju integrala 2 raspodjele80.
3. REZULTATI I DISKUSIJA
Aktuarska koncepcija istraivanja omoguava uglavnom deskriptivnu interpretaciju rezultata.
Kauzalistika ili faktorijalna interpretacija mogua je samo na razini hipoteza. Mnoge pojedinosti, koje nisu
spomenute u tekstu, mogu se uoiti inspekcijom priloenih tabela.
3.1 Povezanost kolskog uspjeha u submaturalnom razredu i preferencijalne

kinezioloke aktivnosti

Ne velika, ali nesumnjivo znaajna veza izmeu preferencijalne kinezioloke aktivnosti i kolskog
uspjeha svjedoi da odreeni broj zajednikih inilaca utjee na obje varijable.
Veza, meutim, nije simetrina. Poboljanje predikcije preferencijalne kinezioloke aktivnosti, ako su
poznate informacije o kolskom uspjehu, malo je, ali znaajno. Nema, meutim, nikakvog dobitka u
prognozi kolskog uspjeha ako je poznata preferencijalna kinezioloka aktivnost uenika. Slab protok
informacija (ocijenjen, dodue, ne sasvim adekvatnim Garnerovim koeficijentom) izmeu ovih varijabli
neto je vei u smjeru kolskog uspjeha; razlika izmeu Goodman-Kruskalovog i Garnerovog koeficijenta
80

Obrada rezultata provedena je na raunaru CDC CYBER Univerzitetskog raunskog centra u Ljubljani.

109

Konstantin Momirovi u statistici

vjerojatno je posljedica osjetljivo vee entropije varijable na temelju koje je ocijenjena preferencijalna
kinezioloka aktivnost.
Zbog izrazite modalne vrijednosti ocjene dobar u gotovo svim kategorijama varijable SPORT, ta
ocjena zadrava svoj modalni poloaj. Meutim, u usporedbi s cijelom populacijom, neki sportovi pokazuju
izvjesne tipine osobitosti.
Skupina uenika koji se bave borilakim sportovima ima openito slabiji kolski uspjeh od prosjeka.
Meu njima, osobito lo uspjeh imaju oni koji se bave boksom i rvanjem, a neto bolji oni koji se bave
karateom. Uenici koji se bave judom imaju vee rasprenje kolskih ocjena od onih koji se bave karateom;
meu njima je neto vie vrlodobrih i odlinih, ali osjetljivo vie onih koji su submaturalni razred zavrili s
dovoljnim uspjehom. Postoji vjerojatno vie razloga odgovornih za ovu pojavu. Kao to je poznato iz veeg
broja drugih istraivanja, boksom i rvanjem preteno se bave uenici kola za kvalificirane radnike, a kolski
uspjeh uenika tih kola openito je nii nego kolski uspjeh uenika drugih srednjih kola. Iako za to nema
izravna dokaza, vrlo je vjerojatno da odreenu ulogu igra i socijalni status tih uenika. Iz brojnih istraivanja
(Saksida i Petrovi, 1973; Hoek i Petrovi, 1973; Tarbuk, Gredelj, Hoek, Petrovi i Momirovi, 1973)
poznato je da u kole za kvalificirane radnike preteno odlaze djeca radnika, uglavnom onih nie naobrazbe;
a ta djeca imaju osjetljivo nii kolski uspjeh. Relativno velika entropija kolskih ocjena onih koji se bave
judom posljedica je toga da u Hrvatskoj postoje, u biti, dvije vrste judo klubova. Manji broj okuplja gotovo
iskljuivo srednjokolsku omladinu koja pohaa gimnazije ili tehnike kole, a u drugima veinu ine
uenici ostalih srednjih kola.
Postoji, meutim, jo jedan vjerojatni inilac koji je bar djelomice odgovoran za ove rezultate. Oni
koji se bave borilakim sportovima obino su natprosjeno agresivni (Gabrijeli, 1967; Sabioncello,
Holjevac, tuka i Heimer, 1972; indirektno se to moe zakljuiti i iz istraivanja Race, 1973). Agresivni
uenici, meutim, imaju izvjesne tekoe da se prilagode na kolske uspjehe ivota i rada, pa to moe imati
za posljedicu i slabiji kolski uspjeh.
Meu uenicima koji se bave najpopularnijim sportskim igrama u SR Hrvatskoj, posebnu grupu, s
obzirom na kolski uspjeh, ine oni koji se bave odbojkom, koarkom i rukometom, a posebno veliki broj
uenika koji se bave nogometom. Ovi posljednji imaju osjetljivo slabiji kolski uspjeh od prosjeka; broj onih
koji su submaturalni razred zavrili s dovoljnim uspjehom znatno je vei, a broj onih koji su postigli u tom
razredu vrlodobar ili odlian uspjeh znatno manji nego to bi se moglo oekivati kada bi distribucija
kolskog uspjeha u grupi nogometaa bila sukladna s distribucijom kolskog uspjeha u cijeloj populaciji.
Naprotiv, uenici koji se bave koarkom, odbojkom i rukometom imaju neto bolji uspjeh od prosjene
populacije. Meu njima, najbolji kolski uspjeh imaju oni koji se bave odbojkom, a neto slabiji oni koji se
bave koarkom i rukometom. Entropija kolskih ocjena koarkaa vea je, meutim, od entropije tih ocjena
uenika koji se bave rukometom.
Gotovo je izvjesno da je ovaj fenomen posljedica nekih objektivnih inilaca. Relativno mali broj kola
u naoj zemlji ima objektivne uvjete koji omoguavaju uenicima da se bave odbojkom i koarkom. To su
esto gimnazije ili bolje opremljene kole drugog tipa kojih uenici u pravilu imaju natprosjean kolski
uspjeh. Uvjeti za bavljenje rukometom postoje u mnogim kolama, ali je ta igra tradicionalna upravo meu
uenicima gimnazija.
Izuzetna popularnost nogometa dovodi do toga da se ovom sportskom igrom mogu baviti gotovo svi,
pa je stoga vrlo vjerojatno da se bave najvie oni koji nemaju uvjeta da se bave nekim drugim sportom. To
djelomice moe objasniti dosta slabiji kolski uspjeh nogometaa. Postoje, meutim, za relativno slab kolski
uspjeh onih koji se nogometom bave i neki drugi vjerojatni razlozi. Broj radnike i seljake omladine meu
nogometaima relativno je vei nego meu onima koji se bave nekom drugom sportskom igrom; a kako je
kolski uspjeh djece radnika i seljaka zbog mnogih razloga osjetljivo nii od djece roditelja koji se nalaze na
viim pozicijama statusne ljestvice (Tarbuk, Gredelj, Hoek, Momirovi i talec, 1973), to je zbog socijalnog
statusa djece koja se bave nogometom njihov kolski uspjeh nii.
Naravno, na oitu razliku izmeu kolskog uspjeha nogometaa i onih koji se bave drugim sportskim
igrama mogu utjecati i inioci koji su povezani sa strukturom tih sportskih disciplina. Nogomet zahtijeva
mnogo manje ukljuivanje kognitivnih funkcija od veine sportskih igara; dobro je poznato da nogometai
imaju nie rezultate na testovima kognitivnih sposobnosti od onih koji se bave drugim sportskim igrama
(Gabrijeli, 1967; Sabioncello, tuka, Holjevac i Heimer, 1972). Kako je kolski uspjeh nedvojbeno ovisan i
od kognitivnih sposobnosti, dobiveni rezultati se s velikom vjerojatnou mogu pripisati i djelovanju razlika
u kognitivnoj razini uenika81.

81

Isti faktor moe biti odgovoran i za razlike u kolskom uspjehu uenika koji se bave judom i karateom i onih koji se bave boksom i rvanjem;
aktiviranje kognitivnih funkcija u prve dvije discipline osjetljivo je vee zbog sloenosti tehnike i taktike, od aktiviranja kognitivnih funkcija u
boksu i rvanju.

110

Uvod u analizu nominalnih varijabli

Izrazito bolji kolski uspjeh od prosjeka imaju uenici koji se bave skijanjem, gimnastikom i
plivanjem; pri tome, oni koji se bave skijanjem imaju bolji kolski uspjeh od svih ostalih uenika.
Nema sumnje da je ovo u prvom redu posljedica izrazito vieg socijalnog statusa roditelja tih uenika.
U SR Hrvatskoj skijanjem se u stvari mogu baviti samo djeca koja imaju dovoljno sredstava za opremu i
druge trokove povezane s tim sportom. Pozicija plivanja je, meutim, posljedica drugih faktora. Uvjeti za
bavljenje ovim sportom postoje samo u velikim urbanim aglomeracijama, a kako je dobro poznato (Tarbuk,
Gredelj, Hoek, Momirovi i talec, 1973), kolski uspjeh uenika iz velikih urbanih aglomeracija znatno je
bolji od onih koji ive u manjim mjestima. Slini su razlozi i natprosjenog kolskog uspjeha uenika koji se
bave gimnastikom.
Atletika nije osobito popularan sport meu naom srednjokolskom omladinom. Neto bolji kolski
uspjeh djece koja se ovim sportom bave uvjetovan je vjerojatno slinim faktorima koji su taj fenomen
izazvali i u ostalim individualnim sportovima, za koje su potrebni uvjeti koji postoje samo u nekim kolama
ili nekim, preteno velikim aglomeracijama.
Vaterpolom se bavi vrlo mali broj uenika kojih je kolski uspjeh uglavnom prosjean. Dosta je teko
objasniti zbog ega oni koji se bave streljatvom imaju relativno slabiji kolski uspjeh od ostalih uenika.
Streljatvo je u nas prilino masovni sport, ali se njime bavi relativno malo uenika srednjih kola. Slabiji
kolski uspjeh ove grupe moe biti posljedica sluaja proizvedenog vjerojatno time to skupina ovih uenika
pripada relativno malom broju kola koje su organizirale bavljenje ovom disciplinom.
Dosta slab kolski uspjeh uenika koji su izjavili da se bave automoto sportom moe se pripisati tome
da mogunost za bavljenje tim sportom imaju uglavnom neki uenici kola za kvalificirane radnike, koji
imaju loiji kolski uspjeh od uenika ostalih srednjih kola.
Slino kao i skijanje, i biciklizam pretpostavlja relativno visok socioekonomski status roditelja, to
moe donekle objasniti natprosjean kolski uspjeh uenika koji se tim sportom bave. Jednako je i sa
alpinizmom i planinarstvom. Trokovi za bavljenje ovim sportom su takvi da ih mogu podnijeti samo
roditelji koji imaju visoki socioekonomski status. Utjecaj ekonomskog statusa roditelja vjerojatno je
odgovoran za izvanredno dobar uspjeh uenika koji se bave klizanjem. Za taj je sport, naime, potrebna skupa
oprema, a osim toga, klizalita se u nas nalaze samo u malom broju velikih gradova.
Uenici koji se ne bave nijednim sportom imaju neto bolji kolski uspjeh od prosjeka. Ovaj rezultat,
koliko god sukladan s poznatim presudama da bavljenje sportom loe utjee na kolski uspjeh (uostalom,
potpuno neosnovanim, zato to uenici koji se bave nekim sportovima imaju znatno bolji kolski uspjeh od
onih koji se ne bave nikakvim sportom), zasluuje poseban komentar. Potreba za afirmacijom, koju uenici
slabih motornih sposobnosti teko mogu zadovoljiti bavei se sportom, moe biti zadovoljena nastojanjem da
se nesposobnost za kinezioloke aktivnosti kompenzira uspjehom u uenju. Meutim, ini se da i struktura
kognitivnih faktora moe djelomice biti odgovorna za ovaj fenomen. Natprosjene verbalne sposobnosti
obino nisu praene natprosjenim motornim sposobnostima, ali su zato u naem sustavu kolstva bez
sumnje presudan inilac kolskog uspjeha. Osim toga, na ovaj rezultat mogu utjecati razlike izmeu uenika
i uenica. Uenice u pravilu imaju bolji kolski uspjeh od uenika, a bave se sportom znatno manje od njih.
Razliito ponaanje uenika i uenica u obje varijable koje su predmet ovog istraivanja ini
opravdanom i separatnu analizu ovih grupa.
3.2 Analiza povezanosti sportske aktivnosti i kolskog uspjeha, kontrolirano po spolu
Kako se vidi iz tabela 2. i 3, uenici imaju znatno loiji kolski uspjeh od uenica. Unato tome,
relativna pozicija razliitih sportskih disciplina onih koji se njima bave nije bitno promijenjena. Uenici koji
se bave borilakim sportovima i dalje imaju loiji uspjeh od ostalih, ali razlike vie nisu tako izrazite. Jedino
je entropija juda u odnosu na entropiju karatea relativno vea; meu onima koji se bave judom ima vie
vrlodobrih i odlinih, ali i dovoljnih uenika nego u cjelokupnoj populaciji.
Pozicija odbojke u cijeloj populaciji velikim je dijelom ovisila od toga to se tim sportom preteno
bave uenice koje imaju natprosjean kolski uspjeh. U skupini uenika, naime, oni koji se bave koarkom
imaju daleko bolji uspjeh od onih koji se bave bilo kojim drugim sportom, dok je uspjeh onih koji se bave
odbojkom jedva prosjean. Nogometai imaju i dalje loiji uspjeh od ostalih, iako razlike vie nisu tako
velike. Zbog istih razloga koji su uvjetovali poziciju atletike, gimnastike, plivanja i skijanja u cijeloj
populaciji i u skupini uenika, oni koji se tim sportovima bave, a posebno oni koji se bave skijanjem, imaju
111

Konstantin Momirovi u statistici

znatno bolji kolski uspjeh od ostalih. Nije se promijenila ni relativna pozicija onih koji se bave automoto
sportom; a ni onih koji se bave sportovima koji pretpostavljaju relativno visok socioekonomski status. Oni
koji se bave alpinizmom, klizanjem i veslanjem imaju znatno bolji uspjeh nego ostali. Pozicija veslaa
osobito je visoka; to je vjerojatno zato to se veslaki klubovi nalaze u pravilu u velikim gradovima i to se
tim sportom tradicionalno bave uenici gimnazija.
Uenici koji se ne bave nijednim sportom imaju i dalje bolji kolski uspjeh od ostalih. Meutim, u
ovoj skupini, iako je relativni broj onih koji su postigli vrlodobar i odlian uspjeh vei nego u populaciji
uenika, vei je i broj onih koji su postigli dovoljan uspjeh. ini se da, osim faktora kojih je hipotetski efekt
spomenut pri analizi cijelog uzorka, u ovom subuzorku neki dodatni inioci izazivaju ovaj fenomen. Vei
broj dovoljnih meu onima koji se ne bave nijednim sportom moe biti prouzrokovan bilo niskim socijalnim
statusom, koji osim to je odgovoran za lo kolski uspjeh, oteava ukljuivanje u ma koju kinezioloku
aktivnost, bilo vrlo niskim kognitivnim, pa otuda i svim ostalim sposobnostima.
Kod uenica, pozicija nekih sportova bitno je promijenjena, ali osnovna struktura esto je slina. Tako
uenice koje se bave judom imaju natprosjean kolski uspjeh, ali je entropija kolskih ocjena onih koji se
bave ovim sportom i dalje vrlo velika. Uenice koje se bave odbojkom i koarkom imaju natprosjean
kolski uspjeh, ali one koje se bave rukometom imaju slabiji kolski uspjeh od prosjeka.
Nogomet je tek u posljednjih nekoliko godina postao sport kojim se bave i ene, ali i meu uenicama
one koje se tim sportom bave imaju izrazito lo uspjeh, iz razloga koji su vjerovatno jednaki onima koji su
taj fenomen izazvali kod mukaraca.
Naravno, i kod uenica ekonomski faktori presudni za bavljenje skijanjem, klizanjem, alpinizmom i
biciklizmom proizvode iste efekte; te uenice imaju znatno bolji kolski uspjeh od ostalih. Ekonomski faktori
koji omoguuju bavljenje plivanjem i gimnastikom i kod uenica djeluju jednako kao i kod uenika. Uenice
koje ive u veim aglomeracijama i mogu se baviti plivanjem i gimnastikom imaju bolji kolski uspjeh od
prosjeka. Iz razloga koji nisu sasvim jasni, uenice koje se bave atletikom imaju neto slabiji kolski uspjeh
od ostalih.
Bitna razlika izmeu uenika i uenica je i u kolskom uspjehu onih koji se ne bave nijednim sportom.
Uenice koje se ne bave nikakvim sportom imaju znaajno loiji kolski uspjeh od onih koje se sportom
bave. Bilo bi vjerojatno pogreno, ili bar povrno, zakljuiti da mehanizam kompenzacije, koji je spomenut
kao hipotetski faktor odgovoran za bolji kolski uspjeh nesportaa u cijeloj populaciji, ne sudjeluje u
generiranju ovog fenomena. Naprotiv, razloito je smatrati da i uenice koje imaju niske motorike,
perceptivne ili edukacione sposobnosti kompenziraju nezadovoljenu potrebu za afirmacijom naporima da
postignu bolji kolski uspjeh, aktivirajui simboliku grupu kognitivnih sposobnosti. Sasvim je mogue da bi
bez mehanizma kompenzacije kolski uspjeh uenica koje se sportom ne bave bio jo gori. injenica da je
unato tome ispodprosjean i da kompenzatorni mehanizmi nisu, kao kod uenika, doveli do boljeg kolskog
uspjeha moe se pripisati znatno manjoj diferencijaciji kognitivnih i motorikih sposobnosti u ena. Kao to
je poznato, meusobna povezanost ne samo faktora sposobnosti ve i svih ostalih antropolokih dimenzija
znatno je vea kod ena nego kod mukaraca. Zbog toga je i relativna samostalnost simbolikog (posebno
verbalnog) faktora kod uenica manja, pa je i mogunost kompenzacije usmjeravanjem na aktivnosti koje od
tih faktora ovise slabije. Naravno da se slabiji kolski uspjeh uenica koje se sportom ne bave ne moe
pripisati iskljuivo nioj razini njihovih sposobnosti. Neku, vjerojatno vrlo znaajnu, ulogu imaju i
socioloki i/ili ekonomski faktori. Kod ena kod kojih su navike da se bave kineziolokim aktivnostima
slabije razvijene nego kod mukaraca, objektivni socioloki i ekonomski uvjeti koji omoguuju bavljenje
sportom mogu imati istovremeno i znaajniji utjecaj na kolski uspjeh nego li je to u skupini mukaraca.

112

Uvod u analizu nominalnih varijabli

4. UMJESTO ZAKLJUKA: NERIJEENI PROBLEMI I PRIJEDLOG ZA DALJA


ISTRAIVANJA
Deskriptivno koncipirana istrazivanja rijetko kada daju prave odgovore na stvarne probleme. Ovo
istraivanje nije, naravno, izuzetak. Rezultati koji su dobiveni otvaraju nekoliko problema, a hipoteze
postavljene u toku interpretacije sugeriraju odreeni broj daljih istraivanja. Meu njima su vjerojatno
najzanimljivija:
(1) odreivanje povezanosti izmeu preferencijalne kinezioloke aktivnosti i kolskog uspjeha s
parcijaliziranim efektima socijalnog i ekonomskog statusa uenika; bilo bi vjerojatno korisno da se ovakve
analize uine i za skupine diferencirane po spolu,
(2) odreivanje povezanosti izmeu preferencijalne kinezioloke aktivnosti i kolskog uspjeha s
parcijaliziranim efektima strukture kognitivnih i konativnih dimenzija; i ovo bi istraivanje vjerojatno trebalo
provesti i za skupine diferencirane po spolu, a zbog znaajnih relacija kognitivnih, konativnih i motorikih
dimenzija bilo bi moda bolje da se u sustav kontrolnih varijabli ukljue i najvanije motorike sposobnosti,
(3) odreivanje povezanosti izmeu preferencijalne kinezioloke aktivnosti i kolskog uspjeha uenika
za subskupine definirane karakteristikama areala u kojima subjekti ive, a moda i za skupine karakterizirane
objektivnim uvjetima za provoenje razliitih kineziolokih aktivnosti,
(4) odreivanje povezanosti izmeu preferencijalne kinezioloke aktivnosti i kolskog uspjeha uenika
za subskupine definirane vrstom srednje kole koju uenici pohaaju; i ovo bi istraivanje, kao i prethodna,
vjerojatno trebalo provesti i po grupama diferenciranim po spolu.
Naravno, ova bi istraivanja morala biti tako koncipirana da se parcijaliziraju efekti svih kontrolnih
varijabli istovremeno i/ili da se analiziraju kontrasti izmeu razliitih modela definiranih kontrolnim
varijablama.
Nema ipak nikakve sumnje da kolski uspjeh uenika srednjih kola i izbor preferencijalne
kinezioloke aktivnosti nisu nezavisno distribuirane varijable. Ovo istraivanje nije moglo da utvrdi s
dovoljnim stupnjem pouzdanosti utjecaj niti jednog od moguih inilaca odgovornih za povezanost izmeu
sporta kojim se netko bavi i njegova kolskog uspjeha. Ipak, injenica da ta povezanost postoji svjedoi da
kinezioloku aktivnost omladine treba analizirati u okviru sustava dimenzija odreenih ne samo kolskim
uspjehom, ve i veinom antropologijskih karakteristika.
5. LITERATURA
1/ Tarbuk, D., M. Gredelj, A. Hoek, K. Petrovi i K. Momirovi:
Utjecaj zanimanja i kvalifikacije oca na profesionalne planove i kolski uspjeh uenika.
2/ Gabrijeli, M.:
Metode za klasifikaciju i selekciju kandidata za djeje i omladinske sportske kole. Institut za
kineziologiju. Zagreb, 1967.
3/ Petrovi, K. i A. Hoek:
Vpliv strukture stratifikacijskih dimenzij na intenzivnost in vrsto portne aktivnosti. Izvjetaj Intituta za
kineziologijo Skladu Borisa Kidrica, Ljubljana, 1973.
4/ Saksida, S. i K. Petrovi:
Socikalna stratifikacija v razvitih in nerazvitih regijah Jugoslavije. Izvjetaj Intituta za kineziologijo in
filozofijo Skladu Borisa Kidrxca, Ljubljana, 1973.
5/ Tarbuk, D., M. Gredelj, A. Hoek, K. Momirovi i J. talec:
Uenici srednjih kola u SRH na svretku srednjeg obrazovanja kolske 1971/72. godine. Republiki
zavod za zapoljavanje, 1973.
6/ Raca, R.:
Utjecaj konativnih faktora na savladavanje tehnike juda studenata VFK. Diplomski rad, Zagreb, 1973.

113

Konstantin Momirovi u statistici

Tabela 1.
ANALIZA POVEZANOSTI PREFERENCIJALNE KINEZIOLOKE AKTIVNOSTI (SPORT) I USPJEHA U
SUBMATURALNOM RAZREDU (USPJEH)
F (V,S)
P (V/S)
P (S/V)
P (VS)
SPORT
Judo

Karate

Boks

Rvanje

Koarka

Odbojka

Rukomet

Nogomet

Atletika

Plivanje

Gimnastika

Skijanje

Vaterpolo

Streljatvo

114

USPJEH
2

3
76
32.9
1.2
.3
118
26.8
1.9
.5
62
38.3
1.0
.3
37
37.4
.6
.1
710
24.4
11-2
2.9
181
20.5
2.9
.7
417
21.9
6.6
1.7
1858
32.7
29.3
7.5
105
21.0
1.7
.4
298
20.7
4.7
1.2
175
19.8
2.8
.7
57
18.2
.9
.2
22
26.5
.3
.1
98
27.1
1.5
.4

103
44.6
.8
.4
243
55. 1
1.9
1.0
80
49.4
.6
.3
49
49.5
.4
.2
1485
51.1
11.7
6.0
444
50.2
3.5
1.8
1024
53.9
8.1
4. 1
2959
52. 1
13.4
11.9
270
54.0
2.1
1.1
734
50.9
5.8
3.0
430
48.6
3.4
1.7
142
45.4
1.1
.6
42
50.6
.3
.2
194
53.6
1.5
.8

5
41
17.7
1.0
.2
66
15.0
1.5
.3
17
10.5
.4
.1
10
10. 1
.2
.0
514
17.7
12.0
2.1
190
21.5
4.5
.8
333
17.5
7. 8
1.3
688
12. 1
16. 1
2.8
94
18.8
2.2
.4
290
20.1
6.8
1.2
199
22.5
4.7
.8
79
25.2
1.5
.3
16
19.3
.4
.1
54
14.9
1.3
.2

11
4.8
.7
.0
14
3.2
.7
.1
2
1,5
.2
.0
3
3.0
.2
.0
199
6.6
13.2
.6
70
7.9
4. 7
.3
126
6.6
6,4
.5
174

F (S)
P (S)
231
.9
441
1.8
162
.7
99
.4
2908
11.7
885
3.6
1900
7.7
5679
22.9

11.6
31
6.2
2.1
.1
121
8.4
8.1
.5
80
9.0
5.3
.3
35
11.2
2.3
3
3.6
.2
.0
16
4.4
1.1
.1

500
2.0
1443
5.8
884
3.6
313
1.3
83
.3
362
1.5

Uvod u analizu nominalnih varijabli

Tabela 1.
ANALIZA POVEZANOSTI PREFERENCIJALNE KINEZIOLOKE AKTIVNOSTI (SPORT) I USPJEHA U
SUBMATURALNOM RAZREDU (USPJEH) (nastavak)

USPJEH

SPORT
Automoto

Biciklizam

Alpinizam i
planinarstvo
Stolni tenis

Klizanje

Hokej na ledu

Veslanje

Ostalo

Niti jedan

F(U)
P(U)

270
31.8
4. 3
1.1
97
17.6
1.5
.4
33
18.5
.5
.1
24.4
2.4
.6
31
16.4
.5
.1
4
16.7
.1
.0
30
30.8
.5
.1
206
21.0
3.2
.8
1304
24.4
20.6
5.3

453
53. 4
3,6
1.8
306
55.4
2.4
1.2
88
49.4
.7
.4
52.2
2.6
1.3
79
41.8
.6
.3
18
75.0
.1
.1
75
52.1
.6
.3
511
52,1
4.0
2.1
2608
48.8
20.6
10.5

5
112
13.2
2.6
.5
106
19,3
2.5
.4
41
23.0
1.0
.2
15.1
2.3
.4
55
29.1
1.3
.2
2
8.3
.0
.0
27
18.7
.6
.1
189
19.3
4.4
.8
1047
19.6
24.5
4.2

13
1.5
.9
.1
42
7.8
2.9
.2
16
9.0
1.1
.1
8.3
3.5
.2
24
12.7
1.6
.1
0
0.0
0.0
0.0
12.
8.3
.8
.0
75
7.6
5.0
.3
381
7.1
25.3
1.5

F (S)
P (S)
848
3.4
552
2.2
178
.7
2.6
189
.8
24
.1
144
.6
981
4.0
5340
21.5

6344 12669 4266 1503 24782


25.6
51.1 17.2
6.1
100.0

X2 = 674.90881
V(U,S)
C(U,S)
LAMBDA S/U)
LAMBDA(U/S)
LAMBDA(U,S)
H(S/U)
H(U/S)
H(U,S)

DF = 66

Q = 0.0000

=.09528
=.16282
=.02963
=.00000
=.01813
=.00579
=.01212
=.00784

115

Konstantin Momirovi u statistici

Tabela 2.
ANALIZA POVEZANOSTI PREFERENCIJALNE KINEZIOLOKE AKTIVNOSTI (SPORT) I
USPJEHA U SUBMATURALNOM RAZREDU (USPJEH)
(skupina uenika)
F(U,S)
P(U/S)
P(S/U)
P(U,S)
SPORT
Judo

Karate

Boks

Rvanje

Koarka

Odbojka

Rukomet

Nogomet

Atletika

Plivanje

Gimnastika

Skijanje

Vaterpolo

Streljatvo

116

USPJEH
2

3
66
34.7
1.6
.5
109.
26-8
2.7
.8
58
38.9
1.4
.4
37
38.5
.9
.3
482
27.1
11.8
3.6
59
32.1
1.4
.4
121
29.7
3.0
.9
1827
32.7
44.8
13.7
57
24.6
1.4
.4
147
26.4
3.6
1. 1
57
28.4
1.4
.4
37
19.8
.9
.3
19
24.7
.5
.1
75
29.3
1.8

86
45.3
1.2
.6
225
55.4
3.3
1.7
71
47.7
1.0
.5
47
49.0
.7
.4
921
51.8
13.3
6.9
93
50.5
1.3
.7
211
51.8
3.1
1.6
2917
52.2
42-2
21.9
128
55.2
1.9
1.0
275
53.2
4.0
2.1
93
46.3
1. 3
.7
90
48.1
1.3
.7
39
50,6
.6
.3
140
54.7
2.0

32
16.8
1.7
.2
63
15.5
3.4
.5
17
11.4
.9
.1
9
9.4
.5
.1
288
16.2
15.5
2.2
22
12.0
1.2
.2
57
14.0
3.1
.4
679
12.1
36.6
5.1
36
15.5
1.9
.3
74
14.3
4.0
.6
43
21.4
2. 3
.3
42
22.5
2,3
.3
16
20. 8
.9
.1
32
12.5
1.7

6
3.2
1.2
.0
9
2.2
1.8
.1
3
2.0
.6
.0
3
3.1
.6
.0
88
4.9
17.4
.7
10
5.4
2.0
.1
18
4.4
3.6
.1
167
3.0
33.0
1.3
11
4.7
2.2
.1
21
4.1
4.2
.2
8
4.0
1.6
18
9.6
3,6
.1
3
3.5
.6
.0
9
3.5
1.8

F (S)
P (S)
190
1.4
406
3.0
149
1.1
96
.7
1799
13.3
184

407
3.0
5590
41.9
232
1.7
517
3.9
201
1.5
187
1.4
77
.6
256
1.9

Uvod u analizu nominalnih varijabli

Tabela 2.
ANALIZA POVEZANOSTI PREFERENCIJALNE KINEZIOLOKE AKTIVNOSTI (SPORT) I
USPJEHA U SUBMATURALNOM RAZREDU (USPJEH)
(skupina uenika) (nastavak)
U S P JE H

SPORT

2
259
32.6
6.3
1.9
52
22.0
1.3
.4
19
24. 7
.5
.1
122
26.7
3.0
.9
14
38.9
.3
.1
4
19.0
.1
.0
27
21.6
.7
.2
121
29.7
3.0
.9
311
33.6
7.6
2.3

Automoto

Biciklizam

Alpinizam i
planinarstvo
Stolni tenis

Klizanje

Hokej na ledu

Veslanje

Ostalo

Niti jedan

F(U)

4080

6907

P(U)

30.6

51.7

X2 = 207.82922
V(U,S)
C(U,S)
LAMBDA(U/S)
LAMBDA(S/U)
LAMBDA(U,S)
H(S/U)
H(U/S)
H(U,S)

DF = 66
=
=
=
=
=
=
=
=

1857
13.9

3
423
53.2
6, 1
3,2
140
59.3
2.0
1.0
40
51.9
.6
.3
244
53.4
3.5
1.8
11
30.6
.2
.1
16
76.2
.2
.1
65
52.0
.9
.5
213
52. 3
3.1
1.6
419
45.3
6.1
3.1

506
3.8

4
103
13.0
5.5
.8
31
13.1
1.7
.2
15
19.5
.8
.1
61
13.3
3.3
.5
8
22.2
.4
.1
1
4.8
.1
,0
23
18.4
1.2
.2
54
13.3
2.9
.4
151
16.3
8.1
1.1

5
10
1.3
2.0
.1
13
5.5
2.6
.1
3
3.9
.6
.0
30
6.6
5.9
.2
3
8.3
.6
.0
0
0.0
0.0
0.0
10
8.0
2.0
.1
19
4.7
3.8
.1
44
4.8
8.7
.3

F (S)
P (S)
795
6.0
236
1.8
77
.6
457
3.4
36
.3
21
.2
125
.9
407
3. 0
925
6.9

13350
100.0

Q = .0000

.07204
.12381
.00047
.00000
.00021
.00345
.00695
.00461

117

Konstantin Momirovi u statistici

Tabela 3.
ANALIZA POVEZANOSTI PREFERENCIJALNE KINEZIOLOKE AKTIVNOSTI (SPORT) I
USPJEHA U SUBMATURALNOM RAZREDU (USPJEH)
(skupina uenica)
F(U,S)
P(U/S)
P(S/U)
P(U,S)
SPORT
Judo

Karate

Boks

Rvanje

Koarka

Odbojka

Rukomet

Nogomet

Atletika

Plivanje

Gimnastika

Skijanje

Vaterpolo

Streljatvo

118

USPJEH
2
10
24.4
.4
.1
9
25.7
.4
.1
3
25.0
.1
.0
0
0.0
0.0
0.0
228
20.2
10. 1
2.0
122
17.4
5.4
1. 1
296
19.8
13.2
2.6
30
34.1
1.3
.3
48
17.9
2.1
.4
151
16.3
6.7
1.3
118
17.3
5.3
1.0
19
15.2
.8
.2
1
25.0
' .0
.0
-2 3
21.7
1.0
.2

17
41.5
.3
.1
18
51.4
.3
.2
9
75.0
.2
.1
2
66.7
.0
.0
568
49.9
9.8
4.9
351
50. 1
6. 1
3.1
813
54.5
14.1
7.1
42
47.7
.7
.4
142
53.0
2.5
1.2
458
49.5
8.0
4.0
337
49.3
5.9
3.0
52
41.6
.9
.5
2
75.0
.1
.0
54
50.9
.9
.5

9
22.0
.4
.1
3
8.6
.1
.0
0
0.0
0.0
0.0
1
33.3
.0
.0
226
20.0
9.4
2.0
168
24.0
7.0
1.5
276
18.5
11.5
2.4
9
10.2
.4
.1
58
21.6
2.4
.5
216
23.4
9.0
1.9
156
22.8
6.5
1.4
37
29.6
1.5
.3
0
0.0
0.0
0.0
22
20.8
.9
.2

5
12.2
.5
.0
5
14.3
.5
.0
0
0.0
0.0
0.0
0
0.0
0.0
0.0
111
9.8
11.1
1.0
60
8.6
.6.0
.5
108
7.2
10.8
.9
7
8.0
.7
.1
20
7.5
2.0
.2
100
10.8
10.0
.9
72
10.5
7.2
.6
17
13.6
1.7
.1
0
0.0
0.0
0.0
7
6.6
.7
.1

F (S)
P (S)
41
.4
35
.3
12
.1
3
.0
1128
9.9
701
6.1
1493
13.1
88
.8
268
2.3
925
8.1
683
6.0
125
1.1
4
.0
106
.0

Uvod u analizu nominalnih varijabli

Tabela 3.
ANALIZA POVEZANOSTI PREFERENCIJALNE KINEZIOLOKE AKTIVNOSTI (SPORT) I
USPJEHA U SUBMATURALNOM RAZREDU (USPJEH)
(skupina uenica) (nastavak)
U S P JE H

SPORT

2
11
21.2
.5
.1
45
14.2
2.0
.4
14
13.9
.6
.1
33
18.4
1.5
.3
17
11.1
.8
.1
0
0.0
0.0
0.0
3
15.8
.1
.0
82
14.4
3.6
.7
984
22.3
43.8
8.6

Automoto

Biciklizam

Alpinizam i
planinarstvo
Stolni tenis

Klizanje

Hokej na ledu

Veslanje

Ostalo

Niti jedan

F(U)
P(U)
X2 - 150.17349
V(U,S)
C(U,S)
LAMBDA (S/U)
LAMBDA(U/S)
LAMBDA(U,S)
H(S/U)
H(U/S)
H(U,S)

2247

5759

19.7
=
=
=
=
=
=
=
=

50.5

3
29
55.8
.5
.3
165
52.5
2.9
1.5
48
47.5
.8
.4
88
49.2
1.5
.8
68
44.4
1.2
.6
2
66.7
.0
.0
10
52.6
.2
.1
298
52.2
5.2
2.6
2189
49.7
38.0
19.2

2409

997

21.1
8.7
DF = 66

9
17.3
.4
.1
75
23.7
3. 1
.7
26
25.7
1. 1
.2
35
19.6
1.5
.3
47
30.7
2.0
.4
1
33.3
.0
.0
4
21.1
.2
.0
135
23.6
5.6
1.2
896
20.3
37.2
7.9

3
5.8
.3
.0
30
9.5
3.0
13
12.9
1.3
.1
23
12.8
2.3
.2
21
13.7
2.1
.2
0
0.0
0.0
0.0
2
10.5
.2
.0
56
9.8
5.6
.5
337
7.6
33.8
3.0

F(S)
P(S)
52
.5
316
2.8
101
.9
179
1.6
153
1.3
3
.0
19
.2
571
5.0
4406
38.6

11412
100.0
Q = .0000

.06623
. 11397
.00000
.00000
.00000
.00321
.00565
.00409

119

Konstantin Momirovi u statistici

11.2 NEKE RELACIJE IZMEU SANKCIJA IZREENIH MALOLJETNIM


POINIOCIMA KRIVINIH DJELA I NJIHOVIH SOCIOLOKIH
KARAKTERISTIKA U POSTPENALNOM RAZDOBLJU
A. Hoek, K. Petrovi, K. Momirovi, Defektologija, 10 (1974),
1-2 : 49-92
1. UVOD
Znatan je nedostatak multivarijantnih metoda nunost uvoenja restrikcija, od kojih su najvanije
multivarijantna normalna raspodjela marginalnih varijabli i linearnost njihovih meusobnih relacija, koje su,
ponekad, ne samo nasilje nad prirodom fenomena koji su predmet istraivanja ve i uzrok gubitaka
informacija, esto od presudnog znaaja za problem ije se rjeenje trai, samo zbog toga to su takve
informacije inkongruentne s multivarijantnim linearnim modelom.
Visoki stupanj kondenzacije informacija i efikasan tretman interakcijskih efekata omoguen
metodama koje se temelje na multivarijantnom linearnom modelu ima i svoju cijenu. Nerijetko se upravo
zbog znatnog stupnja generalizacije, neophodnog za utvivanje znanstvenih zakonitosti, gube pojedinosti
vane za potpuniju deskripciju fenomena ili za donoenje za praksu vanih odluka. No, injenica da rezultate
istraivanja, provedenih metodama izgraenim na temelju tog modela, ne razumiju, naalost odve esto,
upravo oni koji bi te rezultate morali primijeniti u praksi, nije sasvim nevana. Znanstvene su informacije
zaista znaajne samo ako ih mogu dekodirati oni kojima su namijenjene, a najvei dio sociologa,
kriminologa i, to je najvanije, onih koji sudjeluju u svim fazama postupka prema maloljetnicima, ima
znatnih tekoa s dekodiranjem rezultata istraivanja u kojima su primijenjeni efikasni, ali sloeni
matematiki postupci.
Ovaj je rad pokuaj da se do najvee mogue mjere simplificira sistem informacija, na temelju kojega
je analizirana struktura prostora sociolokih varijabli u postpenalnom razdoblju za grupe maloljetnika
definirane vrstama sankcija koje su im izreene (Momirovi i Petrovi, 1973). Na uzorak koji je bio vrlo
slian onome na kome je provedeno spomenuto istraivanje (osim to je ovdje ukljuena i skupina
maloljetnika kojima je postupak obustavljen zbog oportuniteta) i na skupu varijabli koji je bio gotovo
istovjetan (osim to je iskljuena samo jedna, sutinski kontinuirana varijabla), primijenjene su metode koje
nisu pretpostavljale nikakve restrikcije ni u distribuciji varijabli, ni njihovih relacija. Te metode, tovie, nisu
pretpostavljale ni to da je uzorak ispitanika reprezentativan za bilo kako definiranu populaciju, osim za onu
koja ima ista obiljeja koja ima i uzorak, dakle, za hipotetsku populaciju koja doputa minimalnu
generalizaciju rezultata.
Naravno, mogunost generalizacije rezultata dobijenih ovim istraivanjem vrlo je sloena. Ona je,
zbog toga, na vrlo niskoj razini istraivanja deskriptivno-faktografskog tipa. No, ipak je vrlo vjerojatno da
moe pruiti mnoge korisne informacije, lako razumljive i ne bez znaenja za praksu. Zapravo, njegova je
svrha sustavna prezentacija injenica, nedirnutih, koliko je to uope mogue, nikakvim transformacijskim
postupkom.
Po sebi se razumije da takva metodoloka koncepcija ne doputa stvaranje zakljuaka irokog opsega
ni generalizacije koje zadiru u sutinu podruja koje je predmet istraivanja. Ali ni ta ni bilo koja druga
metodoloka koncepcija ne zabranjuje logike izvode, pod uvjetom da su konzistentni i da se osnivaju samo
na onim informacijama koje su istraivanjem dobivene. Takvi su izvodi i uinjeni uvijek kada se inilo da su
neophodni, korisni ili, jednostavno, zanimljivi.
Rezultati su organizirani tako da budu razumljivi gotovo bez ikakve verbalizacije. Umjesto opisa
rezultata, prezentirani su rezultati sami. Nesrazmjer informacija koje se mogu dobiti inspekcijom tablica, i
onih koje su sadrane u njihovoj verbalnoj deskripciji, toliki je da se inilo sasvim opravdanim prezentirati
tablice s najnunijim komentarom, i rezervirati ostatak teksta za vanije logike izvode.
Moda je suvino spominjati da istraivanja ove vrste nikada ne mogu zamijeniti ona provedena zaista
uspjenim metodama za transformaciju i kondenzaciju informacija. Ni ovaj rad nema takvu namjeru;
uostalom, on je zamiljen i proveden nakon to su u sutini isti podaci tretirani kako se najbolje moglo.
Motiviran je bio samo time da ti podaci budu to dostupniji onima kojima su zaista potrebni u ovoj fazi
razvoja nae znanosti, u kojoj su, naalost, metodoloki problemi jedini pravi problem.
120

Uvod u analizu nominalnih varijabli

2. METODE
Ispitivanje je provedeno na 552 maloljetnika kojima je istekla jedna od ovih sankcija: ukor,
disciplinski centar, pojaani nadzor roditelja, pojaani nadzor organa starateljstva, odgojni zavod, odgojnopopravni dom i maloljetniki zatvor. U uzorak je ukljuena i grupa maloljetnika koji su poinili neko od
krivinih djela protiv imovine ili protiv ivota i tijela, ali im je, zbog oportuniteta, postupak obustavljen. Svi
su maloljetnici bili mukog spola, stari izmeu 14 i 21 godinu.
Analizirane su ove socioloke karakteristike:
1. Starost ispitanika (STAR)
2. Zanimanje ispitanika (ZANIMA)
3. Mogunost kolovanja i zaposlenja (MOGSK2)
4. Broj zavrenih razreda (BROJZR)
5. Broj promjena kole ili radne organizacije (PROMRO)
6. Struktura porodice (ZIVISA)
7. Broj promjena porodice (BRPRPO)
8. kolska sprema ispitanikova ili substituta (SKSPOC)
9. Nadzor roditelja (NADROD)
10. Socijalno-ekonomski status porodice (SESTPO)
11. Kulturna razina mikrosredine (KULNIV)
12. Veliina porodice u kojoj je ispitanik odrastao (VELIPO)
13. Odnosi u porodici (ODNSPO)
14. Porodina kohezija (KOHEPO)
15. Sociopatoloke pojave u porodici (SOPAPJ)
16. Teritorijalna mobilnost porodice (TEMOPO)
17. Teritorijalna mobilnost ispitanika (TEMOIS)
18. Sudjelovanje porodice u deliktima ispitanika (SUPODE)
19. Da li porodica opravdava devijantno ponaanje (POOPDE)
20. Da li porodica fiziki kanjava ispitanika (TUKUIS)
21. Da li porodica grdi ispitanika (GRDEIS)
22. Da li porodica uvjerava i savjetuje ispitanika (UPSAIS)
23. Da li porodica kanjava ispitanika frustracijom njegovih biotikih potreba (LISVBI)
24. Da li porodica kanjava ispitanika frustracijom njegovih socijalnih potreba (LISVDR)
25. Da li se porodica trudi da ispitanika ukljui u druge aktivnosti (UKISAK)
26. Intervencije centra za socijalni rad (INTCEN)
27. Pomo pruena ispitaniku u traenju zaposlenja ili produenju kolovanja (ZAPSKP)
28. Materijalna pomo ispitaniku u postpenalnom razdoblju (ICTEEP)
29. Pomo pruena u procesu mikrosocijalne integracije (MIKINP)
30. Stopa kriminaliteta u kraju gdje ispitanik ivi (STKRIM)
31. Postojanje devijantnih grupa u kraju gdje ispitanik ivi (DEVIGR)
32. Postojanje mjesta za organizirani ivot i okupljanje omladine u kraju gdje ispitanik ivi (MJOKOM)
33. Postojanje religioznih organizacija u kraju gdje ispitanik ivi (RELIOR).
121

Konstantin Momirovi u statistici

Ti su podaci prikupljeni pomou upitnika SV, koga su konstruirali J. padijer, M. Mejovek, K.


Momirovi, V. Kovaevi, D. Davidovi, I. Ignjatovi, D. Radovanovi i S. Horga. Faktorska struktura tih
varijabli odreena je u istraivanju koje su proveli K. Momirovi, J. padijer, K. Petrovi, A. Hoek i L.
Zlobec (1973). Potanji podaci o nainu kodiranja odgovora mogu se nai u spomenutom istraivanju, ili u
istraivanju relacija sociolokih i demografskih znaajki i kinezioloke aktivnosti maloljetnih delinkvenata
(Petrovi, Momirovi i Hoek, 1973).
Skraene oznake odgovora na svako pitanje upitnika SV navedene su u tablicama.
Sve socioloke varijable ukrtene su s varijablom KAZNA, koja je kodirana na ovaj nain:
0 = obustava postupka
1 = ukor
2 = disciplinski centar
3 = pojaani nadzor roditelja
4 = pojaani nadzor organa starateljstva
5 = odgojni zavod
6 = odgojno-popravni dom
7 = maloljetniki zatvor
Za svaku tako dobivenu kontingencijsku tablicu izraunata je:
SUMA(I)

= frekvencije marginalnih kategorija u varijabli KAZNA;

82

FI (I)

= vjerojatnost da neki ispitanik padne u neku od marginalnih kategorija u varijabli KAZNA;

SUMA (J)
FI (J)77

77

= frekvencije marginalnih kategorija u sociolokim i demografskim varijablama;


= vjerojatnost da neki ispitanik padne u neku od marginalnih kategorija u sociolokim ili demografskim varijablama;

B(I,J)* = frekvencija u elijama dobivenim ukrtanjem varijabli KAZNA i sociolokih ili demografskih varijabli;
P(I,J)* = vjerojatnoa da neki ispitanik padne u intersekciju kategorija varijable KAZNA i sociolokih ili
demografskih varijabli;
P(I/J)* = uvjetna vjerojatnoa da neki ispitanik padne u intersekciju kategorija varijable KAZNA i
sociolokih ili demografskih varijabli u odnosu prema vjerojatnoi da padne u neku od kategorija
sociolokih ili demografskih varijabli;
P(J/I)* = uvjetna vjerojatnoa da neki ispitanik padne u intersekciju kategorija varijable KAZNA i
sociolokih ili demografskih varijabli u odnosu prema vjerojatnoi da padne u neku od kategorija
varijable KAZNA;
T(I,J)* = teoretske frekvencije u intersekcijama kategorija varijable KAZNA i sociolokih ili demografskih
varijabli pod hipotezom da izmeu njih nema nikakve asocijacije.
Na temelju tih veliina izraunati su i ovi parametri:
H(I)

= entropija varijable KAZNA;

H(J)

= entropija sociolokih ili demografskih varijabli;

H(I,J) = entropija kontingencijske tablice dobivene ukrtanjem varijable KAZNA i sociolokih ili
demografskih varijabli;
H(I/J) = uvjetne entropije varijable KAZNA u odnosu prema sociolokoj ili demografskoj varijabli;
H(J/I) = uvjetne entropije sociolokih ili demografskih varijabli u odnosu prema varijabli KAZNA.

82

Zbog utede u prostoru, kontingencijske tabele nisu prikazane. Te se tabele mogu nai u izvornom lanku.

122

Uvod u analizu nominalnih varijabli

Izraunate su zatim ove mjere asocijacije, osnovane na informatikim karakteristikama varijabli:


R(J/I) = relativni jednosmjerni protok informacija sa socioloklh ili demografskih varijabli na varijablu
KAZNA;
R(J/I) = relativni jednosmjerni protok informacija s varijable na socioloke ili demografske varijable;
R(I/J) = dvosmjerni relativni protok informacija izmeu varijable KAZNA i sociolokih ili demografskih
varijabli.
Sva tri R koeficijenta izraunata su Garnerovim postupkom.
Q(I/J)

= procjena asimetrinog koeficijenta korelacije izmeu sociolokih ili demografskih varijabli i


varijable KAZNA kao zavisne varijable;

Q(J/I)

= procjena asimetrinog koeficijenta korelacije izmeu varijable KAZNA kao nezavisne i


sociolokih ili demografskih varijabli;

Q(I,J) = procjena korelacije izmeu sociolokih ili demografskih varijabli i varijable KAZNA.
Svi Q koeficijenti izraunati su metodom koju su predloili Hamdan i Pearson. Asimetrini i simetrini
koeficijenti prognoze izraunati su prema postupku koga su predloili Goodman i Kruskal.
(I/J) = relativno poboljanje prognoze u varijabli KAZNA na temelju sociolokih ili demografskih
varijabli;
(J/I) = relativno poboljanje prognoze sociolokih ili demografskih varijabli na temelju varijable
KAZNA;

= relativno poboljanje prognoze pripadanja marginalnim kategorijama varijable KAZNA i


sociolokih ili demografskih varijabli na temelju vjerojatnoa u intersekcijama njihovih
kategorija.

Hipoteza P(I,J) = P(I) P(J) testirana je 2 testom. Iskljuene su elije gdje je T(I,J) bio manji od 1, i
za toliki je broj elija smanjen broj stupnjeva slobode (DF). Probabilitet PR(2/DF) izraunat je na temelju
integrala 2 raspodjele s DF stupnjeva slobode. Izraunata su jo dva koeficijenta asocijacije osnovana na
2 veliini kontingencijskih tablica:
C = Pearsonov koeficijent kontingencije,
R = Cramerov koeficijent asocijacije.
Kompletne su tablice navedene samo ako je P(2/DF) bio manji od 0.05, tj. ako su koeficijenti
asocijacije varijable KAZNA i sociolokih ili demografskih varijabli bili znaajni s pogrekom tipa I kod
odbacivanja nulte hipoteze od 0.05.
3. REZULTATI I DISKUSIJA
Za ocjenu prilika u kojima e se maloljetnici nai nakon zavrenog penalnog tretmana, bez obzira na
vrstu izreene sankcije, posebno su znaajne informacije sadrane u marginalnim kategorijama i vjerojatnosti
pripadanja tim kategorijama analiziranih sociolokih varijabli.
Iz tablica koje su priloene lako se moe razabrati da su, openito uzevi, prilike u kojima e se
malo1jetnici nai izrazito nepovoljne. Tako je ve podatak da je najvei dio maloljetnika u postpenalnom
razdoblju u dobi u kojoj je mogunost radikalnih izmjena modela ponaanja i onih regulativnih mehanizama
koji su znaajni za kontrolu reakcije i prihvaanje drutveno prihvaenih uzoraka ponaanja izrazito
nepovoljan. U postpenalnom se razdoblju mogu oekivati takve promjene linosti maloljetnika koje bi bitno
promijenile reakcijske mehanizme formirane u toku penalnog tretmana ili, ako tog tretmana nije bilo, ili je
bio neznatnog trajanja, u prijanjim fazama formiranja linosti. Otuda e modeli ponaanja stvoreni u
prijanjim razdobljima psihosocijalnog razvoja linosti biti presudniji za proces resocijalizacije od onih koji
budu, ako uope i budu, formirani u postpenalnom razdoblju. Pri tome e, naravno, proces resocijalizacije
biti utoliko tei ukoliko su modeli ponaanja formirani u prijanjim fazama inkongruentniji s modelima
ponaanja koji omoguuju uspjeniju socijalnu adaptaciju. Ako penalni tretman zakae u formiranju
uspjenih kontrolnih i regularnih mehanizama, neznatni su izgledi bitnih povoljnih promjena izazvanih ma
kakvom konstelacijom socijalne sredine u postpenalnom razdoblju.
123

Konstantin Momirovi u statistici

Mogunost socijalne integracije presudno zavisi od obrazovne, pa otuda i od profesionalne razine koju
je netko postigao. Ako su mogunosti da se takva razina postigne loe, pa ak i osrednje kad se uzmu u obzir
adaptacijske tekoe maloljetnika, slabi su izgledi uspjene socijalne integracije jednostavno zato to e
maloljetnik vjerojatno i dalje pripadati marginalnim drutvenim grupama iz kojih najveim dijelom i potie.
Lako je, meutim, utvrditi da su takve mogunosti za mnoge maloljetnike vrlo loe, a ni srednje mogunosti
kolovanja i zaposlenja esto nisu dovoljne za integraciju maloljetnika u institucijski subsistem, dakle za
preuzimanje onih uloga i stjecanje takvog drutvenog poloaja koji e biti dovoljan da sprijei aberantne
reakcije frustracijskog tipa. Zbog toga i podatak da maloljetnici u najveem postotku sluajeva nisu postigli
obrazovnu razinu, unato tome to su ve dostigli i premaili dob u kojoj zavrava osnovno i usmjereno
obrazovanje, pokazuje svu teinu adaptacijskih tekoa koje ih u postpenalnom razdoblju oekuju.
Za adaptaciju na ma koju socijalnu sredinu potrebno je neko vrijeme ivljenja u njoj. Adaptacijski
problemi zapoinju uvijek kada promjena sredine inicira novu fazu procesa socijalizacije. injenica da
gotovo 50% maloljetnika jednom ili vie puta mijenja kolu ili radnu organizaciju dovoljno jasno pokazuje
da e proces socijalizacije biti otean u funkciji tih promjena.
Cjelovitost porodice oduvijek je, i s pravom, smatrana vanim iniocem u formiranju socijaliziranih
oblika ponaanja. Iako je tom faktoru katkada pridavana znatno vea teina nego to je zasluuje, nema
nikakve sumnje da je njegov utjecaj znatan, iako sigurno nije presudan, jer u antropolokom podruju i nema
presudnih faktora. Gotovo polovina maloljetnika ivi u porodicama koje su nepotpune ili su ak praktiki
sasvim razorene. Mogunost formiranja uzoraka ponaanja na temelju procesa internalizacije u takvih je
maloljetnika vrlo ograniena, posebno onda kada u porodici nedostaje onaj roditelj od kojega, preko procesa
identifikacije, ovisi prihvaanje kolektivnog superega. Jo je tea situacija kod onih maloljetnika koji
mijenjaju katkad i po vie puta ak i takve nepotpune porodice.
kolska je sprema oca sigurno jedan od osnovnih indikatora pasivnog socijalnog statusa maloljetnika.
S obzirom na relativnu zatvorenost kanala integracijske mobilnosti, naalost znatne i u naem drutvu,
niskaobrazovna razina oca uvelike odreuje obrazovnu, pa otuda i profesionalnu razinu koju netko moe
postii. Uz to, relativno niska relativna obrazovna razina oca omeuje mogunost njegova utjecaja na
formiranje modela ponaanja i prihvaanje vrijednosnog sustava dijelom i zato to je smanjena propusnost
komunikacijskih kanala izmeu oca i maloljetnika. Ako primarna grupa definirana porodicom pripada zoni
sasvim marginalnih primarnih grupa, u mnogim se sluajevima moe oekivati nastojanje maloljetnika da se
udalji iz nepovoljnog socijalnog polja ukljuivanjem u druge, pa i devijantne primarne grupe. Oevi
maloljetnika koji su bili predmet ovog istraivanja u vrlo velikom broju posjedovali su vrlo nisku naobrazbu.
Vodei brigu o tome da to za sobom povlai i odreene ekonomske posljedice, osim posijedica koje se
oituju u zatvorenosti komunikacijskih kanala ak i s drutvenim slubama kojih je zadaa postpenalna briga
o maloljetniku, ta injenica moda znatnije od mnogih ostalih pokazuje svu nepovoljnost konfiguracije
dimenzije koje odreuju socijalno polje u kome e se maloljetnik nai. Potreba za afirmacijom, a moda i
potreba za dominacijom, koju je teko zadovoljiti participacijom u primarne grupe kao to je porodica, moe
biti usmjerena na aktivnosti povezane s pripadanjem devijantnim grupama, koje omoguuju bar prividno
zadovoljavanje tih potreba. Ako je jo nadzor roditelja slab, a slab je ili nikakav u vie od polovine ispitanih
maloljetnika, mogunost kontrole neadekvatnih nastojanja za postizanjem ne samo afirmacije ve i
jednostavne grupne identifikacije s grupom koju maloljetnik valorizira toliko da eli da participira toj grupi
bit e tako slaba da je teko vjerovati u uspjenu mogunost usmjeravanja njegovih nastojanja da sebe
afirmira kao samosvojnu linost. Protivurjenosti izmeu vrijednosnog sustava jedne generacije i
vrijednosnog sustava druge mogu biti vrlo izrazite bez obzira na socijalni status pripadnika ma koje od njih.
Ali, ako sukob vrijednosnih sustava generacija postoji na osnovi razlika izmeu vrijednosnog sustava
prolosti, koji je izgraen u okviru marginalne subkulture, i aktualnog vrijednosnog sustava, koji se formira
sukladno trendu razvoja tog sustava, sukob moe dostii takve razmjere da uzrokuje potpuni prekid izmeu
generacija. U tom sluaju velika je vjerojatnost prihvaanja vrijednosnog sustava onih marginalnih grupa u
koje je ukljuivanje mogue i koje razrjeavaju frustracijski konflikt, kojega je osnova osjeaj socijalne
usamljenosti. Prihvaanje vrijednosnih sustava koji nisu izgraeni na vlastitom iskustvu ili iskustvu vlastite
generacije gotovo je nemogue. Vrijednosna praznina koja zbog toga nastaje moe biti ispunjena aberantnim
sustavima vrijednosti ili onima koji su izgraeni na sasvim iracionalnoj osnovi, ako mu omoguuje izlaz iz
socijalne anonimnosti. Relativno nizak socioekonomski status veine maloljetnika potencirao je sukob
pothranjujui ih i jednostavnom percepcijom ne samo vlastitog marginalnog poloaja ve i marginalnog
poloaja onih u iji se vrijednosni sustav vie ne vjeruje. Nizak ekonomski status koji je s tim u vezi nije
nuno presudan, ali je uvijek prisutan argument koji omoguuje racionalizaciju devijantnog ponaanja.
124

Uvod u analizu nominalnih varijabli

Niska kulturna razina mikrosredine u koju se vraa veliki dio maloljetnika dalje potencira ovaj tip
sukoba. On, osim toga, omeuje jo jae ne samo mogunost djelovanja porodice na formiranje adekvatnog
vrijednosnog sustava ve i na mogunost intergeneracijske komunikacije.
Na nesreu, ta razina oteava i komunikacije izmeu porodice i ire socijalne sredine. Na taj nain i
porodica i maloljetnik bivaju izolirani do te mjere da u nastojanjima da sprijei nepodnoljivi stupanj
socijalne izolacije mora potraiti izlaz u primarnim, pa ma i marginalnim grupama s ijim lanovima moe
komunicirati ne samo zbog slinosti poloaja ve i zbog slinosti interesa.
Odnosi u porodici su modeli interpersonalnih odnosa koji odreuju ovaj tip uzoraka ponaanja. Loi
odnosi u nekohezivnim porodicama kojima pripadaju mnogi maloljetnici nisu samo primjer na kome se
formiraju uzorci interpersonalnih relacija, ve i element koji formira efektivno polje u kome je opstanak
nemogu, posebno ako je stupanj dezintegracije preao neku kritinu toku. Kod toga je, naravno, mogue da
je dezintegracija takvih porodica dijelom posljedica dezintegrativnih procesa koji prate razvoj onih drutava
koja se, zbog ubrzanog ritma razvoja proizvodnih snaga i s tim nuno povezanih proizvodnih odnosa, nalaze
na uzlaznom dijelu razvojne krivulje. lako je takav razvoj, naravno, neizbjean, nisu uvijek nastojanja
drutva da neutralizira inioce koji izazivaju remetee popratne pojave takvog razvoja ni dovoljna ni
adekvatna.
Socijalno-patoloke pojave u porodici nisu ni uzrok ni posljedica takve dezintegracije. Te su pojave
samo jedna od manifestacija latentnog procesa socijalne dezintegracije. Ali podatak da ravno 1/4
maloljetnika dolazi u porodice u kojima je jedna ili vie sociopatskih pojava nije znaajan samo kao
ilustracija nepovoljne konfiguracije socijalnog polja, ve i direktan kriminogeni faktor koji najvema moe
oteati proces resocijalizacije.
Teritorijalna mobilnost porodice ispitanika i teritorijalna mobilnost njega samoga u ovom je kontekstu
dodatni nepovoljni imbenik. Posebno teritorijalna mobilnost ispitanika nezavisna od teritorijalne mobilnosti
porodice oznauje redovito bijeg iz socijalnog polja. Teritorijalna mobilnost porodice moe, dodue, znaiti
prijelaz na viu razinu drutvenih i ekonomskih mogunosti, ali je i tada naputanje originalnog socijalnog
polja povezano ne samo s adaptacijskim tekoama ve i s pojaanim osjeajem otuenosti. Ba za takve
porodice znai prijelaz iz originalnog polja u socioekonomske bolje uvjete istovremeno gubljenje one
socijalne sigurnosti koju su imali u prijanjoj sredini. Uzroci ponaanja obino se tako drastino mijenjaju da
socioloko opredjeljenje marginalne linosti ponajvie vrijedi ba za porodice, odnosno lanove takvih
porodica. Otuda i opepoznata injenica da su posljedice teritorijalne mobilnosti takvih porodica upravo
devijantno ponaanje pojedinih njenih lanova. Marginalnost, nesposobnost da se ukljue u nove socijalne
sredine, a i odbijanje tih sredina da ih prihvate, rue uravnoteenost strukture tih porodica, jer promijenjen,
zapravo poboljan socioekonomski status nije dovoljan i jedini faktor koji odluuje o promjeni dotadanjeg
uzroka ponaanja tih porodica na takav nain koji bi omoguio asimilaciju u novu socijalnu sredinu.
Izoliranost i otuenost su nuna posljedica takve teritorijalne mobilnosti i stimulans devijantnog ponaanja
naroito maloljetnih lanova tih porodica.
Ne uputajui se u rasprave o dispozicijskom karakteru nekih kriminogenih osobina linosti, nepobitna
je injenica da egzogeni faktori koji definiraju konfiguraciju jedne mikrosocijalne, u prvom redu porodine
sredine, ponajee diktiraju razvoj i ponaanje svojih lanova. Tu se u prvom redu misli na maloljetne
lanove takvih primarnih grupa koji u toku razvoja usklauju svoje modele ponaanja s onim lanovima tih
grupa koji predstavljaju objekte njihove identifikacije ili s onim lanovima koji svojim autoritativnim
ponaanjem postaju objekti identifikacije. Prema tome, ukoliko konfiguraciju jedne primarne grupe
definiraju devijantne karakteristike lanova te grupe, asocijalno ponaanje njenih maloljetnih lanova moe
biti samo manifestacija ve u ranom djetinjstvu steenog defektnog modela ponaanja. Broj porodica koje
sudjeluju ili opravdavaju devijantno ponaanje maloljetnika nije osobito velik, ali on je jo uvijek toliko
znatan da ne doputa odbacivanje ni teorije o endogenim iniocima asocijalnog ponaanja, a ni teoriju u
utjecaju iskljuivo vanjskih faktora na devijantne ili bilo koje druge oblike ljudskih reakcija.
Uspjenost socijalizacijskog tretmana roditelja prema maloljetnicima determinirana je uvelike i
kognitivnim, a osobito konativnim statusom roditelja. Te osobine osobito dolaze do izraaja u pokuaju
roditelja da mijenjaju ve steene, u ovom sluaju asocijalne modele ponaanja, a koje su ili direktno
naslijeene ili preko manifestacija svojih kognitivnih sposobnosti i konativnih osobina sami proizveli kod
svojih potomaka. Premda na osnovi potonjeg nije doputeno generalizirati maloljetniku delinkvenciju kao
iskljuivi proizvod psihosomatskih karakteristika roditelja, nepobitna je uloga roditelja u procesu formiranja
linosti maloljetnika, i u procesu transformacije njihovih osobina, deklariranih kao asocijalne. Teko je,
125

Konstantin Momirovi u statistici

prema tome, oekivati da e agresivni nastupi roditelja manifestirani fizikim kanjavanjem maloljetnika
proizvesti bilo kakve efekte osim to mogu izazvati negativan uinak u obliku jo agresivnijih obrambenih
reakcija maloljetnika. U tom sluaju bi takav roditeljski tretman bio podloga za dalje asocijalno ponaanje
takve djece. Naalost, velik je broj maloljetnika (oko 1/4) koji se nakon penalnog tretmana vraaju u
porodice koje takvom tehnikom resocijalizacije upozoravaju na odreene patoloke devijacije roditelja, ili na
nesistematinost i nesposobnosti roditelja da na adekvatan nain odgajaju, a osobito preodgajaju svoje
potomke.
S druge strane, velik je broj roditelja (oko 3/4) koji grdnjom pokuavaju promijeniti ponaanje djece.
Te, naizgled blae manifestacije agresivnosti roditelja u odnosu prema fizikom kanjavanju teko da mogu
postii eljeni efekt, osim neadekvatne abreakcije tenzije roditelja koja izaziva frustracijske efekte, koji
gotovo nikada ne mogu biti povoljan inilac u procesu integracije linosti, pa otuda i integracija u socijalnu
sredinu, oslobaanjem vika energije kod roditelja i kumuliranje nezadovoljstva kod maloljetnika.
Metoda uvjeravanja takoer se ini samo pseudotehnika u pokuaju mijenjanja bilo kojih devijacija
linosti, pa i kriminogenih, kao to je pokazao niz eksperimentalnih istraivanja na tom podruju. Ipak, treba
napomenuti da je takav roditeljski tretman jo uvijek mnogo bolji od fizikog kanjavanja ili drugih
agresivnih istupa roditelja. Podatak da vie od 3/4 roditelja primjenjuje metode persuazije upuuje na to da
veina roditelja barem pokuava primijeniti tehnike resocijalizacije razliite od nekontroliranog agresivnog
tretmana. Prema tome, premda metoda persuazije teko moe ostvariti oekivani uinak, gotovo je pouzdano
da ona barem nee izazvati jo agresivnije, ekstrapunitivne reakcije djece, frustrirane postupkom svojih
roditelja.
Bioloka liavanja u postpenalnom razdoblju takoer nemaju nikakvog osnova, osim to mogu
potvrditi potpuno odsustvo sposobnosti roditelja za odgoj svojih potomaka. Ve po samoj prirodi ivih bia,
bioloke potrebe ubrajaju se u kategoriju primarnih, pri emu nemogunost njihova zadovoljenja izaziva
frustracije u najteem obliku. Prema tome, ne moe se oekivati da maloljetni delinkventi, koji ve i tako
imaju u znatnoj mjeri devijantnu strukturu linosti, razviju osobinu frustracijske tolerancije do tog stupnja da
tretman biolokog liavanja moe izazvati bilo kakve efekte izuzev pojaanu agresiju. Takve osobe, pa ak i
one s manjim kriminogenim aberacijama, mogu nastojati zadovoljiti svoje primarne bioloke motive izvan
porodice, odajui se krai i nekontroliranom agresivnom ponaanju. Ipak je, sreom, mali broj porodica koje
primjenjuju tako drastine metode resocijalizacije.
Poznato je, meutim, da ukljuivanje maloljetnika u organizirane drutvene grupe, iji su programi
rada usklaeni s odgojno-obrazovnim i kulturnim naelima, moe biti vrlo dobro sredstvo resocijalizacije.
Izvankolske sportske i druge aktivnosti, kao i ostali institucionalizirani oblici aktivnosti, usmjerene su na
zadovoljenje interesa maloljetnika i usklaivanje njihovih stavova i oblika ponaanja s drutvenim normama.
Pri tome se na legalan i drutveno prihvatljiv nain lako mogu zadovoljiti socijalni motivi (afirmacijadominacija, grupna identifikacija) onih maloljetnika koji su u pretpenalnom razdoblju upravo radi
zadovoljenja tih potreba, a pod utjecajem mnogih objektivnih inilaca, poinili krivina djela. Naalost,
odve je mali broj maloljetnika koji su, nastojanjem roditelja ili institucija za drutvenu brigu o omladini,
ukljueni u takve aktivnosti, premda je vrlo vjerojatno da taj postupak, koji u sutini predstavlja okupacijsku
terapiju, moe biti jedan od najefikasnijih sredstava u razborito programiranom postpenalnom tretmanu.
Drutvena izolacija maloljetnika u postpenalnom razdoblju, kao kazna ili tretman koji primjenjuju
poneki roditelji, moe proizvesti mnoge efekte, od kojih je uspjena resocijalizacija najmanje vjerojatna.
Dodue, relativno malo roditelja primjenjuje tehniku frustracije socijalnih potreba, no ipak dovoljno da se
meu maloljetnicima nad kojima se ta metoda primjenjuje moe nai dovoljan broj onih koji e neadekvatno
reagirati na neadekvatan postupak, pa tako ili usporiti proces resocijalizacije ili ga potpuno onemoguiti.
Broj intervencija centra za socijalni rad izravna je mjera drutvene brige o maloljetniku u
postpenalnom razdoblju. Zaprepaujua je injenica da kod vie od polovine ispitanih sluajeva nije bilo
nijedne takve intervencije. Ako je intervencija i bilo, bile su vrlo rijetke. Premda je dobro poznata
preoptereenost socijalnih radnika, za to stanje nema nikakvog opravdanja, jer nema nikakve dvojbe da u
svom radnom vremenu i ono malo socijalnih radnika moe izvriti vie intervencija nego li ih ini. Iako ne
treba biti odve optimistian u pogledu ishoda tih intervencija, kad se zna da socijalni radnici praktiki nisu
osposobljeni za adekvatan psihoterapeutski i socioterapeutski tretman, ipak bi u bilo kakvim intervencijama
korisnije utroili svoje vrijeme nego li u jalovom administriranju koje ispunjava veliki dio radnog vremena.
Socijalni su radnici u gotovo 50% sluajeva ocijenili da maloljetniku ne treba nikakve pomoi u
traenju zaposlenja ili nastavku kolovanja. Imajui na umu socijalne, ekonomske i druge prilike
126

Uvod u analizu nominalnih varijabli

maloljetnika u postpenalnom razdoblju, u ovo se miljenje moe ozbiljno sumnjati. Jo gore je, meutim, to
to u nedopustivo velikom broju sluajeva nisu ni pokuali pruiti takvu pomo, iako su ocijenili da je
potrebna, a alosno je to je njihovo nastojanje da takvu pomo prue bilo ee bezuspjeno nego uspjeno,
kada su se tek kod neto vie od 1/3 maloljetnika potrudili da interveniraju. Integracija maloljetnika u
odgojno-obrazovne ustanove ili organizacije udruenog rada ima posebno znaenje za proces resocijalizacije
(padijer, Ignjatovi i Radovanovi, 1973; Hoek, Momirovi i Singer, 1973; Mejovek, Horga i Momirovi,
1973). injenica da je drutvena briga nikakva ili beznaajna upravo u odnosu prema integraciji maloljetnika
u institucijski subsistem, porazno je svjedoanstvo o nainu na koji se provodi postpenalni tretman.
Neki su autori svojedobno smatrali da se materijalnom pomoi u postpenalnom razdoblju mogu postii
znaajni uinci. Ta hipoteza, ija je plitkost u skladu s odsustvom stvarnih informacija o tome s pomou
kojih se operacija zaista mogu ostvariti povoljni uvjeti za proces resocijalizacije, nije mogla podnijeti nijednu
ozbiljniju provjeru (Mejovek, Horga i Momirovi, 1973). Otuda nije velika nevolja to je takva pomo
pruena u relativno malo sluajeva, iako je alosno da u dvostruko veem broju nije pruena onda kad su
socijalni radnici procijenili da je potrebna, a vrlo sumnjivo, s obzirom na socioekonomski status porodica iz
kojih maloljetnici potjeu, to je u vie od 60% sluajeva ocijenjeno da nije potrebna.
Pomo maloljetniku u procesu mikrosocijalne integracije presudna je. Tekoe takve integracije
postoje kod gotovo svih maloljetnika koji manifestiraju asocijalne oblike ponaanja, kao uostalom u mnogih
omladinaca koji ne pokazuju takve manifestacije. Socijalni su radnici ocijenili, meutim, u vie od 50%
sluajeva da takva pomo nije potrebna, vjerujui valjda (moda i s pravom) da bi uinili svojim
intervencijama vie tete nego koristi. Kada su, meutim, razabrali da je takva pomo zaista potrebna,
ponovo u nedopustivom broju sluajeva nisu takvu pomo pruili, a kad su se i potrudili da to uine, uspjeh
njihovih nastojanja tek je neznatno bio vei od potpunog neuspjeha.
Obino se smatra da je stopa kriminaliteta u kraju u kome maloljetnik ivi znaajan kriminogeni
faktor. To, meutim, dolazi u areale s prosjenom stopom kriminaliteta, a tek mali broj u krajeve gdje je ta
stopa visoka. Meu njima je osobito mnogo onih kojima je izreena sankcija upuivanja u odgojni zavod i
relativno vie onih kojima je izreen ukor. Neto o motivima obustave postupka moe se zakljuiti i po tome
to takvi maloljetnici u neznatnom broju potjeu iz krajeva s visokom stopom kriminaliteta.
Postojanje devijantnih grupa vjerojatno je neposredniji kriminogeni faktor od stope kriminaliteta. U
kakvu se okolinu maloljetnici vraaju nakon penalnog tretmana vidi se i po tome to se u gotovo 70%
sluajeva nalaze u kraju u kome ima jedna, pa i vie takvih grupa. Najgore je i to to se gotovo polovica
vraa u krajeve gdje je broj takvih grupa dvije ili vie. Broj institucija koje organizirano okupljaju omladinu
vaan je povoljan egzogeni faktor, ili bi to morao biti, kada bi takve institucije osim svog postojanja imale
takav razumno programirani sadraj rada. etvrtina maloljetnika vraa se, meutim, u krajeve gdje takvih
mjesta nema, iako, naravno, nije pouzdano da je korisno to se veina vraa tamo gdje takvih mjesta ima,
kada se zna da je prireivanje plesova zainjenih obilatim tunjavama esto jedina aktivnost omladinskih
klubova.
Drutvena nebriga za omladinu namee potrebu da se ispita to je s religioznim organizacijama koje
okupljaju omladinu, pogotovo kad se zna da one esto preuzimaju funkcije koje pripadaju drutvenim
organizacijama, i to nerijetko uspjeno (Petrovi, Hoek i Momirovi, 1973). Jedna treina maloljetnika
vraa se u krajeve gdje ima takvih organizacija. Teko je rei da li je to dobro ili loe, jer bez obzira na to to
takve organizacije mogu sprijeiti u odreenoj mjeri dalje devijantno ponaanje omladine, ima mjesta
dubokoj sumnji u korist od toga da se jedan devijantni sistem zamijeni drugim.

127

Konstantin Momirovi u statistici

KAZNA
H(I)
H(J)
H(I,J)
H (I/J )
H(J/I)
KAZNA
H(I)
H(J)
H(l,J)
H(I/J)
H(J/I)
KAZNA
H(I)
H(J)
H( I,J)
H (I/J)
H(J/I)
KAZNA
H(I)
H(J)
H(I,J)
H(I/J)
H(J/I)
KAZNA
H(I)
H(J)
H(I ,J)
H(I/J)
H(J/I)
KAZNA
H(I)
H(J)
H(I,J)
H(I/J)
H(J/I)

BY STAR
2.87
GARNER
2.56
5.28
R(I/J)
2.72
R(J/I)
2.42
R(I,J)
BY ZANIMA
2.87
GARNER
1.8.3
4.54
R(I/J)
2.71
R(J/I)
1.67
R(I,J)
BY MOGSKZ
2.87
GARNER
1.56
4. 38
R(I/J)
2.83
R(J/I)
1.51
R(I,J)
BY BROJZR
2.87
GARNER
2.80
5.53
R(I/J)
2.73
R(J/D)
2.66
R(I,J)
BY PROMRO
2.87
GARNER
1.51
4.31
R(I/J)
2.80
R(J/I)
1.44
R(1,J)
BY ZIVISA
2.87
GARNER
1.83
4.60
R(I/J)
2.77
R(J/I)
1.73
R(I,J)

KAZNA BY BRPRPO
H(I)
2.87
H(J)
.63
H(I,J)
3.43
H(I/J)
2.8l
H(J/I)
.56
KAZNA BY SKSPOC
H(I)
2.88
H(J)
2.92
H(I,J)
5.67
H(I/J)
2.75
H(J/I)
2.79
KAZNA BY NADROD
H(I)
2.87
H(J)
1.53
H(I,J)
4.27
H(I/J)
2.74
H(J/I)
1.40

128

PEARSON
.22
.24
.24

.13
.17
.17

.22
.23
.23

.33
.41
.37

.19
.24
.24

Q(I/J)
Q(J/I)
Q(I,J)

.18
.24
.21

Q(I/J)
Q(J/I)
Q(I,J)

.31
.32
.31

Q(I/J)
Q(J/I)
Q(I,J)

.22
.30
.26

(I/J)
(J /1)

.02
.04
.03

2
DF
P
C
R

33.68
14
.00
.24
.17

(I/J)
(J/I)

.05
.04
.04

2
DF
P
C
R

90.35
54
.00
.38
.15

(I/J)
(J/I)

.02
.01
.02

2
DF
P
C
R

44.81
20
.00
27
.14

(I/J)
(J/I)

.04
.00
.30

2
DF
P
C
R

75.89
31
.00
35
.17

GOODMAN

Q(I/J)
Q(J/I)
Q(I,J)

.27
.33
.30

Q(I/J)
Q(J/I)
Q(l,J)

Q(I/J)
Q(J/I)
Q(I,J)

Q(I/J)
Q(J/I)
Q(I,J)

(I/J)
(J/I)

.02
.00
.02

2
DF
P
C
R

27.27
6
.00
.22
.11

.04
.01
.02

2
DF
P
C
R

79.17
60
.05
.36
.15

.08
.15
.11

2
DF
P
C
R

99.92
14
.00
.39
.30

GOODMAN
.22
.45
.34

(I/J)
(J/I)

GOODMAN
.30
.30
.30

PEARSON
.21
.29
.29

105.66
29
.00
40
.18

GOODMAN

PEARSON
.22
.21
.22

.07
.00
.04

2
DF
P
C
R

GOODMAN

PEARSON
.15
.33
.33

(I/J)
(J/I )

GOODMAN

PEARSON

GARNER
R(I/J)
R(J/I)
R(I,J)

Q(I/J)
Q(J/I)
Q(I,J)

PEARSON
.16
.21
.21

85.93
37
.00
37
.15

GOODMAN

PEARSON

GARNER
R(I/J)
R(J/I)
R(I,J)

.31
.33
.32

PEARSON

GARNER
R(I/J)
R(J/I)
R(I,J)

Q(I/J)
Q(J/I)
Q(I,J)

PEARSON
.24
.30
.30

.05
.06
.06

2
DF
P
C
R

GOODMAN

(I/J)
(J/I)

GOODMAN
.30
.41
.35

(I/J)
(J/I)

Uvod u analizu nominalnih varijabli


KAZNA BY SESTPO
H(I)
2.87
GARNER
H(J)
2.08
H(I,J)
4,89
R(I/J)
H(I/J)
2.80
R(J/I)
H(J/I)
2.01
R(I,J)
KAZNA BY KULNIV
H(I)
2.87
GARNER
H(J)
1.38
H(I,J)
4.21
R(I/J)
H(I/J)
2.83
R(J/I)
H(J/I)
1.33
R(I,J)
KAZNA BY VELIPO
H(I)
2.87
GARNER
H(J)
1.55
H(I,J)
4.38
R(I/J)
H(I/J)
2.83
R(J/I)
H(J/I)
1.50
R(I,J)
KAZNA BY ODNSPO
H(I)
2.87
GARNER
H(J)
1.73
H(I,J)
4.51
R(I/J)
H(I/J)
2.77
R(J/I)
H(J/I)
1.63
R(I,J)
KAZNA BY KOHEPO
H(I)
2.87
GARNER
H(J)
1.41
H(I,J)
4.20
R(I/J)
H(I/J)
2.79
R(J/I)
H(J/I)
1.33
R(I,J)
KAZNA BY SOPAPJ
H(I)
2.87
GARNER
H(J)
1.03
H(I,J)
3.86
R(I/J)
H(I/J)
2.83
R(J/I)
H(J/I)
.99
R(I,J)
KAZNA BY TEMOPO
H(I)
2.88
GARNER
H(J)
.86
H(I,J)
3.68
R(I/J)
H(I/J)
2.82
R(J/I)
H(J/I)
.81
R(I,J)
KAZNA BY TEMOIS
H(I)
2.87
GARNER
H(J)
1.14
H(I,J)
3.95
R(I/J)
H(I/J)
2.81
R(J/I)
H(J/I)
1.07
R(I,J)
KAZNA BY SUPODE
H(I)
2.87
GARNER
H(J)
.17
H(I,J)
3.03
R(I/J)
H(I/J)
2.86
R(J/I)
H(J/I)
.15
R(I,J)

PEARSON
.16
.18
.18

Q(I/J)
Q(J/I)
O(I,J)

.22
.26
.24

PEARSON
.13
.19
.19

Q(I/J)
Q(J/I)
Q(I,J)

Q(I/J)
Q(J/I)
Q(I,J)

.18
.26
.22

Q(I/J)
Q(J/I)
Q(I,J)

.17
.24
.21

Q(I/J)
Q(J/I)
Q(I,J)

.27
.34
.30

Q(I/J)
Q(J/I)
Q(I,J)

.24
.34
.29

Q(I/J)
Q(J/I)
Q(I,J)

.17
.28
.22

Q(I/J)
Q(J/I)
Q(I,J)

.19
.34
.26

Q(I/J)
Q(J/I)
Q(I,J)

24.92
14
.04
.21
.12

(I/J)
(J/I)

.03
.11
.07

2
DF
P
C
R

65.31
23
.00
.33
.17

(I/J)
(J/I)

.17
.17
.08

2
DF
P
C
R

63.71
14
00
.32
.24

(I/J)
(J/I)

.01
.00
.01

2
DF
P
C
R

30.99
14
.01
23
.17

(I/J)
(J/I)

.00
.00
.00

2
DF
P
C
R

22.05
11
.02
.20
.09

(I/J)
(J/I)

.01
.00
.01

2
DF
P
C
R

34.86
18
.01
.24
.11

00
00
00

2
DF
P
C
R

10.08
6
.12
.13
.14

GOODMAN
.21
.34
.28

PEARSON
.08
.33
.33

.00
.05
.02

2
DF
P
C
R

GOODMAN

PEARSON
.15
.24
.24

(I/J)
(J/I)

GOODMAN

PEARSON
.13
.24
.24

35.56
19
.01
.25
.15

GOODMAN

PEARSON
.12
.20
.20

.02
.02
.02

2
DF
P
C
R

GOODMAN

PEARSON
.17
.25
.25

(I/J)
(J/I)

GOODMAN

PEARSON
.19
.24
.24

47.59
28
.01
.28
.15

GOODMAN

PEARSON
.12
.17
.17

.01
.01
.01

2
DF
P
C
R

GOODMAN

(I/J)
(J/I)

GOODMAN
.11
.45
.28

(I/J)
(J/I)

129

Konstantin Momirovi u statistici


KAZNA BY POOPDE
H(I)
2.87
GARNER
H(J)
.44
H(I,J)
3.28
R(I/J)
H(I/J)
2.84
R(J/I)
H(J/I)
.41
R(I,J)
KAZNA BY TUKUIS
H(I)
2.87
GARNER
H(J)
.72
H(I,J)
3.58
R(I/J)
H(I/J)
2.86
R(J/I)
H(J/I)
.70
R(I,J)
KAZNA BY GRDEIS
H(I)
2.87
GARNER
H(J)
.84
H(I,J)
3.70
R(I/J)
H(I/J)
2.86
R(J/I)
H(J/I)
.83
R(I,J)
KAZNA BY UBSAIS
H(I)
2.87
GARNER
H(J)
.56
H(I,J)
3.41
R(I/J)
H(I/J)
2.85
R(J/I)
H(J/I)
.53
R(I,J)
KAZNA BY LISVBI
H(I)
2.87
GARNER
H(J)
.23
H(I,J)
3.09
R(I/J)
H(I/J)
2.86
R(J/I)
H(J/I)
.21
R(I,J)
KAZNA BY LISVDR
H(I)
2.87
GARNER
H(J)
.67
H(I,J)
3.52
R(I/J)
H(I/J)
2.85
R(J/I)
H(J/I)
.65
R(I,J)
KAZNA BY UKISAK
H(I)
2.87
GARNER
H(J)
.87
H(I,J)
3. 70
R(I/J)
H(I/J)
2.84
R(J/I)
H(J/I)
.83
R(I,J)
KAZNA BY INTCEN
H(I)
2.87
GARNER
H(J)
2.00
H(I,J)
4.72
R(I/J)
H(I/J)
2.72
R(J/I)
H(J/I)
1.87
R(I,J)
KAZNA BY ZAPSKS
H(I)
2.87
GARNER
H(J)
1.85
H(I,J)
4.55
R(I/J)
H(I/J)
2.70
R(J/I)
H(J/I)
1.68
R(I,J)

130

PEARSON
.11
.28
.28

Q(I/J)
Q(J/I)
Q(I,J)

.15
.39
.27

PEARSON
.07
.14
.14

Q(I/J)
Q(J/I)
Q(I,J)

Q(I/J)
Q(J/I)
Q(I,J)

.10
.20
.15

Q(I/J)
Q(J/I)
Q(I,J)

.09
.17
.13

Q(I/J)
Q(J/I)
Q(I,J)

.13
.29
.21

Q(I/J)
Q(J/I)
Q(I,J)

.11
.39
.25

Q(I/J)
Q(J/I)
Q(I,J)

.12
.24
.18

Q(I/J)
Q(J/I)
Q(I,J)

.16
.29
.22

Q(I/J)
Q(J/I)
Q(I,J)

9.21
7
.24
.13
.13

(I/J)
(J/I)

.01
.00
.01

2
DF
P
C
R

20.22
7
.01
.19
.19

(I/J)
(J/I)

.01
.00
.01

2
DF
P
C
R

13.60
7
.06
.16
.16

(I/J)
(J/I)

.00
.00
.00

2
DF
P
C
R

15.63
7
.03
.17
.17

(I/J)
(J/I)

.01
.00
.01

2
DF
P
C
R

27.44
7
.00
.22
.22

(I/J)
(J/I)

.07
.02
.05

2
DF
P
C
R

92.38
34
.00
.39
.19

.10
.08
.09

2
DF
P
C
R

120.82
21
.00
.44
.28

GOODMAN
.30
.36
.33

PEARSON
.25
.30
.30

.00
.00
.00

2
DF
P
C
R

GOODMAN

PEARSON
.21
.26
.26

(I/J)
(J/I)

GOODMAN

PEARSON
.11
.21
.21

11.38
7
.12
.14
.14

GOODMAN

PEARSON
.08
.17
.17

.00
.00
.00

2
DF
P
C
R

GOODMAN

PEARSON
.08
.28
.28

(I/J)
(J/I)

GOODMAN

PEARSON
.09
.29
.21

13.84
6
.03
.16
.11

GOODMAN

PEARSON
.06
.12
.12

.02
.00
.02

2
DF
P
C
R

GOODMAN

(I/J)
(J/I)

GOODMAN
.34
.42
.38

(I/J)
(J/I)

Uvod u analizu nominalnih varijabli


KAZNA BY MATERP
H(I)
2.87
GARNER
H(J)
1.34
H(I,J)
4.14
R(I/J)
H(I/J)
2.80
R(J/I)
H(J/I)
1.27
R(I,J)
KAZNA BY MIKSNP
H(I)
2.87
GARNER
H(J)
1.78
H(I,J)
4.49
R(I/J)
H(I/J)
2.71
R(J/I)
H(J/I)
1 .62
R(I,J)
KAZNA BY STKRTH
H(I)
2.87
GARNER
H(J)
.94
H(I,J)
3.78
R(I/J)
H(I/J)
2.83
R(J/I)
H(J/I)
.90
R(I,J)
KAZNA BY DEVIGR
H(I)
2.87
GARNER
H(J)
1.53
H(I,J)
4.36
R(I/J)
H(I/J)
2.83
R(J/I)
H(J/I)
1.49
R(I,J)
KAZNA BY MJOKOM
H(I)
2.87
GARNER
H(J)
.82
H(I,J)
3.67
R(I/J)
H(I/J)
2.85
R(J/I)
H(J/I)
.80
R(I,J)
KAZNA BY RELIOR
H(I)
2.87
GARNER
H(J)
.91
H(I,J)
3.76
R(I/J)
H(I/J)
2.86
R(J/I)
H(J/I)
.89
R(I,J)

PEARSON
.16
.23
.23

Q(I/J)
Q(J/I)
Q(I,J)

.22
.32
.27

PEARSON
.23
.30
.30

Q(I/J)
Q(J/I)
Q(I,J)

Q(I/J)
Q(J/I)
Q(I,J)

.33
.41
.30

Q(I/J)
Q(J/I)
Q(I,J)

.16
.28
.22

Q(I/J)
Q(J/I)
Q(I,J)

.17
.23
.20

Q(I/J)
Q(J/I)
Q(I,J)

110.64
21
.00
.42
.27

(I/J)
(J/I)

.00
.00
.00

2
DF
P
C
R

24.60
14
.04
.21
.15

(I/J)
(J/I)

.01
.02
.02

2
DF
P
C
R

31.65
14
.00
.23
.17

(I/J)
(J/I)

.00
.00
.00

2
DF
P
C
R

15.29
7
.03
.16
.17

.00
.00
.00

2
DF
P
C
R

11.71
7
.11
.14
.15

GOODMAN
.12
.22
.17

PEARSON
.07
.13
.13

.10
.03
.07

2
DF
P
C
R

GOODMAN

PEARSON
.08
.15
.15

(I/J)
(J/I)

GOODMAN

PEARSON
.12
.17
.17

49.92
14
.00
.30
.22

GOODMAN

PEARSON
.12
.20
.20

.04
.00
.03

2
DF
P
C
R

GOODMAN

(I/J)
(J/I)

GOODMAN
.10
.18
.14

(I/J)
(J/I)

4. ZAKLJUAK
Lako se vidi iz priloenih tablica da je stupanj nepovoljnosti socijalne sredine, u koju se maloljetnik
vraa nakon penalnog tretmana, procijenjen ma kojom dimenzijom koja odreuje konfiguraciju socijalnog
prostora, utoliko vei ukoliko je maloljetniku zbog teih oblika devijantnog ponaanja i nepovoljnijih linih i
porodinih prilika u pretpenalnom razdoblju izreena tea sankcija. Posebno u nepovoljne prilike dolaze oni
maloljetnici koji su bili podvrgnuti zavodskom tretmanu. Njihovi izgledi na uspjenu resocijalizaciju zbog
toga su vrlo mali. Efikasnost penalnog tretmana zbog toga je za takve maloljetnike posebno ograniena. Jer
oni ne samo da potjeu iz sredina koje ve po sebi oteavaju formiranje socijaliziranih modela ponaanja,
ve se u njih i vraaju. Ako su regulativni mehanizmi u tih maloljetnika i inae neadekvatni i ako penalni
tretman nije uspio da ih bitnije promijeni, moe se s velikom vjerojatnou pretpostaviti neuspjeh procesa
resocijalizacije.

131

Konstantin Momirovi u statistici

11.3 MAXIMIZATION OF THE CORRELATION OF TWO QUALITATIVE VARIABLES:


THE APPROACH AND AN EXAMPLE
K. Bosnar, A. Hoek
th

Proceedings of 5 International Symposium 'Computer at the University', 1983, pp. 776-783


SUMMARY
A method for obtaining the maximum correlation of the two qualitative variables based on the canonical
decomposition of contingency table (Williams, 1952) is presented. An example is given involving analysis of the
attributes of educational status of sons and their parents in which, apart from the canonical correlation three other
symmetrical measures of association are applied (Pearson's contingency coefficient, Cramer's coefficient of
association and W. Pearson's estimation of symmetric correlation coefficient). The results are discussed with the
stress on the interpretative value of canonical correlation analysis of contingency table.

1. INTRODUCTION
The nature of problems in the field of study of social sciences frequently entails the analysis of
qualitative variables. Although extensive work has recently been done on the matter of analysing qualitative
data (specially in France), choosing an appropriate technique allowing non-ambiguous interpretation of the
results still makes difficulties for the researchs. One of the basic problems not yet satisfactorily solved is the
determination of the relationships between two qualitative variables. A number of measures of association is
proposed involving different approaches and assumptions and a widely spread strategy among researchers is
computing several different measures on the same data. But that does not necessarily lead to easier
interpretation. The meaning of the numerical value of the most standardly used measures is not well defined,
which makes comparison between them impossible. Different measures usually lead to different numerical
results and sometimes it is rather difficult to decide which one is the most appropriate to the problem and
which numerical result is the best representative of the relationships. Therefore, some information about the
maximum possible correlation between the data of the two qualitative variables might be a very useful
landmark for interpretation.
The determination of the maximum possible correlation between two qualitative variables can be done
by assigning a score to each category of two variables such that product, moment correlation using those
scores is the maximum. The problem of finding optimal scores is solved through canonical correlation
analysis of contingency table of two variables, as suggested by Williams (1952).
Although the method was proposed more than thirty years ago, it is not a part of the standard
methodological tool in researches involving qualitative variables. To evaluate the usefulness of broadening
the analysis by introducing canonical correlation an example is given. The cross-classifications of the
attributes of educational status of male subjects and their fathers and mothers are analysed by a standard
program computing the following symmetrical measures of association: Pearson's contingency coefficient
(1901), Cramer's coefficient of association (1946) and W. Pearson's estimation of symmetric
correlation coefficient (1966) and on the same data the canonical analysis of contingency tables is applied.
From the sociological point of view, the problem is well known and elaborated so that the example is
appropriate for the evaluation of techniques for data analysis.
2. METHODS OF DATA ANALYSIS
The canonical analysis of contingency table is performed by program CANCONT written by Bosnar
and Pavici (1982), and the part of algorithm is presented here.
Let C denote contingency table of two qualitative variables with p and q categories, respectively
obtained on n observations. Let M1 , and M2 denote diagonal matrices of marginal frequencies of the first and
the second variable, respectively. The maximisation of squared canonical correlation 2 (equivalent to
maximisation of | |) leads to canonical equation

132

Uvod u analizu nominalnih varijabli

(C12 M 21C 21 2k M 1 )Yk = 0 , or simplifying k= 2,...,s; s=min(p,q)


G = M 11 C 12 M 21 C 21 ,
22

(G 2k I)Yk = 0 which can be solved by simple eigenstructure analysis. The Lagrangian multiplier

is the maximum squared canonical correlation and in the vector Y2 are the scores or canonical weights for
the categories of the first variable. The weights for the categories of the second variable x2 are obtained by
operation

X 2 = D 21C 21 Y2

1
.
2

It is known, in canonical analysis it is possible to determine as many correlations and variates as the
number of variables in the smaller set of variables by introducing the restriction of mutual orthogonality of
variates. In canonical analysis of contingency table it is possible to determine as many correlations and sets
of scores as the minor number of categories of two variables minus one, i.e. k=r; r=min(p-1, q-1).
Based on contingency table, one canonical correlation necessarily equals one, i.e. 21= 1 , and the first
solution is trivial with all the elements of vector Y1 equal to 1 up to a normalising constant. So, the maximum
non-trivial correlation to be interpreted is 2. The contribution of each category to maximal association
between two variables can be evaluated by the use of weights Y2 and X2, as well as the factors K2 and L2 of
the categories of the first and second variable, respectively. The factors are obtained by operations
K2 = D1 Y2 and
L2 = D2 X2
The significance of the correlation 2 is tested with 2 test where 22 = 22 n with degrees of freedom
df = m-l; m= max (p, q) .
The other three measures, Pearson's contingency coefficient, Cramr's coefficient of association and
W. Pearson's estimation of symmetric correlation coefficient are computed by program CONTAB (Zlobec,
Varga and Momirovi, 1974) standardly used for analysing nominal and ordinal variables.
3. NUMERICAL EXAMPLE
A method for the analysis of maximal canonical correlation between qualitative variables has been
applied in the analysis of correlation between the educational status of the father and the educational status of
the son as well as between the educational status ot the mother and son on a sample of 691 pairs of entities.
The educational status of the father and mother have been defined by the following categories:
1.

unknown

2.

illiterate

3.

uneducated but literate

4.

less than four grades of elementary school

5.

completed four grades of elementary school

6.

more than four, but less than eight grades of elementary school

7.

completed elementary school

8.

incomplete vocational school

9.

completed vocational school

10.

incomplete high school

11.

completed high school

12.

incomplete college education

13.

completed college education


133

Konstantin Momirovi u statistici

14.

incomplete university education

15.

completed university education

16.

specialization, master's or doctor's degree.


In the sample of mothers there were no entities in category No. 16.
Educational status of the son has been defined by these categories:

1.

uneducated but literate

2.

less than four grades of elementary school

3.

completed four grades of elementary school

4.

more than four, but less than eight grades of elementary school

5.

completed elementary school

6.

incomplete vocational school

7.

completed vocational school

8.

incomplete high school

9.

completed high school

10.

incomplete college education

11.

completed college education

12.

incomplete university education

13.

completed university education

14.

specialization, master's or doctor's degree.


In the sample of sons there were no entities in category No. 14.

Table 1 shows the results of canonical analysis of relations between the educational status of fathers
and sons. Table 2 shows the results of canonical analysis of relations between the educational status of
mothers and sons. The results of canonical analysis have been associated to the results of standard analysis of
association of non-numerical variables.
The symbols in the tables have the following meanings:
Y2 = great canonical transformation of educational characteristics of parents associated to the maximal
canonical correlation
K2 = canonical factor associated to the categories of parents; standardization has been derived on the basis
of probability of belonging to individual categories
X2 = great canonical transformation of educational characteristics of sons associated to maximal correlation
L2 = canonical factor associated to the categories of sons; standardization has been derived on the basis of
probability of belonging to1individual categories
2 = maximal canonical correlation
22 = value of 2 associated to the maximal canonical correlation
df2 = degrees of freedom for 22
q2 = probability that in population 2 = 0
r

= symmetrical association coefficient of W. Pearson

= contingency coefficient of K. Pearson

= Cramer's association coefficient


2 = value of 2 associated to coefficients c and
df = degrees of freedom for 2
q = probability that in population c = 0 and = 0.

134

Uvod u analizu nominalnih varijabli

As it can be seen from the obtained results the applied method scales very well the reflected values of
categories on the basis of which the educational status has been estimated. Maximal correlation is
numerically very close to the measure of association of W. Pearson.
Cramer's association coefficient, which is the root of the mean squares of non-trivial canonical correlations, is obviously a measure which does not make much sense tinder the aspect of estimation of actual
correlation between two nominal variables. There is obviously no sense in wasting words on the contingency
coefficient of K. Pearson, whose metrics is incomparable for contingency tables of different dimensions.
As it has been established in many previous analyses the influence of the educational status of the
father on the educational status of the son is markedly greater than the influence of the educational status of
the mother. Apart from that, the analysis of relations between the educational status of fathers and sons has
produced a much higher degree of accordance between weights associated to particular categories and their
ordinal positions, then in the case when the relations between the educational status of mothers and sons
have been analysed.
Table 1
CANONICAL ANALYSIS OF RELATIONS BETWEEN THE EDUCATIONAL STATUS OF FATHERS
AND SONS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

FATHER
Y2
1.07
.66
.43
.93
.41
.18
-.09
-.69
-.48
-2.55
-1.58
-2.94
-2.87
-3.37
-3.51
-3-47

22
df2
q2
r
c

2
df
q

=
=
=
=
=
=
=
=
=
=

K2
.07
.03
.05
.07
.11
.01
-.01
-.00
-.04
-.05
-.12
-.02
-.04
-.02
-.05
-.00

1
2
3
4
5
6
7
8
9
10
11
12
13

SON
X2
1.85
1.80
1.22
.89
.69
.04
.27
.22
-.05
-1.49
-.37
-1.55
-2.37

L2
.02
.01
.10
.09
.08
.00
.06
.00
-.01
-.09
-.02
-.10
-.16

0.45
138.98
16
0.000
0.44
0.59
0.21
378.39
84
0.000

135

Konstantin Momirovi u statistici

Table 2
CANONICAL ANALYSIS OF RELATIONS BETWEEN THE EDUCATIONAL STATUS OF MOTHERS
AND SONS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

MOTHER
Y2
1.73
.19
.32
-.13
.64
-.42
- 1. 14
.44
-1.63
-3.30
-2.46
-5.32
-3.76
-6.18
-5-75

22
df2
q2
r
c

2
df
q

=
=
=
=
=
=
=
=
=
=

136

0.39
103.46
15
0.000
0.37
0.50
0.17
229.23
67
0.000

K2

.09
.04
.05
-.01
.15
-.04
-.09
.00
-.03
-.03
-.07
-.01
-.02
-.01
-.02

1
2
3
4
5
6
7
8
9
10
11
12
13

SON
X2
1.91
2.20
1.16
.68
.67
.26
.28
.57
.06
-.79
-.70
-2.39
-2.06

L2

.02
.01
.09
.07
.08
.01
.06
.01
.01
-.05
-.03
-.15
-.14

Uvod u analizu nominalnih varijabli

REFERENCES
1.

Bosnar, K. and L. Pavii. The application of SS language in canonical analysis of contingency table,
COMPSTAT 82 proceedings, Physica - Verlag, Wien, 1982, 41-42.

2.

Cramer, H. The elements of probability theory and some of its applications. Wiley, New York, 1946.

3.

Pearson, K. On the correlation of characters not quantitatively measurable. Philosophical transactions,


series A, 1901, 195, 1-47.

4.

Pearson, W. H. Estimation of a correlation coeficient from a uncertanity measure. Psychoinetrika, 1966.

5.

Williams, E. J. Use of scores for the analysis of association in contingency tables, Biometrika, 1952, 39,
65-81.

6.

Zlobec, L., M. Varga i K. Momirovi. CONTAB program za analizu nominalnih i ordinalnih varijabli,
Kineziologija, 1974, 4, 1, 99-107.

137

Konstantin Momirovi u statistici

LITERATURA
Mnogoznalost ne ui pameti.
Heraklit iz Efesa
1. Anderberg, M. R. (1973): Cluster analysis for application. Academic Press, New York.
2. Anderson,
T-W. (1958): An introduction to multivariate statistical analysis. Wiley,
New York.
3. , .., .. i .. (1985): :
. , .
4. Benzecri, J. P. (1976): L'analyse des donnees.'2. L'analyse des correspondences. Dunod, Paris.
5. Blalock, H. M. (1972): Social statistics (2 edition). McGraw-Hill, New York.
6. Bosnar, K. and L. Pavii (1982): The application of SS language in canonical analysis of
contingency table. COMPSTAT 82, Short Communications, pp. 41-42, Physica-Verlag, Wien.
7. Bosnar, K. and A. Hoek (1983): Maximization of the correlation of two qualitative variables:
the approach and an example. Proceedings of 5th International Symposium
'Computer . at the University', 776-783.
8. Burt, C. (1950): The factorial analysis of qualitative data.
British Journal of Statistical Psychology, 3, 166-185.
9. De Leeuw, J., F. W. Young and Y. Takane (1976): Additive structure in qualitative data.
Psychometrika, 41, 471-504.
10. De Leeuw, J. (1984): The Gifi. system of nonlinear multivariate analysis.
Data Analysis and Informatics, III, pp. 415-424, North-Holland, Amsterdam.
11. Dixon, W. J. (1977): EMD. Biometrical computer programs. University of California Press,
Berkeley.
12. Droste, M. (1987): Ordinal scales, in the theory of measurement. Journal of Mathematical
Psychology, 31, 60-82.
13. , .. (1986): , , .
, .
14. , .. .. (1986): .
, .
15. Garner, W. R. (1962): Uncertainty and structure as psychological concepts. Wiley, New York.
16. Goodman, L. A. ans W. H. Kruskall (1954): Measures of association for crossclassification.
Journal of American Statistical Association, 49, 732-764.
17. Gredeij, M., A. Hoek, K. Momirovi, K. Petrovi i D. Tarbuk (1973): Relacije izmedju vrste
kinezioloke aktivnosti i kolskog uspjeha uenika srednjih kola. Kineziologija, 3, 2 : 103-114.
18. Guttman, L. (1941): The quantification of a class of attributes: a theory and method of scale
construction. In P. Horst, ed: The prediction of personal adjustment,
Social Science Research Council, New York.
19. Hayashi, C. (1956): Theory and examples of quantification, II.
Proceedings of Institute of Statistical Mathematics, 4, 19-30.
20. Hays, W. L. (1963): Statistics.Holt, Rinehart and Winston, New York.
21. Horst, P. (1965): Factor analysis of data matrices. Holt, Rinehart and Winston, New York.
22. Hoek, A., K. Petrovi i K. Momirovi (1974): Neke relacije izmeu sankcija izreenih
maloljetnim poiniocima krivinih djela i njihovih sociolokih karakteristika
u postpenalnom razdoblju. Defektologija, 10, 1-2 : 49-92.
138

Uvod u analizu nominalnih varijabli

23. Kendall, M. G. and A. Stuart (1961): The advanced theory of statistics. 2. Inference and relationship.
Hafner, New York.
24. Knuth, D. E. (1973): The art of computer programming. 3.
Sorting and searching.Addison-Wesley, Reading.
25. , .. (1987): . , .
26. Lauro, K. et L. D'Ambra (1984): L'analyse non symetrique des correspodances.
Data Analysis and Informatics, III, pp. 4 33-446, North-Holland, Amsterdam.
27. Lebart, L., A. Morineau et N. Tabard (1977): Techniques de la description statistique.
Dunod, Paris.
28. Lerman, I. C. (1984): Analyse classificatoire d'une correspondance multiple.
Data Analysis and Informatics, III, pp. 19 3-212. North-Holland, Amsterdam.
29. Mc Donald, R. P. (1969): The common factor analysis of multicategory data.
The British Journal of Mathematical and Statistical Psychology, 22, 2 : 165-175.
30. Mc Nemar, Q. (1969): Psychological statistics (4edition). Wiley, New York.
31. Momirovi, K. (1972): Metode za transformaciju i kondenzaciju kineziolokih informacija.
Institut za kineziologiju, Zagreb.
32. Momirovi, K., M. Gredelj i M. Herak (19 80): LITTLE HAROLD - Algoritam i program
za odreivanje kanonikih relacija dva skupa nekvantitativnih podataka.
Zbornik 2 Meunarodnog simpozija 'Kompjuter na Sveuilitu', 3 : 35-44.
33. Momirovi, K., L. Szirovicza, V. Dobri i M. Gredelj (1980): LITTLE RAO
Algoritam i program za regresijsku i diskriminativnu analizu na temelju nekvantitativnih
podataka. Zbornik 2 Meunarodnog simpozija 'Kompjuter na Sveuilitu', 3 : 45-51.
34. Momirovi, K., V. Dobri, M. Gredelj i L. Szirovicza (1980): BURT
Algoritam i program za odreivanje latentnih dimenzija skupa nominalnih varijabli.
Defektologija, 16, 1-2 : 19-26.
35. Momirovi, K. , L. Szirovicza, M. Gredelj and V. Dobri (1980): CATTELL
Algorithm ang. programme for the determination of polar taxons based on
non-quantitative data. Collegium Antropologicum, 4 (suppl.), 41-44.
36. Momirovi, K. , K. Bosnar, J. talec i F. Prot (1983):
Algoritam i program za metriko multidimenzionalno skaliranje objekata opisanih
nad skupom nominalnih varijabli. Kineziologija, 15, 1 : 5-8.
37. Momirovi, K. i sur. (1987): Metode, algoritmi i programi za analizu kvantitativnih i
kvalitativnih promjena. Institut za kineziologiju FFK, Zagreb.
38. Mulaik, S. A. (1972): The foundations of factor analysis. McGraw-Hill, New York.
39. Nie, N. H., D. H. Bent and C. H. Hull (1970): SPSS.
Statistical package for the social sciences. McGraw-Hill, New York.
40. Pearson, W. H. (1966): Estimation of a correlation coefficient from a uncertainty measure.
Psychometrika, 31, 421-433.
41. Pfanzagl, J, (1968): Theory of measurement. Physica-Verlag, Wurzburg.
42. Polhemus; N. W. (1985): STATGRAPHICS. Statistical graphic system. STSC, Rockville.
43. Rao, C. R. (1973): Linear statistical inference and its applications (2 edition). Wiley, New York.
44. Reynolds, H. T. (1977): Analysis of nominal data. Sage University Paper series on
Quantitative Applications in Social Sciences, 07-007, Sage Publications, Beverly Hills and
London.
45. SAS Institute Inc. (1985): SAS/STAT Guide for personal computers,
Version 6 Edition. SAS Institute, Cary, NC.
139

Konstantin Momirovi u statistici

46. Tenenhaus, M. and F. W. Young (19 85): An analysis and synthesis of multiple correspondence
analysis, optimal scaling, dual scaling, homogeneity analysis and other methods
for quantifying categorical multivariate data. Psychometrika, 50, 91-119.
47. Tou, J. T. and R. C. Gonzales (1974): Pattern recognition principles. Addison-Wesley, Reading.
48. Williams, E. J. (1952): Use of scores for the analysis of association in contingency tables.
Biometrika, 39, 274-289.
49. Wilkinson, L. (1985): SYSTAT. The system for statistics. Systat, Evenston.
50. Wilks, S. S. (1962): Mathematical statistics.Wiley, New York.
51. Zegers, F. E. and J. M. F. ten Berge (1985): A family of association coefficients
for metric scales. Psychometrika, 50, 17-24.
52. Zlobec, L., M. Varga i K. Momirovi (1974): CONTAB - program za analizu
nominalnih i ordinalnih varijabli. Kineziologija, 4, 1 : 99-107.

140

II DEO

OBJAVLJENI RADOVI
STATISTIKE REVIJE
MAJSKI SKUP (ZBORNICI RADOVA)
1958. do 2000.

Objavljeni radovi

(1 ) STATISTIKA REVIJA 1958 I

H. Maver, E. Ferber, K. Momirovi


KORELACIJA VITAMINSKOG DEFICITA U HRANI
I UEA DEFICITARNIH SIMPTOMA
(Prilog anketi prehrane gradskog stanovnitva u NR Hrvatskoj)
Uvod
U toku 1956. godine izvreno je ispitivanje prehrane gradskog stanovnitva Hrvatske i odraza
prehrane na zdravstveno stanje ispitivanog stanovnitva (Ferber-Maver). Ispitivanje prehrane izvreno je u
pet gradova NR Hrvatske, tj. u Zagrebu, Rijeci, Splitu i Varadinu, dok je ispitivanje zdravstvenog stanja
izvreno jo i u Osijeku. Ispitivano je ukupno 835 kuanstava odnosno pregledano ukupno 11 294 stanovnika
NR Hrvatske. Tabela br. 1 pokazuje strukturu pregledanog stanovnitva po uzrastu i vrsti zaposlenja.
Ispitivanje prehrane izvreno je po tzv. inventurnoj metodi (Food and Agriculture Organization, 1949), u
toku mjesec dana, u svakom kuanstvu. Kuanstva su ostala anonimna, kako bi se dobili to vjerodostojniji
podaci. U propisane obrasce domaice su unosile koliine ivenih namirnica koje su svakog dana
kupovale. Donos iz proteklog mjeseca i ostatak iz tekueg mjeseca odbio se od ukupne koliine ivenih
namirnica.
Kalorine vrijednosti i vrijednosti bjelanevina, masti i ugljikohidrata, kao i vitamina i
mineralnih soli, izraunavale su se prema tablicama Food and Agriculture Organization iz 1954.
Tabela 1.
Pregledano
Examined
Pretkolska djeca
Children
kolska djeca
School children
Uenici u privredi
Young workers
Radnici i slubenici
Workers and clerks
Ukupno
Total

Mukarci
Men

ene
Women

Ukupno
Total

146

148

294

3 073

2 947

6 020

303

303

3 081

1596

4 677

6 603

4 691

11294

Ispitivanje klinikih znakova deficita zatitnih tvari, kao i antropometrijska i laboratorijska ispitivanja,
vrila je ekipa lijenika Centralnog higijenskog zavoda, koja je stalno bila u istom sastavu. Iako su u ovom
opisu prikazane samo korelacije izmeu deficita vitamina A, B2 i C u odnosu na znakove deficita tih vitamina, treba istaknuti da je vreno i mjerenje potkonog masnog tkiva, ispitivanje hemoglobina u krvi, kao i
mjerenje visine i teine tijela. Osim toga, mjeren je i biakromijalni i bikristalni raspon.
Pri naim pregledima u interpretaciji pojedinih klinikih simptoma sluili smo se shemom po Jolliffe-u
(1950). Slijedee simptome smatrali smo znakom deficita pojedinih vitamina (vidi tabelu 2).
Deficit vitamina
Vitamin deficiency
Deficit A vitamina
Deficit riboflavina
Deficit C vitamina

Tabela 2.
Kliniki simptomi
Clinical findings
hyperkeratosis follicularis xerosis
dyssebacea cheilosis stomatis angularis fissurae
angularis La perleche Magenta jezik
Gingivitis haemorrhagia gingivae spontanea haemorrhagia
gingivae e compressione

U ovom radu nastojalo se utvrditi korelacije izmeu primane koliine vitamina A, riboflavina i
vitamina C u hrani, te klinikih simptoma koji se javljaju kod nedostatka tih vitamina.
143

Konstantin Momirovi u statistici

Metodika rada
Rezultati su prikazani kontingencionim tabelama 2 x 2, gdje redovi oznaavaju povienu iii smanjenu
prosjenu vrijednost vitamina u hrani, analiziranu na reprezentativnom uzorku obroka ispitivane populacije,
a kolone prisustvo ili odsustvo simptoma avitaminoze kod pripadnika ispitivane populacije.
Opa shema tabela 2 x 2 upotrebljenih za prikaz i analizu naih rezultata data je u tabeli 3.
Tabela 3.
f+A
fA
a
b
c
d
T
NT
a
c
(10% 1%)

Uzorak I
Uzorak II
Total
Znaajnost
PP

Total
N1
N2
N

%
P
Q
1.00

ac
(5% 0,5%)

Uzorak I = populacija u ijoj hrani nije bilo dovoljno vitamina.


Uzorak II = populacija u ijoj je hrani bilo vie vitamina nego u hrani populacije I.
N1, N2

= efektivi uzoraka I, II.

= N1 + N2

= frekvencija avitaminoze u uzorku I.

= frekvencija avitaminoza u uzorku II.

b, d

= broj ispitanika bez simptoma avitaminoze u uzorcima I, II.

=a+c

NT

= b +d

P=

N1
N1 + N 2

Q=

N2
N1 + N 2

Znaajnost je odreivana za a i c i za njihov odnos i oznaena je procentom probabiliteta hipoteze da


je povezanost izmeu koliine vitamina u hrani i pojave simptoma avitaminoze sluajna, tj. = 0.
Raunate su znaajnosti za PP 10%, 5%, 2% i 1% za odnos a i c.
Raunate su znaajnosti za PP 5%, 2,5%, 1% i 0,5% za frekvencije a ili c.
U analizi tabela primjenjen je postupak I. Brossa i E. Kastena (1957), koji ide za tim da reducira
muan posao oko raunanja 2 za svaku kontingencionu tabelu.
Pod uvjetima definiranim jednadbama

N 1 >< max 9 N 2

(1)

T < NT

(2)

T << N

(3)

iako su uzorci I i II nezavisni, moe se iz Poisson-ove distribucije:

P ( a , c / 1 , 2 = P ( a ) P ( c ) =

e N11 ( N11 ) a e N 22 ( N 2 2 ) c

a!
c!

Gde je 1 = probabilitet skupina u uzorku I


2 = probabilitet skupina u uzorku II
pod pretpostavkom nul-hipoteze, tj.
144

(4)

Objavljeni radovi

1 = 2 = 0
kad se jednadba (4) reducira na

(5)

e ( N1 + N 2 ) T N1 N 2
P(a , c / ) =
a!c!
a

(6)

i napie u obliku

P(a , c / ) = P(a / T)P(T / ) =


a

N1
N2
e ( N1 + N 2 ) (N 1 + N 2 ) T
T!

a!c! N 1 + N 2 N1 + N 2
T!

(7)

dobija se prosta binomna distribucija

P (a / T ) =

T! a c
P Q
a!c!

(8)

gdje je

P=

N1
N1 + N 2

Q=

N2
N1 + N 2

Jednadba (8) zavisi od T i P (jer je Q = 1 P) iako su date vrijednosti za T i eljeni procent


probabiliteta, kritina ocjena za a (ili c) zavisi samo od P (ili Q), pa se mogu izraditi tabele za razliite
procente probabiliteta gdje se kritina ocjena moe direktno oitati ako su poznati T i P, i ako su zadovoljeni
uvjeti definirani jednadbama (1), (2) i (3). Autori ove metode, Bross i E. Kasten, izradili su tabele (do
granice T = 49) iz kojih su oitane kritine vrijednosti, upotrebljene za analizu naih tabela.
Odnos a, c je znaajan ako su i a i c jednaki ili manji od svoje kritine ocjene.
Frekvencije a ili c su znaajne ako su a ili c jednaki ili manji od svoje kritine ocjene.
Ova metoda dozvoljava da se vei broj kontingencionih tabela izanalizira za mnogo krae vrijeme
nego to iznosi vrijeme potrebno za izraunavanje 2.
Tabele 4-9 prikazuju znaajnost povezanosti simptoma deficita vitamina sa koliinama utroenog
vitamina.

Sadraj A vitamina
(I. J.) u hrani.
Vitamin A (I. U.) in
food
< 2 500
> 2 500
Ukupno / Total
Znaajnost
PP

Tabela 4 A vitamin mukarci Men


Broj osoba
Examined men
Ukupno
sa simptomima bez simptoma
Total
deficita
deficita
With deficiency Without deficisimptoms
ency simptoms
10
178
188
39
370
409
49
548
597
a
c
ac
> 10
> 10
> 10

Tabela 5 A vitamin ene Women


Broj osoba
Sadraj A vitamina
Examined women
Ukupno
(I. J.) u hrani
sa simptomima bez simptoma
Total
Vitamin A (I. U.) in
deficita
deficita
food
With deficiency Without deficisimptoms
ency simptoms
< 2 500
8
104
112
> 2 500
39
200
239
Ukupno / Total
47
304
351
Znaajnost
a
c
ac
PP
=5
> 10
>10

0,32
0,68
1,00

0,32
0,68
1,00

145

Konstantin Momirovi u statistici

Tabela 6 Riboflavin mukarci Men


Sadraj riboflavina
(mg) u hrani
Riboflavin (mg) in
food
< 1,5 mg
> 1,5 mg
Ukupno / Total
Znaajnost
PP

Broj osoba
Examined men
sa simptomima bez simptoma
deficita
deficita
With deficiency
Without defisimptoms
ciency simptoms
5
226
44
309
49
535
a
c
<<1
> 10

Ukupno
Total

231
353
584

0,40
0,60
1,00
ac
> 10

Tabela 7 Riboflavin ene Women


Sadraj riboflavina
(mg) u hrani
Riboflavin (mg) in
food
< 1,5 mg
> 1,5 mg
Ukupno / Total
Znaajnost
PP

Broj osoba
examined women
sa simptomima
bez simptoma
deficita
deficita Without
With deficiency
deficiency
simptoms
simptoms
12
811
36
1323
48
2 134
a
c
= 10
> 10

Ukupno
Total

823
1359
2182

0,38
0,62
1,00
ac
>10

Tabela 8 C vitamin mukarci Men


Sadraj C vitamina
(mg) u hrani
Vitamin C (mg) in
food
< 55
> 55
Ukupno / Total
Znaajnost
PP

Broj osoba
Examined men
sa simptomima
bez simptoma
deficita
deficita Without
With deficiency
deficiency
simptoms
simptoms
4
1690
3
951
7
2 641
a
c
> 10
> 10

Ukupno
Total

1694
954
2 648

0,64
0,36
1,00
ac
> 10

Tabela 9 C vitamin ene Women


Sadraj C vitamina
(mg) u hrani
Vitamin C (mg) in
food
< 55
> 55
Ukupno / Total
Znaajnost
PP

146

Broj osoba
Examined women
sa simptomima
bez simptoma
deficita
deficita
With deficiency Without deficisimptoms
ency simptoms
3
1668
0
874
3
2 545
a
c
>>10
>>10

Ukupno
Total

1671
874
2 545

0,66
0,34
1,00
ac
>>10

Objavljeni radovi

Interpretacija rezultata
Iz tabele se vidi da se nigdje nije mogla dokazati povezanost pojave avitaminoza s koliinom vitamina
u hrani. Ovaj rezultat, na prvi pogled neoekivan, postaje razumljiv ako se zapazi da deficit vitamina u hrani
u uzorku I nikada nije bio potpun, a koliina vitamina u hrani u uzorku II nikada nije bila pretjerana. Na taj
nain imali smo reduciranu varijancu distribucije vitamina u hrani u ispitivanoj skupini, to znai da
ispitivanjem nisu obuhvaene ekstremne vrijednosti sadraja vitamina u hrani.
Ako napiemo opu jednadbu reakcije organiziranog sistema na neke nanesene promjene
R = f (a, b, c, d, ... n, ... t, ... x, y, z)
(9)
gdje je
R = reakcija sistema, u naem sluaju pojava simptoma
a, b, c, d = promjene nanesene sistemu, u naem sluaju nedostatak vitamina.
n = frekvencija kojom promjene djeluju na sistem, u naem sluaju npr. frekvencija deficitnih obroka.
t = vrijeme kroz koje promjene djeluju na sistem, u naem sluaju trajanje uzimanja vitaminom deficitne
hrane.
x, y, z = unutranji parametri koji definiraju strukturu sistema, u naem sluaju fizika konstitucija,
zdravstveno stanje, otpornost organizma itd.
Ako je
a, b, c, d 0
onda je i
n=0
t=0
pa jednadba (9) poprima oblik
R = f (x, y, z)
(10)
tj. reakcija zavisi samo od strukture sistema. Varijanca R ima za izvor samo varijance i interrelacije x, y, z.
Ako
a, b, c, d 0
onda se vrijednost n, t, mogu zanemariti pa dobivamo opet jednadbu (10).
Prema tome, reakcija sistema u naem sluaju pojava simptoma ne zavisi samo od promjene ve i
od njihovog intenziteta u vremenu i prostoru, naroito od faktora inherentnih sistema u naem sluaju od
zdravstvenog stanja organizma i njegove otpornosti, tj. sposobnosti kompenzacije. Oito je da R vie zavisi
od x, y, z to je intenzitet a, b, c, d manji. Ako su x, y, z parametri koji tendiraju da odre integritet sistema,
bit e potrebni znatni intenziteti a, b, c, d da bi dolo do reakcije. U naem sluaju, gdje su usporeivane
frekvencije pojava simptoma od dve skupine koje su se hranile hranom koja je sadravala razliite koliine
vitamina, bila bi potrebna znatna razlika u sadrini vitamina u hrani, da bi a, b, c, d mogli da nadvladaju
faktore x, y, z, koji tendiraju da odre integritet organizma. ak i ako pretpostavimo da su n i t za obe
skupine isti, a isto tako i x, y, z, onda a, b, c, d jo uvijek ne bi mogli da izazovu statistiki znaajnu razliku R
ako se nalaze unutar nekih uskih granica odreenih reduciranom varijancom njihove distribucije. Varijanca R
koju unose a, b, c, d je prema tome, ako je varijanca za a, b, c, d za cijelu skupinu malena, beznaajna s
obzirom na varijancu koju unose ostali faktori koji determiniraju R. Razlike u pojavi simptoma avitaminoza
nuno su prema tome beznaajne ako je varijanca koliine vitamina u hrani za cijelu populaciju malena, tj.
ako se reduciranjem intragrupne reducira i intergrupna varijanca. U konkretnom sluaju se osim toga radi o
reakcijama organizma koji tendira odravanju ravnotee, pa bi R mogao nastati samo za ekstremne
vrijednosti a, b, c, d.
147

Konstantin Momirovi u statistici

Zakljuak
Iz napred navedenog moemo zakljuiti da pojava simptoma deficita vitamina zavisi od mnogih
faktora a ne samo od primarne koliine vitamina u hrani. Uloga tih faktora utoliko vie dolazi do izraaja to
se koliina vitamina u hrani udaljuje od ekstremnih vrijednosti. Prava klinika slika avitaminoze razvit e se
samo u sluaju kada su koliine vitamina u hrani ekstremno niske. Ako su koliine vitamina u hrani
ekstremno visoke, onda nee dolaziti do simptoma avitaminoze.
Literatura
Bross I., E. Kasten, 1957. Rapid analysis of 2 x 2 tables. J. of American Statist. association. 277, 1829
Brockett J. E. et al. 1956. Correlations between clinical sings and biochemical findings. Metabolism V/3,
283287.
Ferber E., H. Maver. Prilog poznavanju prehrane stanovnitva u pet gradova NR Hrvatske. 1957. Centralni
higijenski zavod Zagreb.
Jolliffe N., F. F. Tisdall. P. R. Cannon, Clinical nutrition. New York 1950.
Jolliffe N., 1954. Clinical examination, Methods for evaluation of nutritional adequacy and status. Dep. of the
army office of the Quart. General 195202.
Wohl M. G., R. S. Goodhart, 1955. Modern nutrition in health and disease. Lea Febiger, Philadelphia.

H. Maver, E. Ferber, K. Momirovi

THE CORRELATION BETWEEN CLINICAL FINDINGS OF


VITAMIN DEFICIENCY AND THE VALUES OF VITAMINS IN
FOOD
Summary
In the cities of Croatia there are many people with physical findings of
vitamin deficiencies (nutrition survey Ferber, Maver 1956). The Aa. tried to study
the correlation between clinical findings of vitamin deficiency and the values of
vitamins in food, with a rapid analysis of 2x2 tables after the method of Bross and
Kasten.
No statistically significant correlation was found between the clinical
findings and vitamin in food. The interpretation of clinical findings depends on
many factors, and only when the values of vitamins in food are very high or very
low, the clinical signs may be interpreted as pat-hognomonic signs of a specific
vitamin deficiency

148

Objavljeni radovi

(2 ) STATISTIKA REVIJA 1958 II

K. Momirovi, H. Maver, . Deanovi, B. Stojni


PRIMJENA METODE USPOREDBE PO PAROVIMA ZA
ODREIVANJE STANJA UHRANJENOSTI
Izvrena je analiza valjanosti metode usporedbe po parovima za odreivanje
stanja uhranjenosti. Subjektivni ocjenjivai imali su zadovoljavajuu konzistenciju i
beznaajne pogreke mjesta. Kod velikog broja ispitanika analiza se moe zaustaviti
ve na polovici od ukupnog broja usporedbi. Analiza varijance pokazuje da
subjektivni ocjenjivai odlino diferenciraju ispitanike i da je njihova vjernost i
objektivnost sasvim zadovoljavajua .

1. Uvod
Jo prije II svjetskog rata poelo je u svijetu sistematsko ispitivanje pre-hranbenog stanja populacionih
grupa (I). Ta ispitivanja znatno su proirena u ratnim godinama, kada je u centar panje dolo odreivanje
prehranbenog stanja vojnika. U poslijeratnom periodu ispitivanja su vrena u raznim krajevima svijeta s
ciljem da se ustanovi prehrambeno stanje krajeva, odnosno pojedinih populacionih grupa. Na taj nain
stvorena je tona slika o prehrani nekih naroda ili odreenih kolektiva, a to je dovelo do otkria raznih formi
malnutricije u mnogim dijelovima svijeta. Naroito su u tom pogledu poznata mnogostruka ispitivanja
Darby-a (2, 3), Sebrell-a (4), Jolliffe-a (5), Dann-a (12) i mnogih drugih autora.
U naoj zemlji vrena su takoer slina ispitivanja s ciljem odreivanja prehranbenog stanja naih
naroda (6, 7). I u nekim studijama koje su imale svrhu da prikau guavost samo jednog kraja (kao npr.
kotara Srebrenice, otoka Krka) dat je irok prikaz o prehranbenom stanju naroda tog kraja (8, 17). I neki
strani autori pokazali su veliki interes za neke specifine probleme prehrane u naim krajevima, kao npr.
Darby, koji je na podruju Kosmeta vrio opsena ispitivanja pelagre u suradnji s naim prehranbenim
strunjacima (11, 18).
Vanost tog problema moe se uoiti i u eksperimentalnim radovima, meu kojima se naroito istie
rad Keys-a i suradnika (9). Svojim radom na ispitivanju svih promjena organizma koji je stavljen u stadij
polugladovanja omoguili su nam znatno dublji uvid u razvoj promjena do kojih dolazi kod pojedinih
malnutricija.
Svako ispitivanje prehrane vri se danas po ve dosta ustaljenim shemama, koje su stvorene uglavnom
na temelju radova Jolliffe-a i Darby-a, a prihvaena su i od posebnog komiteta strunjaka Svjetske
zdravstvene organizacije (WHO) i Svjetske organizacije za prehranu (FAO) (16). Ispitivanje prehrane vri se
danas u etiri osnovna pravca;
a) Ispitivanje utroka ivenih namirnica
Ovo ispitivanje vri se raznovrsnim metodama koje sve imaju za cilj da nam omogue da to tonije
ustanovimo koliine energetskih i zatitnih supstanca koje pojedinac dobiva svakog dana. Taj nain
ispitivanja je tehniki dosta teak za sprovoenje kad se radi o prehrani stanovnika jednog kraja ili grada,
dok se mnogo lake sprovodi u svakom zatvorenom kolektivu, gdje se hrana priprema zajedniki za itav
kolektiv.
b) Biokemijsko ispitivanje
Upoznavanje kemijskih struktura pojedinih hranjivih supstanca omoguilo je da se analizira sudbina
tih tvari u organizmu, i da se izrade metode za otkrivanje metabolikih abnormalnosti u sluajevima
nedostatka pojedinih hranjivih supstanca.
Stvorene su mnogobrojne kemijske i mikrobioloke metode s velikom tonou mjerenja, ali je
interpretacija takvih rezultata uvijek dosta teka. To je razumljivo kad znamo da jo i danas postoje razna
149

Konstantin Momirovi u statistici

miljenja o potrebama organizma u pojedinim prehranbenim supstancama (10, 11), a, osim toga, ne postoje
metode za mjerenje stepena zdravlja normalnog ovjeka. Mi jo tono ne znamo kolika je koliina neke
hranjive supstance potrebna za ouvanje organizma od odgovarajue deficitarne bolesti, te koliko svake od
ovih supstanca treba za normalan ivot i rad. S obzirom na vrlo razliite prehranbene navike pojedinih rasa i
naroda, u ovoj problematici postoje sigurno i neki specifini, jo dovoljno neistraeni faktori, koji jos vie
kompliciraju ova pitanja.
Dann i Darby (12) prikazali su tekoe odreivanja nutricionog statusa svojom podjelom
prehranbenog stanja na pet moguih zona saturacije organizma hranjivim supstancama (zona saturacije,
nesaturirana zona bez znakova funkcionalnih smetnji, zona potencionalno deficitarne bolesti, zona latentnih
deficitarnih bolesti i zona kliniki manifestnog deficita).
c) Klinike metode
Poznavanjem velikog broja klinikih simptoma, koji se dovode u vezu s nekim prehranbenim
deficitom, smatralo se da e biti lako svakom lijeniku da samo na temelju klinike slike postavi dijagnozu
deficitnog prehranbenog stanja (13). Meutim, ve 1945. godine, Adamson i suradnici (5) piu da postoje
razliita miljenja o specifinosti pojedinih opisanih lezija, koje su se pripisivale nedostatku samo jednog
prehranbenog faktora, te da etiologija pojedinih simptoma nije u potpunosti razjanjena. Jolliffe (14) smatra
da se svaki kliniki deficitarni" simptom mora posmatrati u sklopu svih ostalih nalaza i u svijetlu dijetalne
anamneze.
d) Antropometrijske mjere
Ve dugo je poznato da rast, teina i sastav tijela dobrim dijelom ovise o prehrani i da ti podaci mogu
posluiti kao kriterij za odreivanje prehranbenog stanja (15). Antropometrijskim mjerama omogueno je da
se prati variranje teine tijela, i to ne samo s obzirom na visinu, odnosno irinu tijela, nego i s obzirom na
nagomilavanje masnog tkiva. Ta mjerenja omoguuju nam da dobijemo uvid u normalne vrijednosti teine,
visine i ostalih antropometrijskih mjera neke populacije, tako da poslije moemo za kolektiv ili za pojedinca
dati miljenje o tome da li su previsoki, preniski, predebeli ili premravi, ili su njihove mjere upravo
optimalne.
Sve metode koje su naprijed navedene primjenjuju se danas pri svakom odreivanju prehranbenog
stanja.
Cilj naeg rada bio je da se odredi prehranbeno stanje pripadnika jednog vojnog kolektiva. U naem
radu mi smo se posluili svim naprijed navedenim metodama, no usto smo htjeli ispitati vrijednost
subjektivne metode usporedbe po parovima, koja bi bila znatno jednostavnija i koja bi omoguila
ocjenjivanje prehranbenog stanja i onima koji nemaju tehnikih pomagala neophodnih za naprijed navedene
metode.
Ova metoda omoguuje da se unutar ispitanoga kolektiva odredi redoslijed uhranjenosti pojedinaca,
ali ne moe dati nikakve pouzdane podatke o apsolutnom stanju uhranjenosti svakog pojedinog ispitanika.
2. Teorijske osnove i tehnika rada kod metode usporedbe po parovima
Metoda usporedbe po parovima bazira se na Thurstone-ovom zakonu kom-parativnog suda,
formuliranom jednadbom:

R j Rk = z jk SD 2j + SDk2 2rSD j SDk

(19, 20),

gdje je Rj,k = sud o fenomenu j, k;


zjk = razlika izmeu fenomena j i k izraenih u standardnoj vrijednosti
r = koeficijent korelacije izmeu fenomena j i k
SDj,k = standardna devijacija fenomena j i k;
ova metoda je u esteziometriji i naroito u eksperimentalnoj estetici bila primijenjena i prije nego to je
Thurstone formulirao svoj zakon komparativnog suda (19, 20, 24). Prvi je ovu metodu uveo Cohn, 1894,
ispitujui preferenciju za boje, a usavrili su je naroito radovi Thurstone-a, Guilford-a, Folgman-a,
Mosteller-a i drugih.
Metoda se sastoji u usporedbi fenomena, podraaja, ispitanika, itd., svakoga sa svakim, i u
150

Objavljeni radovi

odreivanju koji od dva usporeivana fenomena posjeduje u veoj mjeri karakteristiku koja se odreuje.
Dokazano je (19, 20) da se metoda usporedbe po parovima, na koju se inae dadu svesti sve druge metode
odreivanja ranga, moe svesti na metodu konstantnih podraaja, poznatu u esteziometriji.
Ocjenjivai, oznaeni u daljem tekstu sa 1, 2, 3, 4, bila su lica bez specijalne strune spreme (izuzev,
donekle, ocjenjivaa 1) za probleme odreivanja uhranjenosti. Uputstvo je bilo da odrede tko je od dva
ispitanika uhranjeniji.
U naim pokusima mi smo dopustili mogunost da ocjenjiva odredi da dva fenomena u naem
sluaju ispitanika posjeduju ispitivanu karakteristiku u istoj mjeri, tj. u naem sluaju da su jednako
uhranjeni. Razlog je bio taj to bi forsiranje odluke pri brzom slijedu parova, koje je trebalo ocjeniti, sigurno
naruilo konzistenciju ocjenjivaa, iako inae neodlune" ocjene sa svoje strane nuno matematiki slabe
konzistenciju (24). Analiza je pokazala da je naa hipoteza u tom pogledu bila pravilna.
Usporedbi je podvrgnut 121 ispitanik. Ispitanici su bili izabrani metodom jednostavnog sluajnog
izbora (intervalna metoda sa sluajnim poetkom iz promijeane populacije). Ispitanik koji je bio uhranjeniji
od onoga s kojim je bio usporeen dobio je ocjenu 1, a onaj drugi 0; u sluaju da se ocjenjiva nije mogao
odluiti, oba su dobila 1/2 boda. Rezultati su upisani na tabele dimenzije NN. Prilikom samog ocjenjivanja
ocjenjiva bi samo zaokruio broj ispitanika koji je pobijedio" u posebnoj svesci, u koju su ve bili uneseni
svi parovi, rasporeeni po Bergerovim tablicama.
Bergerov princip odreivanja redoslijeda i mjesta parova koji se ocjenjuju (jednako je dobar i sistem
koji je predloio Ross) sastoji se u tome da svaki ispitanik u istoj mjeri zauzme sve mogue pozicije prilikom
usporedbe, npr. da bude podjednak broj puta lijevo odnosno desno; zgodno je da prilikom usporedbe po
parovima N bude neparan, jer tada je svaki ispitanik isto toliko puta bio lijevo koliko i desno, a postoje i neke
prednosti pri izraunavanju rezultata. Isti sistem kod neparnog broja ispitanika odreuje koji je u kojem kolu
slobodan, tj. usporeuje se sam sa sobom.
U naem pokusu su ocjenjivai sjedeli nezavisno jedan od drugoga, tako da je svaki od njih vidio
ispitanike, koji su, svueni, jednovremeno stupali na klupice visine cca 50 cm, pod priblino istim kutom, sa
priblino iste daljine i pod priblino istom rasvjetom. Tempo stupanja ispitanika na klupice iznosio je
prosjeno 3 sekunde, a otprilike je toliko ili neto manje imao vremena na raspolaganju ocjenjiva da odlui
o odnosu uhranjenosti para ispitanika.
Sistem usporedbe po parovima ima niz prednosti pred drugim sistemima subjektivnog odrijeivanja
obiljeja. On zahtijeva od ocjenjivaa da uvijek donosi odluku samo o tome tko od dva ispitanika (ili
openito od dva fenomena) posjeduje ispitivanu karakteristiku u veoj mjeri, tj. stavlja ga pred mnogo laki
problem nego to je, na primjer, rangovanje ispitanika ili davanje njihove ocjene po nekoj skali sudova. Zbog
toga je preciznost ove metode vea nego preciznost bilo koje druge metode subjektivnog odreivanja
karakteristike. Osim toga, na temelju metode usporedbe po parovima mnogo dublje moe se zahvatiti nain
na koji ocjenjiva odreuje karakteristiku, te mnogo preciznije izraunati njegove grijeke, odnosno njegovu
pristranost. To sa svoje strane dozvoljava formiranje neke vrste line jednadbe" svakog ocjenjivaa.
Veliki broj potrebnih usporedbi, koji, dodue, ima dobru stranu da anulira sluajne greke ocjenjivaa,
predstavlja (osobito kada je broj fenomena velik) najveu praktinu potekou u primjeni metoda usporedbe
po parovima. Broj usporedbe brzo raste s brojem fenomena po formuli:

n=

N ( N 1)
2

gdje je n broj usporedbi, a N broj fenomena.


Prema tome, ova metoda zahtijeva mnogo vie vremena i za ocjenu i za obradu rezultata nego sve
druge metode, to neki put nije dovoljno kompenzirano veom preciznou metode usporedbe po parovima.
Mi smo u obradi rezultata upotrijebili najkrai i najjednostavniji postupak (21, 24). Postoje i druge
kompliciranije metode obrade (19, 21, 25), ali one u konanom rezultatu gotovo uope ne odstupaju od
metode koju smo mi upotrijebili, a osim toga su praktiki neprimjenljive na velikom broju fenomena.
to se tie skraivanja vremena ocjenjivanja, odnosno skraivanja broja usporedbi, mnogi su autori
predloili razne metode koje imaju za cilj da skrate vrijeme potrebno za ocjenu (19). Veina ovih metoda ne
pridonosi nita bitno skraivanju vremena rada, jer komplicira obradu rezultata i smanjuje preciznost
151

Konstantin Momirovi u statistici

metode. Mi smo pokuali da u cilju skraivanja vremena i smanjenja broja usporedbi odredimo koliko se
gubi na preciznosti usporedbe nakon izvjesnog broja kola. U tu svrhu raunata je korelacija izmeu z'
vrijednosti svakog kola sa zadnjim, N-tim kolom, tj. sa konanom z' vrijednou. Visina korelacije dakako
raste s brojem kola. Ako se eli neka visina korelacije, tj. odreena preciznost, usporedba se prekida nakon
onog kola koje odgovara toj visini korelacije. Konani rezultat se tada dobiva po formuli;

z'N = rz'n
gdje je z N' priblina vrijednost rezultata nekog ispitanika koju bi on vjerojatno imao nakon N-tog kola, tj.
nakon zavrenog cijelog ciklusa usporedbi; zn' je z' vrijednost dobivena iz postotaka izraunatih iz sume
bodova (+0.5 bodova ako je dotini ispitanik bio slobodan te je usporeen sa samim sobom) nakon n-tog
kola, tj. kola u kome je prekinuta usporedba; r je korelacija izmeu rezultata u n-tom i rezultata u N-tom
kolu, koja se odreuje na osnovu toga u kom je kolu zaustavljena usporedba na temelju jednadbe:
r = f ( n, N)
tj. visina korelacije je funkcija broja kola i njihovog meusobnog odnosa.
Formula za odreivanje konane vrijednosti z' upotrebljava ovako dobiveni koeficijent korelacije kao
koeficijent predikcije. to je preciznost rada bila manja, to e vie konane vrijednosti biti grupirane oko 0,
tj. oko aritmetike sredine z' vrijednosti.
U naem sluaju, koeficijenti korelacije izmeu 30, 60, 90 kola, s jedne, i 121 kola, s druge strane,
izneseni su za ispitivane ocjenjivae u tabeli 1.
Tabela 1 Visina interkorelacija izmeu n-tih i N-tog kola za ispitivane ocjenjivae
Ocjenjiva
r 30/121
r 60/121
r 90/121
1
.91
. 97
.99
2
.91
.97
.99
3
. 94
.99
.98
4
.91
.97
.98

Ovi visoki koeficijenti korelacije znae da se usporedba sa skoro potpunom tonou mogla prekinuti
ve nakon 60-og kola, a sa zadovoljavajuom tonou ve nakon 30-og kola. Krivulja interkorelacija ima
oblik krivulje negativne akce-leracije, koja se vrlo brzo pribliava konanom nivou. Tako, npr., rezultat, izraen u z' vrijednosti od + 1.00 iznosio bi za ocjenjivaa 1, 2 i 4 nakon 60-og kola + . 97, to je beznaajna
razlika.
3. Konzistencija, indiferencija i pogreka mjesta
U tabeli 2. prikazani su koeficijenti konzistencije, indiferencije i pogreke mjesta za etiri ocjenjivaa.
Tabela 2 Koeficijenti prosjene (QK) i relativne ( Q K ) konzistencije, ndiferencije (QI) i pogreke mjesta (QP),
D = desno, L, = lijevo
Ocjenjiva
QK
QI
QP
QK
1
.63
.88
.02
.05 D
2
.76
.95
.00
.03 D
3
.81
.96
.13
.01 L
4
.83
.97
.08
.08 L

Konzistencija je definirana kao slaganje ocjenjivaa sa samim sobom (24, 25), a raunata je po formuli:

QK = 1

4 Sd
N 2 1

gdje d znai razliku izmeu realnog i teorijskog broja bodova, bez obzira na predznak. Teorijski broj bodova
za potpuno konzistentnog ocjenjivaa ide linearno od N 1 za prvi rang do 0 za posljednji rang. Valja usput
napomenuti da ovako definirana i raunata konzistencija ne treba da se identificira s pojmom unutarnje
konzistencije, kako se taj pojam obino definira prilikom metode usporedbe po parovima, a izraava slaganje
izmeu konanog score-a i odnosa parcijalnih usporedbi (19).
Visina koeficijenata konzistencije za sve ocjenjivae prilino je razliita i relativno malena. Ako se
umjesto prethodne formule, koja zapravo predstavlja postotak slaganja ocjenjivaa sa samim sobom,
152

Objavljeni radovi

izraenim u dijelovima jedinice, upotrebi formula:

Q K = 1

12Sd 2
N ( N 2 1)

koja u stvari predstavlja koeficijent korelacije izmeu teorijskog i realnog broja bodova, visina konzistencije
je znatno vea, a razlike meu ocjenjivaima manje.
Openito uzevi, konzistencija ocjenjivaa bila je zadovoljavajua.
Interesantno je napomenuti da, ini se, postoji neka relacija izmeu faktor-ske strukture ocjenjivaa i
njihove konzistencije83. Tako je korelacija izmeu konzistencije i ''u'' faktora uhranjenosti izoliranog
Spearman-ovom metodom, +.80, izmeu konzistencije i F1 po Thurstone-u (prije rotacije) +.65, izmeu
konzistencije i prve osnovne komponente po Hotelling-u takoer +.65, te izmeu konzistencije i prvog
faktora dobivenog Lawley-evom metodom opet +.80; sve je ovo izraunato rang koeficijentom korelacije i,
naravno, velikom pogrekom od .50, jer je bilo samo etiri ocjenjivaa. To ini ove rezultate samo interesantnim, ali ne i potpuno vjerodostojnim. Korelacija izmeu konzistencije i drugog zajednikog faktora
openito je negativna.
Indiferencija je izraena brojem usporedbi gdje se ispitiva nije mogao odluiti, a izraunata je po
formuli:

QI =

2 Si
N2 N

gdje "i" znai broj "neodlunih" odgovora. Ova formula zapravo predstavlja postotak usporedbi, gdje se
ocjenjiva nije mogao odluiti, izraen u dijelovima jedinice. Ovaj je postotak dosta malen. Interesantno je
napomenuti da se ini da su oprezniji ocjenjivai istovremeno i konzistentniji. Naime, koeficijent
indiferencije moe se interpretirati (22) kao indeks opreznosti ocjenjivaa.
Pogrijeka mjesta je definirana kao sistematsko preferiranje ispitanika koji se nalazio lijevo ili desno
prilikom usporedbe. Izraunata po formuli:

QP =

2 S ( L D)
N2 N

gdje L znai broj bodova datih kad je ispitanik bio lijevo, a D broj bodova kad je ispitanik bio desno, dok
ostali simboli imaju svoje uobiajeno znaenje, ova je pogreka relativno malena. Valja napomenuti da
pogreka mjesta ne utjee u normalnim prilikama na konani rezultat usporedbe po parovima, jer su parovi
ispitanika bili rasporeeni po Bergerovom sistemu, koji ponitava efekat eventualne pogreke mjesta.
Opi zakljuak ispitivanja unutarnjih parametara mjerenja je da su pogreke ocjenjivanja bile malene,
a sigurnost ocjenjivaa na zadovoljavajuoj visini.
4. Prikaz rezultata
Rezultati su prikazani za svakog pojedinog ocjenjivaa
a) u bruto bodovima;
b) u postocima od maksimalno mogueg broja bodova;
c) u rangovima; rangovi su odreeni na temelju bruto bodova, a tamo gdje su dva ispitanika imala
podjednaki broj bruto bodova, izvrena je diferencijacija po Sonneborn-ovom sistemu (24), koja je bila
dovoljna da nijedan ispitanik ne dijeli mjesto s drugim. Sonneborn-ov sistem se sastoji u tome da se rang dodijeli ne samo na osnovu bruto bodova, ve i S bodova, koji se izraunavaju po formuli:

S ' = Sb1 + 1 / 2Sb1/ 2


gdje b1 znai broj bodova onih koji su u direktnoj usporedbi bili mraviji od ispitanika iji se S' trai, a b1/2
predstavlja polovicu broja bodova onih koji su u direktnoj usporedbi s dotinim ispitanikom bili ocjenjeni

83

Zbog opsenosti lanka, rezultati faktorske analize bie prikazani u drugom radu.

153

Konstantin Momirovi u statistici

kao jednako uhranjeni. S' bodovi variraju po formuli:

( N R) 2 N + R
S'=
2
N = broj ispitanika
R = rang
pa, prema tome, bolje diferenciraju one ispitanike koji imaju vei rang (24, 25).
d) u z' vrijednosti, koja je dobivena tako da se postotak konvertirao u rezultat izraen u dijelovima
standardne devijacije na temelju tabele normalne krivulje. Izraunate z' vrijednosti dobivene su iz postotka
od onog broja bodova gdje se usporedba ispitanika sa samim sobom ocjenila kao 1/2 : 1/2. Osim teorijskog,
ovaj postupak ima i praktino opravdanje, jer je "z" za 100% i 0% ravan plus ili minus beskonanom, a vdje
je maksimalni mogui postotak 99,5% a minimalni 0,5%. Uostalom, ovih ekstremnih vrijednosti nije ni
bilo u naim rezultatima (to se moe pripisati, u stvari, inkonzistenciji ocjenjivaa). Normalizacija rezultata,
koja se postie konverzijom u z' vrijednosti, opravdana je iz dva razloga (18, 19). Prvi je da je uhranjenost,
koju su ocjenjivai "mjerili", najvje- rojatnije normalno distribuirana. Drugi je da subjektivni ocjenjiva,
kako su pokazala ispitivanja (21), tei da "normalizira" tj. centrira "podraaje" ak i onda kad su oni
fizikalno rektangularno distribuirani. To je jedan od faktora koji izazivaju inkonzistenciju ocjenjivaa u
sistemu usporedbe po parovima z' vrijed- nosti, osim toga omoguava jednostavnu primjenu standardnih
statistikih metoda. Kako je poznato kod z' vrijednosti, koja je definirana formulom:

z' =

xM
SD

M je jednak nuli, a SD jedinici.


Ukupni rezultati svih ocjenjivaa prikazani su:
a) u prosjeku bruto bodova;
b) u prosjenom postotku od maksimalno mogueg broja bodova;
c) u srednjem rangu;
d) u aritmetikoj sredini pojedinanih z' vrijednosti.
Nisu prikazana odstupanja pojedinih ocjenjivaa od njihovog prosjeka, ali se pojam o tome odstupanju
moe dobiti prouavanjem distribucija rezultata pojedinih ocjenjivaa i ukupne distribucije i, osobito,
analizom varijance.
U tabelama 3, 4, 5. i 6. prikazani su neki rezultati pojedinih ocjenjivaa. Dati su bruto bodovi, postoci
i z' vrijednosti za prva i poslednja tri ispitanika i srednjih pet. Na osnovu ovih tabela moe se dobiti neki uvid
u strukturu rezultata koji se dobivaju metodom usporedbe po parovima.
Tabela 3 Rangovi, bodovi, postoci i z' vrijednosti za neke ispitanike ocjenjivaa broj 1
Rang
1
2
3
59
60
61
62
63
119
120
Red. Br.
55
36
66
99
50
80
35
120
105
14
B
115.5 109.5 103.0
61.5
60.5
59.5
59.5
59.0
19.5
19.5
%
92.2
90.5
85.1
50.8
50.0
49.2
49.2
48.8
16.1
16.1
z
+ 1.41 + 1.28 + 1.04 + .03
.01
.03
.03
.03
.99
.99

121
9
15.0
12.4
1.18

Tabela 4 Rangovi, bodovi, postoci i z' vrijednosti za neke ispitanike ocjenjivaa broj 2
1
2
3
59
60
61
62
63
119
120
36
115
100
21
96
20
23
69
61
16
118.5 114.5 114.5
62.5
62.5
62.5
61.5
59.5
11.5
9.5
97.9
94.6
94.6
51.7
51.7
51.7
50.8
49.2
9.5
7.9
+ 2.05 + 1.64 + 1.64 + .05 + .05 + .05 + .03
.03 1.28 1.41

121
37
7,5
6.2
1,5

Rang
Red. Br.
B
%
z

154

Objavljeni radovi

Rang
Red. Br.
B
%
z'

Tabela 5 Rangovi, bodovi, postoci i z' vrijednosti za neke ispitanike ocjenjivaa broj 3
1
2
3
59
60
61
62
63
119
120
121
36
115
45
6
13
21
46
20
18
61
37
119.0 119.0 114.5
62.0
61.5
61.5
61.5
60.0
13.0
11.5
4.0
98.4
98.4
94.6
51.2
50.8
50.8
50.8
49.5
10.7
9.5
3.3
+ 2.05 + 2.05 + 1.64 + .03 + .03 + .03 + .03
0.00 1.23 1.34 1.88

Rang
Red. Br.
B
%
z

Tabela 6 Rangovi, bodovi, postoci i z' vrijednosti za neke ispitanike ocjenjivaa broj 4
1
2
3
59
60
61
62
63
119
120
121
55
104
115
67
85
99
105
81
29
9
37
118.0 116.0 114.0
58.0
56.5
56.5
55.5
55.0
8.0
7.5
6.5
97.5
95.9
94.2
47.9
46.7
46.7
45.9
45.5
6.6
6.2
5.4
+ 2.05 + 1.75 + 1.55
.05
.08
.08
.10
.13 1.48 1.55 1.64

Tabela 7 Rangovi, bodovi, postoci i z' vrijednosti za neke ispitanike, dati kao prosjek tih rezultata za sva etiri
ocjenjivaa
Rang
2.0
2.8
7.3
57.5
57.5
58.0
59.5
59.5 115.5 119.0 120.3
Red. br.
36
55
115
38
85
43
19
116
29
9
37
B
114.7 112.9 107.5
59.5
61.8
61.0
59.9
60.0
16.9
12.1
9.6
%
94.8
93.3
88.8
48.2
51.6
50.4
49.5
49.6
13.9
10.0
7.9
z'
1.715 1.570 1.497 .022 0.042 0.007 0.010 .015 1.105 1.430 1.505

Kao to se vidi, nisu svi ispitanici koji su kod jednog ocjenjivaa postigli visoki rang to postigli i kod
drugog ocjenjivaa. Iz tabele se, meutim, ne vidi da je slaganje meu ocjenjivaima bilo ipak vrlo visoko.
To e tek pokazati analiza varijance i analiza matrice interkorelacija. U tabelama 8, 9, 10. i 11. prikazana je
distribucija z' vrijednosti za ocjenjivae 1, 2, 3 i 4, a u tabeli 12. distribucija prosjenih z' vrijednosti. Kao to
se vidi, ove distribucije nisu sasvim normalne i pored konverzije u z' vrijednosti. Moe se opaziti da je
konzistencija ocjenjivaa to manja to je varijanca distribucije njegovih z' vrijednosti manja. To je i
razumljivo kad se zna da se pod konzistencijom razumije rektangularna distribucija bruto bodova.

155

Konstantin Momirovi u statistici

5. Analiza varijance
Vjernost i objektivnost subjektivnih ocjenjivaa ispitana je analizom varijance. Na osnovu sheme:

x = m + m p + mk + w
postavljena je jednadba analize:

SS ( x M ) 2 = SS ( x M p M k + M ) 2 + Sk ( M p M ) 2 + SP( M k M ) 2
pa su nakon trivijalnih transformacija izraunana dva Snedecor-ova koeficijenta:

S k ( M p M ) 2 SS ( x M p M k + M ) 2
Fp =
/
p 1
( p 1)(k 1)
S p ( M k M ) 2 SS ( x M p M k + M ) 2
Fk =
/
k 1
( p 1)(k 1)
od kojih prvi predstavlja test znaajnosti izvora varijabiliteta izmeu ispitanika, a drugi test znaajnosti
izvore varijabiliteta izmeu ocjenjivaa.
Tabela 13 Analiza varijance. Vrlo je znaajan Snedecor-ov koeficijent za izvor varijabiliteta izmeu ispitanika, a
potpuno je beznaajan Snedecor-ov koeficijent za izvor varijabiliteta izmeu ocjenjivaa, pa ga treba sumirati
sa ostatkom.
Izvor varijacije
df
Suma kvadrata
Srednji kvadrati
F
Izmeu ispitanika
120
186.687
1.556
12.062 TS
Izmeu ocjenjivaa
3
0.093
0.031
< 1.0 NS
(.240)
Ostatak
360
46.373
0.129
Ukupno
483
233.153

Kako se vidi, vrlo je znaajan Snedecor-ov koeficijent za izvor varijabiliteta izmeu ispitanika, a
beznaajan je Snedecor-ov koeficijent za izvor varijabiliteta izmeu ocjenjivaa. Kako je ovaj koeficijent
manji od jedan, sumirani su stepeni slobode i srednji kvadrati za izvor varijabiliteta izmeu ocjenjivaa.
156

Objavljeni radovi

Tabela 14 Analiza varijance, nakon sumacije izvora varijabiliteta izmeu ocjenjivaa i rezidualnog varijabiliteta.
Snedecorov koeficijent je i dalje vrlo znaajan.
Izvor varijacije
df
Suma kvadrata
Srednji kvadrati
F
Izmeu ispitanika
120
186.687
1.556
12.801 TS
Ostatak
363
46.466
0.128
Ukupno
483
233.153

I ovdje je Snedecor-ov koeficijent vrlo znaajan, to znai da ocjenjivai vrlo dobro diferenciraju
ispitanike i predstavljaju vjerno sredstvo za odreivanje uhranjenosti.
Jo bolji uvid u slaganje ocjenjivaa prua tabela 15, gdje su izraunate varijance koje unose pojedini
izvori varijabiliteta, njihov postotak u odnosu na cjelokupnu varijancu i intraklasni koeficijenti korelacije
definirani formulama:

rp =
rk =

vp
v p + v0
vk
vk + v0

Granice povjerenja intraklasnih koeficijenata za P.02 odreene su formulama:

Fp ,k Fp' ,k q
Fp ,k + (k , p 1) Fp ,k
Fp ,k Fp' ,k q 1
Fp ,k Fp' ,k q + k , p 1
Tabela 15 Veliina i postotak pojedinih varijanca i intraklasni koeficijent korelacije
Izvor varijabiliteta
Veliina varijance
%
Intraklasni koeficijent korelacije
Izmeu ispitanika
.36
73
.73
(. 65 . 81)
Izmeu ocjenjivaa
.00
0
.00
( . 00 . 00)
Ostatak
.13
27
Ukupno
.49
100

Vidi se da je najvei dio varijance iscrpeo izvor varijance izmeu ispitanika. Intraklasni koeficijenti
korelacije pokazuju da su ocjenjivai na homogen i vjeran nain odreivali intencionalni predmet mjerenja.
Interesantno je da je rp identian sa prosjenim koeficijentom korelacije (produkt-moment koeficijent
korelacije) izmeu ocjenjivaa, koji iznosi .73.

6. Zakljuak
Analiza valjanosti metode usporedbe po parovima za odreivanje stanja uhranjenosti potvrdila je
vrijednost ove metode kao prikladnog naina za odreivanje uhranjenosti unutar jedne skupine ispitanika.
Subjektivni ocjenjivai imali su zadovoljavajuu konzistenciju i beznaajne pogreke mjesta. Kod velikog
broja ispitanika usporedba se moe zaustaviti ve na polovici. Analiza varijance pokazuje da subjektivni
ocjenjivai odlino diferenciraju ispitanike i da je njihova vjernost i objektivnost sasvim zadovoljavajua.
Autori su miljenja da ovakav nain odreivanja uhranjenosti moe nai iroku primjenu u zatvorenim
kolektivima i vojnim jedinicama. Lijenik u trupi mogao bi pomou ove metode na jednostavan i brz nain
uoiti varijacije stanja uhranjenosti pojedinih vojnika unutar jedinice.

157

Konstantin Momirovi u statistici

Literatura
Bigwood E. J.: Guiding principles for studies of the nutrition of population. Geneva. League of nations. Health
Organization, Technical commission on nutrition 1939.
Darby W. J.: The influence of some recent studies on the interpretation of the findings of nutrition surveys.
J. Am. Diet. Assoc. 23, 204-210, 1947.
Darby W. J.: Nutritional deficiency diseases today, J. A. Diet. Assoc, 17-22, 1957.
Sebrell Jr. W.; Hundley J.: Nutrition surveys methods for evaluation of nutritional adequacy and status.
Department of the army office of the Quartermaster General 180-195, 1954.
Adamson J. D., Jolliffe N. i dr: Medical surveys of nutrition in Newfoundland. Canad. Med. assoc. J. 52,
227-250, 1945.
Ferber E., Buzina R.: Prehrana seljakog stanovnitva i njegovo zdravstveno stanje. Anketa 1954 g.
Komnis 1958.
Ferber E., Maver H.: Prilog ispitivanju prehrane i prehranbenog stanja stanovnika u pet gradova NR Hrvatske.
Anketa 1956 g. Centralni higijenski zavod, Zagreb, i Rep. zavod za soc. osiguranje, Zagreb, 1957.
Ramzin S.: Struma u Srebrenikom srezu. Medicinska knjiga, Beograd Zagreb, 1955 g.
Keys A. i sur.: The biology of human starvation. University of Minessotta press Mineapolis, 1950.
Recommended dietary allowances. Rev. 1953. National Research Council. Washington, 1953.
Bori D.: Prilog reavanju problema pelagre i slika pelagre u Kosovsko-Metohijskoj oblasti. SAN,
Posebna izdanja, knjiga 208, Beograd, 1953.
Dann W. J., Darby W. J.: Appraisal of nutritional status in humans, with special references to vitamin deficiency
diseases. Physiol. Rev. 25, 326346, 1945.
Kruse H. D.: Medical evaluation of nutritional status. US Public Health Report, 56, 13011324, 1941.
Jolliffe N.: The clinical signs of malnutrition. Quart. Bull. Dept. of Health. New York. June 1947.
Broek J.: Body measurements and human nutrition. Wayne University Press 1956. Detroit 1. Michigan.
Joint FAO/WHO expert committee on nutrition. Assesment of nutritional status. World Health Org. techn. Rep.
Ser. 44. 1951.
Horvat A., Maver H.: Uloga A vitamina u etiologiji guavosti otoka Krka (u tampi).
Darby W. J.: Report on nutritional problems in Yugoslavia with especial references to control of endemic goitre
and pellagra. World Health Organisation Regional Office for. Europe, Geneve 1954.
Guilford J.: Psychometric Methods. McGraw-Hill, NY, 1954.
Guilford J.: Foundamental Statistics in Psychology and Education. McGraw-Hill, NY, 1955.
Woodworth R. and Schlosberg: Experimental Psychology. Holt, NY, 1955.
Faverge J. M.: Methodes statistiques dans la psychologie appliquee. PUF, Paris, 1954.
Thomson G.: Analyse factorielle des aptitudes humaines. PUF, Paris, 1950.
Momirovi K.: Neke jednostavne metode kod tehnike usporedbe po parovima (u rukopisu).
Kronja T., Momirovi K.: Diferencijalna preferencija za tempo u muzici kod nekih duevnih bolesnika (u
rukopisu).
Pieron H. et coll.: Traite de psychologie appliquee. PUF, Paris, 1948.
Buja R. i Buja Z.: Dobivanje statistikih podataka i njihovo raunsko obraivanje. Zagreb, 1942.

Autori duguju zahvalnost za pomo pri pokusima i obradi rezultata statistiarima Neuropsihijatrijskog
odjeljenja, Petri Deni-Hebar i Nikoli Sabio-ncellu, i lanovima HE odreda, kapetanu Urou Opaiu i
vojnom slubeniku IV klase Arsenu Beloeviu.
K. Momirovi, H. Maver, . Deanovi, B. Stojni

THE APPLICATION OF METHOD OF PAIR COMPARISON FOR


THE EVALUATION OF NUTRITIONAL STATUS
The Aa. tried to give an analysis of method of pair comparison for the
evaluation of nutritional status. There was no significant error of place and a
satisfactory consistency of examiners. When there is a great number of subjects we
can stop the analysis in the middle of pair comparison. The analysis of variance
demonstrated that there was a good differentiation of subjects, and that objectivity
and fidelity where high. It is suggested that the methodology used here be applied in
other studies and that these findings be verified.

158

Objavljeni radovi

(3 ) STATISTIKA REVIJA 1960 I

Dr Hubert Maver, Konstantin Momirovi i Radovan Padjen


PRILOG POZNAVANJU VRIJEDNOSTI ISPITIVANJA
POTKONOG MASNOG TKIVA
Kod 119 ispitanika izmjerena je debljina konih nabora nadlaktice, lea,
pazuha i trbuha. Svuda su naene abnormalne distribucije. Analiza varijance je
pokazala da je mjerenje konih nabora sredstvo kojim se ispitanici mogu vrlo dobro
diferencirati. Meutim, analiza varijance je isto tako pokazala da je neopravdano
upotrebljavati prosenu vrednost konih nabora. Faktorska analiza pokazala je
egzistenciju jednog generalnog faktora koji se mogao interpretirati kao potkono
masno tkivo. Najveu saturaciju s tim faktorom imao je koni nabor nadlaktice. Faktorskom analizom ekstrahiran je i jedan grupni faktor za lea i pazuh. Na osnovu
ispitivanja zakljueno je da se koni nabori uz izvjesna ogranienja, i uzimajui u
obzir tip distribucije i visinu saturacije pojedinih nabora, mogu upotrebiti kao
valjano sredstvo za odreivanje potkonog masvog tkiva.

1. Uvod
Prilikom interpretacije rezultata mjerenja tjelesne teine postavlja se pitanje porijekla izmerene teine,
odnosno udjela koji pojedina tkiva u organizmu imaju u tjelesnoj teini. Pri tom se moe raditi o kotanom,
miinom ili masnom tkivu. Pri ocjenjivanju stanja uhranjenosti pojedinaca ili kolektiva masno tkivo e biti
najoitiji znak takvog stanja, pod pretpostavkom da se radi o zdravim ljudima.
Masno tkivo nalazimo uvijek na dva mjesta u tijelu, i to na povrini tijela kao potkonu mast i u
nutrini organizma preteno dislocirano oko pojedinih organa u trbunoj upljini. Poznavanje tonog stanja
ukupne koliine masti u organizmu omoguilo bi nam dobru kontrolu energetskog bilansa organizma.
Danas su poznata tri naina za odreivanje masti u tijelu:
1. Odreivanje ukupne masti u tijelu metodom odreivanja specifine teine tijela. Metoda je dosta
komplicirana, iziskuje posebne ureaje i aparaturu, te je mogue upotrebiti ovu tehniku samo u
laboratorijskim odnosno klinikim uslovima rada. Kao rutinska metoda ne dolazi u obzir zbog tehnikih
potekoa.
Odreivanje potkonog masnog tkiva rendgenogramima. I ta metoda nije prikladna za rutinski, a
pogotovo ne za terenski rad, i rezervirana je samo za laboratorijsku odnosno kliniku upotrebu.
2. Trei nain odreivanja masnog tkiva sastoji se u mjerenju potkonog masnog tkiva pomou
kalipera. Tu poznatu metodu ponovno je uveo 1950. g. Edvards, a usavrili su je 1952. g. Keys i Broek.
Metoda je tehniki jednostavna, a omoguuje da pomou posebne formule izraunamo iz vrijednosti
potkonog masnog tkiva, odnosno veliine konih nabora, ukupnu koliinu masti u organizmu (Allen et al.
1956).
Prilikom ispitivanja stanja uhranjenosti jednog vojnog kolektiva od 119 vojnika pokuali smo da za
odreivanje stanja uhranjenosti upotrebimo i vrijednosti koje se dobiju mjerenjem potkonog masnog tkiva i
da analiziramo vrijednost dobivenih rezultata.
2. Metod rada
Za mjerenje debljine konih nabora sluili smo se kaliperima izraenim u laboratoriju za fizioloku
higijenu Sveuilita u Minnessoti, sa stalnim pritiskom od 10 g/mm2. Kone nabore mjerili smo na etiri
mjesta na tijelu (Keys i Broek, 1953), i to na dorzalnoj strani nadlaktice, na leima u predjelu donjeg ruba
skapule, na pazuhu na polovici udaljenosti donjeg rebranog luka od kriste ilei u aksilarnoj liniji, i na trbuhu
na polovici linije koja spaja kristu ilei i pupak.
Sva mjerenja su vrena u toku jednog poslijepodneva, pod istim vanjskim uvjetima. Mjerenja je vrio
jedan ispitiva. Tehnika tonost kalipera iznosi 0.1 mm, a mjereno je s tonou od 0.5 mm.
159

Konstantin Momirovi u statistici

Dobiveni rezultati podvrgnuti su statistikoj analizi. Navedene su distribucije pojedinih konih nabora,
aritmetike sredine, standardne devijacije i totalne devijacije, a normalitet distribucija testiran je metodom x2.
Izvrena je analiza varijance najprije za dekompoziciju izvora varijabiliteta na izvor varijabiliteta izmeu
ispitanika i ostatak, a zatim za dekompoziciju izvora varijabiliteta na izvor varijabiliteta izmeu pojedinih
konih nabora i ostatak. Izraunat je Snedecor-ov koeficijent i intraklasni koeficijent korelacije.
Izraunate su interkorelacije izmeu pojedinih konih nabora (produkt-moment koeficijent korelacije),
te je matrica interkorelacija podvrgnuta faktorskoj analizi Thurstone-ovom centroidnom metodom. Dobivene
saturacije zarotirane su u smjeru najprostije mogue forme za datu konfiguraciju.
3. Rezultati
Dobivene vrijednosti konih nabora prikazane su u grafikonima 14 (distribucije rezultata) i u tabeli 1
(osnovni parametri distribucija).
Iz grafikona se vidi da su sve distribucije izrazito abnormalne i da pokazuju rep u zoni visokih
rezultata. Ovakav oblik distribucija est je kod biolokih veliina. Meutim, distribucije s repom
predstavljaju izvesne potekoe kako za statistiku obradu tako i za interpretaciju rezultata. Nije sasvim
opravdano kod repastih distribucija uzimati aritmetiku sredinu kao mjeru centralne tendence, ve je
opravdanije za tu svrhu uzeti dominantnu vrijednost. Produkt-moment koeficijent korelacije iz ovakvih
distribucija takoer nije sasvim opravdano raunati, ve bi bilo opravdanije upotrijebiti Spaerman-ov ili
Kendal-ov . Na isti nain nije sasvim bezopasno upotrijebiti druge parametarske statistike metode.
Meutim, mi smo upotrijebili, uprkos tome, uobiajene parametarske statistike metode zbog toga da bi se
nai rezultati mogli usporediti s rezultatima drugih autora koji su, iako sa abnormalnim distribucijama,
upotrebljavali parametarske statistike metode, a i zato to bi razlike izmeu parametarskih i neparametarskih postupaka bile praktiki beznaajne. Uostalom, ini se da se s jednog novog aspekta parametarske
i neparametarske metode mogu smatrati identinim, kao to pokazuju neka novija ispitivanja (13).

160

Objavljeni radovi

161

Konstantin Momirovi u statistici


Tabela 1 Aritmetika sredina (M), standardna devijacija (SD), totalna devijacija (TD) distribucija pojedinih konih
nabora i njihovog prosjeka
Mjesto mjerenja
M
SD
TD
Nadlaktica
5.18 0.18
1.99 0.11
2.0 13.0
Lea
7.30 0-18
2.02 0.11
3.0 16.5
Pazuh
7.05 0.25
2.78 0.15
4.0 18.0
Trbuh
8.26 0.32
3.54 0.19
4.0 27.5
Prosjek
6.92 0.19
2.08 0.11
4.0 18.25

Kao to se i moglo oekivati, najvee vrijednosti konih nabora nalazile su se na trbuhu, a najmanje na
nadlaktici. Takoer je i varijabilitet bio najvei na trbuhu, a najmanji na nadlaktici. Komparacijom totalnog
varijabiliteta i mjere centralne tendence odmah se moe videti da distribucije pokazuju rep u zoni visokih
rezultata.
Normalitet distribucija testiran je metodom 2. Veliine 2 neto su pretjerane zbog toga to nije
izvrena sumacija razreda s frekvencijom manjom od 5. Meutim, i na taj nain bi se dobile veliine koje bi
pokazivale potpunu abnormalnost distribucija. U tabeli 2. prikazane su vrijednosti 2 za distribucije pojedinih
konih nabora. Testirana je hipoteza da se distribucije ne razlikuju od normalne distribucije.
Tabela 2 2, stepeni slobode i probabilitet hipoteze da se distribucije pojedinih konih nabora ne razlikuju od
normalne distribucije
Mjesto mjerenja
2
df
P
Nadlaktica
314.33
11
<< .01
Lea
1021.65
13
<< .01
Pazuh
325.72
16
<< .01
Trbuh
47563.95
22
<< .01

Kako se vidi iz tabele 2, sve distribucije su izrazito abnormalne.


U tabeli 3. su rezultati analize varijance za dekompoziciju izvora varijabiliteta na izvor varijabiliteta
izmeu ispitanika, izvor varijabiliteta izmeu konih nabora i ostatak.
Tabela 3 Analiza varijance konih nabora. Vrlo je znaajan Snedecor-ov koeficijent za izvor varijabiliteta izmeu
konih nabora. Znaajan je i Snedecor-ov koeficijent za izvor varijabiliteta izmeu ispitanika.
Izvor varijabiliteta
df
Suma kvadrata
Srednji kvadrati
F
Izmeu ispitanika
118
2122.53
17.99
5.22 S
Izmeu konih nabora
3
593.47
197.82
57.51 TS
Ostatak
354
1219.00
3.44
Ukupno
475
3935.00

Znaajan Snedecor-ov koeficijent za izvor varijabiliteta izmeu ispitanika pokazuje da koni nabori u
cjelini diferenciraju ispitanike jedne od drugih. Meutim, vrlo visoki Snedecor-ov koeficijent za izvor
varijabiliteta izmeu konih nabora pokazuje da je neopravdano raunanje prosjeka konih nabora. Prema
tome, dosadanja praksa raunanja prosjenog konog nabora statistiki je neopravdana.
Jo precizniji uvid u valjanost mjerenja konih nabora prua raunanje intraklasnog koeficijenta
korelacije i odreivanja postotka kojim svaki varijabilitet uestvuje u ukupnom varijabilitetu.
Tabela 4 Intraklasni koeficijent korelacije ,,izmeu ispitanika", koji u stvari predstavlja koeficijent vjernosti, pokazuje
da koni nabori mogu znaajno diferencirati ispitanike
Intraklasni koeficijent
Izvor varijance
Veliina varijance
%
korelacije
Ispitanici
3.62
42
.51
Nabori
1.63
19
.32
Ostatak
3.44
40
Ukupno
8.69
99

Vidi se da je najvei dio varijabiliteta iscrpla varijanca izmeu ispitanika. Intraklasni koeficijent
korelacije izmeu ispitanika pokazuje da je vjernost konih nabora prosjena. Intraklasni koeficijent
korelacije izmeu nabora, kojega ne treba mjeati s prosjenim koeficijentom korelacije izmeu konih
nabora (u stvari je intraklasni koeficijent korelacije izmeu ispitanika" prosjeni koeficijent korelacije
162

Objavljeni radovi

izmeu konih nabora), prilino je malen, pa se moe rei da koni nabori ipak predstavljaju valjano
sredstvo za diferenciranje ispitanika.
Valjanost konih nabora kao sredstva za mjerenje potkonog masnog tkiva najbolje se moe ispitati
faktorskom analizom njihovih korelacija. U tabeli 5. prikazana je matrica interkorelacije izmeu pojedinih
konih nabora. Raunat je produkt-moment koeficijent korelacije, to moda nije sasvim opravdano s
obzirom na abnormalnost distribucija.

Nadlaktica
Lea
Pazuh
Trbuh

Tabela 5 Interkorelacije konih nabora


Nadlaktica
Lea
Pazuh
.53
.42
.53
.55
.42
.55
.43
.46
.70

Trbuh
.43
.46
.70

Vidi se da su interkorelacije prilino niske. To se po svoj prilici moe pripisati kontrakciji varijance
konih nabora naih ispitanika koji su predstavljali selekcioniranu skupinu i s obzirom na stanje
uhranjenosti.
Uobiajenom centroidnom metodom, s komunalitetima odreenim po Thurstone-u, dobivena je
faktorska struktura prikazana u tabeli 6. Dva faktora bila su dovoljna za eksplikaciju matrice interkorelacija.
McNeamar-ov kriterij iznosio je 0.09 < 0.37, a Tucker-ov kriterij iznosio je 0.57 < 0.60. Potrebno je
napomenuti da se sa etiri varijable ne mogu jednoznano odrediti komunaliteti za dva faktora, pa je rezultat
izvrene analize samo indikator za faktorsku strukturu konih nabora.
Tabela 6 Saturacije pojedinih konih nabora s prvim i drugim faktorom, komunaliteti i specificiteti
h2
s2
F1
F2
Nadlaktica
.81
.30
.74
.26
Lea
.71
.28
.59
.41
Pazuh
.65
.20
.46
.54
Trbuh
.78
.19
.64
.36

Najviu saturaciju s prvim faktorom imao je koni nabor nadlaktice, dok je vrlo visoku saturaciju imao
i koni nabor trbuha.
U svrhu interpretacije faktora, faktorske osovine podvrgnute su rotaciji Thurstone-ovom grafikom
metodom. Optimalna struktura dobivena je nakon rotacije za kut = 19. U grafikonu 5. prikazana je
struktura vektor testova (oznaeni su samo vrhovi) i smjer i kut rotacije.

163

Konstantin Momirovi u statistici


Tabela 7 Saturacije konih nabora nakon rotacije. Saturacije nadlaktice i trbuha sa F2 mogu se zanemariti
F1
F2
h2
s2
Nadlaktica
.87
.03
.74
.26
Lea
.58
.50
.59
.41
Pazuh
.55
.41
.47
.53
Trbuh
.80
.07
.64
.36

Nakon rotacije ostao je drugi faktor kao grupni faktor za lea i pazuh. Prvi faktor, koji se moe
interpretirati kao potkono masno tkivo, najbolje je saturiran s nadlakticom i trbuhom.
Jednadbe specifikacije nakon rotacije bile bi, prema tome, za nadlakticu (N), lea (L), pazuh (P) i
trbuh (T):

N = .87 F12 + .03F22 + .26s N


L = .58F12 .50 F22 + .41s L
P = .55F12 .41F22 + .53s P
T = .80 F12 .07 F22 + .36 sT
4. Diskusija
Prilikom mjerenja potkonog masnog tkiva vano je tono odrediti mjesta gdje e se mjerenje izvriti.
Prema Broeku i Keys-u, mjesta za mjerenje konog nabora treba odrediti po slijedeim principima:
a) Treba izabrati ona mjesta gdje postoje velike diferencije u potkonoj masti.
b) Ekstremiteti su od naroite vanosti, osobito za mlade organizme (kerlj).
c) Treba odrediti tonu lokaciju mjesta kako bi se mjerenja mogla opetovati.
d) Mjesta mjerenja moraju biti u visokoj korelaciji sa cjelokupnom tjelesnom mau.
Prilikom naeg mjerenja drali smo se gornjih uputstava i prema njima izabrali mjesta mjerenja, koja
se slau sa onim koje su izabrali Broek i Keys. Distribucije naih konih nabora sline su distribucijama
stranih autora pokazujui nepravilnosti s produenim repom, to dovodi u pitanje opravdanost primjene
uobiajenih parametarskih statistikih postupaka.
Prema Broeku, interkorelacije pojedinih konih nabora iznose kod mladih ljudi od .75 do .94, a kod
starijih ljudi od .54 do .80. Nae interkorelacije su mnogo nie i variraju od .42 do .70. Teko je objasniti
zato su nae interkoleracije tako niske. Po svoj prilici se kod naeg mjerenja radi o osobama koje
predstavljaju uzorak iz jedne selekcionirane populacije, gdje je kontrakcija varijance vjerojatno uzrokovala
snienje interkorelacija. Naalost, kako ne raspolaemo podacima o veliini varijance potkonog masnog
tkiva u jednoj homogenoj reprezentativnoj skupini koja bi po spolu i dobi odgovarala naim ispitanicima,
nismo bili u mogunosti da izraunamo korigirane koeficijente korelacije s obzirom na ostvarenu kontrakciju
varijance. Usto treba jo jednom napomenuti da je produkt-moment koeficijent korelacije sumnjive
vrijednosti, budui da je dobiven na potpuno abnormalno distribuiranim skupinama.
Faktorska analiza pokazala je da saturacije pojedinih konih nabora s prvim centroidnim faktorom
nisu jednake i da su relativno niske, s obzirom na to da se prilikom biolokih mjerenja mogu oekivati
znatno vie saturacije instrumenta mjerenja sa intencionalnim predmetom mjerenja. Najbolju saturaciju
pokazuje koni nabor nadlaktice, to je u skladu s rezultatima drugih autora, dok iznenauje visoka saturacija
konog nabora na trbuhu.
Ni nakon rotacije interpretacija faktora nije sasvim lagana. Prvi bi se faktor mogao interpretirati kao
potkono masno tkivo, dok je interpretacija drugog faktora dosta nesigurna. Najvjerojatnije je da je ovaj
grupni faktor posljedica specifino visoke korelacije izmeu konog nabora lea i pazuha, to je posljedica
anatomske blizine tih mjesta. Saturacije konih nabora lea i pazuha s prvim faktorom nakon rotacije
smanjile su se na raun drugog faktora. Komunaliteti nadlaktice i trbuha pokazuju znatno veu iscrpenost
varijance zajednikim predmetima mjerenja nego to je to sluaj kod konog nabora lea i pazuha, pa je
zbog toga za odreivanje potkonog masnog tkiva najzgodnije upotrebljavati mjerenja na nadlaktici i trbuhu.
Analiza varijance pokazuje da je statistiki neopravdano raunanje prosjenog konog nabora, to je
164

Objavljeni radovi

dosada bilo uobiajeno. Iako su razlike u apsolutnim vrijednostima pojedinih konih nabora velike, ipak
mogu koni nabori na znaajan nain diferencirati ispitanike. Intraklasni koeficijent korelacije pokazuje
prosjenu vrijednost konih nabora kao instrumenta za mjerenje potkone masti.

5. Zakljuak
1. Ispitane su vrijednosti konih nabora nadlaktice, lea, pazuha i trbuha kod jedne grupe od 119 vojnika.
2. Distribucije dobivenih rezultata potpuno su abnormalne.
3. Analiza varijance pokazuje da je neopravdano raunanje prosjenog konog nabora.
4. Analiza varijance pokazuje da koni nabori mogu dobro diferencirati ispitanike.
5. Interkorelacije pojedinih konih nabora su relativno niske, to vjerojatno ovisi o kontraktiranoj varijanci.
6. Faktorska analiza pokazuje da koni nabori mjere jedan zajedniki faktor za koji autori smatraju da
predstavlja potkono masno tkivo i jedan grupni faktor ija je interpretacija nesigurna a saturiran je s
naborima lea i pazuha.
Literatura
Allen, T. H. Prediction of total adiposity from skinfolds and the curvilinear relationship between external and
internal adiposity. Metabolism, V/3, 346353, 1956.
Broek, J. Measuring nutriture. Amer. J. Phys. Antrop., 11, 147180, 1953.
Broek. J., Keys, A. The evaluation of leanness fatness in man. Brit. J. Nutrition, 5, 149206, 1951.
Crowley, L., V. Ryer, R. R., Pollack, H. Relation between body weight, height and skinfold thickness
measurements in Chinese nationalist troops. Metabolism, V/3, 272276, 1956.
Edwards, D. A. W. Observation on the distribution of subcutaneus fat. Clin. Science, 9, 259270, 1950.
Edwards, D. A. W. Differences in the distribution of subcutaneus fat with sex maturity. Clin. Science, 10,
305315, 1951.
Faverge, J. M. Methodes statistiques en psychologie appliquee. PUF, Paris, 1954.
Fisher, R. A. Statistical methods for research workers. Oliver and Boyd, Edinburgh, 1954.
Newman, R. W. Skinfold measurements in young american males. Body measure ments and human nutrition,
Wayne Univ. Press, 1956.
ker1j. B., Broek J., Hunt, E. E. Subculaneus fat and age changes in body build and body form in women. Am.
J. Phys. Antrop., 11, 577600, 1953.
ker1j, B. Starostne spremembe v razdelitvi potkone tole v lovekem telesu. Bioloki vestnik, 2, 4752,
1953.
Thomson, G. L'analyse factorielle des aptitudes humaines. (trad. Franc. par P. Naville). PUF, Paris, 1950.
Momirovi, K. Analiza transformacije u kvadrate totala devijacija, Zagreb, 1958 (neizdati rad).

165

Konstantin Momirovi u statistici

(4 ) STATISTIKA REVIJA 1986 I

IZVORNI NAUNI LANCI


Dr Konstantin Momirovi
Raunski centar Instituta za kineziologiju i Sveuilini raunski centar u Zagrebu
COMTAX ALGORITAM I PROGRAM ZA DETEKCIJU I
KOMPARACIJU POLARNIH I DISTINKTNIH TAKSONA
1. Uvod
Enormni porast populacije taksonomskih algoritama oito namee potrebu za razvojem postupaka za
njihovu evaluaciju i usporedbu. Naalost, i pored nekih nastojanja (vidi, npr., Rizzi, 1984), formalni kriteriji
evaluacije jo su daleko od toga da budu standardizirani i openito prihvaeni, a tehnike poredbene analize,
nune zbog heuristikog karaktera velike veine taksonomskih algoritama, u praksi se svode na usporedbu
nekih parametara diskriminativne analize grupa formiranih razliitim algoritmima, ili, jednostavno, na
subjektivnu ocjenu, esto zasnovanu na vrlo malom uzorku empirijskih istraivanja.
Meu brojnim klasama taksonomskih algoritama od posebnog su interesa one u ijoj je osnovi
ekstremizacija neke eksplicitne funkcije cilja. Dvije su takve klase predmet ovog saopenja: klasa polarnih
taksonomskih algoritama, koja se svodi na ekstremizaciju neke parsimonijske funkcije, i klasa algoritama za
detekciju distinktnih taksona, koja se svodi na ekstremizaciju neke mjere udaljenosti izmeu taksona ili neke
mjere njihove homogenosti. Za svaku od tih klasa konstruiran je po jedan reprezentativan algoritam,
ugraene evaluativne i identifikacijske procedure koje relaksiraju neka, za taksonomsku analizu nepogodna,
ogranienja kanonikog diskriminativnog modela, i konstruirani komparativni algoritmi koji se osnivaju na
analizi korespodencije selektorskih matrica koje ti algoritmi proizvode i na analizi asocijacija
diskriminativnih funkcija koje definiraju prostor u kome lee taksoni izolirani ovim algoritmima.
2. Algoritam
Neka je E = {ei, i = 1,..., n} skup objekata izabranih, nezavisno, iz neke ne nuno homogene
populacije P, i neka je V = {vj, j = 1,..., m} skup kvantitativnih varijabili s nekom eliptinom funkcijom
raspodjele u P. Neka je

Z = ( zij ) = E V
matrica podataka, skaliranih tako da je dijag ( Z T Z ) = I , > 0, i neka Z ima bazinu strukturu
m

Z = p X pY pT .
p 1

Neka je

D = (d ih ) = E E

matrica udaljenosti izmeu objekata iz E u prostoru koga razapinju

vektori p = 1,..., m sa elementima Yp,


m

d ih = ( ( zij z hj ) 2 )1/ 2

i, h = 1,..., m

j =1

i neka je S = (sih) iz D izvedena matrica slinosti sa elementima

sih = 1 d ih / d
gdje je d = max(d ih ).
i,h

166

i, h = 1,..., m

Objavljeni radovi

2.1. Broj taksona


Problem broja taksona koji realno postoje u nekom skupu objekata vjerojatno nije mogue rijeiti na
neki konzistentan nain. Od mnotva heuristikih kriterija ini se da se, u veini sluajeva, prilino pristojno
ponaa kriterij koji se osniva na maksimiziranju parcijalnog generalnog rasprenja mjera slinosti.
Neka je
t

S = rVrVrT ,
r =1

t = num( r > 0) , bazina struktura matrice mjera slinosti S.


Definicija 1.
Generalno rasprenje mjera slinosti je
t

g = r .
r =1

Definicija 2.
Parcijalno generalno rasprenje k-tog reda mjera slinosti je
k

g k = r ,1 k t.
r =1

Propozicija 1.
Maksimum parcijalnog generalnog rasprenja mjera slinosti je
k

g k = r , k = num( r 1).
r =1

Oito, tr S =

r =1

= n, pa stoga, osim u degenerativnom sluaju kada je S = I, u spektru matrice S

postoji n-k singularnih vrijednosti manjih od 1. Ako je S = I, k = n, i broj taksona je, naravno, jednak broju
objekata, onda je S = 11T, gdje je 1 vektor sa n vrijednosti jednakih 1, to je mogue onda i samo onda kada
je dih = 0 ei, ek, k = 1.
Zbog toga nije nerazumna
Propozicija 2.
Broj taksona, k, u nekom skupu E jednak je broju koji maksimizira parcijalno generalno rasprenje gk,
dakle k = num( r 1).

2.2. Detekcija i identifikacija polarnih taksona


Svi postupci za odreivanje polarnih taksona (Momirovi i Zakrajek, 1973; Zlobec, 1975; Szirovicza,
Gredelj i Momirovi, 1978; Momirovi, 1978; Momirovi, Zakrajek, Hoek i Stojanovi, 1979; Momirovi,
Szirovicza, Gredelj i Dobri, 1980; Momirovi, 1981; Momirovi i Gredelj, 1982; Hoek, Momirovi i
Matei, 1985; Perii i Momirovi, 1986; Momirovi i sur., 1987) mogu se svesti na operaciju

1 ( Z PZ ) 2 Y 3Q = T
gdje je 1 neka dijagonalna matrica reda n koja definira neku metriku na skupu entiteta, Z matrica podataka,
P = 0 ili P = 1(1T1)-1 1T, 2 neka dijagonalna matrica reda m koja definira neku metriku na skupu varijabli, Y
neka kompresiona matrica reda (m, k), 3 neka dijagonalna matrica reda k koja definira neku metriku na
skupu lijevih svojstvenih vektora matrice 1 (Z-PZ) 2, i Q neka kvadratna regularna matrica reda k koja
ekstremizira neku parsimonijsku funkciju nad elementima matrice T.
167

Konstantin Momirovi u statistici

Oito, optimalni ishod neke taksonomske procedure jeste formiranje matrice T = (tip), i = 1,..., n;
p=1,..., k, koja pripada klasi binarnih selektorskih matrica. Razmotrimo, stoga, slijedeu specifikaciju
generalnog algoritma za odreivanje polarnih taksona:
1. P = 0
2. 2 = (diag (ZTZ))-1/2
3. Y = (yp), p = 1,..., k, dakle matrica koja sadri prvih k desnih svojstvenih vektora matrice Z = Z2
4. 3 = -1, dakle matrica koja sadri inverze prvih k singularnih vrijednosti matrice Z
5. 1 = (diag (XXT))-1/2, X = ZY-1.
Ako definiramo
H = 1 X,
algoritam za detekciju polarnih taksona svodi se na rjeavanje problema

HQ = T

Q T Q = QQ T = I
P(T ) = ext

gdje je P(T) neka parsimonijska funkcija definirana na elementima matrice T, na primjer


n

P(T ) = n
i =1

p =1

p =1

1=1

tip4 ( tip2 ) 2 = max

to je opi oblik Kaiserove varimax funkcije (Kaiser, 1958).


Naravno, u opem sluaju T nee biti binarna selektorska matrica, ve neka matrica koja aproksimira
neku binarnu selektorsku matricu B = (bip), i = 1,..., n; Formirajmo stoga iz T matricu B tako da su njeni
elementi definirani sa

bip = 1 = max(t ip )

(
bip = 0 , inac e
Identifikacija taksona mogua je na temelju matrice

M = ( BT B) 1 B T ( Z PZ ) 2 ,
1
2 = (diag ( Z T Z Z T PZ ) ) 1/ 2
n
koja sadri centroide taksona definirane na skupu centriranih i standardiziranih varijabli iz V, kao i na
temelju rezultata diskriminativne analize taksona.
Meutim, za ovu je priliku umjesto kanonike diskriminativne analize pogodnija neka robustna
diskriminativna metoda iz najmanje dva razloga. Prvi se sastoji u tome to je, u opem sluaju, malo
vjerojatno da matrice kovarijanci varijabli iz V u svim taksonomskim grupama budu homogene; drugi u tome
to je za identifikaciju taksona u diskriminativnom prostoru vrlo neugodna osjetljivost kanonikog modela
na pojedine varijable s visokom uniknom varijancom koje, bez obzira na ponaanje preostalih, dobro
separiraju grupe.
Pogodna robustna metoda, izmeu ostalih, jeste i diskriminativni model izveden kao poseban sluaj
kanonike analize kovarijanci (Momirovi, Dobri i Karaman, 1983; Dobri i Momirovi, 1984; talec i
Momirovi, 1984; Momirovi i Dobri, 1985; Dobri, 1986).
U ovom sluaju ta se metoda moe definirati kao rjeenje problema

B( B T B) 1 BT ( Z PZ ) 2WS = k s

cs = K sT Ls

1
= max
n

( Z PZ ) 2WS = LS cs = cs +1
WsTWt = st
s = 1,..., l = min((k 1), m)
gdje je st Kroneckerov simbol; deriviranjem

2 ( Z PZ )T B ( BT B ) 1 BT ( Z PZ ) 2Ws = Ws s
pa se diskriminativne varijable Ls mogu identificirati na temelju sklopa diskriminativnih koeficijenata u
vektorima Ws, i strukture diskriminativnih faktora

Fs = 2 ( Z T Z Z T PZ ) 2Ws
168

s = 1,..., l.

Objavljeni radovi

2.3. Detekcija i identifikacija distinktnih taksona


Izmeu nekoliko stotina algoritama za detekciju distinktnih taksona (Anderberg, 1973; Tou i
Gonzales, 1974; Hartigan, 1975; Devijver i Kittler, 1982; Rizzi, 1984; itd.) uistinu nije lako izabrati onaj koji
bi bio dovoljno reprezentativan za ovu subpopulaciju taksonomskih algoritama i stoga pogodan za usporedbu
s nekim reprezentativnim postupkom za detekciju polarnih taksona. Zbog toga je nuno uvesti neki, makar i
proizvoljni kriterij izbora; i s obzirom na semantiki sadraj pojma distinktni taksoni, taj je kriterij mogue
definirati ovako: pogodan algoritam za detekciju distinktnih taksona je svaki algoritam koji maksimizira
neku mjeru udaljenosti izmeu centroida taksonomskih grupa.
Kako se, sada, problem izbora svodi na izbor te mjere, relativno je lako, u slijedeem koraku, uiniti
definitivni izbor. Jer, budui da je Mahalanobisova udaljenost prirodna mjera udaljenosti skupova objekata
opisanih skupom varijabli koje imaju konane etvrte momente, algoritam koji maksimizira zbir
Mahalanobisovih udaljenosti izmeu taksona sigurno je dovoljno reprezentativan za subpopulaciju
algoritama za detekciju distinktnih taksona.
Ovaj je algoritam, uostalom, dobro poznat i opisan u razliitim tekstovima, iako ne uvijek na identian
nain (vidi, npr., Devijver i Kittler, 1982; Momirovi i sur., 1987; Dugi, 1987). Na najsaetiji nain moe se
opisati ovako:
Neka je a = 1,... oznaka iteracije, i neka je, u iteraciji a, matrica podataka Z podijeljena, na temelju
neke selektorske matrice Ga, u k submatrica Zpa reda (npa, m). Neka su 1pa vektori koji sadre npa jedinica.
Definirajmo centroidne projektore

Ppa = 1 pa (1Tpa L pa ) 11Tpa ,


pa = Z Tpa 1 pa

1
n pa

C pa = Z Tpa Z pa Z Tpa Ppa Z pa


k

C a = c pa
p =1

2
pqa

p = 1,..., k
p = 1,..., k

1
nK

= ( pa qa ) T C a1 ( pa qa )

p, q = 1,..., k

Neka je
k

a =
p<

2
pqa ,

i neka je
T
2
1
ipa
, = ( zi pa ) Ca ( z i pa )

i = 1,..., n
p = 1,..., k

2
gdje ie zi, i = 1,..., n redni vektor matrice Z koji opisuje entitet ei na skupu V. Ako min ipa
ne odgovara
p

vrijednosti gip= 1 u selektorskoj matrici Ga, entitet ei je kandidat za prebacivanje iz taksona koji je definiran
2
matricom Ga u takson na kome je postignut min ipa
. U svakoj iteraciji, onaj kandidat za koga je
p

2
ipa

= min, preseli se u drugi takson, i iterativni se proces ponavlja dok se ne ostigne a = max . Selektorska

matrica u posljednjoj iteraciji definira konano pripadanje entiteta taksonomskim grupama; oznaimo tu
matricu sa G.
Ovaj je algoritam tako primitivan da je u neke metajezike ugraen kao ele-mentarna funkcija (vidi,
npr., Nelder et all, 1977). Naalost, kao i svi algoritmi koji se temelje na primjeni grube sile, krajnje je
neefikasan; za sve netrivijalne probleme raunarsko vrijeme koje mu je potrebno je za priblino red veliine
vee od vremena potrebnog za primjenu ma kog postupka za detekciju polarnih taksona.
169

Konstantin Momirovi u statistici

Zbog toga to je konaan rezultat neka selektorska matrica, identifikacijske procedure su analogne
onima koje se temelje na selektorskoj matrici dobivenoj pod modelom polarnih taksona. Kako se rezultati
diskriminativne analize mogu primijeniti i za usporedbu rezultata dobivenih pod modelima polarnih i
distinktnih taksona, uvedimo ove strukture

M = (G T G ) 1 G T ( Z PZ ) 2 ,
Lp = ( Z PZ ) 2W p

p = 1,..., l ,

Fp = 2 ( Z T Z Z T PZ ) 2W p

p = 1,..., l ,

pri emu su koeficijenti kvazikanonike diskriminacije p i njima pridrueni vektori sklopa diskriminativnih
koeficijenata W p definirani karakteristinim jednadbama

2 ( Z PZ )T G (G T G ) 1 G T ( Z PZ ) 2W p = W p p .
2.4. Komparacija rezultata dobijenih pod modelima polarnih i distinktnih taksona
Selektorska matrica B opisuje konaan rezultat dobijen pod modelom polarnih, a selektorska matrica
G konaan rezultat dobijen pod modelom distinktnih taksona. Stoga je prirodna procedura za analizu relacija
izmeu dva taksonomska algoritma analiza kanonikih relacija izmeu matrica B i G (Bosnar i Pavii,
1982; Momirovi i sur., 1987; Dugi, 1987).
Neka je
T
K BG= B T G = K GB

kontingencijska tabela definirana relacijama taksona, i neka su KBB = BTB i KGG = GTG dijagonalne matrice
koje sadre marginalne frekvencije taksona. Relacije izmeu razbijanja skupa E izvedenog pod ma koja dva
taksonomska algoritma, pa stoga i izmeu algoritama izvedenih iz modela polarnih i distinktnih taksona,
definirane su vrijednostima netrivijalnih koeficijenata kanonike asocijacije izmeu S i G. Naime, korjenovi
karakteristine jednadbe
1
( K BG K GG
K GB u2 K BB )QBu = 0 u = 2,..., k

mjera su povezanosti izmeu B i G, a vektori QBn, u = 2,..., k i


1
QGu = K GG
K GB QBu u1

u = 2,..., k

sadre koeficijente koji su proporcionalni parcijalnom ueu taksona definiranih matricama B i G u


formiranju kanonikih varijabli s koeficijentima asocijacije pu, u = 2,..., k. tovie, znaajnost tih mjera
asocijacije moe se testirati, jer pod hipotezom u = O funkcije

xu2 = u2n

u = 2 ,..., k

imaju x2 raspodjelu sa (k-1)2 stupnjeva slobode.


Meutim, relacije izmeu razbijanja definiranih matricama B i G mogu se odrediti i na temelju
rezultata diskriminativne analize.
Prije svega, efikasnost razbijanja proporcionalna je visini koeficijenata p i p ; neka opa mjera
efikasnosti algoritama proporcionalna je vrijednosti koeficijenata 1 i 1 .
Relacije taksona mogu se, najjednostavnije, svesti na koeficijente asocijacije izmeu diskriminativnih
varijabli. Jer, ako su L = (Lp), p = 1,..., k, i L* = (L*p), p = 1,..., k, matrice diskriminativnih varijabli, i ako su
matrice njihovih kovarijanci

LT L
i
170

1
= W T RW = C B
n

Objavljeni radovi

LT L

1
= W T RW = CG ,
n

na temelju matrice kroskovarijanci

LT L

1
= W T RW = C BG
n

najpogodnije je relacije taksona definirati kao korelacije diskriminativnih funkcija, tj.

RBG = (diagC B ) 1/ 2 C BG (diagCG ) 1/ 2 .


3. Program COMTAX
Opisani algoritam je gotovo doslovno implementiran u makroprogram COMTAX, napisan u
GENSTAT jeziku, i pohranjen u programskoj biblioteci SRCE*GENS-PRG. Makroprogram COMTAX je
potpuno ulazno nezavisan, i od REFERENCE programa koji ga aktivira zahtijeva jedino da mu prenese
jednu VARIATE strukturu pod imenom VRS, u kojoj su izvorni podaci definirani opisom skupa E na skupu
V. Nema nikakvih ogranienja na broj entiteta i broj varijabli; meutim, stvarne dimenzije problema zavise,
naravno, od veliine raspoloive memorije na raunalu.

Literatura

Anderberg, m.r.(1973):Cluster analysis for applications. Academic Press,New York.


Banfield, C. F. and L. C. Bassill (1977): A transfer algorithm for non-hierarchical classification. Applied
Statistics, 26.
Bosnar, K. and L. Pavii (1982): The application of SS language in canonical analysis of contingency table.
COPSTAT 82, Physica Verlag, Wien, pp. 4142.
Devijver, P. A. and J. Kittler (1982): Pattern recognition: A statistical approach. Prentice Hall, Englewood
Cliffs.
Dobri, V. and K. Momirovi (1984): An algorithm and program for stupid discriminant analysis. Zbornik
radova VIII simpozija iz informatike Jahorina 84", ETF, Sarajevo, 213 : 15.
Dobri, V. (1986): On a class of robust methods for multivariate data analysis. COMPSTAT 86, Physica-Verlag,
Heidelberg, pp. 211216.
Dugi, D.: Algorithm and program for the analysis of structural changes under the model of distinct taxons.
Proceedings of 9th International Symposium Computer at the University", Cavtat (in press).
Hartigan, J. A. (1975): Clustering algorithms. Wiley, New York.
Hosek, A.K. Momirovi and M. Matei (1985): An application of taxonomic analysis of objects described on
canonical variates in the problem of assortative mating. Proceedings of 1th International Symposium Computer
at the University", Cavtat, 514 : 19.
Kaiser, H. F. (1958): The varimax criterion for the analytic rotation in factor analysis. Psycho-metrika, 23 : 187
200.
Momirovi, K. i E. Zakrajek (1973): Odreivanje taksonomskih skupina direktnom oblimin transformacijom
ortogonaliziranih originalnih i latentnih varijabili, Kineziologija, 3, 1 : 8392.
Momirovi, K. (1978): XTQ procedures for the determination of polar taxonomic variables. Informatica 78,
3:104.
Momirovi, K., E. Zakrajek, A. Hoek and M. Stojanovi (1979): Comparative evaluation of some taxonomic
algorithms for the determination of morphological types. Collegium Antropologicum, 3, 1 : 5965.
Momirov, K., L. Szirovicza, M. Gredelj and V. Dobri (1980): CATTELL: Algorithm and program for the
determination of polar taxons based on nonquantitative data. Collegium Antropologicum, 4 : 4144.
Momirovi, K. (1981): A class of algorithms for the determination of polar taxon. Multidimensional Data
Analysis, SRCE, INRIA et ISDUN, Le Chesney, pp. 475491.
Momirovi, K. i M. Gredelj (1982): Jednostavan postupak za detekciju konzistentnih rojeva. Zbornik radova VI
simpozija iz informatike Jahorina 82", ETF, Sarajevo, 282 : 17.
Momirovi, K. i V. Dobri (1984): O nekim odnosima izmeu kanonike i kvazikanonike diskriminativne
analize. Biokibernetika, Skopje, V : 1722,
Momirovi, K. and V. Dobri (1985): Diagnostic efficiency of a robust method for discriminant analysis.
Abstracts of 1st European Biometric Conference, Hungarian Academy of Sciences, Martonvasar, 101.
Nelder, J. A. et all (1977): GENSTAT A general statistical program. Rothampsted Experimental Station,
Harpenden.
Rizzi, A. (1984): Some mathematical properties of cluster methods. Data analysis and Informatics, III, North
171

Konstantin Momirovi u statistici


Holland, Amsterdam, pp. 259275.
Szirovicza, L., M. Gredelj i K. Momirovi (1978): MORPHOTAX: Algoritam i program za taksonomsku
analizu u prostoru multivarijantno rasporeenih varijabli. Informatica 78, 7 : 105.
talec, J. and K. Momirovi (1984): On a very simple model for robust discriminant analysis Proceedings of 6th
International Symposium Computer at the University", Dubrovnik, 515 : 116.
Tou, J. T. and R. C. Gonzales (1974): Pattern recognition principles. Addison-Wesley, Reading.
Zlobec, L. (1975): Komparativna analiza nekih taksonomskih algoritama. Magistarski rad, Elektrotehniki
fakultet, Zagreb.

Dr Konstantin Momirovi

ALGORITHM AND PROGRAMME FOR DETECTION AND


COMPARISON OF POLAR AND DISTINCTIVE TAXONS
Summary
The paper deals with defining the algorithm and making programme for
detection of polar taxons by orthonormal parsimonic transformation of the left eigen
vectors of data matrix, and detection of distinctive taxons by maximizing their
Maxalanobis'distance.
The algorithm sets the number of taxons on the basis of maximal partial
dispersion of the measure of similarity between the entities. Identification of taxons
was performed by discriminative analysis with model of maximizing covariances.
Relations of taxonomic procedures are defined by canonic relations of select
variables and correlations of discriminative functions formed on the basis of these
procedures.

172

Objavljeni radovi

(5 ) ZBORNICI RADOVA 1988 II

Konstantin Momirovi i Nataa Erjavec - Raunski centar Instituta za kineziologiju


Vesna Mildner - Sveuilini raunski centar
TAKSONOMSKA ANALIZA OBJEKATA
OPISANIH ASIMETRINOM RELACIONOM MATRICOM
SAETAK
Predloen je jednostavan postupak za detekciju rojeva ili klika u nekom
skupu objekata koji je opisan nekom relacionom matricom, tako da je rezultat definiran skupom kosih taksonomskih vektora definiranih u prostoru ulaznih kanala i u
prostoru izlaznih kanala. Osnovni koordinatni sustav dobijen je spektralnom
dekompozicijom relacione matrice. Broj rojeva ili klika odreen je tako da se
maksimizira parcijalna entropija reproducirane relacione matrice. Finalna solucija
dobijena je ortogonalnim transformacijama zadranih lijevih i desnih svojstvenih
vektora, normiranih na singularne vrijednosti relacione matrice.
SUMMARY
CLUSTERING OF OBJECTS DESCRIBED ON ASYMMETRIC
RELATIONAL MATRIX. A simple procedure for the detection of clusters or oliques
of objecta described on a relational matrix is proposed, leading to oblique
taxonomic vectors defined in the space of input and in the space of output channels.
Basic space is defined by singular values decomposition of relational matrix.
Numiber of clasters is determined on the basis of a rule such that partial enthropy of
reproduced relational matrix is maximum. Final solution is obtained by orthogonal
parsimonious transformation of retained left and right eigenvectors, normed to the
associated singular values.

1. Uvod
U jednom ranijem radu84 predloen je postupak za detekciju klika na temelju strukture
komunikacijskih mrea, preteno usmjeren na analizu podataka koji se dobijaju sociometrijskim
istraivanjima. Kako to obino biva s metodama koje su nastale zbog specifinih zahtjeva neke odreene
znanstvene discipline, taj je postupak u nekim segmentima bez pravog razloga suvie sloen, a u nekim
segmentima nepotrebno pojednostavljen. Bazini koordinatni sustavi su, naime, definirani posebno na
temelju konfiguracije ulaznih kanala definirane u prostoru izlaznih kanala, a posebno na temelju
konfiguracije izlaznih kanala definirane u prostoru ulaznih kanala. Broj znaajnih koordinatnih osovina, pa
prema tome i broj klika, odreen je na temelju broja svojstvenih vrijednosti tih matrica veih od prosjeka
svih kanala; pa iako se lako moe dokazati da taj kriterij vodi do iste odluke do koje bi doveo i kriterij
zasnovan na znatno vrim argumentima, u kontekstu predloenog algoritma nije bilo jednostavno nai za
njega neko racionalno opravdanje.
I, konano, klike su odreene na temelju ortogonalnih parsimonijskih transformacija zadranih
svojstvenih vektora, dakle u prostoru omeenom ortogonalnim koordinatama, tako da su stvarni odnosi
vektora koji definiraju klike traeni kroz prilino sloenu proceduru uzajamnog preslikavanja jednoga u
drugi prostor.
Ipak, rezultati dobijeni primjenom ove metode na nizu realnih sociometrijskih problema bili su vrlo
ohrabrujui. Postupak je vrlo sigurno otkrivao klike ija je egzistencija bila nesumnjiva na temelju

84

Momirovi, Hoek, Bosnar i Prot (1984). Revidirani reprint ovog rada objavljen je u Petrovi i Hoek (1986), volumen 2, str. 1099-1109.
Algoritam je implementiran programom ITA, koji se nalazi u javnoj biblioteci SRCE*SS-MACRO Sveuilinog raunskog centra u Zagrebu.

173

Konstantin Momirovi u statistici

informacija dobijenih iz drugih izvora, pa ak i prikrivene ili virtualne klike, za koje je tek naknadno
utvreno da stvarno postoje ili da su u procesu formiranja85.
Svrha je ovog rada da opie jedan bitno jednostavniji algoritam za odreivanje bazinog koordinatnog
sustava i procjenu broja klika, i jedan prividno sloeniji, ali u biti jednostavniji ili neposredniji algoritam za
detekciju klika na temelju ulaznih i izlaznih kanala. U tu je svrhu primijenjena jednostavna spektralna
dekompozicija relacione matrice kojom je opisan neki binarni graf; broj klika odreen je tako da
maksimizira entropiju reproducirane relacione matrice, a klike su definirane ortonormalnim transformacijama denormiranih lijevih i desnih svojstvenih vektora te matrice, to praktiki uvijek proizvodi kose
koordinatne sustave, s relacijama koordinatnih osovina koje odgovaraju stvarnim odnosima klika. Zbog toga
je i program kojim je ovaj algoritam implementiran bitno jednostavniji i ekonominiji od programa kojim su
implementirane ranije verzije algoritma za detekciju klika na osnovu strukture komunikacijskih mrea.
2. Metoda i algoritam
Neka je E = {ei; i = 1,..., n} neki skup objekata, i neka je p neka asimetrina binarna relacija tako da
vrijedi
sij = eiej = 1

i, j = 1,..., n

sij= eiej = 0
gdje je oznaka negacije. Prihvatimo konvenciju sii = 1, i oznaimo sa S = (sij) relacionu matricu definiranu
na skupu EE. Vektore SiT u retcima matrice S nazvat emo vektorima ulaznih, a vektore S Tj u stupcima
matrice S vektorima izlaznih kanala.
Neka su p, p p+1, p 0 singularne vrijednosti matrice S, Xp, X Tp X q = pq , lijevi, a

Yp , Y pT Yq = pq , gdje je pq Kroneckerov simbol, desni svojstveni vektori matrice S Bazina struktura ove
matrice bit e
n

S = p X pYpT .
p =1

Definirajmo
k

gk = p
p =1

k = 1,..., n

kao Rossove mjere informativnosti matrice S,i odredimo k tako da je gk = max. Oito, kako je
n

p =1

= n,

k = num( p 1).
Sada je Eckart-Youngova aproksimacija matrice S
k

S * = p X pYpT
p =1

= XY T
ako sa = (p) oznaimo dijagonalnu matricu s prvih k singularnih vrijednosti p, a sa X = (Xp) i Y =
(Yp) matrice koje sadre njima pridruene lijeve i desne svojstvene vektore od S.
Definirajmo
L = X1/2
D = Y 1/2
85

Momirovi, Hoek, Bosnar i Prot (1984); najder (1984); najder i Hoek (1985); Momirovi, Hoek i Petrovi (1986). Neke od ovih analiza
uinjene su i programima HAYWAN i ESHEK, koji su takoer pohranjeni u biblioteci SRCE*SS-MACRO.

174

Objavljeni radovi

pa kako je
S*=LDT,

L i D su faktorske matrice od S, koje odreuju poloaj ulaznih vektora si, odnosno izlaznih vektora Sj,
i = 1,..., n; j = 1,..., n, u k-dimenzionalnom prostoru u koji su projicirani objekti iz E.
Pogodan nain odreivanja rojeva ulaznih odnosno izlaznih vektora jesu ortogonalne parsimonijske
transformacije
n

p =1

p =1

LT = A = (aip ) n aip4 ( aip2 ) 2 = max


i =1 p =1

T T = TT = I
T

odnosno
n

p =1

j =1

DQ = B = (b jp ) n b 4jp ( b 2jp ) 2 = max


j =1 p =1

Q Q = QQ = I
T

Oito,

M * = AT A = T T T diag
C * = BT B = QT Q diag
Definirajmo
U = diag M*
V = diag C*,
pa e u matricama
M = U-1/2TTTU-1/2 i C= V-1/2QTQV-1/2
biti kosinusi kuteva i izmeu vektora AP, p = 1,..., k, koji definiraju rojeve ulaznih vektora, odnosno izmeu
vektora BP, p = 1,..., k, koji definiraju rojeve izlaznih vektora.
Koordinate objekata iz E u sustavu definiranom rojevima ulaznih vektora bit e definirane matricom
G = AM-1,
a koordinate objekata iz E u sustavu definiranom rojevima izlaznih vektora matricom
H = BC-1.
3. Program ACL
ACL je MACRO program, napisan u GENSTAT-u, verzija 4.04. REFERENCE, ili neki drugi
MACRO program mora prenijeti ACL-u samo jednu MATRIX strukturu, u kojoj je relaciona matrica koja se
analizira, jednu POINTER strukturu, u kojoj su identifikacione oznake vorova. Sve strukture u ACL-u su
lokalne, tako da moe biti pozvan u okviru neke petlje ili vie puta koriten u okviru programa koji ga
poziva. ACL je interno dokumentiran dovoljnim brojem komentara i opirnih zaglavlja pridruenih svakoj
izlaznoj strukturi. Primijenjen je vie puta, na realnim i simuliranim podacima; u svim je sluajevima otkrivao bazinu strukturu grafa, pa i onda kada je ta struktura bila izrazito nepovoljna sa taksonomske toke
gledita86.
Literatura

Momirovi, K., Hoek, A., Bosnar, K., Prot, F. (1984): Algoritam za detekciju klika na osnovu strukture
komunikacijskih mrea. Kineziologija,16, 1: 21-24.
Momirovi, K., Hoek, A., Petrovi, K. (1986): Determination of microsocial status by a semimetric
multidimensional scaling technique: An attempt to surpass standard sociometric procedures in sports sociology.
U K. Petrovi i A. Hoek, Prilozi za sociologiju sporta, 2, Fakultet za fiziku kulturu, Zagreb, str. 1111-1118.
Petrovi, K. i Hoek, A. (1986): Prilozi za sociologiju sporta. Fakultet za fiziku kulturu, Zagreb.
najder, G. (1984): Utjecaj urgentne takmiarske situacije na mikrosocijalni status jedne vrhunske odbojkake
momadi. Kineziologija, 16, 2: 199-205.
najder, G. i Hoek, A. (1985): Utjecaj socijalnog statusa na formiranje grupa u jednoj vrhunskoj odbojkakoj
momadi. Kineziologija, 17, 2 :137-144.

86

Primjeri ponaanja ovog programa mogu se, na zahtjev, dobiti u Raunskom centru Instituta za kineziologiju. ACL je pohranjen u javnoj
programskoj biblioteci SRCE*GSNS-MACRO Sveuilinog raunskog centra u Zagrebu.

175

Konstantin Momirovi u statistici

(6 ) STATISTIKA REVIJA 1989 I

Dr Konstantin Momirovi, Marijan Gredelj - Sveuilite u Zagrebu


O MJERAMA UDALJENOSTI I SLINOSTI OBJEKATA U
MIRROR IMAGE I ANTIMIRROR IMAGE PROSTORU
Razmatrana su neka svojstva standardiziranih varijabli
transformiranih u mirror image i antimirror image oblik. Kako ova svojstva mogu
biti zanimljiva za procese klasifikacije i diskriminacije, predloena su dva skupa
mjera udaljenosti, definirana udaljenostima Minkowskog u mirror image i
antimirror image prostoru, i dva skupa mjera slinosti, definirana skalarnim
produktima vektora objekata u mirror image i antimirror image prostoru.
Kljune rijei: mjere udaljenosti, mjere slinosti, mirror image,
antimirror image, Minkowski space

1. Uvod
Ekstenzija image analize (Guttman, 1953; Kaiser 1963) koju je predloio Bentler (1969) definirana je
operacijom
B = Z (I-R-1D)
gdje je Z standardizirana matrica podataka, R matrica korelacija izmeu varijabli, a D neka dijagonalna
matrica s pozitivnim dijagonalnim elementima. Otuda je ekstendirani antiimage definiran operacijom
Z-B = Z R-1D.
Klasina Guttmanova image transformacija definirana je operacijom
B = Z (I-R-1U2),
gdje je
U2 = (diag R-1)-1,
dakle gdje je D = U2. Mirror image transformacija koju su predloili Momirovi, Gredelj i Dobri (1981)
poneto je egzotina procedura u kojoj je D = I.
Svrha ovog rada je da preciznije definira svojstva mirror image i antimirror image transformacija, i da
na tako transformiranim podacima definira dvije klase mjera udaljenosti izmeu objekata, odreene
udaljenostima Minkowskog u mirror image i antimirror image prostoru, i dvije klase mjera slinosti,
odreene skalarnim produktima i normiranim skalarnim produktima vektora objekata u ovim prostorima.
2. Neka svojstva standardiziranih varijabli u mirror image i antimirror image metrici
Neka je Z = (zij); i = 1,..., n; j = 1,..., m; m < n matrica podataka u m dimenzionalnom realnom
prostoru, dobijena opisom nekog skupa objekata E = {ei; i = 1,..., m} na nekom skupu kvantitativnih
simetrino distribuiranih varijabli V = {vj; j = 1,..., m} s nesingularnom matricom korelacija R = Z t Z
Definicija 1. Antimirror image transformacija varijabli iz Z definirana je operacijom A = ZR-1.
Definicija 2. Mirror image transformacija varijabli iz Z definirana je operacijom

1
.
n

M = Z-A = Z (I-R-1)
Razmotrimo najpre karakteristike antimirror image varijabli:
1. Antimirror image varijable imaju asimptotski normalnu raspodelu, jer su linearna kombinacija
identino distribuiranih varijabli.
176

Objavljeni radovi

2. Matrica njihovih kovarijanci je

At A

1
= R 1 ;
n

jednaka je, dakle, informacijskoj matrici izvedenoj iz Z.


3. Matrica kovarijanci standardiziranih antimirror image varijabli je

ZtA

1
= I;
n

4. Standardizirane i iz njih izvedene antimirror image varijable lee u istom prostoru, jer se matrice
njihovih kovarijanci, R i R-1, dijagonaliziraju u istoj bazi.
Karakteristike mirror image varijabli su:
1. Mirror image varijable imaju asimptotsku normalnu raspodjelu, jer su linearna kombinacija
identino distribuiranih varijabli.
2. Matrica njihove kovarijacije je

G = M tM

1
= R + R 1 2 I
n

3. Matrica kovarijanci standardiziranih i mirror image varijabli je

Z tM

1
= R I.
n

4. Standardizirane i iz njih izvedene mirror varijable lee u istom prostoru, jer se matrice njihovih
kovarijanci, R i G, dijagonaliziraju u istoj bazi.
Uoimo da mirror image i antimirror image varijable nisu nezavisne, jer je matrica njihovih
kovarijanci

At M

1
= I R 1.
n

Neka je bazina struktura matrice korelacije standardizovanih varijabli

R = XX t
gdje su u X, XtX = XXt svojstveni vektori, a u = (p), p p+1 svojstvene vrednosti od R. Bazina
struktura matrice kovarijanci antimirror image varijabli bie R-1 = X-1 Xt, a bazina struktura matrice
kovarijanci mirror image varijabli

G = X (1/ 2 1/ 2 ) 2 X t .
3. Mjere udaljenosti
Neka je Z = (aij); i = 1,..., n; j = 1,..., m; matrica podataka u antimirror image metrici, i neka je G =
(gij); i = 1,..., n; j = 1,..., m; matrica podataka u mirror image metrici.
Ako je potrebno da se udaljenosti izmeu objekata odrede na komponen-tama varijabli koje su unikne
u antimirror image smislu, te je udaljenosti mogue definirati kao udaljenosti u nekom l - prostoru
Minkowskog operacijama
m

d ik(l ) = ( ( aij a jk )l )1/ l , l > 0;


j =1

meutim, ako je potrebno da se udaljenosti izmeu objekata odrede na kom-ponentama varijabli koje su
zajednike u mirror image smislu, te je udaljenost mogue definisati kao udaljenost Minkowskog
operacijama
m

d ik(l ) = ( ( g ij g jk )l )1/ l , l > 0.


j =1

4. Mjere slinosti
Mjere slinosti se, na bilo koji od uobiajenih naina, mogu izvesti iz mjera slinosti. Meutim, u
nekim primjenama, kao to je, na primjer, analiza glavnih koordinata, pogodno je te mjere definirati na
177

Konstantin Momirovi u statistici

uniknim komponentama operacijom


m

j =1

j =1

j =1

sik = aij a jk /( aij2 a 2jk )1/ 2


ili, prosto, operacijom
m

pik = aij a jk .
j =1

Analogno, ako je pogodno definirati te mjere na zajednikim komponentama, operacija


m

j =1

j =1

j =1

sik = g ij g jk /( g ij2 g 2jk )1/ 2


ili
m

pik = g ij g jk
j =1

e proizvesti mjere slinosti objekata u mirror image prostoru.

Literatura
P. M. Bentler: "Some extensions of image analysis", Psychometrika, 34 (1969), 1: 77-83
L. Guttman: "Image theory for the structure of quantitative variates", Psychometrika, 18 (1953), 3: 277-296
H. F. Kaiser: "Image analysis". In C. W. Harris (Ed.): "Problems in measuring change", University of Wiscosin
Press, Madison, 1963
K. Momirovi, M. Gredelj, V. Dobri: "Mirror image analysis and its application to reliability theory",
Proc. 3th International Symphosium 'Computer at the University', 1981, 305: 1-3

Dr Konstantin Momirovi, Marijan Gredelj

ON THE MEASURES OF DISTANCE AND SIMILARITY OF


OBJECTS IN MIRROR IMAGE AND ANTIMIRROR IMAGE SPACE
Summary
Some properties of standardized variates transformed to mirror image and
antimirror image are considered. These properties can be interesting for the
processes of classification and discrimination. Therefore two sets of measures of
distance are proposed, denned by Minkowski, distances in mirror image and
antimirror image space. Two sets of similarity measures are also proposed, denned
by scalar products and normal scalar products of vectors of objects in mirror image
and antimirror image space.

178

Objavljeni radovi

(7 ) STATISTIKA REVIJA 1989 II

STRUNI LANCI
Dr Ankica Hoek - Zavod za kinezioloku antropologiju, Zagreb
Dr Konstantin Momirovi - Fakultet za fiziku kulturu, Zagreb
TAKSONOMSKA ANALIZA KOGNITIVNIH I KONATIVNIH
KARAKTERISTIKA U DJECE OD 11 GODINA
Rezime
Taksonomska analiza, pod modelom polarnih taksona, jednog uzorka od 464
djece oba spola, stare 11 godina, izvedena je ortonormalnom parsimonijskom
transformacijom lijevih svojstvenih vektora, normiranih na singularne vrijednosti,
matrice podataka dobijene opisom objekata na skupu od 9 varijabli za procjenu
efikasnosti perceptivnog, paralelnog i serijalnog procesora, efikasnosti regulatora
aktiviteta, organskih funkcija, obrane i napada, i ureaja za koordinaciju i
integraciju regulativnih funkcija. Izolirane su tri taksonomske dimenzije na kojima
je bilo mogue definirati objekte s poremeajima regulativnih funkcija, ispadima
kognitivnih procesora i disregulacijom aktiviteta. Ovim je dimenzijama bilo mogue
objasniti preko 65% informacija sadranih u matrici podataka.
Kljune rijei: klasifikacija, polarni taksoni, TAXONOM, djeca, kognitivni
procesori, konativni regulator

1. Problem
Koliko se moglo utvrditi inspekcijom dostupne literature, struktura kognitivnih i konativnih
karakteristika nije do sada bila analizirana ni pod kojim taksonomskim modelom. Za ovo ima vie razloga,
od kojih je sigurno najvaniji apsolutna dominacija faktorskog modela u analizi strukture psihikih
karakteristika. Osim ovoga, postoje i drugi razlozi; jedan od njih je shvaanje da su za analizu
multivarijantno normalno distribuiranih varijabli modeli koji pretpostavljaju egzistenciju distinktnih taksona
neadekvatni, a drugi injenica da koncepcija polarnih taksona, pod kojom je jedinom mogue analizirati
podatke ove vrste, jo nije openito prihvaena.
Zbog toga je svrha ovog rada da se provjeri mogu li se pod taksonomskim modelom dobiti smisleni
rezultati kada je skup ispitanika opisan nad skupom kog-nitivnih i konativnih dimenzija koje su jasno
definirane modelima funkcioniranja procesa za analizu informacija i sistemima za regulaciju i kontrolu
ponaanja. Posebna svrha ovog rada bila je da se utvrdi kakav je sklop taksonomskih dimenzija ako se radi o
ispitanicima kod kojih tek zapoinju procesi diferencijacije i amalgamacije, dakle kakve je taksone mogue
izolirati iz skupine djece stare 11 godina.
2. Metode
Analiza je izvedena na uzorku od 464 djece, oba spola, stare 11 0.5 godina, koji je izvuen kao
dvoetapni grupni uzorak iz populacije uenika osnovnih kola u Zagrebu. Ovoj su djeci primijenjena tri testa
za procjenu efikasnosti kognitivnih procesora, definiranih modelom Dasa, Kirbya i Jarmana (1975) i
Momirovia, K. Bosnar i S. Horge (1982), i est testova za procjenu efikasnosti konativnih regu-latora,
definiranih modelom Powella i Roycea (1981) i Momirovia, S. Horge i K. Bosnar (1982). Nazivi tih
testova, njihovi autori, predmeti mjerenja i koeficijenti pouzdanosti navedeni su u tabeli 1.

179

Konstantin Momirovi u statistici


Tabela 1. Predmeti mjerenja i koeficijenti pouzdanosti kognitivnih i konativnih testova
Test
Autori
Predmet mjerenja
Pouzdanost
IP
Momirovi,
Efikasnost perceptivnog procesora
.93
Bosnar, Prot
PP
Mejovek
Efikasnost paralelnog procesora
.91
SP
Mejovek
Efikasnost serijalnog procesora
.71
EPSILON
Momirovi,
Regulacija aktiviteta
.67
Bosnar, Prot
HI
Momirovi,
Regulacija organskih funkcija
.79
Bosnar, Prot
ALPHA
Momirovi,
Regulacija reakcija obrane
.79
Bosnar, Prot
SIGMA
Momirovi,
Regulacija reakcija napada
.81
Bosnar, Prot
DELTA
Momirovi,
Koordinacija regulativnih funkcija
.88
Bosnar, Prot
ETA
Momirovi,
Integracija regulativnih funkcija
.84
Bosnar, Prot

Broj
1.
2.
3.
4.
5.
6.
7.
8.
9.

Rezultat u svakom tekstu definiran je kao prva glavna komponenta estica reskaliranih na univerzalnu
metriku.
Taksonomska analiza izvedena je algoritmom TAXONOM, u verziji koju su predloili Momirovi,
Zakrajek, Hoek i Stojanovi (1979). Sutina algoritma sastoji se u ekstremizaciji brutto varimax funkcije
pomou ortonormalne trans-formacije zadranih ljevih vektora matrice podataka, normiranih na singularne
vrijednosti te matrice. Broj zadranih lijevih vektora, pa prema tome i broj taksonomskih dimenzija, odreen
je tako da su transformaciji podvrgnute samo one inicijalne dimenzije koje imaju nenulte koeficijente
generalizabilnosti. Identi-fikacija taksonomskih dimenzija omoguena je na osnovu njihovih interkorelacija,
njihovih korelacija s varijablama kojima su objekti opisani, i na osnovu koordinata vektora varijabli u
sastavu koji je definiran taksonomskim dimenzijama.
Da bi se omoguila usporedba rezultata dobijenih pod taksonomskim modelom i rezultata pod
faktorskim modelom, uinjena je i jednostavna komponentna analiza matrice podataka. Latentne dimenzije
definirane su ekstremizacijom brutto varimax funkcije na desnim vektorima matrice podataka, normiranim
na singularne vrijednosti te matrice. Identifikacija rezultata omoguena je na osnovu matrice kroskorelacija
varijabli i faktora.
3. Rezultati
Najvaniji rezultati prikazani su u slijedeim tabelama: u tabeli 2. je sklop taksonomskih dimenzija,
dakle koordinate vektora varijabli u koordinatnom sustavu koji je definiran taksonomskim dimenzijama,
zajedno s normama vektora varijabli.
Broj
1.
2.
3.
4.
5.
6.
7.
8.
9.

Test
IP
PP
SP
EPSILON
HI
ALPHA
SIGMA
DELTA
ETA

Tabela 2. Sklop taksonomskih dimenzija


N
G
-.01
.84
.02
.79
-.03
.21
.16
-.02
.83
-.93
.81
-.06
.71
.07
.81
.08
.89
-.04

E
.11
-.04
-.49
.82
-.20
-.26
.35
.07
-.08

Norma
.82
.80
.56
.83
.87
.86
.77
.82
.89

U tabeli 3. su interkorelacije taksonomskih dimenzija:


Dimenzija
N
G
E
180

Tabela 3. Interkorelacije taksonomskih dimenzija


N
G
1.00
.16
1.00
-.08
-.18

E
1.00

Objavljeni radovi

U tabeli 4. je struktura taksonomskih dimenzija, dakle korelacija varijabli s tim dimenzijama:


Broj
1.
2.
3.
4.
5.
6.
7.
8.
9.

Tabela 4. Struktura taksonomskih dimenzija


Test
N
G
IP
.12
.82
PP
.15
.80
SP
.04
.29
EPSILON
.09
-.15
HI
.84
.14
ALPHA
.82
.12
SIGMA
.69
.13
DELTA
.81
.20
ETA
.99
.12

E
-.05
-.18
-.52
.81
-.26
-.32
.28
-.01
-.14

U tabeli 5. su za svaka tri objekta sa ekstremnim pozicijama na svakoj tak-sonomskoj dimenziji


navedene standardizirane vrijednosti na svim taksonomskim dimenzijama:
Tabela 5. Vrijednost prva tri ekstremna objekta na taksonomskim dimenzijama
Objekt
Reprezentant
N
G
E
106
N-3.09
-1.63
0.05
464
N-2.80
-0.67
-0.60
399
N-2.54
0.80
0.28
411
G-1.35
-4.06
0.77
414
G-0.81
-4.03
0.49
354
G-0.32
-3.42
-0.81
330
E1.21
1.52
-3.12
345
E+
1.48
0.02
2.67
470
E-0.11
0.77
-2.67

U tabeli 6. su rezultati faktorske analize, prikazani strukturom latentnih dimenzija definiranih varimax
faktorima:
Broj
1.
2.
3.
4.
5.
6.
7.
8.
9.

Tabela 6. Struktura varimax faktora


V1
IP
.05
PP
.10
SP
.06
EPSILON
.04
HI
.85
ALPHA
.84
SIGMA
.66
DELTA
.80
ETA
.89
Test

V2
.82
.78
.20
-.01
.04
.01
.14
.14
.04

V3
-.04
-.16
-.53
.82
-.13
-.19
.38
.11
.00

Dobijene su tri taksonomske dimenzije iji je sadaj, kako se vidi iz usporedbe njihove strukture sa
strukturom varimax faktora, gotovo identian sa sadrajem latentnih dimenzija dobijenih pod faktorskim
modelom. Ova pojava, koja se rijetko javlja kada se isti skup podataka analizira pod faktorskim i
taksonomskim modelom, sigurno je posljedica vrlo pregnantnog sklopa analiziranih podataka.
Prva taksonomska dimenzija definirana je svim mjerama regulacije i kontrole konativnih funkcija, a
grupa entiteta koja je odredila tu dimenziju karakterizirana je poremeajima tih funkcija. Kako ova dimenzija
ima i najvei stupanj generalizabilnosti, opravdano je pretpostaviti da je diferencija djece stare 11 godina,
prije svega, mogua na temelju efikasnosti sistema za regulaciju i kontrolu neuralnih funkcija.
Druga taksonomska dimenzija definirana je onim mjerama intelektualnog funkcioniranja koje zavise
od genetiki uvjetovane efikasnosti kognitivnih procesora, jer je odreena mjerama efikasnosti perceptivnog
i paralelnog procesiranja. I ovdje je skupina entiteta koja je odredila poloaj ove dimenzije definirana onom
djecom kod koje se javljaju ozbiljni ispadi u intelektualnom funkcioniranju. Slaba ali znaajna korelacija
izmeu ovih dimenzija pokazuje da su ispadi u funkcioniranju kognitivnih procesora i konativnih regulatora
meusobno povezani, to se osobito dobro vidi iz profila ispitanika koji zauzimaju ekstremne pozicije na
prve dvije taksonomske dimenzije.
Za razliku od njih, distribucija tree taksonomske dimenzije je normalna. Na pozitivnom polu
dimenzija je definirana entitetima sa snienom razinom ak-tiviteta, s im je u pravilu povezan inferioran nivo
funkcioniranja serijalnog procesa. Na negativnom polu definirana je pretjeranom razinom aktiviteta, s im je
u vezi poviena efikasnost serijalnog procesora, koja u pravilu nije podrana povienom efikasnou
perceptivnog i paralelnog procesora. Prema tome, ova dimenzija diferencira eretine od torpidnih ispitanika.
181

Konstantin Momirovi u statistici

injenica da su izdvojene tri dobro definirane, ali relativno nezavisne taksonomske dimenzije moe se
objasniti najvjerojatnije time to u ovoj dobi, u kojoj tek poinje proces amalgamacije, jo nije uspostavljena
kohezija izmeu funkcija razliitih sistema za procesiranje informacija i regulaciju i kontrolu neuralnih
funkcija.
Literatura

Das, J. P., Kirby, J., Jarman, R. F.: "Simultaneous and successive syntheses: An alternative model for cognitive
abilities", Psychological Bulletin, 82 (1975), 1: 87-103
Momirovi, K., Zakrajek, E., Hoek, A., Stojanovi, M.
"Comparative evaluation of
some
taxonomic
algorythms
for
the
determination
of
morphological
types",
Collegium
Antropologicum, 3 (1979), 1: 59-65
Momirovi, K., Bosnar, K., Horga, S.: "Kibernetiki model kognitivnog funkcionisanja: Pokuaj sinteze nekih
teorija o strukturi kognitivnih sposobnosti", Kineziologija, 14 (1982), IB 5: 63-82
Momirovi, K., Horga, S., Bosnar, K. "Prilog formiranju jednog kibernetikog modela
strukture konativnih faktora", Kineziologija, 14 (1982), IB 5: 83-108
Powell, A., Royce, J. R.: "An overview of a multifactor-system theory of personality and individual differences:
The factor and system models and the hierarhical factor structure of personality", Journal of Personality and Social
Psychology, 41 (1981), 4: 818-829

Ankica Hoek, Konstantin Momirovi

TAXONOMIC ANALYSIS OF COGNITIVE AND CONATIVE


CHARACTERISTICS IN CHILDREN OF 11 YEARS
Summary
Taxonomic analysis, under the model of polar taxons, is performed on a
sample of 464 children, 11 years old, by orthonormal parsimonious transformation
of the left eigenvectors, normed to associated singular values, of data matrix
obtained by description of objects on a set of 9 variables for the estimation of
efficiency of the perceptive, parallel and serial processor, and efficiency of systems
for the regulation of activity, organic function, defence and attack, and coordination
and integration of regulatory functions. Three well defined taxonomic dimensions
were isolated, with clusters of objects with disorder of regulatory functions,
aberration of cognitive processes, and activity disregulation. More then 65% of
informations contained in data matrix could be explained with these dimensions.
Key words: clasification, polar taxons, TAXONOM, children, intelligence,
personality.

182

Objavljeni radovi

(8 ) ZBORNICI RADOVA 1989 II

. . , ,
. , ,

,
,
.
,
, ,


.
,
.

1 .
.
Q, - qi.
- i. ,
qi. i.
Q . ,
, , i .
, , i,
, , qi.
i, ,
, , .
.
: i,
,
Q, . ,
Q. qi
yk Ti
Sj yk, .
.
, , .
, .
,
. T' T''
, T'
T'', , T .
, ,
(, 1982; . 1987).

.

183

Konstantin Momirovi u statistici

2.
- e, Tm ,n = eij

mn

- m n ,

e ij E; K r ,s -
m r n s. Ek, k 1,
{1,2,...,k} Tm,nKr,s Er Es
,
. Tm,n .
K r.s . : (K r.s ) t K r.s , t {1,2,...} , r,s . K K r.s P

r,s KP - , K r.s .
(1) K, KP - , a ee ,
(2) (u1, ..., ul) Qr,s, a k1, k2, ..., kl KP - , 1,
2, ..., l , (k1, k2 ..., kl) KP - ,
(1, 2, ..., l).
[K, P] KP - . K, K' Kr,s P
Qr,s. , K' K , [K, P] K'.
1 . , E, K, K', P
r, s , ' .
K K r.s , , , T' K
: ,
T T', . ,
T K r.s ,
T''. T'',
, , . K.
, B < T. ,
, [K, P] K', |K'|= . .
T 2. , , , , , s
B < T .
, K'
, K' ,
.
.

3. , , , r, s
) ' ,
) < ;
.

, ', '
,
. . E r,s(l)
- , l r,s,
4. , , , ',
, r, s, l
r,s(l), .
(, , ') , (, , ) , '

, -
. 3. 4.
5. , , , s, l
(, , ') (, , ), r,s(l),
.
184

Objavljeni radovi

,
, , .
, (2)
, k1, k2 ..., kl 1, 2, ..., l ,
e (1, 2, ..., l). .
, o , , ,
r- .
, , ,
R E E. , b E , , R b,
(a, b) R, R b. R r,s, T
T' K r.s T R T', T T' aij T bij
T' aij R bij. , [K, P]
K' : T' K' [K, P] , T R T'.
K'= B K'R B,
: aij K' bij B aij R bij.
R .
, ,
R. , rR .
. r-, R- rR- 1. 5.
; , ,
.
,
1. 5.
, :
() ;
(b) K, P, R,
;
()
, (, 1988),
, ,
, , ,
.

V.B. Kudrjavcev - Moskovski dravni univerzitet, SSSH


K. Momirovi - Sveuilite u Zagrebu, Jugoslavija

O JEDNOM PRISTUPU PROBLEMIMA PREPOZNAVANJA


Predloena je vrlo opa shema koja omoguava unificirani tretman jedne iroke klase problema
prepoznavanja i/ili klasifikacije. Sutina predloenog pristupa temelji se na generalizaciji pojma slinosti i
primjeni projektivnih operatora nad objektima ili klasama objekata koji su opisani kao submatrice jedne matrice
koja ima neka posebna svojstva. Postavljeno je i dokazano nekoliko teorema o egzistenciji rjeenja pod ovim
modelom, ak i u sluaju nepotpunih informacija ill informacija sa pogrekama.

epaypa
Ky B. . " CTM. Moca,1982
Momirovi, K.: Uvod u analizu nominalnih varijabli. Metodoloke sveske 3, JUS, Ljubljana, 1988.
Momirovi, K.: Metode, algoritmi i programi za analizu kvantitativnih i kvalitativnih promjena. Institut za
kineziologiju, Zagreb, 1987.

185

Konstantin Momirovi u statistici

(9 ) ZBORNICI RADOVA 1989 III (1)

II MAJSKI SKUP '88 SEKCIJE ZA KLASIFIKACIJE SSDJ-a


Mostar, 27. i 28. maj 1989.
Marijan Gredelj, Ankica Hoek i Konstantin Momirovi - Sveuilite u Zagrebu
TAKSONOMSKA ANALIZA KVALITATIVNIH PROMJENA
STRUKTURE KRIMINALITETA
Razlike u uestalosti krivinih dijela protiv ivota i tijela i protiv imovine u
opinama SR Hrvatske u 1979. i 1987. godini analizirane su algoritmom koji
odreuje taksone objekata parsimonijskim transformacijama necentriranih
kvazikanonikih varijabli. Naeno je da algoritam generira dobro definirane, ali
razlivene taksone i da je dovoljno osjetljiv na promjene taksonomske strukture
objekata.
KLJUNE RIJEI: Kvalitativne promjene / Kanonika analiza kovarijanci /
Struktura kriminaliteta

1. Uvod
Kvalitativne promjene do kojih u nekom vremenskom intervalu dolazi spontano ili uslijed djelovanja
nekog procesa mogu se definirati bilo kao promjene relacija izmeu varijabli kojima je opisan neki skup
objekata, bilo kao promjene relacija izmeu objekata (Momirovi, 1987). Prva definicija obino vodi do
primjene metoda koji se svode na analizu neke funkcije razlika izmeu dviju ili vie matrica kovarijanci.
Druga definicija najee vodi do primjene neke taksonomske procedure u dvije ili vie vremenskih toaka i
zatim procjene relacija izmeu tako dobijenih taksona objekata.
Iako se za analizu kvalitativnih promjena ee primjenjuju postupci izvedeni iz relacije izmeu
varijabli, postupci izvedeni iz relacija izmeu objekata imaju mnoga pogodna svojstva, od kojih nije
najmanje vano to to su rezultati u pravilu neposredno razumljivi. Meutim, zbog dobro poznate injenice
da je nemogue pronai ak i klasu taksonomskih procedura koja bi u opem sluaju bila optimalna,
taksonomski pristup analizi kvalitativnih promjena jo uvijek nije openito prihvaen. U rijetkim
sluajevima kada se taksonomska analiza primjenjuje kao osnovna metoda za analizu kvalitativnih promjena,
procedura se najee svodi na odreivanje distinktnih taksona objekata u dvije razliite vremenske toke,
najee nekom metodom lokalne optimizacije, a zatim na odreivanje relacija izmeu taksona primjenom
tehnike koja je poznata pod imenom analiza korespodenci (Momirovi, 1986; 1987; Dugi, 1987).
Glavni inioci od kojih zavisi izbor pogodne taksonomske procedure za analizu kvalitativnih promjena
jesu:
* broj vremenskih toaka
* tip varijabli kojima su objekti opisani
* vrsta metrike koja je primjerena tipu objekata, i vrsta metrike koja je primjerena tipu varijabli,
* stupanj nunosti da se usporedbe izmeu vremenskih toaka uine u prostoru koji je zajedniki tim
tokama,
* taksonomska funkcija koju ima smisla ekstremizirati,
* priroda mjera udaljenosti ili slinosti taksona koja je primjerena primjenjenoj taksonomskoj
proceduri.
Vanu klasu problema koji se mogu rjeavati taksonomskim metodama ine oni u kojima je u dvije
razliite vremenske toke, locirane na poetku i na kraju nekog procesa, ili u kritinim fazama nekog
186

Objavljeni radovi

kontinuiranog procesa, neki skup objekata, koji je identian s populacijom svih zanimljivih objekata, opisan
na skupu varijabli koje lee na nekoj apsolutnoj skali. Za ovu klasu problema testiranje statistikih hipoteza
oigledno nema smisla, budui da ne postoje populacijski parametri koje bi trebalo procjeniti na temelju
uzoraka. Osim toga, ako su sve varijable apsolutnog tipa, jedina transformacija kojom se ne gube nikakve
informacije jeste identina transformacija. U tom sluaju, prirodna mjera relacija izmeu varijabli je obian
koeficijent kongruencije, a prirodna mjera relacija meu objektima jeste neka funkcija skalarnog produkta
vektora kojima su dva objekta opisana na skupu varijabli (Zegers i Ten Berge, 1985; Momirovi, 1988).
Naravno da je i u ovom sluaju mogu izbor izmeu velikog broja razliitih taksonomskih algoritama i
relativno velikog broja mjera udaljenosti ili slinosti taksona (Jambu, 1979). Ipak, najpogodnije je izabrati
procedure koje su najjednostavije i sa logike i sa matematike toke gledita; ovo zbog toga to su problemi
ove vrste i tako po prirodi stvari dovoljno sloeni i nema nikakve potrebe initi ih jo sloenijim primjenom
kompliciranih procedura koje obino zahtjevaju uvoenje pretpostavke ili uvjeta koji je teko dokazati ili u
praksi nemogue ispuniti. U ovom je radu stoga prikazana primjena jedne vrlo jednostavne metode, koja se u
biti svodi na nezavisne parsimonijske transformacije matrica podataka dobijenih projekcijama objekata na
kvazikanonike dimenzije dobijene ekstremizacijom mjera slinosti kompozitnih varijabli izvedenih iz
matrica izvornih podataka bez ikakvih, implicitnih ili eksplicitnih, preliminarnih transformacija tih matrica.
Ova procedura, koju su 1986. predloili Perii i Momirovi, unosi vjerojatno najmanje nasilja nad izvornim
podacima. Izvorni algoritam, koji e ukratko biti opisan u narednoj selekciji, primjenjen je u analizi
kvalitativnih promjena kriminalnog ponaanja, tipinog za opine SR Hrvatske prije izbijanja aktualne
drutvene, ekonomske, politike i moralne krize, i u godini u kojoj je ta kriza ako ne dostigla maksimum a
ono sigurno bila vrlo blizu tog maksimuma.
2. Algoritam
Neka je neki skup objekata opisan nad skupom apsolutnih varijabli u dvije vremenske toke.
Algoritam QUASAR (Perii i Momirovi, 1986) definiran je slijedeim operacijama:
(1) ekstremiziraju se skalarni produkti vektora dobijenih transformacijom normiranih matrica
podataka pomou ortornormalnih operatora, to se u sutini svodi na spektralnu dekompoziciju matrice
krosprodukata normiranih vektora varijabli;
(2) formiraju se za unaprijed zadati broj taksona vektori iji su elementi projekcije objekata na tako
definirane linearne kombinacije izvornih varijabli;
(3) tako formirane matrice podvrgavaju se, posebno, ortonormalnim transformacijama tako da se
ekstremizira neka, parsimonijska funkcija; u ovom sluaju, ekstremizirana je Kaiserova brutto varimax
funkcija;
(4) dobijene matrice predstavljaju taksonomske matrice na skupu razlivenih taksona; odreuju se
relacije taksononnskih vektora i, takoer u svrhu identifikacije, koordinate varijabli na tim vektorima;
(5) relacije izmeu taksonomskih solucija dobijenih u dvije razliite vremenske toke definiraju se kao
kosinusi kuteva izmeu taksonomskih dimenzija.
Ovaj je algoritam implementiran u makroprogram istog imena, koji je napisan u programskom jeziku
GENSTAT, verzija 4.04B, i pohranjen u javnoj programskoj biblioteci SRCE*GENS-MACRO Sveuilinog
raunskog centra u Zagrebu.
3. Objekti i varijable
Analize su provedene na podacima izvedenim iz arhiva Republikog zavoda za statistiku SR Hrvatske,
koji predstavljaju rezultate dobijene Statistikim upitnikom za optuenu punoljetnu osobu protiv koje je
krivini postupak pravomono zavren (obrazac SK-2, statistiko istraivanje R 42) za godinu 1979 (koja je
uzeta kao godina neposredno prije izbijanja velike krize) i godinu 1987 (posljednja godina za koju su
postojali raspoloivi podaci, koja je uzeta kao reprezentant perioda aktualne drutvene, ekonomske, politike
i moralne krize). Analizirano je 110 opina na ijoj je razini bilo mogue agregirati podatke dobijene
spomenutim upitnikom. Ovaj skup predstavlja sve opine u SR Hrvatskoj, izuzev Splita i iz njega kasnije
izdvojenih opina; zbog poznatih problema povezanih sa izdvajanjem opina iz bive opine Split, nije bilo
mogue taj dio dalmatinske regije ukljuiti u analizu.
Jednom preliminarnom analizom eliminirana su krivina djela koja se javljaju vrlo rijetko, pa su ostala
samo najvanija krivina djela, protiv ivota i tijela, i krivina djela protiv drutvene i privatne imovine koja
uestvuju sa dovoljnom frekvencijom u ukupnom kriminalitetu SR Hrvatske. Na taj je nain skup objekata
opisan sa ovih 39 varijabli:
187

Konstantin Momirovi u statistici

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

KO35010
KO36000
KO37010
KO38000
KO41010
KO41020
KO41030
KO41041
KO42010
KO43010

11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.

K130010
K131011
K131012
K131016
K131020
K132010
K132020
K133000
K134010
K134030
K134040
K135010
K136010
K136030
K137010
K137020
K139010
K140010
K141010
K142010
K142020
K143010
K144610
K144810
K146010
K149010
K149020
K150010
K150020

ubojstvo
ubojstvo na mah
edomorstvo
nehatno prouzrokovanje smrti
teka tjelesna povreda
teka tjelesna povreda s trajnim i/ili tekim posljedicama
teka tjelesna povreda s kasnijim smrtnim ishodom
teka tjelesna povreda iz nehata ili na mah
laka tjelesna povreda
uestvovanje u tunjavi u kojoj je netko lien ivota ili mu je nanesena teka
tjelesna povreda
kraa
teka kraa obijanjem ili provalom
teka kraa na naroito opasan i drzak nain
teka kraa izvrena u sauesnitvu
obina kraa u kojoj su ukradene stvari velike vrijednosti
razbojnitvo
razbojnitvo u sauesnitvu
razbojnika kraa
utaja
utaja stvari veih vrijednosti
protupravno prisvajanje naene stvari
oduzimanje tue pokretne stvari
protupravno oduzimanje motornog vozila
oduzimanje motornog vozila na due vrijeme ili povezano sa oteenjem
oteenje tue stvari
oteenje tue stvari vee vrijednosti
nesavjesno uvanje drutvene imovine
protupravno zauzimanje nekretnina u drutvenom vlasnitvu
protupravno otuivanje drutvene imovine
prevara
prevara kojom je postignuta znatna imovinska korist
pljaka
sitno djelo krae
sitno djelo prevare
iznuda
oteenje tuih prava
oteenje tuih prava zbog osujeenja namirenja
prikrivanje ukradene stvari
prikrivanje stvari za koje se moglo znati da su ukradene

4. Rezultati
Najvaniji rezultati dobijeni algoritmom QUASAR prikazani su u ovim tabelama:
* U tabeli 1. su koordinate vektora krivinih djela u prostoru koga omeuju taksonomske dimenzije
izvedene iz podataka za 1979. godinu, u tabeli 2. kosinusi kuteva izmeu tih dimenzija, a u tabeli 3.
navedene su opine koje zauzimaju ekstremne pozicije na taksonomski dimenzijama.
* U tabeli 4. su koordinate vektora krivinih djela u prostoru koji omeuju taksonomske dimenzije
dobijene na podacima iz 1987. godine, relacije tih dimenzija su u tabeli 5, a popis opina koje u 1987. godini
definiraju pojedine taksone u tabeli 6.
* U tabeli 7. su kosinusi kuteva izmeu taksonomskih vektora izoliranih 1979. godine i taksonomskih
vektora izoliranih 1987. godine.
Kako se vidi iz tabela l. i 4, i u 1979. i u 1987. godini dobijen je relativno jednostavan i pregnantan
sklop taksonomskih dimenzija u prostoru koji definiraju vektori krivinih djela protiv ivota i tjela i
krivinih djela protiv imovine.
188

Objavljeni radovi

Meutim, ti se sklopovi znatno razlikuju, a razliite su i konfiguracije taksonomskih dimenzija,


navedene u tabelama 2. i 5. Te su konfiguracije, zbog toga to ih definiraju razliito definirani taksonomski
vektori, direktno neusporedljive; no, u oba analizirana perioda dobijeni su vrlo sloeni meuodnosi
taksonomskih vektora, pri emu neki podskupovi tih vektora zatvaraju vrlo uske hiperkonuse, to znai da je
praktiki nemogue u prostoru objekata dobiti taksone koji se ne prepokrivaju. I zaista, kako se vidi iz tabela
3. i 6, rijetke su opine koje pripadaju samo jednom taksonu; dobar dio, meu kojima su osobito one s veom
stopom kriminaliteta, pripada, istovremeno, veem broju taksona, to znai da je algoritam bio prisiljen da
generira Zadehove skupove. No, i pored toga, taksoni su vrlo dobro definirani dovoljnim brojem opina sa
slinim profilom kriminaliteta; ovo unato tome to neke opine, uglavnom one s vrlo niskom stopom
kriminaliteta, ne sudjeluju uope u odreivanju taksonomskih dimenzija87.
Promjene u strukturi kriminaliteta u periodu 1979-1987. najbolje se vide iz matrice kosinusa kutova
izmeu taksonomskih vektora (tabela 7). lako su neke dimenzije zadrale izvjesnu slinost (to se vidi i iz
usporedbe opina koje ih definiraju, tj. na osnovu tabele 3. i 6, a i iz usporedbe koordinata vektora krivinih
djela u taksonomskim prostorima dobijenim 1979. i 1987, tj. na osnovu tabela 2. i 4,), ak je i u njima dolo
do znaajnih promjena; neke su opine ukljuene a neke otpale iz tako dobijenih taksona, a neke znaajno
promijenile svoj poloaj, definiran visinom projekcije na dimenziju kojoj pripadaju u oba perioda. I krivina
djela promjenila su svoju ulogu na slian nain: nekim grupama krivinih djela koje su definirale
taksonomske dimenzije 1979. pridruila su se i druga djela, a neka djela, vana za definiciju taksona 1979,
otpala su ili izgubila mnogo od svog znaaja 1987. godine. U djelovima taksonomskog prostora dolo je i do
jo znaajnijih promjena; neke su taksonomske dimenzije nestale, neke su se podjelile na 2 ili ak 3 nove
dimenzije, a stvorile su se i nove dimenzije, koje 1979. nisu postojale, ili su se tek nasluivale. ini se,
prema tome, da je QUASAR dovoljno osjetiljiv algoritam za analizu kvalitativnih promjena objekata
opisanih, u dvije vremenske toke, nad skupom kvalitativnih varijabli apsolutnog tipa. Ipak, kao i kod veine
taksonomskih algoritama, ostaje problem testiranja statistikih hipoteza. U ovom trenutku nije sasvim jasno
kako se na razuman nain moe testirati bilo koja hipoteza o konfiguraciji matrica krosprodukata dobijenih
taksonomskih vektora.

K035010
K036000
K037010
K038000
K041010
K041020
K041030
K041041
K042010
K043010
K130010
K131011
K131012
K131016
K131020
K132010
K132020
K133000
K134010
K134030
K134040

87

1
-0.15
-0.31
0.15
0.03
-0.20
0.23
-0.17
-0.28
-0.12
0.06
0.51
0.60
0.69
0.04
0.27
0.32
0.05
-0.04
0.23
0.22
0.10

Tabela 1. Skup krivinih djela u prostoru taksonomskih dimenzija 1979.


2
3
4
5
6
7
8
9
10
-0.10 0.43 0.10 -0.18 -0.48
0.01 -0.14 0.05 -0.13
0.36 0.50 0.45 -0.13
0.24
0.08 0.14 0.19
0.28
-0.06 0.01 -0.05 -0.01
0.10
0.02 -0.23 0.77 -0.03
0.50 0.59 -0.13
0.18 -0.11
0.01 0.25 0.03
0.19
0.35 0.10 0.11 -0.19 -0.26
0.05 -0.15 -0.08 -0.18
0.76 -0.11 0.05
0.01
0.17
0.25 0.07 -0.05 -0.14
0.16 -0.21 -0.12
0.04 -0.15
0.07 0.12 0.26 -0.12
0.22 -0.10 -0.08 -0.36 -0.12
0.04 -0.31 -0.09 -0.08
0.67 0.15 0.03 -0.05 -0.12 -0.15 -0.03 0.16 -0.11
0.22 -0.07 0.14
0.03
0.19 -0.36 0.20 -0.18
0.02
0.26 0.07 0.11 -0.01 -0.10
0.05 -0.09 -0.08
0.00
0.04 0.12 0.07
0.04 -0.19 -0.07 -0.09 0.07
0.00
0.09 0.00 -0.35 -0.09
0.13
0.02 0.07 -0.04
0.26
-0.05 0.11 0.10
0.06
0.28 -0.14 -0.87 0.03 -0.07
-0.05 -0.10 0.80
0.07
0.07 -0.03 -0.04 -0.04 -0.03
-0.13 -0.02 0.02
0.00 -0.68
0.03 0.03 0.05
0.16
0.35 -0.20 0.21
0.01 -0.76
0.13 0.12 -0.16
0.20
-0.04 0.81 -0.04
0.05
0.02 -0.02 -0.01 -0.11 -0.07
-0.14 0.10 0.19 -0.09 -0.36
0.02 0.07 -0.11 -0.40
0.01 -0.11 0.08 -0.73
0.40
0.16 0.22 0.23 -0.05
-0.15 0.16 -0.29 -0.07
0.04
0.02 0.12 -0.08 -0.15

11
-0.18
-0.16
0.19
0.28
-0.22
-0.12
-0.18
-0.48
0.03
-0.57
-0.15
-0.03
-0.04
0.12
0.14
-0.18
0.29
0.03
0.15
-0.11
0.18

12
-0.04
-0.03
-0.17
-0.14
0.07
-0.17
0.47
0.10
0.01
-0.00
0.05
0.00
0.35
-0.13
0.39
-0.15
-0.20
-0.01
0.17
-0.35
0.13

Nije uinjen nikakav pokuaj verbalne deskripcije taksonomskih dimenzija, iz prostog razloga to je sadraj tih dimenzija, neposredno jasan iz
matrice sklopova. Naravno, da bi bilo izlino raspravljati u okviru jednog metodoloki orjentiranog rada o opinama koje definiraju pojedine
taksone.Jedna nekonven- cienalna informacija moda moe biti od neke koristi: jedan od autora koji se due vrijeme bavi problemima
kriminologije} sa velikim je postotkom tonih pogaanja bio u stariju da navede koje opine pripadaju kom taksonu samo na temelju podataka o
tome koja krivina djela opisuju pojedini takson.

189

Konstantin Momirovi u statistici

K135010
K136010
K136030
K137010
K137020
K139010
K140010
K141010
K142010
K142020
K143010
K144610
K144810
K146010
K149010
X149020
K150010
K150020

Tabela 1. Skup krivinih djela u prostoru taksonomskih dimenzija 1979.- nastavak


1
2
3
4
5
6
7
8
9
10
11
-0.18 0.11 0.06 0.03
0.05 -0.01
0.03 0.1 1 0.74
0.06 -0.05
0.44 -0.04 0.00 0.07 -0.02 -0.29 -0.11 -0.11 0.10 -0.20 -0.03
-0.00 0.88 -0.25 -0.11
0.06 -0.30
0.20 0.01 0.1 3
0.05 0.23
0.38 0.64 0.12 -0.11 -0.09
0.19 -0.16 0.06 -0.01
0.03 0.04
-0.09 0.11 -0.08 -0.04 -0.66 -0.01 -0.11 -0.01 -0.11 -0.09 0.37
0.72 -0.14 0.09 -0.10 -0.12
0.10
0.12 -0.48 -0.05
0.14 0.18
-0.00 0.07 -0.11 -0.05
-0.0l
0.08 -0.94 -0.02 0.14
0.03 0.19
-0.17 -0.22 0.16 -0.02 -0.63 -0.47 -0.16 -0.14 -0.03
0.12 0.20
0.51 0.43 -0.03 0.09 -0.00 -0.15 -0.10 0.06 -0.13
0.05 0.04
0.00 -0.02 -0.09 -0.08
0.03 -0.89 -0.03 -0.02 0.09
0.05 -0.08
0.39 -0.04 -0.13 0.03
0.02 -0.30 -0.39 0.14 -0.04 -0.04 -0.19
0.92 -0.04 0.04 -0.06 -0.07
0.13
0.16 0.12 0.06 -0.15 -0.23
0.23 -0.31 0.16 -0.23
0.15 -0.30 -0.05 -0.16 0.11
0.12 -0.40
-0.07 0.52 -0.15 -0.01
0.06
0.16
0.12 -0.81 -0.08
0.10 -0.10
-0.13 0.09 0.07 -0.07
0.12 -0.09 -0.00 0.04 0.04 -0.90 0.07
-0.09 0.69 -0.02 -0.16
0.07
0.13 -0.26 0.10 -0.11 -0.02 -0.07
0.53 0.08 -0.07 0.19
0.13 -0.05 -0.15 -0.29 0.18 -0.01 0.10
1.17 -0.13 -0.06 0.18
0.05
0.37
0.06 0.19 0.083 -0.01 -0.12

12
0.24
0.04
0.00
0.09
-0.12
0.17
-0.05
0.23
-0.09
-0.04
-0.31
-0.05
0.02
-0.09
-0.08
0.24
-0.06
-0.02

Tabela 2. Kosinusi kuteva taksonomskih dimenzija 1979.

1
2
3
4
5
6
7
8
9
10
11
12

1.00
0.67
0.29
0.40
-0.45
-0.76
-0.37
-0.39
0.37
-0.43
-0.58
0.15

BELIM
BENKO
BIOGR
BJELO
BRA
BUJE
BUZET
CRIKVE
ABAR
AKOVEC
AZMA
DARU
DELNI
DONJASTU
DONJILAP
DONJIMIH
DRNI
DUBRO
DUGARES
DUGOSEL
DVOR
DJAKOVO
DJURDJEV
GARES
GLINA
GOSPI
190

1.00
0.42
0.18
-0.46
-0.61
-0.37
-0.37
0.36
-0.50
-0.60
0.23

1.00
0.16
-0.22
-0.29
-0.19
-0.15
0.15
-0.16
-0.32
0.07

1.00
-0.21
-0.49
-0.14
-0.10
0.18
-0.06
-0.22
0.04

1.00
-0.46
0.25
0.21
-0.28
0.26
0.37
-0.15

1.00
0.29
0.32
-0.30
0.34
0.50
-0.15

1.00
0.09
-0.12
0.20
0.36
-0.07

1.00
-0.17
0.29
0.37
-0.01

1.00
-0.30
-0.35
-0.03

1.00
0.40
-0.11

Tabela 3. Koordinate opina u prostoru taksonomsk1h dimenzija 1979.


1
2
3
4
5
6
7
8
9
10
1.10 1.17 0.35 0.48 -2.54 -0.15 0.46 0.15 3.18 -2.73
0.02 0.49 0.28 0.28 -0.77 -0.62 -0.62 0.32 2.63 -0.20
0.15 0.21 0.04 -0.11 -0.07 -0.35 -1.73 -0.13 0.02 -0.03
0.53 0.33 0.70 0.19 -0.89 -2.78 -1.03 -0.20 1.55 -1.09
0.05 0.02 0.04 -0.14 -0.01 -0.34 -0.08 -0.01 0.17 -0.06
0.68 0.54 -0.87 0.65 -0.18 -0.65 -0.13 0.41 0.47 -0.80
0.03 0.02 0.00 0.01 -0.01 -0.01 0.00 -0.01 0.01 -0.03
0.49 -0.12 0.15 -0.30 0.34 -0.66 -0.53 -0.52 0.23 0.35
0.00 0.02 0.01 0.01 -0.00 -0.01 -0.01 -0.01 0.02 -0.01
0.61 3.61 -0.48 -1.30 -0.88 -0.78 0.28 -1.72 0.16 -0.27
0.25 0.00 0.17 -0.22 -0.09 -0.14 -0.04 -0.03 -0.03 -0.29
0.23 0.43 0.51 0.05 -0.24 -0.28 -0.05 -0.04 0.07 -0.15
0.15 0.27 0.45 1.69 -0.32 -0.58 0.51 0.09 0.11 0.48
0.09 0.52 0.20 0.13 -0.09 0.00 0.01 -0.05 0.08 -0.17
-0.01 0.14 0.07 0.09 -0.06 -0.03 -0.02 -0.06 0.07 -0.09
0.57 1.25 0.93 -0.40 0.39 -0.15 0.00 0.40 0.16 -1.05
0.05 0.07 0.26 0.07 -0.13 -0.19 0.08 -0.06 0.09 -0.07
1.18 0.37 0.53 -0.38 -1.07 -0.83 -1.31 -0.91 1.02 0.45
0.06 0.29 0.30 0.17 -1.08 -0.67 -0.43 -0.29 -0.00 -0.10
0.14 0.33 0.30 0.53 0.08 -0.59 0.04 0.10 -0.28 -3.63
0.17 0.48 0.39 0.11 -0.22 -0.13 -0.31 -0.06 0.29 -0.04
0.78 1.65 2.14 -0.14 0.38 -0.40 -0.34 0.74 0.00 0.30
0.32 0.86 0.81 0.12 -2.26 -1.34 -0.49 -0.41 -0.40 -1.19
0.18 0.30 2.31 -0.05 -0.06 0.09 -0.75 -0.31 -0.43 -0.61
-0.23 0.74 1.63 1.72 -0.53 -0.39 0.07 -0.28 2.63 0.98
0.33 0.70 0.27 -0.01 -0.24 -0.56 0.43 -0.11 0.01 -0.76

1.00
0.02

1 .00

11
-0.57
0.01
-0.04
-3.17
-0.01
-0.37
-0.03
-1.45
0.01
-1.66
0.08
-0.44
-0.13
-0.10
-0.03
-0.14
-0.22
-0.50
-0.27
0.28
-0.13
0.34
-1.43
-0.49
-1.04
0.30

12
-2.05
1.71
-0.38
0.43
0.15
4.28
-0.00
-0.21
-0.00
2.22
0.17
0.11
-0.96
-0.04
0.00
-0.36
-0.06
0.85
0.69
0.16
-0.00
-0.77
2.40
0.02
-0.39
0.13

Objavljeni radovi

Tabela 3. Koordinate opina u prostoru taksonomsk1h dimenzija 1979.-nastavak


1
2
3
4
5
6
7
8
9
10
11
GRACAC
0.08 0.08 0.00 -0.16 0.04 -0.02 -0.01 -0.33 1.66 0.06 0.35
GRUBPOLJ
0.14 0.03 0.20 0.21 -0.14 -0.70 -0.06 -0.06 0.06 -0.43 -0.07
HVAR
0.11 0.01 -0.03 -0.06 0:03 -0.42 -0.20 0.04 0.13 -0.07 -0.16
IMOT
-0.00 0.29 0.27 0.05 -0.14 -0.06 -0.09 -0.05 0.13 -0.14 -0.02
IVAN
-0.03 1.15 0.32 0.31 -0.30 -0.06 -0.90 -0.16 0.39 -0.59 -0.39
IVANICG
0.37 0.85 1.54 -0.43 -0.56 -0.33 0.03 -0.22 0.88 0.36 0.19
JASTREB
0.15 1.60 -0.00 0.11 -0.50 -0.80 0.24 -0.02 1.84 -0.69 -0.75
KARLOV
0.95 1.44 0.48 0.15 -1.51 -1.37 -0.46 -2.39 -0.13 0.11 -1.14
KLANJEC
0.22 0.30 0.23 0.46 -0.21 -0.49 -0.04 0.21 -0.50 -0.69 0.02
KNIN
0.21 0.73 0.31 -0.16 -0.22 -0.41 -2.38 -0.59 0.64 -2.45 -0.02
KOPRIV
1.44 1.13 0.75 -1.08 -1.30 -0.84 -0.37 -1.04 0.28 -0.19 -0.72
KORULA
0.21 0.04 -0.01 0.20 0.06 0.02 -0.09 -0.05 0.12 -0.05 -0.05
KOSTAJN
0.10 0.53 0.67 -0.61 -0.43 -0.55 -0.50 0.41 0.55 -0.05 0.19
KRAPINA
0.46 1.30 0.10 -0.19 -0.80 -0.35 -0.99 0.03 0.06 -1 .06 -2.06
KRI
0.39 1.35 0.57 -0.27 -1.06 -0.84 -0.36 -0.13 0.99 -2.65 -1.24
KRK
0.14 0.18 0.07 0.03 -0.00 -0.04 -0.06 0.05 -0.13 0.O4 -0.13
KUTINA
0.15 0.67 0.54 0.79 -5.74 0.29 -0.10 -0.05 1.19 0.02 -1.01
LABIN
0.25 0.44 -0.25 0.01 0.01 -0.17 0.18 -0.15 0.25 -0.07 0.12
LUDBREG
0.01 0.27 0.09 -0.01 -0.04 -0.01 -0.14 -0.03 0.05 -0.06 -0.03
MAKAR
0.71 0.71 0.91 -0.14 0.32 -0.29 -0.92 0.19 -0.02 0.30 -0.35
METKO
0.89 0.32 -0.28 1.65 -0.28 0.15 0.06 -1.12 0.31 0.10 1.26
NAICE
0.45 0.26 0.32 0.14 -0.72 -1.08 -0.29 -0.43 0.59 0.03 -0.40
NOVAGRAD
0.36 1.31 1.69 0.24 -0.09 -0.31 -0.22 0.34 0.15 -1.76 0.20
NOVIMAR
0.07 0.87 -0.13 -0.31 -0.14 -0.27 0.19 -0.67 2.12 -1.38 0.28
NOVSKA
0.26 0.36 2.19 -0.19 -0.02 -0.11 0.24 -0.49 -0.09 -0.4S 0.19
OBROVAC
0.42 1.63 -0.30 -0.90 -0.14 -0.24 -1.64 0.53 -0.68 -0.56 -0.48
OGULIN
0.11 0.54 0.26 -0.01 -0.15 -0.00 -0.20 -0.01 0.1-1 -0.16 -0.03
OMI
0.19 0.30 0.11 -0.05 -0.21 -0.02 -0.45 -0.03 -0.02 0.01 0.06
OPATIJA
0.82 0.15 0.20 0.40 0.28 -0.55 -0.55 -0.82 2.90 -0.06 -0.73
ORAH
0.28 0.55 0.02 0.35 0.07 -0.11 -0.00 -0.17 0.17 -0.26 -0.15
OSIJEK
3.68 2.38 6.61 -0.21 -1.05 -1.56 0.11 -2.35 0.20 -1.27 -5.05
OTOAC
0.42 0.02 0.43 -0.22 0.38 -0.31 0.08 -0.92 0.32 0.40 0.05
OZALJ
0.16 1.08 2.30 0.37 0.30 -0.63 -0.24 1.04 0.54 1.22 -0.06
PAG
0.08 -0.00 0.03 0.27 -0.08 -0.33 -0.07 0.00 -0.16 -0.39 0-08
PAKRAC
0.51 0.64 0.22 0.35 0.04 -0.74 0.17 -0.08 -0.13 -0.44 -0.49
PAZIN
0.04 0.16 0.06 0.00 -0.27 -0.13 -0.03 -0.10 -0.03 -0.05 -0.41
PETRINJA
0.25 0.89 -0.06 -0.19 0.14 -0.96 -0.21 -0.06 0.7-1 -1.45 -0.22
PODSLAT
0.58 1.85 -0.46 -1.25 -0.22 -0.85 -0.43 0.07 0.44 -3.72 -1.07
PORE
0.45 0.50 0.18 0.09 -0.4 3 -0.22 -0.85 0.06 -0.50 -0.80 -0.91
PULA
1.22 1.03 0.01 0.36 0.03 -0.13 -0.75 -7.29 1.44 -1.15 -1.02
RAB
0.02 0.07 0.05 0.01 -0.03 0.00 -0.01 -0.01 0.01 -0.02 -0.03
RIJEKA
3.94 1.46 0.40 6.19 -2.39 -6.72 -0.95 -2.13 -0.00 -0.13 -0.84
ROVINJ
0.30 0.38 -0.02 0.13 0.12 -0.14 -0.05 0.01 -0.07 0.08 -0.18
SAMOBOR
0.38 0.58 0.19 0.60 -0.24 -0.63 -0.21 0.09 -0.25 -0.31 0.06
SENJ
0.02 -0.00 0.01 0.00 0.01 -0.01 -0.01 -0.01 0.01 0.00 -0.00
SESVETE
0.46 0.-19 0.42 0.17 -0.08 -0.45 0.19 -0.19 0.55 -0.33 -0.68
SINJ
0.12 0.50 0.23 0.37 -0.48 -0.38 -1.32 0.01 0.03 -0.55 0.12
SISAK
0.49 0.89 -0.10 -0.23 -5.43 -0.90 -0.90 -0.05 -0.39 -0.67 1.13
SLAVPOZ
-0.22 1.19 5.50 1.55 -0.58 -0.40 0.09 0.29 1.40 0.44 -0.97
SLAVBROD
0.95 1.11 3.44 0.63 -0.50 -0.36 -0.63 -3.83 -0.16 -2.7 5 -2.26
SLUNJ
-0.03 0.26 0.06 -0.06 -0.09 -0.06 -0.05 -0.24 -0.20 -1.35 -0.28
IBENIK
1.09 0.47 0.52 -0.48 -1.41 -0.52 -0.68 -0.15 1.72 -0.70 0.16
TITOVAK
0.26 0.33 0.07 0.10 -0.09 -0.50 -0.36 0.08 0..11 -0.16 -0.90
TROGIR
0.19 0.07 0.35 -0.02 -0.05 -0.63 -0.06 -0.08 0.20 -0.03 -0.21
VALPOVO
0.17 0.17 0.28 0.12 -0.11 -0.16 0.05 -0.04 -0.06 -0.08 -0.29
VARAZ
0.93 3.28 -1.52 0.50 -0.33 -2.50 0.83 -1.31 0.89 -0.04 0.81
VELGOR
0.43 0.91 0.33 0.38 -0.00 -0.02 -0.60 -0.14 0.29 -1.68 -0.69
VINKOVCI
2.06 3.04 4.49 -0.91 -0.75 -0.71 -1.72 0.18 -0.99 0.20 -0.90
VIROVI
-0.00 0.84 1.27 1.32 -0.66 -0.21 -0.59 0.23 0.14 -0.05 -2.09
VIS
0.02 0.08 0.06 0.10 0.04 -0.07 0.00 0.16 0.03 -0.02 -0.19
VOJNIC
-0.02 0.17 0.11 0.10 -0.07 -0.02 -0.02 -0.06 0.07 -0.10 -0.05
VRBOVEC
0.14 0.67 0.20 0.34 -0.31 -0.10 -0.82 0.04 -0.02 -0-35 -1.13
VRBOVSKO
0.07 0.08 0.15 -0.02 -0.08 -0.03 0.03 0.00 0.03 -0.08 -0.13
VRGINMOST
0.16 0.06 0.26 0.26 -0.11 -0.11 0.04 -0.10 0.15 -0.17 -0.20
VRGORAC
0.04 0.15 0.05 -0.01 -0.02 -0.00 -0.08 0.02 0.01 -0.02 0.00
VUKOV
1.57 2.97 0.75 -0.20 -1.03 -1.49 0.34 -2.84 0.30 -3.04 -2.20
ZABOK
0.46 1.19 0.48 0.4 3 -0.03 -0.23 -0.67 -0.04 1.35 -0.44 -0.29

12
-0.40
0.22
-0.07
0.03
0.25
0.53
1.08
0.66
0.16
0.15
1.16
-0.06
1.13
0.42
1.79
0.05
-1.09
0.08
0.15
-0.76
1.38
0.28
-0.33
-0.28
-0.03
1.91
0.11
0.20
-0.41
-0.34
0.23
0.52
-0.80
0.13
-0.24
0.13
-0.57
1.74
0.50
-1.67
0.03
1.81
-0.18
-0.40
0.00
-0.33
-0.31
0.63
-0.21
-1.01
0.06
-0.84
-0.04
0.05
0.02
-0.08
0.05
1.96
0.01
0.34
0.01
0.15
0.01
-0.06
0.02
0.29
0.07
191

Konstantin Momirovi u statistici


Tabela 3. Koordinate opina u prostoru taksonomsk1h dimenzija 1979.-nastavak
1
2
3
4
5
6
7
8
9
10
11
ZADAR
1.57 1.80 -0.20 0.08 -0.08 -0.61 -8.14 0.06 0.77 0.20 -1.38
CENTAR
3.68 1.72 -0.58 2.07 -1.49 -3.79 -1.45 0.86 0.41 -0.90 -2.94
CRNOMERE
1.62 0.39 0.54 0.02 -0.70 -0.67 -1.39 -0.42 0.52 -0.70 -0.42
DUBRAVA
1.95 1.21 0.89 6.14 -0.08 -0.38 -0.81 0.42 1.20 -0.73 -1 .13
MAKSIM
2.18 0.90 -0.39 -0.17 -1.22 -0.48 0.76 0.54 5.25 -0.37 -1.36
MEDVES
1.52 1.04 0.20 0.02 0.23 -1.13 -0.83 -0.31 1.78 -1.73 -0.89
NOVIZAG
3.39 0.70 1.40 -0.31 -1.3 5 -0.66 0.47 -0.84 0.14 -1.35 0.60
PESCEN
2.12 0.49 0.38 1.54 -0.06 -1.09 -1.48 0.06 0.03 -1.44 -0.30
SUSEDG
1.75 0.80 0.18 -0.59 -0.87 -1.46 0.27 0.03 -0.58 0.72 0.35
TRENJE
2.10 0.78 0.33 0.22 0.17 -2.04 -0.09 -0.74 2.91 -1.95 -3 .05
TRNJE
1.01 0.31 0.27 0.15 0.06 -0.38 -0.39 -0.12 0.39 -0.28 -0.39
ZAPRES
0.27 0.09 0.56 -0.16 0.24 -0.31 -0.38 -0.61 1.02 0.31 -1.72
ZELINA
0.21 0.45 0.02 -0.15 -0.03 0.08 -0.12 0.11 0.07 -2.53 0.09
ZLATARB
0.17 0.37 0.85 0.18 -1.59 -0.68 -0.92 -0.63 0.35 0.17 -0.31
ZUPANJA
1.11 0.86 -0.07 1.11 -0.13 0.34 -1.18 0.16 0.03 -0.70 -1.93
CRESLOS
0.15 0.06 0.31 0.09 -0.07 -0.17 -0.00 -0.11 0.06 -0.05 -0.15
PREGRADA
0.01 0.80 0.14 0.29 -0.11 -0.04 -0.10 -0.06 0.15 -0.37 -0. 25

K035010
K036000
K037010
K038000
K041010
K041020
K041030
K041041
K042010
K043010
K130010
K131011
K131012
K131016
K131020
K132010
K132020
K133000
K134010
K134030
K134040
K135010
K136010
K136030
K137010
K137020
K139010
K140010
K141010
K142010
K142020
K143010
K144610
K144S10
K146010
K149010
K149020
K50010
K150020

192

Tabela 4. Sklop krivinih dijela u prostoru taksonomskih dimenzija 1987.


1
2
3
4
5
6
7
A
9
10
-0.03 -0.05
0.35 -0.10
0.03 -0.19 -0.07 -0.38 -0.13 -0.27
0.08
0.11
0.01
0.40
0.03
0.31 -0.20
0.27 -0.11 -0.25
0.06
0.18
1.02 -0.12
0.32
0.10 0.10
0.14 -0.01
0.11
-0.03 -0.11
0.16 -0.06
0.26 -0.27 -0.14 -0.06 0.79
0.17
-0.16
0.08
0.40
0.26 -0.09 -0.01 -0.03
0.05 0.12 -0.17
0.06 -0.14
0.24 -0.25
0.08 -0.26 0.04 -0.63 -0.12 -0.08
-0.15 -0.07 -0.12 -0.08
0.03 -0.02 -1.00 -0.04 -0.03 -0.05
-0.15
0.08 -0.20 -0.08 -0.26
0.16 -0.04
0.31 0.78 -0.19
-0.11
0.46
0.40
0.03 -0.10
0.07 -0.12
0.09 0.14 -0.09
-0.13 -0.08 -0.07 -0.08
0.09 -0.16 -0.09
0.24 0.02
0.04
0.01
0.20
0.11
0.14 -0.13 -0.12 0.02 -0.10 0.14 -0.03
0.17
0.02 -0.01
0.12 -0.15
0.12 -0.19 -0.30 0.09
0.08
-0.07 -0.35
0.53 -0.14 -0.32
0.05 0.16 -0.14 0.04 -0.21
-0.00
0.21 -0.14
0.01
0.11 -0.07 -0.05
0.08 0.10 -0.87
0.50
0.00 -0.02 -0.21 -0.36
0.28 -0.33 -0.07 0.01
0.16
0.75
0.09 -0.09
0.03
0.01 -0.19 0.05
0.19 -0.01 -0.01
0.11 0.10
0.26 0.02
0.07
1.16 -0.00 -0.10 -0.10 -0.04
0.23 -0.16
0.23
0.15
0.07 -0.02 0.14 -0.22 0.18 -0.12
0.32
0.23 -0.06
0.41 -0.29 -0.03 0.04 -0.04 0.24 -0.06
0.19 -0.03
0.01
0.11 -0.29 -0.84 -0.12
0.38 0.06
0.07
-0.06
0.66 -0.06 -0.05 -0.01 -0.11 0.04 -0.29 -0.14
0.07
0.03 -0.19
0.53
0.37 -0.62 -0.13 -0.14
0.45 -0.38
0.02
0.25
0.32
0.07
0.17 -0.02
0.02 -0.01 -0.08 0.36
0.13
-0.16
0.03 -0.19 -0.09
0.05 -0.74 0.19 -0.03 0.25
0.10
-0.04
0.07
0.25
0.10 -0.26
0.09 -0.27 -0.23 0.07
0.04
0.18
0.04
0.65 -0.00
0.00 -0.10 -0.08 -0.00 -0.20
0.26
-0.18
0.04 -0.09 -0.19 -0.97
0.02 0.22 -0.35 0.16
0.02
-0.09 -0.10 -0.00
0.33
0.17
0.17 -0.04 -0.74 0.18
0.02
-0.16
0.23 -0.14 -0.07 -0.16
0.36 -0.12 -0.59 0.12
0.22
0.39 -0.03 -0.09
0.30
0.04 -0.02 0.00 -0.30 0.21
0.03
0.23
0.15 -0.17 -0.09 -0.02 -0.06 -0.23 -0.57 -0.27 -0.02
0.66 -0.06
0.06 -0.07
0.07
0.17 -0.12 -0.03 -0.07 -0.24
0.28
0.01 -0.11
0.21
0.08 -0.14 0.09 -0.12 0.36
0.13
0.14 -0.20
0.01 -0.04 -0.06 -0.42 -0.04 -0.77 -0.30 -0.01
-0.21 -0.07 -0.11
1.12
0.17 -0.09 0.15 -0.01 -0.12
0.03
-0.00
0.01
0.22 -0.26
0.22
0.12 0.22
0.05 0.74 -0.06
-0.12
0.95
0.04 -0.15
0.02 -0.13 0.04 -0.05 -0.23 -0.07
0.26
0.09
0.07
0.07
0.12 -0.02 -0.06 -0.55 0.06
0.01
-0.18 -0.22
0.04
0.09 -0.08
0.05 0.25 -0.40 0.32 -0.18

11
0.23
-0.60
0.10
0.02
0.07
-0.43
0.00
0.13
0.08
-0.17
-0.06
-0.05
-0.07
-0.01
-0.27
0.13
-0.18
0.46
0.04
0.10
-0.16
-0.04
0.14
-0.34
0.04
-0.28
0.07
0.10
0.12
0.10
-0.03
0.20
-0.24
0.23
-0.01
-0.16
0.09
-0.31
-0.38

12
-0.44
-4.69
0.57
2.27
0.76
0.26
1.90
1.08
1.41
-0.92
-0.16
0.27
-0.02
1 .01
-0.03
0.02
-0.23

12
-0.34
0.14
0.02
0.52
-0.33
0.12
-0.05
-0.39
-0.14
-1.10
-0.27
-0.29
-0.14
0.34
-0.07
-0.29
0.10
-0.12
0.44
0.18
-0.06
-0.00
-0.03
-0.24
-0.03
0.26
0.15
-0.13
0.20
-0.14
-0.35
-0.13
-0.10
0.06
-0.12
-0.05
-0.07
0.16
-0.17

Objavljeni radovi

1
2
3
4
5
6
7
8
9
10
11
12

1.00
0.40
0.46
0.50
-0.46
-0.55
-0.39
-0.68
0.51
-0.47
-0.28
-0.67

Tabela 5. Kosinusi kuteva taksonomskih dimenzija 1987.

1.00
0.50
0.40
-0.50
-0.45
-0.34
-0.44
0.51
-0.25
-0.34
-0.63

1.00
0.45
-0.61
-0.37
-0.39
-0.54
0.55
-0.38
-0.52
-0.59

1.00
-0.46
-0.32
-0.37
-0.64
0.54
-0.34
-0.38
-0.55

1.00
0.33
0.33
0.51
-0.63
0.35
0.46
0.61

1.00
0.52
0.50
-0.54
0.33
0.26
0.52

1.00
0.52 1.00
-0.52 -0.62
0.35 0.49
0.33 0.36
0.54 0.74

1.00
-0.32
-0.47
-0.67

1.00
0.28
0.40

1.00
0.45

1.00

Tabela 6. Koordinate opina u prostoru taksonomskih dimenzija 1987.


BELIM
BENKO
BIOGR
BJELO
BRAC
BUJE
BUZET
CRIKVE
CABAR
AKOVEC
AZMA
DARU
DELNI
DONJASTU
DONJILAP
DONJIMIH
DRNI
DUBRO
DUGARES
DUGOSEL
DVOR
DJAKOVO
DJURDJEV
GARES
GLINA
GOSPI
GRAAC
GRUBPOLJ
HVAR
IMOT
IVAN
IVANICG
JASTREB
KARLOV
KLANJEC
KNIN
KOPRIVN
KORULA
KOTAJN
KRAPINA
KRI
KRK
KUTINA
LABIN
LUDBREG
MAKAR
METKOV
NAICE
NOVAGRAD
NOVIMAR
NOVSKA
OBROVAC
OGULIN
OMl
OPATIJA
ORAH
OSIJEK
OTOAC
OZALJ
PAG

1
0.18
-0.19
0.13
0.71
0.15
0.30
0.08
0.47
0.01
0.58
0.66
0.53
0.32
0.00
-0.01
0.16
0.13
0.48
-0.10
0.04
0.19
2.43
0.38
0.06
0.05
0.09
0.08
0.25
0.15
0.11
-0.22
0.38
0.33
0.48
-0.07
0.23
0.87
0.09
0.11
0.04
0.12
0.17
0.35
-0.06
0.17
0.32
-0.64
-0.02
0.59
0.01
0.16
0.35
0.10
0.09
0.56
0.02
3.60
0.10
-0.01
-0.06

2
1.19
0.20
0.18
0.24
0.09
0.34
0.68
0.4S
0.10
6.12
0.09
1.01
0.22
0.22
0.09
0.76
0.59
0.82
0.11
0.54
0.52
1.00
1.25
0.14
0.46
0.72
0.08
0.11
0.05
0.26
1.37
0.70
0.69
1.00
0.56
0.04
1.69
0.13
0.27
0.99
2.62
0.32
0.85
0.26
-0.16
0.05
0.73
0.22
0.52
0.85
0.54
0.16
0.52
0.16
0.02
0.15
2.89
0.19
0.20
-0.06

3
0.43
0.47
0.16
0.84
-0.02
0.28
0.01
0.15
0.07
1.65
0.18
1.07
0.17
0.25
0.10
0.14
1.51
0. 19
0.52
0.01
1.94
1.91
1 .36
1.02
1.54
0.35
0.09
0.34
0.04
1.70
0.61
1.24
2.10
0.97
0.12
0.67
2.28
0.01
0.06
0.71
0.66
0.19
0.80
-0.05
0.76
0.65
-0.10
0.35
1.68
0.38
0.40
0.21
0.35
0.43
0.21
0.18
0.71
0.29
0.41
-0.12

4
0.62
0.09
0.27
0.58
-0.00
0.10
0.12
0.36
0.05
-0.14
0.08
0.20
0.09
0.12
0.05
0.14
0.12
0.14
-0.01
0.11
-0.06
0.50
0.95
-0.07
0.24
0 .29
0.03
-0.01
0.02
0.19
0.08
0.12
0.69
0.42
-0.03
0.03
0.94
-0.03
0.07
0.07
0.29
0.29
0.91
0.17
-0.05
0.14
0.80
0.10
0.08
-0.06
0.32
0.04
0.21
0.17
0.26
0.13
2.53
-0.03
0.01
-0.00

5
-1.68
-0.05
-0.19
-0.21
-0.08
-0.02
-0.00
0.02
-0.03
-0.86
0.18
-1.31
-0.45
-0.16
-0.06
-0.22
0.14
-0.89
-0.30
0.09
-0.50
-0.39
-2.06
-0.22
0.12
-0.04
-0.01
-0.13
-0.06
0.06
-0.34
-0.34
-0.4 3
-0.60
0.00
-0.12
-1.37
-0.15
-0.21
-0.46
-0.98
-0.09
-4.52
0.10
-0.42
-0.31
-1.02
-0.77
-1.33
-0.20
-0.85
-0.48
-0.27
-0.03
-0.06
-0.01
-2.59
-0.37
-0.17
0.06

6
0.10
0.03
0.15
-5.85
-0.02
-0.56
-0.25
-0.49
-0.01
-1.21
0.04
-0.24
-0.03
0.00
-0.00
-0.01
0.05
-0.14
-0.20
-0.52
0.14
0.78
-1.66
-0.13
-0.61
-0.08
0.01
-0.08
0.14
0.18
0.01
-0.12
-0.09
-0.75
-0.03
-0.07
-0.75
-0.20
0.06
-0.02
-3.92
-0.10
-0.71
-0.54
-0.31
0.19
1.57
-0.05
-0.34
0.12
0.09
0.20
-0.11
0.01
0.02
-0.01
-4.01
0.20
-0.07
-0.12

7
-0.08
-0.10
-0.28
-4.73
-0.23
-0.02
0.08
-0.06
0.01
-0.21
-0.23
-0.05
0.01
-0.23
-0.13
-0.22
0.02
-2.89
-1.85
-0.15
0.14
-0.73
-1.21
-0.13
-0.17
-0.34
-0.03
-0.16
-0.19
0.20
-0.42
-0.11
0.00
-0.95
-0.07
-0.41
-0.30
-0.17
-0.09
-0.04
-0.74
-0.08
-0.40
0.11
-0.60
-0.33
-0.19
-0.21
-0.12
-0.15
-0.16
-0.21
-1.81
-0.20
-0.14
-0.09
-0.12
-0.35
-0.24
-1.51

8
-0.32
-0.74
-0.28
-1.20
-0.21
-0.76
-0.15
-0.27
-0.02
-0-75
-0.08
-0.50
-0.14
-0.03
0.01
-0.17
0.02
-0.59
-0.05
-0.19
-0.14
-0.39
0.28
-0.44
0.09
-0.46
0.00
-0.16
-0.13
-0.29
-0.11
-0.39
-0.03
-1.04
-0.00
-0.69
-0.94
-0.18
-0.00
-0.21
-0.08
-0.19
-0.35
-0.34
-0.17
-0.44
-1.78
-0.37
-1.72
-0.00
-0.24
-0.43
-0.21
-0.20
-0.44
-0.19
-1.13
-0.10
-0.31
0.01

9
1.62
0.10
0.34
3.03
-0.08
0.38
-0.05
0.42
0.06
0.23
0.08
0.34
0.07
0.15
0.0S
0.20
0.23
2.50
0.33
0.34
0.02
0.20
0.06
0.29
0.15
0.19
0.03
0.01
0.06
0.52
0.46
1.01
0.10
0.66
-0.03
0.12
1.45
0.27
0.38
0.54
0.57
0.35
0.91
0.56
1.02
0.08
0.66
0.73
0.40
0.80
0.38
0.09
0.11
0.17
0.64
0.12
3.82
0.14
-0.05
-0.09

10
-0.90
-0.15
0.17
-1.56
-0.01
-0.17
0.24
0.57
0.02
-0.05
-2.03
0.72
-0.13
-0.04
0.03
0.01
0.33
0.44
-0.34
-5.03
0.65
-0.37
0.39
-0.14
-0.27
0.12
-0.12
0.00
-0.00
-0.34
-0.51
0.16
0.00
-0.07
-0.12
-0.58
-0.37
0.25
-0.09
-0.13
-0.91
0.20
0.45
0.07
0.33
-0.08
1.05
-0.28
-2.58
-0.39
-0.00
-0.35
-0.09
0.13
-0.49
-0.16
0.24
0.10
-0.32
-0.09

11
0.70
-0.26
-0.04
-0.14
-0.02
-1.13
-0.31
0.02
0.07
-0.09
0.41
-0.68
0.30
0.02
-0.02
-0.18
-0.17
0.45
-0.30
-0.41
0.02
-2.33
-0.39
-0.58
0.69
-0.34
0.11
0.20
-0.02
-0.4.1
0.06
-0.66
-0.13
-0.68
0.03
-0.16
0.69
-0.37
0.21
-0.32
-0.10
0.01
0.27
-0.31
-0.04
-0.34
0.60
-0.21
-2.28
-0.09
-0.27
0.10
-0.07
-0.15
0.80
0.04
-3.23
-0.16
0.20
-0.03

12
-0.64
-0.15
-0.16
-0.39
-0.69
-0.57
-0.10
-0-87
-0.06
-2.92
-0.16
-0.0 1
-0.21
-0.45
-0.34
-0.03
-0.82
-1.36
-1.00
0.57
0.11
-0.30
-0.26
-0.21
-0.56
-0.91
-0.06
-0.30
-0.06
-0.22
-0.90
-0.50
-0.17
-2.74
-0.07
-0.31
-1.04
-0.17
-0.27
-0.27
-0.40
-0.19
-0.41
-0.34
0.28
-0.08
-0.32
-0.49
0.01
-0.13
0.13
-0.30
-0.46
-0.35
-0.72
-0.13
-4.27
-0.24
-0.31
-0.05

193

Konstantin Momirovi u statistici


Tabela 6. Koordinate opina u prostoru taksonomskih dimenzija 1987. nastavak
PAKRAC
PAZIN
PETRINJA
PODSLAT
POHE
PULA
RAB
RIJEKA
ROVINJ
SAMOBOR
SENJ
SESVETE
SINJ
SISAK
SLAVPOZ
SLAVBROD
SLUNJ
IBENIK
TITOVAK
TROGIR
VALPOVO
VARAZD
VELGOR
VIKNOVCI
VIROVI
VIS
VOJNIC
VRBOVEC
VRBOVSKO
VRGINMOS
VRGORAC
VUKOV
ZABOK
ZADAR
CENTAR
CRNOMERE
DUBRAVA
MAKSIM
MEDVES
NOVIZAG
PESCEN
SUSEDG
TRENJE
TRNJE
ZAPRES
ZELINA
ZLATARB
ZUPANJA
CRESLOS
PREGRADA

1
2
3
4
5
6
7
8
9
10
11
12

194

1
0.80
0.55
0.25
0.32
-0.39
-0.66
-0.23
-0.18
0.23
-0.26
-0.56
-0.17

1
0.11
-0.23
0.13
-0.14
0.54
0.71
-0.07
2.67
0.39
0.42
0.01
0.29
0.36
0.79
0.46
0.33
-0.05
1.44
1.03
0.22.
-0.00
0.89
1.05
1.76
0.23
0.02
-0.02
0.32
-0.01
1.47
-0.01
0.45
0.18
0.63
7.43
0.65
0.80
1.29
0.99
2.15
0.49
0.41
0.60
0.36
0.31
0.54
0.04
0.47
0.18
-0.06

2
0.34
0.24
0.70
1.44
-0.21
0.89
0.03
0.70
0.46
0.49
0.11
0.58
0.49
1.26
-0.23
-0.49
-0.05
-0.06
0.06
0.29
1.29
3.11
1.85
2.11
0.61
0.07
0.13
0.37
0.12
-0.05
0.00
1.29
0.91
-0.11
0.26
0.29
0.69
0.65
0.39
1.79
0.91
0.26
0.43
0.13
0.12
1.13
0.41
0.54
0.23
0.53

2
0.53
0.82
0.31
0.02
-0.44
-0.45
-0.12
-0.36
0.26
-0.44
-0.45
0.35

3
0.81
-0.20
1.11
0.10
0.35
0.32
0.13
1.17
0.36
0.67
0.08
0.61
0.98
0.31
4.82
2.45
0.79
1.08
0.17
-0.06
0.15
0.83
0.66
2.39
0.52
0.04
0.13
0.54
-0.04
0.15
0.06
3.33
0.84
0.57
1.41
0.38
0.73
0.85
0.11
0.48
-0.04
0.26
2.04
0.62
0.46
0.02
0.64
1.02
0.47
0.33

4
0.33
-0.07
-0.29
0.52
-0.09
0.70
0.98
2.34
0.16
0.42
0.05
0.49
0.38
0.41
0.72
0.78
0.34
0.21
-0.03
-0.03
0.60
0.32
1.11
0.99
2.33
0.06
0.09
0.18
0.08
-0.10
0.03
1.95
0.46
0.62
1.64
0.49
7.22
3.08
1.14
0.98
1.09
0.46
0.72
-0.02
0.13
0.80
1.20
2.12
0.49
0.20

5
-0.61
-0.31
-0.84
-0.42
-1.56
-0.55
-0.01
-0.00
-0.25
-0.36
-0.06
-0.10
-0.28
-3.03
-1.89
-4.35
0.02
-1.16
-0.45
-0.55
-0.67
-0.26
-0.42
-1.08
-0.69
-0.01
-0.06
-0.19
0.02
-0.19
-0.02
-1.49
-0.64
-1.15
-1.30
-0.35
-0.51
-0.47
-0.59
-3.09
-0.40
-0.17
-0.47
0.14
-0r36
-0.60
-0.52
-2.17
-0.43
-0.41

6
-0.65
-0.27
0.32
0.13
0.27
0.28
-0.06
-2.97
-0.04
-0.25
0.02
0.16
0.16
-0.52
-0.66
0.20
-0.45
-0.44
-0.02
0.02
0.29
-0.63
0.20
-2.92
-0.80
-0.00
0.02
0.15
-0.14
-0.18
0.04
0.03
-0.20
0.61
-2.56
-0.90
0.26
-0.56
-0.61
-1.35
-0.38
-0.22
-1.21
0.11
-0.23
0.02
0.13
0.41
-0.15
-0.28

7
-0.38
0.15
0.03
-1.99
-0.25
-0.87
-0.06
-2.52
0.08
-0.25
-0.05
-0.70
-0.45
-0.40
-0.47
0.19
-0.92
-0.91
0.19
-0.19
-0.04
-0.40
-0.60
-3.79
-0.01
0.02
-0.05
-0.31
-1.48
0.23
-0.06
-0.34
-0.37
-4.66
-1.11
-1.32
-0.52
-0.82
-0.55
-0.08
-2.12
-0.18
-0.40
-0.16
-0.50
-0.19
-0.41
-1.25
-0.22
-0.07

8
-0.38
0.10
-0.16
-0.03
-0.16
-0.90
-0.09
-5.92
-0.55
-0.55
-0.05
-0.65
-0.24
-0.90
-0.93
-1.74
-0.03
-1.59
0.02
-0.58
-1.06
-0.53
-0.53
-2.54
-0.28
-0.05
-0.03
-0.12
-0.08
-0.08
-0.03
-0.85
-0.45
-1.05
-2.77
-0.69
-2.59
-2.03
-0.60
-3.77
-1.02
-1.10
-1.53
-0.S2
-0.27
-0.06
-0.00
0.30
-0.17
-0.03

9
0.75
1.09
2.36
0.61
0.15
1.37
-0.16
0.46
0.30
0.31
0.06
0.60
-0.10
0.74
-0.06
2.95
1.05
0.21
0.02
0.00
0.40
0.59
0.29
2.41
0.36
0.07
0.08
0.15
0.05
0.17
0.04
1.71
0.40
0.79
0.95
1.84
1.05
3.46
1.16
2.48
0.48
0.38
2.79
1.19
0.38
0.70
0.36
0.25
0.25
0.19

Tabela 7. Relacije taksonomskih dimenzija 1979. i 1987.


3
4
5
6
7
8
9
0.50
0.68 -0.56 -0.54 -0.54 -0.86
0.75
0.73
0.52 -0.60 -0.44 -0.51 -0.59
0.61
0.70
0.30 -0.50 -0.28 -0.31 -0.41
0.38
0.22
0.65 -0.14 -0.17 -0.20 -0.56
0.10
-0.42 -0.37
0.73
0.40
0.37
0.46 -0.43
-0.50 -0.46
0.34
0.65
0.56
0.17 -0.51
-0.26 -0.25
0.39
0.13
0.67
0.33 -0.26
-0.31 -0.22
0.37
0.18
0.18
0.35 -0.44
0.39
0.39 -0.26 -0.20 -0.26 -0.33
0.53
-0.37 -0.35
0.47
0.31
0.28
0.33 -0.52
-0.54 -0.56
0.55
0.62
0.46
0.40 -0.64
0.10
0.33 -0.06 -0.19 -0.21 -0.22
0.12

10
-0.89
-0.44
-1.29
-1.26
0.30
-0.42
0.11
-2.73
-0.05
0.04
0.01
-0.44
-0.13
-0.51
-0.98
-3.15
-0.79
-0.95
0.14
-1.07
0.96
-1.55
-1.29
0.11
-1.21
0.02
-0.07
-0.50
-0.04
-0.47
-0.03
-1.21
-0.39
-0.58
-3.63
0.62
-0.65
0.30
-0.23
-0.95
-3.32
-0.10
0.36
-0.22
0.01
-0.51
-0.13
-1.76
0.02
-0.16

10
-0.46
-0.43
-0.26
-0.38
0.22
0.53
0.25
0.19
-0.15
0.61
0.33
0.08

11
-0.50
0.01
-0.51
-0.81
-0.83
0.30
-0.03
0.99
-0.36
-0.18
0.04
0.01
-2.12
0.61
-1.08
-3.67
-1.37
0.35
-0.52
-0.36
-0.27
-0.01
-0.51
-5.52
0.21
0.07
0.01
0.31
-0.04
-0.09
0.03
-2.13
-0.50
-0.58
1.04
-0.14
-1.96
0.93
-0.36
-2.00
-1.60
-0.01
-.0.66
-0.81
-0.43
0.01
0.04
-2.47
-0.16
-0.04

11
-0.41
-0.50
-0.50
-0.05
0.06
0.14
0.34
0.21
0.09
0.37
0.39
-0.24

12
-0.84
-0.57
-0.35
-0.71
-0.41
-2.22
-0.12
-3.30
-0.43
-0.36
-0.07
-1.65
0.03
-0.70
-1.11
-2.90
-0.24
-1.06
-0.05
-0.04
-0.40
-0.94
-0.74
-2.45
-1.00
-0.05
-0.13
-0.42
-0.13
-0.20
-0.03
-1.20
-0.01
-2.04
-2.60
-0.37
-1.28
-0.43
-0.95
-1.09
-0.70
-0.41
-0.47
-0.68
-1.17
0.75
-0.09
-0.21
-0.21
-0.38

12
-0.80
-0.75
-0.41
-0.32
0.47
0.67
0.31
0.11
-0.28
0.33
0.70
-0.13

Objavljeni radovi

Literatura

Dugi, D. (1987): Algorithm and program for the analysis of structural changes under the model of distinct
taxons. Proc. 9th International Symposium' Computer at the University,' 5 S.02:1-4
Jambu, M. (1979): Classification, antomatique pour 1' analyse des donnees, Dunod, Paris.
Momirovi, K. (1986): COMTAX: Algoritam i program za detekciju i komparaciju polarnih i distinktnih
taksona. Statistika revija, 36, 3-4; 141-149.
Momirovi, K. (1987): Metode, algoritmi i programi za analizu kvantitativnih i kvalitativnih promjena. Institut
za kineziologiju, Zagreb.
Momirovi, K. (1988): Uvod u analizu nominalnih varijabli. Metodoloke sveske, 2, JUS, Ljubljana.
Perii, V., Momirovi, K. (1986): Clustering by transformation to simple structure of unstandardized
quasicanonical variates. Proc. 8th International Symposium 'Computer at the University', 5.05: 1-7.
Vouk, V. (1987): Krivini zakon SR Hrvatske (priredio V. Vouk). Narodne novine, Zagreb.
Zegers, F. E., Ten Bergle, J. M. F. (1985): A family of asociation coefficients for metric scales. Psychometrika,
50, 17-24.

TAXONOMIC ANALYSIS OF QUALITATIVE CHANGES OF


CRIMINAL BEHAVIOUR
Marijan Gredelj, Ankica Hoek and Konstantin Momirovi
University of Zagreb
An algorithm for taxonomic analysis of objects described on absolute type
variables, defined by transformation to simple structure of concentered
quasicanonical variables, was applied to data obtained by registration of
criminality in communities of SR Croatia in two different periods. Well defined, but
fuzzy clusters were obtained, reasonably sensitive to structural changes of criminal
behaviour.
KEY WORDS: Qualitative changes / Canonical covariance analysis /
Structure of criminality

195

Konstantin Momirovi u statistici

(10) ZBORNICI RADOVA 1989 III (2)

Konstantin Momirovi,
Raunski centar instituta za kineziologiju i sveuilini raunski centar
KVAZIKANONIKA DISKRIMINATIVNA ANALIZA U
88
PEARSONOVOJ DISKRIMINATIVNOJ METRICI
Matrica podataka u standardnoj normalnoj formi projicirana u prostor koji
razapinju vektori neke binarne selektorske matrice, zatim standardizirana tako da su
drugi momenti svih varijabli jednaki 1.0 definirana je kao matrica podataka u
Pearsonovoj diskriminativnoj metrici, jer su elementi matrice krosprodukata vektora
varijabli u standardnoj normalnoj formi i vektora iz te matrice Pearsonovi
koeficijenti i kroskoeficijenti intergrupne korelacije. Kanonika analiza kovarijanci
ovako reparametriziranih varijabli, koja se svodi na spektralnu dekompoziciju
matrice njihovih krosprodukata, rjeenje je problema diskriminacije subuzoraka
opisanih selektorskom matricom pod generalnim kanonikim modelom. Ovo je
rjeenje manje osjetljivo na broj stupnjeva slobode, slabu determiniranost matrice
kovarijanci, prisustvo ekstremnih sluajeva i odstupanja od normalne raspodjele od
rjeenja dobijenog klasinom kanonikom diskriminativnom analizom.

QUASICANONICAL DISCRIMINANT ANALYSIS IN


PEARSON DISCRIMINANT SPACE
Pearson discriminant space is defined by standardization of variables
obtained by projection of a data matrix, in normal standard form, in the space
spanned by vectors of a binary indicator matrix. Matrix of cross-products of
variable vectors in normal standard form and variable vectors in Pearson
discriminant space contain coefficients of intergroup correlations and
crosscorrelations, with groups defined by indicator matrix. Canonical covariance
analysis of so reparametri zed sets of variables is a solution of the problem of
discrimination among groups and can be easily obtained by singular values
decomposition of crossproduct matrix. This solution is less sensitive of degrees of
freedom, ill defined covariance matrix, presence of outliers and condition of
intragroups normality then the solution obtained under standard model of
Canonical Discriminant analysis.
Key words: eta coefficient / discriminant analysis / canonical analysis of
covariances

1. Uvod
Model kanonike diskriminativne analize (Rao, 1948) svodi se, u stvari, na spektralnu dekompoziciju
matrice dobijene projekcijom lijevih svojstvenih vektora matrice podataka u prostor koji razapinju vektori
neke binarne selektorske matrice (Momirovi i Dobri, 1984, 1988). Model kvazikanonike diskriminativne
analize (talec i Momirovi, 1984; Dobri i Momirovi, 1984) svodi se, naprosto, na spektralnu
dekompoziciju matrice dobijene projekcijom vektora varijabli, u nekoj definiranoj metrici, u prostor koji
razapinju vektori binarne selektorske matrice (Momirovi i Dobri, 1984). Kao to je kanonika
diskriminativna analiza Rao-a samo poseban sluaj Hotelling-ovog modela kanonike korelacijske analize,
kvazikanonika diskriminativna analiza samo je poseban sluaj modela kanonike analize kovarijanci
(Momirovi, Dobri i Karaman, 1983; Dobri, 1986).

88

Ovaj je rad dio projekta 1.11.01.02.00 'Inteligentni sistemi za analizu podataka', koga financira SIZ znanosti SR Hrvatske.

196

Objavljeni radovi

Kao i sve metode koje su poseban sluaj kanonike korelacijske analize (a to su, to je trivijalno lako
dokazati, praktiki sve standardne statistike metode), i kanonika diskriminativna analiza je metriki
invarijantna metoda. To, meutim, nije tako s metodama koje su poseban sluaj kanonike analize
kovarijanci, kao to su, na primjer, ali ne iskljuivo, analiza glavnih komponenata, analiza prepokrivanja i
tzv. stupidna regresijska analiza. Sve su ove metode osjetljive i na lijevu i na desnu metriku matrice
podataka, pa stoga promjena metrike generira razliite varijante istog osnovnog modela ije ponaanje moe
biti vrlo razliito i u razliitoj suglasnosti s prirodom podataka koji su predmet analize.
Diskriminativni model izveden iz kanonike analize kovarijanci bio je, za razliku od ostalih metoda
koje se temelje na ekstremizaciji kovarijanci, do sada definiran samo u standardnoj metrici. Ovo je samo
dijelom posljedica lijenosti i nematovitosti onih koji se bave kvazikanonikim modelima; drugi, i ozbiljniji
razlog je to je standardna metrika prirodna metrika za diskriminativnu analizu pod kvazikanonikim
modelom, jer se u toj metrici kvazikanonika diskriminativna analiza moe definirati kao komponentna
analiza matrice kovarijanci iji su elementi kvadrati Pearsonovih koeficijenata intergrupne korelacije i
intergrupne kroskorelacije parova varijabli, dakle na odreivanje svojstvenih vrijednosti, i njima pridruenih
svojstvenih vektora, jedne simetrine matrice s jasnim smislom njenih lanova.
Meutim, ova metrika nije jedina prirodna metrika za kvazikanoniku diskriminativnu analizu. U
stvari, prirodna, ili barem najjednostavnija formulacija problema kanonike analize kovarijanci, jeste
maksimiziranje kovarijanci linearnih kombinacija izvedenih iz dva skupa standardiziranih varijabli, dakle
spektralna dekompozicija jedne u pravilu nesimetrine matrice kroskorelacija. Primijenjena na problem diskriminacije podskupova objekata koji su izvueni iz prirodnih ili eksperimentalno formiranih subpopulacija,
ova formulacija zahtijeva restandardizaciju varijabli dobijenih projekcijom standardiziranih varijabli u
prostor koga razapinju vektori indikatorske matrice kojom je opisano pripadanje objekata ovim
subpopulacijama. Tako restandardizirane varijable imaju sada Pearsonovu metriku, jer su njihove korelacije sa izvornim varijablama upravo koeficijenti intergrupne korelacije, dakle mjere koje su sasvim sigurno
dobra osnova za rjeavanje ma kog diskriminativnog problema.
2. Kvazikanonika diskriminativna analiza u eta metrici
Neka je E = {ei; i = 1,..., n} P sluajni uzorak iz neke nehomogene populacije P = U gk Pk , gdje su Pk
prirodne ili eksperimentalno generirane subpopulacije iz P, i neka je V = {vj; j = 1,..., m} skup kvantitativnih
varijabli s nekom eliptinom funkcijom distribucije. Neka je W = {wk; k = 1,..., g} nominalna varijabla koja
opisuje podskupove Pk iz P.
Neka je
B = (bij) = EV

i = 1,..., n
j = 1,..., m

matrica podataka dobijena opisom skupa E na skupu V, i neka je


i = 1,..., n
S = (sik) = EW
k = 1,..., g
indikatorska matrica sa lanovima definiranim funkcijom

1,
s ik =
0,

ako e i Pk
(
inace.

Definirajmo E kao sumacioni vektor reda (n,1), i iz njega izvedeni centroidni projektor

P = E(E T E) 1 E T ,
i definirajmo lijevu metriku podataka matricom

M L = (I P)
a desnu metriku matrice podataka matricom

M 2D = diag(BT B BT PB)n 2
tako da je
197

Konstantin Momirovi u statistici

Z = M L BM D1
matrica koja opisuje skup E na skupu V u standardnoj normalnoj formi.
Definirajmo

Y = S ( S T S ) 1 S T ZM 1
gdje je

& TY
& ) = diag( Z T S(ST S) 1 ST Z)
M 2 = diag(Y
i uoimo da su elementi n 2j matrice M 2 ba kvadrati Pearsonovih intergrupnih koeficijenata korelacije
(Fisher, 1950; Guttman, 1988). Matricu Y nazvat emo matricom oekivanih rezultata objekata iz EVW
u metrici.
Definirajmo sada problem kvazikanonike diskriminacije subpopulacija Pk, k = 1,...,g (Dobri i
Momirovi, 1984; talec i Momirovi, 1984; Momirovi i Dobri, 1984, 1988), kao poseban sluaj
kanonike analize kovarijanci (Momirovi, Dobri i Karaman, 1983; Dobri, 1986; Momirovi, Radakovi i
Dobri, 1988) u metrici. Taj se problem moe definirati kao maksimizacija funkcija

ZX p = K p
YVp = L p

c p = K Tp L p = max

p = 1,..., q = min(m, ( g 1))

c p c p+1

p = 1,..., q 1

X Tp X s = ps

p, s = 1,..., q

VpT Vs = ps

p, s = 1,..., q

gdje je ps Kronecker-ov simbol. Deriviranjem

c p = X Tp Z T YVP

p = 1,..., q,

pa se problem svodi na spektralnu dekompoziciju matrice

G = Z T Y = Z T S ( S T S ) 1 S T ZM 1.
Meutim, dijagonalni elementi matrice G oito su Pearson-ovi intergrupni koeficijenti korelacije
varijabli vj, j = 1,..., m i nominalne varijable W, a vandijagonalni elementi intergrupni koeficijenti
kroskorelacije varijabli vj, vk; j, k = 1,..., m; j k i nominalne varijable W89.
Definirajmo

X = (X p ) V = (Vp ) C = (C p )

p = 1,..., q

K = ( K p ) = ZX

p = 1,..., q.

L = ( L p ) = YV

Matrica kovarijanci kvazikanonikih varijabli iz K biti e

W = K T K = X T RX,
T

gdje je R = Z Z matrica interkorelacija varijabli iz V, a matrica kovarijanci kvazikanonikih varijabli iz L


biti e

WL = LT L = V T M 1 ( Z T S(S T S) 1 S T Z)M 1 V.
Obje matrice kovarijanci oito nisu dijagonalne, pa su, stoga, u opem sluaju, kvazikanonike

89

Lako je pokazati da je standardna kvazikanonika diskriminativna analiza (poznatija pod imenom 'stupidna diskriminativna analiza'; vidi, npr.,
Momirovi i Dobri, 1988) u stvari komponentna analiza matrice sa elementima jj u dijagonali i jk
2

198

= kj2

na vandijagonalnim pozicijama.

Objavljeni radovi

varijable u oba skupa u nenultim korelacijama, ali, kako je

KTL = C
ovi skupovi tvore semibiortogonalni sustav.
Varijance varijabli iz K biti e elementi dijagonalne matrice

D 2K = diagWK
a varijance varijabli iz L elementi dijagonalne matrice

D 2L = diagWL .
Zbog najmanje dva razloga, od kojih je prvi mogunost formiranja lako interpretabilnih
identifikacijskih struktura, a drugi konstrukcija aproksimativnih testova znaajnosti, pogodno je
standardizirati kvazikanonike varijable iz K i L. Definirajmo, stoga,

Q = KD K1

i U = LD L1

kao matrice standardiziranih kvazikanonikih varijabli. U dijagonalnoj matrici

= Q T U = D K1CD L1 = ( p )

p = 1,..., q.

biti e sada kvazikanoniki koeficijenti korelacije izmeu identino indeksiranih varijabli iz Q i U, iji je
smisao identian koeficijentima diskriminacije u kanonikom modelu Rao-a (Rao, 1948; Bryan, 1951;
Romeder, 1973) ili kvazikanonikom modelu Momirovia, taleca i V. Dobria (Dobri, 1986; Momirovi i
Dobri, 1988).
Egzaktan test znaajnosti koeficijenata p do sada nije bilo mogue konstruirati. Uoimo, meutim, da
koeficijenti p nisu bili predmet ekstremizacije (ekstremizirane su samo kovarijance cp), i da su varijable iz
Q i U dobijene linearnim kombinacijama varijabli s konanim etvrtim momentima; zbog toga je, za sada,
mogue testirati hipoteze ~
p = 0, p = 1,..., q aproksimacijama

p = 1,..., q
f p = 2p ((n 2) /(1 2p ))
koje pod H op : ~
p = 0 imaju aproksimativno, Snedecor-Fisher-ovu distribuciju sa df1 = 1 i df2 = n2
stupnjeva slobode.
Identifikacija sadraja kvazikanonikih diskriminativnih funkcija mogua je na temelju matrice
strukture

FQ = Z T Q = RXD K1 ,
matrice interkorelacija

M Q = Q T Q = D K1X T RXD K1
i matrice sklopa

A Q = FQ M Q1 = XD K ;
uoimo, uzgred, da su AQ i FQ faktorske matrice od R, jer, ako je m g1, A Q FQT = R ; inae, ako je
g1 < m,

A *Q = RXX T R 1 XD K
pa je

A *Q FQT = RXX T R 1 XX T R
to je poseban sluaj Guttman-ove teoreme o faktorizaciji kvadratnih simetrinih matrica.
Zanimljiva je i teorijski znaajna struktura varijabli u Y i U prostoru. Naime

FU = Y TU = M 1Z T S ( S T S ) 1 S T ZM 1VDL1
a kako je
199

Konstantin Momirovi u statistici

M U = U T U = D L1 V T M 1 Z T S(S T S) 1 S T ZM 1 VD L1
matrica sklopa je (u sluaju m g1)

A U = FU M U1 = VD L .
Naravno, kao i obino, korisne su informacije o centroidima grupa definiranih varijablom W na
diskriminativnim funkcijama. Ti su centroidi elementi matrice
k = 1,..., g
H = (S T S) 1 S T Q = (h kp )
p = 1,..., q
i takoer mogu biti upotrebljeni za identifikaciju latentnih dimenzija.
3. PROGRAM QUADIS
Algoritam kvazikanonike diskriminativne analize u metrici gotovo je doslovno implementiran u
MACRO program QUADIS, napisan u GENSTAT jeziku, verzija 4.04 B. QUADIS oekuje od
REFERENCE programa samo jednu VARIATE strukturu s podacima, jednu POINTER strukturu sa imenima
varijabli, jednu FACTOR strukturu u kojoj je identificirano kojoj subpopulaciji pripada koji entitet i jo
jednu POINTER strukturu s nazivima subpopulacija. Verzije ovog programa, napisane u SAS/IML i
GENSTAT 5 jeziku, biti e dovrene u dogledno vrijeme90.

LITERATURA
Bryan, J. G. (1951): The generalized discriminant function: Mathematical foundation and computational routine.
Harvard Educational Revue, 21, 2 ; 90 - 95.
Dobri, V.; Momirovi, K. (1984): An algorithm and program for stupid discriminant analysis, Proc. 9tn
Information Technologies Conference 'Jahorina 84', 213 : 1 - 5.
Dobri, V. (1986): On a class of robust methods for multivariate data analysis. COMPSTAT86, Proc.on
Computational Statistics, Physica Verlag, Heidelberg, 3l3 - 3l6.
Fisher, R. A. (1950): Statistical methods for research workers (11th ed.). Oliver and Boyd, London,
Guttman, L. (1988): Eta, disco, odisco and F. Psychometrika, 53, 3 : 393 - 405.
Momirovi, K.; Dobri, V.; Karaman, . (1983): Canonical covariance analysis. Proc. 5th International
Symposium 'Computer at the University', 463 - 473.
Momirovi, K., Dobri, V. (1984): O nekim odnosima izmeu kanonike i kvazikanonike diskriminativne
analize. Biokibernetika, Skopje, V; X7 - 22.
Momirovi, K.; Dobri, V. (1988): Diagnostic efficiency of a robust method for discriminant analysis. Proc. 10th
international Symposium 'Computer at the University", 5.3 : 1 - 10.
Momirovi, K., Radakovi, J.; Dobri, V. (1988): An expert system for the interpretation of results of canonical
covariance analysis. COMPSTAT 88, Proc. on Computational Statistics, Physica-Verlag,Heidelberg, 135-141.
Rao, C. R. (1948): The utilisation of multiple measurements in problems of biological classification. Journal of
Royal Statistical Society, B1O, 2 : 149 - 203.
Romeder, J. M. (1973): Methodes et programmes d'analyse discriminante: Dunod, Paris.
talec, J.; Momirovi, K. (1984): On a very simple method for robust discriminant analysis. Proc.6th International
Symposium 'Computer at the University', 515 : 1-16.

90

Kako se broj mazohista meu informatiarima, ini se, drastino smanjio, teko je oekivati verzije u nekom uobiajenom proceduralnom jeziku,
kao to su Pascal, FORTRAN, PL/1 ili C.

200

Objavljeni radovi

(11) ZBORNICI RADOVA 1991 IV

IV MAJSKI SKUP SEKCIJE ZA KLASIFIKACIJE SSDJ-a


Mostar, 18. i 19. maj 1990.
Konstantin Momirovi - Sveuilite u Zagrebu
O MJERAMA UDALJENOSTI I SLINOSTI U
ANTIIMAGE METRICI
Predloena je grupa mjera udaljenosti izmeu objekata opisanih nad skupom
kvantitativnih nesingularnih varijabli definirana udaljenostima Minkowskog u
prostoru koji razapinju vektori varijabli transformiranih u Guttmanov parcijalni
antiimage oblik, i dvije mjere slinosti definirane skalarnim produktom i
normiranim skalarnim produktom vektora entiteta u antiimage prostoru. Ove mjere
mogu biti korisne u sluajevima kada je potrebno definirati odnose izmeu entiteta
na uniknim komponentama varijabli.
KLJUNE RIJEI: Antiimage metrika / Udaljenosti Minkowskog

ON THE MEASURES OF DISTANCE AND SIMILARITY


IN ANTIIMAGE SPACE
A set of measures of distance between objects described on a set of
nonsingular quantitative variates is, proposed, defined by Minkowski distances in
the space spanned by vectors of variates transformed to Guttman partial image
form. Two measures of similarity defined by scalar products and normed scalar
products of vectors of objects in this space are proposed also. The proposed
measures can be usefully in the cases when is necessary to define the relations
between objects on the unique components of variates.

1. Uvod
Korist od toga da se udaljenost izmeu dva objekta, opisana nad skupom koreliranih varijabli, definira
samo na neredundantnim komponentama tih varijabli prvi je, ini se, uoio Ivanovi (vidi, npr., Ivanovi,
1963). I-odstojanje B. Ivanovia definirano je na sukcesivno parcijaliziranim varijablama, pa stoga nije
nezavisno od njihovog redoslijeda. Ista ideja moe, meutim, biti realizirana tako da ma koja mjera
udaljenosti bude nezavisna od redoslijeda varijabli ako se te varijable prethodno transformiraju u parcijalni
antiimage oblik (Guttman, 1953). Na tako transformiranim varijablama mogue je izvesti cijelu klasu mjera,
definiranu udaljenostima Minkowskog, i dvije jednostavne i prirodne mjere slinosti, definirane skalarnim
produktom ili normiranim skalarnim produktom vektora objekata. Zbog svojstava varijabli transformiranih u
antiimage oblik, ove mjere mogu biti vrlo korisne ako je potrebno da se relacije izmeu objekata odrede
samo na uniknim komponentama varijabli.
2. Neka svojstva varijabli transformiranih u parcijalni antiimage oblik
Neka je Z standardizirana matrica podataka, dobijena opisom nekog skupa objekata nad nekim
skupom kvantitativnih normalno distribuiranih varijabli sa nesingularnom matricom korelacija

1
R = ZtZ .
n
Neka je procjena uniknih varijanci (Guttman, 1953)

U 2 = (diag R 1 ) 1.
Transformacija varijabli u parcijalni antiimage oblik definirana je

A = ZR 1U 2
201

Konstantin Momirovi u statistici

operacijom image oblik operacijom

G = Z A = Z ( I R 1U 2 ).

Antiimage varijable imaju ova oita i dobro poznata svojstva:


(1) Matrica njihovih kovarijanci je

1
C = At A = U 2 R 1U 2 ,
n

pa su stoga parcijalne korelacije izvornih varijabli jednake kovarijancama antiimage varijabli sa obrnutim
predznakom.
(2) Matrica kovarijanci izvornih i antiimage varijabli je

1
ZtA =U 2
n

pa su stoga kovarijance izvornih i njima pridruenih antiimage varijabli jednake varijancama antiimage
varijabli, a kovarijance razliito indeksiranih izvornih i antiimage varijabli jednake nuli.
(3) Matrica kovarijanci antiimage i image varijabli je

At G

1
= U 2 U 2 R 1U 2 ;
n

te su kovarijance, dakle, jednake parcijalnim korelacijama izvornih varijabli.


(4) Antiimage varijable su asimptotski normalno distribuirane i kada izvorne varijable nemaju
normalnu raspodjelu, jer su linearna kombinacija tih varijabli.
3. Mjere udaljenosti
Kako su antiimage varijable nesingularna transformacija izvornih varijabli, udaljenost Mahalanobisa
definirana na ovim varijablama jednaka je udaljenosti Mahalanobisa definiranoj na izvornim varijablama.
Zbog toga su u prostoru antiimage varijabli od interesa samo udaljenosti Minkowskog.
Neka je A = (aik); i = 1,..., n; k = 1,..., m, matrica podataka u antiimage metrici za n objekata ei, i =
1,..., n, opisanih nad m varijabli vk; k = 1..., m. Udaljenosti u nekoj q metrici Minkowskog izmeu objekata ei
i ej bie
m

d ijq = ( ( aik a jk ) q )1 / q , q > 0.


k =1

Kao i obino, od najveeg e interesa najee biti udaljenost Euklida, definirana sa q = 2; meutim, u
nekim e sluajevima udaljenost za q = 1 ili q = , ili za neki posebno definirani q koji optimalizira neku
klasifikacijsku funkciju, biti zanimljivija od Euklidske udaljenosti.
4. Mjere slinosti
Mjere slinosti u antiimage metrici najjednostavnije je definirati kao skalarne produkte normiranih
vektora objekata
m

k =1

k =1

k =1

kij = aik a jk /( aik2 a 2jk )1 / 2


tako da variraju izmeu -1 i 1 i da je, kao to je uobiajeno, kii = 1.
Meutim, u nekim primjenama, kao to je, na primjer, analiza glavnih koordinata, ponekad je
pogodnije dopustiti nejednaku duinu vektora objekata, i mjeru 'slinosti' definirati prosto kao obian
skalarni produkt vektora objekata, dakle, kao
m

sij = aik a jk .
k =1

Literatura
Guttman, L.: Image theory for the structure of quantitative variates. Psychometrika, 18 (1953), 3: 277-296
Ivanovi, B.: Diskriminaciona analiza. Nauna knjiga, Beograd, 1963
Kaiser, H. F.: Image analysis.
In C. W. Harris (Ed.): Problems in measuring change. University of Wisconsin Press, Madison, 1963.

202

Objavljeni radovi

(12) ZBORNICI RADOVA 1992 V

MAJSKI SKUP '91 SEKCIJE ZA KLASIFIKACIJE SSDJ-a


Mostar, 24. i 25. maj 1991.
Konstantin Momirovi i Vesna Dobri - Sveuilite u Zagrebu
O NEKIM POSTUPCIMA ZA KVANTIFIKACIJU
NOMINALNIH VARIJABLI
Razmatrana su svojstva i odnosi ovih postupaka za kvantifikaciju skupa
nominalnih varijabli reprezentiranih konkatenacijom indikatorskih matrica:
(1) Lijevi vektori tako formirane matrice
(2) Nestandardizirane glavne komponente
(3) Transformacija u Mahalanobisov oblik.
Svaki od ovih postupaka ima svoje specifine prednosti i svaki moe biti
upotrebljen za kvantifikaciju nenumerikih podataka.
KLJUNE RIJEI: nominalne varijable / kvantifikacija / singularna
dekompozicija / Hotellingov prostor / Mahalanobisov prostor

SOME PROCEDURES FOR THE QUANTIFICATION


OF A SET OF CATEGORICAL VARIATES
The properties and relationships of the following procedures for the
quantification of a set of unordered categorical variates represented by
concatenation of indicator matrices are considered:
(1) Left eigenvectors of so obtained matrix
(2) Unstandardized principal components
(3) Transformation to partial Mahalanobis form.
Each of the proposed procedures has specific advantages and inconveniences
but can be used for the quantification of a set of qualitative variables.
KEY WORDS: categorical variables / quantification / singular values
decomposition / Hotelling space / Mahalanobis space

1. Uvod
Problem kvantifikacije nominalnih varijabli rjeavan je do sada na mnogo vrlo razliitih naina, od
kojih veina, premda definirani formalno razliitim funkcijama cilja, vodi do potpuno istog rezultata.
Izvrstan pregled tih procedura, njihova usporedna analiza, i dokazi da proizvode virtualno identine rezultate
moe se nai u radu Tenenhausa i Younga (1985).
Svrha ovog rada je da opie tri procedure koje se zasnivaju na singularnoj dekompoziciji matrice
podataka dobijenoj konkatenacijom indikatorskih matrica kojima su reprezentirane pojedine nominalne
varijable i da definira svojstva i meusobne odnose tih procedura.
2. Numerika reprezentacija jednog skupa nominalnih varijabli
Neka je E = {ei; i= 1,..., n} skup entiteta, i neka je V = {vj; j = 1,..., m} skup nominalnih varijabli koje
su definirane skupovima kategorija Vj = {vjk; k = 1,..., qj} tako da je vjk vjl = 0kl Vj.
203

Konstantin Momirovi u statistici

Neka su
EVj = Sj = (sjik)

j = 1,..., m
i = 1,..., n
k = 1,..., qj
indikatorske matrice definirane funkcijom

s jik = 1 e i v jk

s jik = 0 e i v jk
i neka je
S = (S1...Sj...Sm)
matrica reda (n , q ), q =

q , dobijena konkatenacijom matrice Sj.


j=1

Ako je n > q, rang matrice S bie r = qm+1, pod uvjetom da u skupu V nema nijednog para
identinih kategorija (Benzecri, 1976).
Prema tome, bazina struktura matrice S bie

S = YX t
gdje = ( p ); p = 1,..., r; p > 0 p je dijagonalna matrica r singularnih vrijednosti matrice S, Y = (yp);
p = 1,..., r; YTY = I matrica njenih lijevih svojstvenih vektora, a X = (xp); p = 1,..., r; XTX = I matrica njenih
desnih svojstvenih vektora pridruenih nenultim singularnim vrijednostima.
Oito, YYT = Py je projektor reda n i ranga r, a XXT = Px je projektor reda q i ranga r.
3. Postupci za kvantifikaciju nominalnih varijabli osnovani na singularnoj dekompoziciji matrice
podataka
Veina
do
sada
predloenih
postupaka
za
kvantifikaciju
jednog
skupa
od
m > 2 nominalnih varijabli svodi se, u stvari, na transformaciju
K = SX = Y,
tj. na odreivanje glavnih komponenata (Benzecri, 1976: Tenenhaus i Young, 1985; Momirovi, 1988).
Rea, ali jednako prirodna transformacija je
L = SX-1 = Y,
tj. odreivanje standardiziranih glavnih komponenata ili lijevih vektora matrice podataka.
Poneto egzotina, ali ne i neprirodna transformacija je
(1) M = SX-1Xt = YXt,
tj. transformacija varijabli u parcijalni Mahalanobisov oblik (Momirovi i Kudrjavcov, 1989).
Transformacije (1), (2) i (3) su nesingularne transformacije identino distribuiranih varijabli, pa stoga
varijable iz K, L i M imaju, asimptotski, normalnu raspodjelu i oito predstavljaju kvantitativne varijable.
4. Svojstva i odnosi rezultata dobijenih razliitim postupcima za kvantifikaciju nominalnih varijabli
Relacije i krosrelacije varijabli dobijenih transformacijom u nestandardizirane (K) i standardizirane
(L) glavne komponente, i transformacijom u parcijalni Mahalanobisov oblik (M), te njihove relacije s
matricom dobijenom konkatenacijom indikatorskih matrica prikazane su u narednoj tabeli:

S
K
L
M

204

eksplicitni oblik
YXt
Y
Y
YXt

S
(X2Xt)
2Xt
Xt
XXt

K
X2
(2)

L
X

(I)
X

M
XXt
Xt
Xt
(XXt)

Objavljeni radovi

Oito je da transformacija u standardizirane glavne komponente ima najugodnija svojstva i


najjednostavnije odnose i s matricom podataka i s drugim transformacijama. Transformacija u nestandardizirane glavne komponente sadrava, meutim, jednu vanu informaciju, a to je veliina inercije tako
dobijenih varijabli. Varijable transformirane u Mahalanobisov oblik imaju vrlo zanimljive relacije sa originalnim varijablama, i vrlo jednostavne relacije sa ostalim transformacijama, ali nisu mutualno ortogonalne;
meutim, tako dobijene varijable, pod kriterijem najmanjih kvadrata, najslinije su originalnim binarnim
varijablama.
Prema tome, svaka od opisanih transformacija ima specifina pogodna svojstva, i zbog toga svaka
moe biti primjenjena za kvantifikaciju nominalnih varijabli.
Da je zaista tako, vidi se i iz naredne tabele, u kojoj su eksplicitno definirane relacije izmeu objekata
opisanih na izvornim i transformiranim varijablama:

S
K
L
M

S
Y2Yt

K
Y2Yt

L
YYt

YYt

Naravno da kvantifikacija nominalnih varijabli koja se osniva na singularnoj dekompoziciji matrice


dobijene konkatenacijom indikatorskih matrica nije jedini mogui postupak za pretvorbu tih varijabli u neki
kvantitativan oblik. Cijele klase drugih transformacija mogue su nad matricama koje lee u razliitim
metrikim prostorima, definiranim operacijama
Q = DISDd
gdje su DI i Dd kvadratne nesingularne matrice, izabrane tako da se ekstremizira neka klasa funkcija
nad elementima matrice Q.

Literatura

Benzecri, J. P. (1976):
L' analyse des donnees. 2. L' analyse des correspondences. Dunod, Paris
Momirovi, K. (1988):
Uvod u analizu nominalnih varijabli. Metodoloke zveske, 2, JUS,
Ljubljana
Momirovi, K.; Kudrjavcov, V. B. (1989):
Neke mjere udaljenosti i slinosti objekata opisanih na skupu nominalnih varijabli u Mahalanobisovom
prostoru. Izvjetaj o projektu 1.11.01.02.03, FFK i SRCE, Zagreb
Tenenhaus, M. : Young, F. W. (1985):
An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity
analysis and other methods for quantifying categorical multivariate data. Psychometrika, 50, 91-119.

205

Konstantin Momirovi u statistici

(13) ZBORNICI RADOVA 1993 VI i VII (1)

Boris Kuzeljevi, Goran Kneevi, Bora Radovi i Konstantin Momirovi


Institut za kriminoloka i socioloka istraivanja
ALGORITAM ZA ODREIVANJE POLARNIH TAKSONA U
PROSTORU DRUGOG REDA
REZIME
Predloen je algoritam za odreivanje polarnih taksona u prostoru drugog
reda i izvedene identifikacijske strukture za tako dobijene taksonomske dimenzije u
prostoru taksonomskih dimenzija prvog reda i u prostoru koji razapinju vektori
izvornih varijabli. Za odreivanje taksonomskih dimenzija prvog reda primenjen je
Zlobecov algoritam TAXONOM u verziji koju su predloili Momirovi, Zakrajek,
Hoek i Stojanovi. Taj se algoritam sastoji u ortonormalnoj transformaciji levih
svojstvenih vektora standardizovane matrice podataka, koji su normirani na njima
pridruene singularne vrednosti tako da se maksimizira Kaiserov brutto varimax
kriterijum. Broj vektora koji se podvrgavaju ovoj transformaciji, pa otuda i broj
taksonomskih dimenzija u prostoru prvog reda, odreen je tako da se pomou njih
upravo dostigne varijansa skupa izvornih varijabli transformisanih u parcijalni
image oblik. Taksonomske dimenzije drugog reda odreuju se na osnovu
ortonormalne transformacije levih svojstvenih vrednosti matrice standrdizovanih
taksonomskih dimenzija prvog reda, normiranih na njima pridruene singularne
vrednosti, tako da se, ponovo, maksimizira brutto varimax kriterijum. Broj
taksonomskih dimenzija u prostoru drugog reda definisan je kao broj onih glavnih
komponenata matrice standardizovanih taksonomskih dimenzija prvog reda koje
imaju nenegativne koeficijente generalizabilnosti. Za identifikaciju taksonomskih
dimenzija drugog reda predloene su i izvedene matrice sklopa i strukture tih
dimenzija u prostoru standardizovanih taksonomskih dimenzija prvog reda i u
prostoru koji razapinju vektori standardizovanih izvornih varijabli.
KLJUNE REI: klasifikacija / TAXONOM / prostor drugog reda

AN ALGORHYTHM FOR DEFINITION OF POLAR TAXONS WITHIN


SECOND-ORDER SPACE
SUMMARY
We have proposed an algorhythm for definition of polar taxnns within sec
order space and we have deduced identification structures for toco dimensions thus
obtained within the space of taxonomic dimensions of first or as well as within the
space defined by the vectors of original variables. A versiot Zlobec's algorhythm
TAXONOM (proposed by Momirovi, Zakrajek, Hoek and Stojanovi) was used
for definition of taxonomic dimensions of first order. The algorhythm consists of an
orthonormal transformation of the left eigen vectors of standardized data matrix
which were normed to values attached to them in a way that maximizes Kaiser's
brutto varimax criterium. The number of vectors I transformed (and therefore the
number of taxonomic dimensions with first-order space) was defined in such a way
that they could help reaching variance of the group of original variables
transformed into partial image form. Taxonomic dimensions of second order were
defined on the basis of an orthonormal transformation of the left eigen values of the
matrix of standardized taxonoi dimensions of first order which were normed to
values attached to them in a u that maximizes brutto varimax criterium. The number
of taxonomic dim, within second-order space is defined as the number of the
principal component matrix which have non negative coefficients of generalizability.
In order to identify taxonomic dimensions of second order, we have proposed and
deduced matrices of pattern and structure of these dimensions within the space of
standardized taxonomic variables of first order as well as within the space defined
by the vectors of standardized original variables.
KEY WORDS: Classification/ TAXONOM/ Second-order space
206

Objavljeni radovi

1. Uvod
Hijerarhijsku klasifikaciju nekog skupa objekata, opisanog na skupu kvantitativnih varijabli, mogue
je, u principu, nainiti na tri razliita naina. Prvi, i najuobiajeniji, jeste da se primeni neki od postupaka
hijerarhijske klasifikacije, i da se tako dobijeno stablo presee na dva ili vie nivoa; rojevi dobijeni na nekom
viem nivou mogu se, u odnosu na rojeve dobijene na neposredno niem nivou, smatrati taksonima drugog
reda. Drugi, znatno rei postupak, jeste da se prvo odrede distinktni taksoni nekom od metoda lokalne
optimizacije, da se zatim izraunaju neke mere udaljenosti ili slinosti tih taksona, i da se, na kraju, ponovo
odrede taksoni tih taksona nekom od metoda lokalne optimizacije. Trei nain, koji, koliko se moglo utvrditi
inspekcijom dostupne literature, jo do sada nije bio ni eksplicitno predlagan ni u praksi primenjivan, jeste da
se taksoni prvog reda odrede u prostoru manifestnih ili latentnih varijabli nekim postupkom koji ekstremizira
neku parsimonijsku funkciju nad matricom koja opisuje poloaj objekata na manifestnim ili latentnim
varijablama, i da se zatim taksoni drugog reda odrede, u na neki nain reduciranom prostoru, ponovo nekom
parsimonijskom transformacijom, ako, naravno, postoje nenulte relacije izmeu taksona prvog reda.
Svrha ovog rada je da predloi jedan algoritam za odreivanje taksona drugog reda koji pripada
poslednjoj od ovih grupa, zbog toga to su algoritmi te vrste pogodni i za tretiranje objekata koji su opisani
na skupu unimodalno distribuiranih varijabli. Jednostavnosti radi, odlueno je da se definie algoritam koji
na slian ili, ako je mogue, istovetan nain odreuje polarne taksone i u prostoru prvog i u prostoru drugog
reda, i da se u tu svrhu izabere neki od ve postojeih algoritama koji se u praksi dobro ponaaju. Takvih je
algoritama do sada predloeno i iskuano bar deset (TAXOBL/K i TAXOBL/V Momirovia i Zakrajeka
(1973); TAXONOM Zlobeca (1975); MORPHOTAX Szirovitze, Gredelja, Momirovia i Zakrajeka (1978);
XTQ1, XTQ2, XTQ3 i XTQ4 Momirovia (1978); LUDAK Momirovia (1979); LEFTAX Momirovia i
Gredelja (1982); COMTAX Momirovia (1986)). Izbor izmeu njih uinjen je na osnovu dva kriterijuma.
Prvi je bio da algoritam nuno proizvodi kose taksonomske dimenzije u prostoru prvog reda, jer bi u
protivnom analiza u prostoru drugog reda bila besmislena. Drugi kriterijum je bio da je algoritam to je
mogue jednostavniji, jer je, bar za poetak, izvoenje identifikacijskih struktura, koje ionako nije
jednostavno, trebalo to je mogue vie pojednostaviti i uiniti jasnim i razumljivim.
Poredbena analiza nekih taksonomskih algoritama koju su uinili Momirovi, Zakrajek, Hoek i
Stojanovi (1979) pokazala je da je od svih do tada predloenih algoritama za odreivanje polarnih taksona
ekstremizacijom parsimonijskih funkcija verovatno najpogodniji, a sigurno najjednostavniji Zlobecov
algoritam TAXONOM, u verziji koju su predloili upravo ti autori. Kako TAXONOM nuno proizvodi kose
taksonomske dimenzije, odlueno je da se taj algoritam primeni i za odreivanje taksonomskih dimenzija
prvog reda, i, u malo modifikovanoj formi, za odreivanje taksonomskih dimenzija drugog reda.
TAXONOM formira polarne taksone ekstremizacijom brutto varimax funkcije (Kaiser, 1958) nad
levim svojstvenim vektorima matrice standardizovanih podataka, normiranim na singularne vrednosti te
matrice. Originalni algoritam odreuje broj zadranih vektora, pa prema tome i broj taksonomskih dimenzija,
na osnovu PB kriterijuma taleca i Momirovia (1971), dakle tako da ukupna varijansa zadranih
taksonomskih dimenzija upravo dostigne ukupnu varijansu varijabli transformisanih u parcijalni image oblik.
Taj je algorithm primenjen za odreivanje taksonomskih dimenzija u prostoru prvog reda. Isti je algoritam, u
osnovi, primenjen i za odreivanje taksonomskih dimenzija drugog reda, ali sada na osnovu zadranih levih
svojstvenih vektora matrice standardizovanih taksonomskih dimenzija prvog reda. Broj tih dimenzija
odreen je, meutim, po jednom blaem kriterijumu, jer je analiza u prostoru prvog reda ve eliminisala
varijansu pogreke merenja. U prostoru drugog reda zadrani su svi levi svojstveni vektori s koeficijentima
generalizabilnosti veim od nule ili jednakim nuli.
Ako ima vie taksonomskih dimenzija u prostoru prvog reda, i ako su te dimenzije znaajno
meusobno povezane, korist od analize u prostoru drugog reda moe da bude viestruka. Pre svega, tako je
mogue definisati dimenzije i rojeve koji na njima lee sa znatno veim stepenom generalizacije, i zbog toga
s veim stepenom pouzdanosti. Zatim, na osnovu relacija taksonomskih dimenzija prvog i drugog reda,
mogue je pretpostaviti generatore slinosti nekih rojeva, pogotovo ako se odredi poloaj taksonomskih
dimenzija drugog reda u prostoru izvornih varijabli. I, na kraju, celokupnu taksonomsku strukturu mogue je
tako uiniti jednostavnijom, preglednijom i razumljivijom.
Oigledno je da predloeni algoritam nije jedini, a verovatno je da nije ni najbolji za odreivanje
taksonomskih dimenzija drugog reda pod modelom polarnih taksona. Slini algoritmi se mogu konstruisati i
korienjem drugih osnovnih algoritama ovog tipa. S obzirom na relativnu jednostavnost, dobro ponaanje u
207

Konstantin Momirovi u statistici

praksi i mogunost da se broj taksonomskih dimenzija odredi jednim pouzdanim postupkom, u ovu bi svrhu,
izmeu ostalih, vrlo dobro mogao posluiti i algoritam XTQ4 (Momirovi, 1978). U jednom od narednih
radova bie predloena procedura za taksonomsku analizu u prostoru drugog reda, koja se osniva na ovom
algoritmu.
2. Taksonomska analiza u prostoru prvog reda
Neka je E skup entiteta koji se sastoji od n elemenata a izabran je kao uzorak iz neke nehomogene
populacije P:
E = {ei ; i = 1,..., n} P = U kp Pp .

Oznaimo sa V skup kvantitativnih varijabli od m elemenata na kojima se entiteti iz skupa E mogu na


neki nain opisati:
V={vj; j=1,...,m}.
Organizujmo opise entiteta iz skupa E na varijablama iz skupa V u matricu Z, poto smo prethodno
obavili operaciju standardizacije:
Z = V E.
Matrica interkorelacija varijabli iz skupa V na skupu E bie tada:
R = ZT Z

1
.
n

Definiimo bazinu strukturu matrice Z na sledei nain:


Z = Y XT + Y**X*T,
gde su Y i Y* matrice prvih k, odnosno poslednjih mk levih svojstvenih vektora od Z, X i X* matrice prvih k,
odnosno poslednih mk desnih svojstvenih vektora te matrice, a i * dijagonalne matrice prvih k, odnosno
poslednjih mk singularnih vrednosti. Sada se struktura matrice R moe odrediti ovako:
R = X 2 XT + X**2 X*T.
Odredimo ukupan broj latentnih dimenzija koji e ui u dalju transformaciju po PB kriterijumu, dakle
tako da se pomou njih upravo dostigne varijansa skupa izvornih varijabli transformisanih u parcijalni image
oblik. Ta varijansa definisana je izrazom:
c = trace (IU2),
gde
U2 =(diag R-1)-1.
Sada je k, broj latentnih dimenzija koji je upravo dovoljan da obuhvati zajedniku varijansu
analiziranih varijabli, definisan izrazom:
k

k 1

p =1

p =2

2p c , 2p < c

(talec i Momirovi, 1971).


Matrica koja sadri vektore glavnih komponenata jednaka je, u stvari, proizvodu levih zadranih
svojstvenih vektora matrice Z i zadranih singularnih vrednosti:
K = Y = ZX.
Svi postupci koji pripadaju metodama za odreivanje polarnih taksona sastoje se, u stvari, od
parsimonijskih transformacija matrica kojima su entiteti na neki nain opisani (Momirovi i Zakrajek,
1973). Najjednostavniji nain tog opisa je matrica nestandardizovanih glavnih komponenata, i stoga je
parsimonijska transformacija te matrice najjednostavniji postupak za analizu polarnih taksona (Zlobec,
1975).

208

Objavljeni radovi

Matricu glavnih komponenata podvrgnimo sada ortonormalnoj transformaciji tako da se maksimizira


Kaiserov bruto varimax kriterijum:
n

g ipn ( g ip2 )2 = max

KT = G i =1 p =1

p =1 i =1
T

T T = TT

=I

U matrici G nalazie se vrednosti entiteta na dimenzijama koje prolaze kroz taksone entiteta.
Odredimo sada matricu kovarijansi ovako dobijenih taksonomskih dimenzija:
C = GTG = TT2T.
Neka je
D2 =diag C
dijagonalna matrica koja sadri varijanse taksonomskih dimenzija.
Podvrgnimo ovako dobijene taksonomske dimenzije standardizaciji
Gs = GD-1 = ZXTD-1.
Matrica korelacija izmeu taksonomskih dimenzija bie:

M = GsT Gs

1
= D 1T T 2TD 1
n

Matrica korelacija standardizovanih varijabli i standardizovanih taksonomskih dimenzija definie


strukturu taksona u prostoru varijabli:

F = Z T Gs

1
= RXTD 1 = X2TD 1
n

Sklop taksona u prostoru varijabli, tj. projekcije varijabli na taksonomske vektore, bie definisan
matricom:
A = FM -1 = XTD
3. Taksonomska analiza u prostoru drugog reda
Definiimo bazinu strukturu matrice standardizovanih taksonomskih dimenzija na sledei nain:
Gs = LPT +L**P*T,
iz ega proizlazi da se struktura matrice korelacija izmeu taksonomskih dimenzija moe odrediti ovako:
M =P2PT +P**2P*T
pri emu su levi i desni vektori matrice standardizovanih taksona:
L = (lis)

i=1,...,n

s=1,...,q

P = (pps)

p=1,...,k

s=1,...,q

i=1,...,n

s=q+1,...,k

L = (lis)
*

P = (pps)
p=1,...,k
a svojstvene vrednosti matrice M:

2 = ( 2s )

s = 1,..., q

*2 = ( 2s )

s = q+1,..., k

s=q+1,...,k

Broj taksonomskih dimenzija u prostoru drugog reda, q, definisan je kao broj onih glavnih komponenti
matrice standardizovanih taksonomskih dimenzija koje imaju koeficijente generalizabilnosti vee od nule ili
jednake nuli, to je mogue ako vai:

209

Konstantin Momirovi u statistici

q = num( s2 1) =

1
n
(1 2 )
(n 1)
s

s=1,...,q

Matrica glavnih komponenata koje su sada izolovane iz matrice standardizovanih taksonomskih


dimenzija jednaka je proizvodu levih svojstvenih vektora matrice Gs i njenih singularnih vrednosti:

= L = GsP = ZXTD-1P
Matricu glavnih komponenata podvrgnimo sada ortonormalnoj transformaciji tako da se ponovo
maksimizira Kaiserov bruto-varimax kriterijum:
n

s =1

i =1

w ( w
Q = W
i =1 s =1

4
is

) = max

2 2
is

Q Q = QQ = I
T

Odredimo sada matricu kovarijansi taksonomskih dimenzija drugog reda:


H = WTW = QT2Q
i dijagonalnu matricu njihovih varijansi
J2 = diag H
i podvrgnimo ovako dobijene taksone standardizaciji
Ws = WJ-1 = QJ-1=ZXTD-1PQJ-1
Matrica korelacija izmeu taksonomskih dimenzija bie:
B = WsT Ws

= J-1QTPTD-1TTXTRXTD-1PQJ-1
= J-1QTPTD-1TT2TD-1PQJ-1
= J-1QTPTMPQJ-1
= J-1QT2QJ-1
= J-1HJ-1

4. Identifikacija taksonomskih dimenzija drugog reda


Ako su entiteti poznati, taksonomske dimenzije mogue je identifikovati na osnovu onoga to je
zajedniko onim taksonima entiteta koji na tim dimenzijama imaju maksimalne vrednosti. Meutim, i tada je
korisno te identifikacije izvesti i na osnovu sklopa i strukture taksona prvog reda u prostoru drugog reda, i na
osnovu sklopa i strukture izvornih varijabli u prostoru drugog reda. Matrica korelacija
standardizovanih taksona prvog reda i standardizovanih taksona drugog reda definie matricu strukture
taksona drugog reda u prostoru taksona prvog reda:
S = GsT Ws

= D-1TTXTZTZXTD-1PQJ-1
= D-1TTXTRXTD-1PQJ-1
= D-1TT2TD-1PQJ-1
= MPQJ-1
= P2PQJ-1

Proizvod matrice korelacije izmeu taksonomskih dimenzija prvog i drugog reda i inverza matrice
interkorelacija izmeu taksonomskih dimenzija prvog reda definie sklop taksonomskih dimenzija prvog
reda u prostoru taksonomskih dimenzija drugog reda:

= SB 1
= P2QJ-1(J-1QT2QJ-1)-1
= P2QJ-1JQT2QJ
= PQJ
210

Objavljeni radovi

Matrica korelacija standardizovanih rezultata i standardizovanih taksonomskih dimenzija drugog reda


definie strukturu taksona drugog reda u prostoru varijabli:
= Z T Ws

= RXTD-1PQJ-1
= X2TD-1PQJ-1
= FPQJ-1

I, na kraju, matrica sklopa taksona drugog reda u prostoru varijabli bie:


= B 1

= X2TD-1PQJ-1(J-1QT2QJ-1)-1
= X2TD-1PQJ-1JQT-2QJ
= JQT-2QJ
= FP-2QJ

Literatura:

Kaiser, H. F. (1958): The varimax criterion for analytic rotation in factor analysis. Psych-ometrika, 23: 187-200.
Momirovi, K.; Zakrajek, E. (1973): Odreivanje taksonomskih skupina oblimin transformacijom
ortogonaliziranih originalnih i latentnih varijabli. Kineziologija 3, 1: 83-92.
Momirovi, K. (1978): XTQ procedures for the determination of polar taxonomic variables. Informatica 78, 3, 104.
Momirovi, K. (1979): Jedinstveni algoritam za analizu bilinearnih formi u biolokim, psiholokim i
medicinskim istraivanjima. U Primena na kompjuterite vo biomedicinskite oblasti. Drutvo za
biokibernetika na SR Makedonija, Skopje.
Momirovi, K.; Zakrajek. E.; Hoek, A.; Stojanovi, M. (1979): Comparative evaluation of some taxonomic
algorithms for the determination of morphological types. Collegium Antropologicum, 3, 1: 59-65.
Momirovi, K.; Gredelj, M. (1982) Jednostavan postupak za analizu konzistentnih rojeva. Jahorina 82,
Zbornik radova, Sarajevo.
Szirovitza, L.; Gredelj, M.; Momirovi, K.; Zakrajek, E. (1978): MORPHOTAX: Algoritam i program za
taksonomsku analizu u prostoru multivarijantno normalno rasporeenih varijabli. Informatica 78, 7, 105.
talec, J.; Momirovi, K. (1971):Ukupna koliina valjane varijance kao osnov kriterija za odreivanje broja
znaajnih glavnih komponenata. Kineziologija, 1, 1: 79-81.
Zlobec, I. (1975): Komparativna analiza nekih taksonomskih algoritama. Magistarski rad, Elektrotehniki
fakultet Sveuilita u Zagrebu.

211

Konstantin Momirovi u statistici

(14) ZBORNICI RADOVA 1993 VI i VII (2)

Mr Bora Radovi, Mr Goran Kneevi, Mr Boris Kuzeljevi, Dr Konstantin Momirovi


Institut za kriminoloka i socioloka istraivanja Beograd
PRIMENA TAKSONOMSKE ANALIZE U ODREIVANJU
SOCIJALNE STRATIFIKACIJE
Pregledom literature koja se odnosi na probleme socijalne stratifikacije
utvreno je da u nas, uz samo jedan izuzetak, za odreivanje socijalnih stratuma i
opis njihovih karakteristika nije nikada bila primenjena ni jedna metoda
taksonomske analize. Kako pojam socijalne stratifikacije pretpostavlja postojanje
distinktnih grupa homogenih entiteta koje se mogu pozicionirati du barem jedne
kontinuirane dimenzije, to je mogue samo ako se, sukcesivno, primeni neka
metoda za detekciju distinktnih rojeva i neka metoda diskriminativne analize, to ni
egzistencija socijalnih slojeva, definisanih na nain uobiajen u sociologiji, nije do
sada dokazana ni na koji nedvosmislen i valjan nain. Predloeno je stoga da se
hipoteza o egzistenciji stratifikacijske strukture drutva proveri primenom neke
metode za detekciju distinktnih rojeva koja se osniva na nekoj od metoda lokalne
optimizacije na reprezentativnom skupu entiteta koji je opisan nekim
reprezentativnim skupom barem ordinalnih varijabli za procenu poloaja u
socijalnom makro polju, i da se, ako se utvrdi da takvi rojevi zaista postoje, njihovi
centroidi projiciraju na diskriminativne funkcije i glavne komponente, eventualno
nakon transformacije tih komponenata u orthoblique poziciju.
KLJUNE REI: socijalna stratifikacija / taksonomska analiza /
diskriminativna analiza / analiza glavnih komponenata
SUMMARY
A review of literature concerning problems of social stratification has, with
one sole exception, revealed that no method of taxonomic anlysis has ever been
applied for identification and description of social strata in this country. As the
notion of social stratification presupposes existence of disctinct groups of
homogenous entities which could be positioned along at least one continuos
dimension (which is made possible only through a successive applicaton of some
method of detection of distinct clusters and some method of discrimant analysis), the
existence of social strata, defined in an ordinary sociological manner, has never
been proven in a valid and unambiguous way. Therefore, we propose to test the
hypothesis of existence of stratificational structure of society with help of some
method for detection of disctinct clusters which is founded on some method of local
optimization on a representative group of entities. This group of entities is defined
by some representative group of ordinal variables for the assessment of position in
the social macro field. If the existence of such clusters is proven, their centroids
should be projected onto discriminative functions and main components, eventually
after a transformation of these components into orthoblique position
KEY WORDS: social stratification / taxonomic analysis / discriminative
analysis / analysis of main components

1. Uvod
Sam pojam socijalne stratifikacije podrazumeva dve stvari:
1. Postojanje relativno homogenih drutvenih grupa koje se meusobno jasno razlikuju po nekim
obelejima njihovog drutvenog poloaja, i
2. Postojanje neke dimenzije du koje se uoene drutvene grupe mogu poredati tako da se o odnosima
izmeu njih moe razmiljati u terminima "nie" i "vie". Kako e se videti iz pregleda najvanijih radova o
socijalnoj stratifikaciji objavljenih u naoj zemlji, ni jedna od ovih pretpostavki nije nikada bila ne samo na
valjan nain dokazana, vec gotovo nikada nije bila ni na valjan nain dokazivana.
212

Objavljeni radovi

2. Pregled nekih istraivanja socijalne stratifikacije


Veina sociolokih istraivanja arbitrarno odreuje slojeve kao drutveno-profesionalne grupe. Iz
itavog niza moguih indikatora drutvenog poloaja unapred se bira profesija kao najrelevatnije obeleje.
Tu tradiciju zainje Vojin Mili u svom istorijskom lanku "Osvrt na drutvenu pokretljivost u Jugoslaviji",
Statistika Revija, 1960, br. 3-4. Evo ta on veli: "U ovom radu se ispituje drutvena pokretljivost izmeu
drustveno-profesionalnih grupa. To je uslovljeno karakterom izvornih podataka i stepenom prouenosti nae
savremene drutvene slojevitosti. Jer, iako se dosta opravdano moe smatrati da su pojedine drustvenoprofesionalne grupe istovremeno i drutveni slojevi (u sociolokom smislu), a druge da su relativno
homogeni delovi irih slojeva, ipak se na osnovu izvornih podataka postojei slojevi ne mogu dovoljno
precizno odrediti. Zbog toga su u ovom istraivanju, kao okvir u kom se prouava drutvena pokretljivost
mogle biti upotrebljene samo, socioloki svakako manje znaajne drutveno profesionalne grupe." (str. 184).
Mili potom odreuje meugengeracijsku pokretljivost pojedinih drutvenih grupa koje prema potrebi
odreuje kao : i) grupa POLJOPRIVREDNIH zanimanja, ii) grupa MANUELNIII zanimanja (NKV,
industrijski i zanatski radnici, saobraajno i usluno osoblje, zanatlije), iii) grupa NEMANUELNIH
zanimanja (trg. osoblje, trgovci, slubenici, strunjaci, rukovodee osoblje) (str. 198). Kasnije e Mili
koristiti jednu precizniju klasifikaciju: 1) Poljoprivrednici, 2) NKV radnici, 3) Industrijski i zanatlijski
radnici, saobraajno i usluno osoblje, 4) Zanatlije privatnici, trgovci i ostali privatnici, 5) Trgovinsko
osoblje i slubenici, 6) Strunjaci i rukovodei kadrovi (str. 213). Napokon e imati i jo sloeniju
klasifikaciju: 1) Poljoprivrednici, 2) NKV radnici, 3) Rudari, industrijski i zanatski radnici, saobraajno i
usluno osoblje, 4) Zanatlije-privatnici, 5) Prodavci, 6) Trgovci i vlasnici privrednih preduzea, 7)
Slubenici, komercijalisti, zatita, 8) Strunjaci i umetnici, 9) Rukovodei kadrovi (str. 202). Istim apriornim
metodom se slue autori sada vec klasine studije DRUTVENI SLOJEVI I DRUTVENA SVEST
(Beograd, 1974). Tako Mihailo Popovi sloj definie kao "svaku grupaciju koja ima poseban poloaj u
drutvenom sistemu, u njegovoj hijerarhizovanoj vertikalnoj strukturi kao i sve odgovaraujue karakteristike
koje proizlaze iz zajednikog poloaja, t.j. iste osnovne interese, nain (stil) ivota i odgovarajue
karakteristike slojne svesti" (str. 33). Potom apriorno definie tri velika sloja: 1) Slojevi sitnih sopstvenika: a)
individualni poljoprovrednici, b) poljoprivrednici istovremeno zaposleni u raznim granama drutvene
proizvodnje, i c) samostalne zanatlije i ostali sitni sopstvenici u oblasti proizvodnje i tzv. usluga, 2) Slojevi
radnika neposrednih proizvoaa (ili radnika klasa u popularnom argonu) meu kojima se izdvajaju dva
osnovna sloja: a) radnici u materijalnoj prozvodnji i b) radnici zaposleni u tzv. drutvenim uslugama, 3)
Srednji nemanuelni slojevi u kojima se posebno izdvajaju: a) administrativni, izvrni odnosno tehniki
slubenici (strunjaci) sa preteno srednjom ili njoj ravnom spremom i b) strunjaci (intelingencija u irem
smislu) raznih vrsta i profila sa visokom spremom, 4) Rukovodei sloj u kome se razlikuju dva posebna
podsloja: a) profesionalni funkcioneri dravnih institucija odnosno drutveno-politikih organizacija i b)
rukovodee osoblje privrednih institucija i organizacija udruenog rada (koje se najee odreuje
popularnim terminom "tehnokratija". (str. 43-44). Potom Popovi prua preciznu klasifikaciju koja se sastoji
od 10 drutvenih slojeva: 1. Individualni poljoprivrednici, 2. Seljaci-industrijski radnici, 3. Sitni sopstvenici
van poljoprivrede, u zanatskim i uslunim delatnostima, 4. Nekvalifikovani radnici nastanjeni u gradskim
naseljima, 5. Kvalifikovani radnici u industriji i rudarstvu, 6. Kvalifikovani radnici u saobraaju, trgovini,
ugoostiteljstvu i slinim delatnostima, 7. Srednji struni i drugi struni kadrovi (administrativni slubenici i
tehniari), 8. Strunjaci sa visokom spremom iz neposredne proizvodnje, 9. Strujaci sa visokom spremom iz
tzv. drutvenih delatnosti, (javna uprava, prosveta. kolstvo, zdravstvo, kulturno-nauna i slina delatnost),
10. Rukovodee osoblje u dravnim ustanovama, drutveno-politikim i privrednim organizacijama (str. 44).
Kao to vidimo ova klasifikacija mea nekoliko principa selekcije (profesija, posedovanje svojine, mesto
stanovanja, grana privrede u kojoj je ispitanik zaposlen). itav posao se onda sastojao u konstruisanju
indeksa za posebne dimenzije drutvene stratifikacije. Tako recimo indeksa "drutvene moi" i "drutvenog
poloaja". Indeks za "drutvenu mo" je odreen na osnovu tri kriterijuma: 1) partijska pripadnost, 2)
lanstvo u raznim samoupravnim telima, 3) izbor u delegatska tela (od mesne zajednice do Savezne
skuptine). "Prema toj skali, nii status moi imaju ispitanici do 1,25 bodova, srednji ispitanici od 1,26 do 2
boda a vii od 2,01 do 3 boda", (str. 51). Potom je konstruisan indeks "drutvenog poloaja" pojedinca u iji
sastav su ula tri posebna indeksa: obrazovnog nivoa, materijalnog statusa i drutvene moi. Vrednosti
"nie", "srednje" i "vie" su odreene na isti nain kao i kod indeksa drutvene moi. Na kraju Popovi se
pita koliko su jake veze izmeu kontrolnih i glavne variable, koja je pripadnost datom sloju. Najpre on
uoava veliku povezanost izmeu pripadnosti datom drutvenom sloju i stepena strune spreme ispitanika
odnosno stepena kolske spreme (C=0,869 i C=0,825). Ovo, naravno, ne treba da nas udi budui da su neki
od slojeva i definisani preko stupnja strune spreme (slojevi 4-9), tako da je ovo pomalo cirkularno.
Pripadnost datom drutvenom sloju visoko korelira sa visinom linog mesenog prihoda ispitanika
(C=0,824) i lanstvom i funkcijama u SKJ (C=0,721). Dakle pripadnost datom drutvenom sloju visoko
korelira sa stupnjem obrazovanja, materijalnim statusom i politikom moi. Kombinovani "indeks
213

Konstantin Momirovi u statistici

drutvenog poloaja" visoko korelira sa pripadnou datom sloju (C=0,922). Metodoloki je gotovo
istovetno istraivanje "Srbija krajem osamdesetih", (Grupa autora, Beograd, 1991). Ono operie sa 10 slojeva
koji su opet odreeni kao drutveno-profesionalne grupe: 1) Dravni i politiki rukovodioci, 2) Rukovodioci
u privredi, 3) Strunjaci van privrede, 4) Strunjaci u privredi, 5) Slubenici, 6) VKV radnici, 7) KV radnici,
8) NK i PK radnici, 9) Gradski privatnici i 10) Poljoprivrednici (str. 12). Opet imamo meanje principa
klasifikacije (drutvena mo, profesija, grana ekonomije, mesto stanovanja). "Za sve tri bitne dimenzije
drutvenog poloaja, u cilju njihovog sistematskog istraivanja, formirana su tri indeksa: indeks obrazovanja,
indeks materijalnog standarda i indeks politike moi" (str. 582). "Zbir dobijenih poena za svaku dimenziju
je deljen je u pet kategorija (vrlo nizak, nizak, srednji, visok i vrlo visok), te je ispitanike bilo mogue
razvrstati u odgovarajuu kategoriju na osnovu ukupnog broja poena koji je izraunat za svakog od njih. Na
osnovu indeksa obrazovanja, materijalnog standarda i politike moi formiran je indeks ukupnog drutvenog
poloaja pripadnika prouavanih slojeva. Time je dobijena mogunost da se ukrtanjem slojne pripadnosti i
pripadnosti odreenim kategorijama prema indeksu za odgovarajuu dimenziju i za drutveni poloaj utvrde
drutvene nejednakosti izmeu slojeva kako po pojedinim dimenzijama tako i prema ukupnom drutvenom
poloaju" (str. 582-3). Jedini primer upotrebe taksonomske analize u sociologiji je pokuaj koji su K.
Petrovi i A. Hoek izveli jos 1974. godine ("Utjecaj taksonomske strukture entiteta na njihovu kinezioloku
aktivnost", u: Petrovi, K i Hoek A.: PRILOZI ZA SOCIOLOGIJU SPORTA, knjiga 2, Zagreb 1986, str.
855-917). Istraivanje je sprovedeno na uzorku od 200 ispitanika opisanih sa 57 varijabli socijalnog statusa
definisanih u skladu sa fenomenolokim modelom socijalne stratifikacije Sakside i saradnika (Saksida i
Petrovic, 1972; Saksida, Caserman i Petrovi, 1974). Taksonomska analiza izvedena je, meutim, pod
modelom polarnih taksona koji nije sasvim pogodan za detekciju stratuma definisanih na nain uobiajen u
sociologiji. Ipak, izdvojeno je dvanaest vrlo zanimljivih taksona: 1. Grupa subjekata razvedenih roditelja koji
su najvei deo ivota proveli sa majkom koja je "jedini nosilac ekonomskog, profesionalnog politikog i
drutveno politikog ivota porodice" (str. 878). 2. "Grupa subjekata koji ive u manjim mestima i koji
potiu iz porodica s povienim ekonomskim statusom, ija realizacija je izgleda omoguena drutvenopolitikom aktivnou oca" (str. 878). 3. Grupa subjekata koje karakterie visok socijalni status ispitanika i
njegovih roditelja. Oni imaju vrlo visok profesionalno-edukativni i drutveno-politiki nivo. Pojedinci u
ovom taksonu imaju i visok ivotni stil koji karakterie posedovanje automobila, telefona i umetnikih slika.
4. etvrti takson ine oenjeni mladi ljudi iz seoskih podruja, koji imaju ispodprosean ekonomski i
edukativno-profesionalni nivo. 5. Peti takson ine pojedinci koji su ekonomski pasivni ali iji roditelji
pokazuju odlike natprosenog ekonomskog nivoa (roditelji poseduju telefon, automobil, vikendicu i
umetnike slike). 6. esti takson ine pojedinci koji imaju relativno visok aktivni socijalni status ali iji
roditelji nisu ivi. 7. Sedmi takson ine pojedinci sa ispodprosenim profesionalno-edukativnim i drutvenopolitikim statusom oca i iznadprosenim ekonomskim statusom. Verovatno se radi o privatnicima koji
sopstvenim sredstvima zarauju novac. 8. Osmi takson ine pojedinci sa iznadprosenim obrazovnim i
profesionalnim statusom i relativno visokim profesionalno-edukativnim statusom oca. Ovi subjekti ne
uestvuju aktivno u drutveno-politikom ivotu i ive u manjim mestima. 9. Deveti takson ine pojedinci sa
natprosenim ekonomskim statusom (posedovanje umetnikih slika, telefona i maine za pranje vea). Ovaj
status izgleda da je definisan natprosenim nivoom drutveno-edukativnog statusa majke. 10. Deseti takson
ine pojedinci koji su bez oca ali ija majka ima natproseno visok drutveno-politiki status. 11. Jedanaesti
takson ine pojedinci iz vrlo siromanih gradskih porodica, ispodprosenog socijalnog statusa iji roditelji
imaju vrlo nizak obrazovno-profesionalni status bez bilo kakve drutveno-politike aktivnosti. esto su
roditelji ispitanika razvedeni. 12. Dvanaesti takson ine ispitanici koji ive u manjim mestima, poseduju
ispodprosenu edukativnu i kvalifikacijsku razinu ali koji pokazuju natprosenu drutveno-politiku
aktivnost. Ono to je u ovom radu interesantno je ne samo nearbitrarno formiranje grupa u
multidimenzionalnom prostoru socijalne stratifikacije ve i mogunost da se te grupe rasporeuju na nekom
pokazatelju drutvenog statusa i to tako da o relativnom poloaju ovako projektovanih grupa moemo
razmiljati u terminima "nie" "vie" jer pojam socijalne stratifikacije ima smisla samo ako postoji neka
dimenzija na kojoj drutvene grupe zauzimaju razliite poloaje. Mada Hoek i Petrovi to ne ine, mogue
je zamisliti relativne poloaje njihovih taksona na jednoj bitnoj dimenziji socijalne stratifikacije. Ova
dimenzija moe biti predstavljena prvom glavnom komponentom. Prva glavna komponenta se pojavljuje kao
generalni faktor socijalnog statusa a ine je varijable kolske spreme i kvalifikacije roditelja, njihove
funkcije u radnim i drustveno-politikim organizacijama, sportska aktivnost, dohodak domainstva, i visok
ekonomski standard - posedovanje TV u boji, telefona, friidera i automobila. Kada se pogledaju korelacije
pojedinih taksona sa prvom glavnom komponenetom onda najveu pozitvnu korelaciju ima trei takson a
najniu jedanaesti. Drugim reima pozitivni pol zauzima taskson koji karakterie visoki edukativnoprofesionalni status ispitanika i njihovih roditelja i visok stupanj drutveno-politikog statusa koji je praen
visokim ivotnim stilom. Negativni pol zazima takson urbanog proletarijata, (op. cit. str. 897). Svi ostali
taksoni se mogu rangirati izmeu ovih ekstremnih pozicija ali su oni socioloki manje informativni (mada
214

Objavljeni radovi

svi taksoni ukazuju na realno postojee drutvene grupe). Takav je recimo esti takson sainjen od
pojedinaca koji imaju relativno visok aktivni socijalni status ali iji roditelji nisu ivi. On zauzima osmo
mesto na prvoj glavnoj komponeneti koja je oito osnovna dimenzija drutvene stratifikacije. No, u
klasinom sociolokom smislu najinformativniji su ekstremni taksoni, koji zaista odgovaraju onima koje
pretpostavljaju teorije socijalne stratifikacije.
3. Predlog jednog alternativnog modela za prouavanje socijalne stratifikacije
Alternativni model za prouavanje socijalne stratifikacije koji bi bio u skladu sa ma kojom teorijom
koja smatra da socijalna stratifikacija zaista postoji mogao bi biti deflnisan sledeim nizom postupaka:
1. Definisali skup indikatora socijalne stratifikacije u skladu sa nekim konzistentnim modelom; u
ovom asu je fenomenoloki model Sakside i saradnika jo uvek verovatno najpogodniji bar pod vidom
kolekcioniranja reprezentativnog skupa takvih indikatora.
2. Iz izabranog skupa indikatora izvesti varijable barem orginalnog tipa i njima opisati neki
reprezentativan uzorak ispitanika, dovoljno veliki da svaki potencijalni stratum bude zastupljen bar onolikim
brojem ispitanika koliko je varijabli sa kojima su ispitanici opisani.
3.
Normalizovati
dobijene
rezultate
primenom
inverznog
integrala
normalne
distribucije kako bi se omoguila primena standardnih postupaka za odreivanje latentnih dimenzija
socijalne diferencijacije.
4. Odrediti latentne dimenzije socijalne diferencijacije. Kako su pokazala dosadanja istraivanja u tu
je svrhu verovatno najpogodnije primeniti orthoblique transformaciju glavnih komponenata matrice podataka
reskaliranih na univerzalnu metriku, a broj znaajnih komponenata odrediti na osnovu WG kriterija.
5. Odrediti udaljenosti izmeu ispitanika u prostoru koji je definisan glavnim
komponentama u orthoblique poziciji. Kako su latentne varijable koje su definisane orthoblique faktorima u
nenultim korelacijama, te je udaljenosti najbolje definisati kao Mahalanobisove udaljenosti,
6. Odrediti konzistentne rojeve nekom od metoda lokalne optimizacije. Prirodi pojma socijalne
stratifikacije verovatno najbolje odgovara da se rojevi odrede transfer algoritmom koji maksimizira
Mahalanobisove udaljenosti izmeu njih.
7. Odrediti poloaj rojeva u prostoru koji je definisan kanonikim diskriminativnim varijablama i
identifikovati te varijable na osnovu njihovog poloaja u prostoru koji je definisan orthoblique faktorima i u
prostoru koji je definisan vektorima manifestnih varijabli socijalne diferencijacije.
8. Odrediti poloaj centroida rojeva na prvoj glavnoj komponenti manifestnih varijabli socijalne
diferencijacije, ako se ta komponenta moe interpretirati kao generalni faktor socijalne diferencjacije.
Sud o tome da li socijalna stratifikacija zaista postoji u najveoj meri zavisi od ishoda taksonomske
analize i od rezultata diskriminativne analize izmeu rojeva. Tek ako se izoluju dobro definisani distinktni
taksoni, i ako ti taksoni uredno lee bar na prvoj diskriminativnoj funkciji, moe se smatrati da je hipoteza o
postojanju stratifikovanog drutva potvrena. U ovom asu ta hipoteza ima slian status kao i mnoge
hipoteze u sociologiji koje se, iako najee bez ikakve empirijske osnove, bez ikakvog zazora proglaavaju
teorijama.

Literatura
Vojin Mili, "Osvrt na drutvenu pokretljivost u Jugoslaviji", Statistika Revija. 1960, br. 3-4
Mihailo V. Popovi, Silvano Boli, Vesna Pei, Milosav Janiijevi, Dragomir Panti, Drutveni slojevi i
drutvena svest. Beograd, 1974.
M. Popovi, M. Bogdanovi, S. Vujovic, B. Duverovi, J. Petrovic, M. Davidovi, D. Mrki, V. Goati, M.
Kmeta, Drutvene nejednakosti, Beograd, 1987.
Grupa autora, Srbija krajem osamdesetih. Beograd, 1991.
Petrovi K. i Hoek A, "Utjecaj taksonomske strukture entiteta na njihovu kinezioloku aktivnost", u: Prilozi za
sociologiju sporta, knjiga 2, Zagreb 1986, str. 855-917)
Saksida S. i Petrovi K., "Teoretini model socijalne stratifikacije-pokus kvantitativne verifikacije", Teorija in
praksa, 9 (1972), 10: 1407-1419.
Saksida S., Caserman A. i Petrovi K., "Social stratification and mobility in Yugoslav society", Some Yogoslav
papers presented to the eighth world congress of I.S.A.. Toronto, Ljubljana, 1974.

215

Konstantin Momirovi u statistici

(15) ZBORNICI RADOVA 1993 VI i VII (3)

Majski skup Beograd 92 i 93


Boris Wolf - Filozofski fakultet u Novom Sadu
Konstantin Momirovi
Institut za kriminoloka i socioloka istraivanja iFilozofski fakultet u Beogradu
NEKE VARIJACIJE NA CRAMER-HOTELLINGOVU TEMU
Predloene su etiri mere asocijacije izmeu dva skupa kvantitativnih
varijabli, definisane kao kvocijenti skalarnih funkcija matrica iz kojih je izveden
Cramer-Hotellingov vektorski koeficijent korelacije. Jedna od tih matrica definisana
je kao matrica kovarijansi standardizovanih varijabli iz jednog skupa, projiciranih u
prostor koji razapinju standardizovane varijable iz drugog skupa, a druga kao
matrica korelacija varijabli iz drugog skupa. Prva od tih mera definisana je kao
maksimum kvocijenta kvadratnih formi tih matrica, i pokazano je da se svodi na
kvadrat maksimalnog koeficijenta kanonike korelacije izmeu dva analizirana
skupa varijabli, dakle na maksimalni koeficijent kanonike determinacije. Druga
mera je definisana kao kvocijent maksimalnih kvadratnih formi tih matrica, dakle
kao kvocijent njihovih operatorskih normi. Trea je mera definisana kao kvocijent
kvadriranih normalnih normi tih matrica, dok je etvrta definisana kao kvocijent
tragova tih matrica i pokazano da se svodi na prosek kvadrata svih multiplih
korelacija izmeu varijabli iz jednog skupa i varijabli iz drugog skupa, dakle na
meru koja je predloena u okviru modela genera1iziranih image transformacija. Za
sve je mere pokazano da variraju izmeu 0 i 1, i da poprimaju vrednost 0 onda i
samo onda ako su sve kroskorelacije izmeu varijabli jednake nuli, a da poprimaju
vrednost 1 onda i samo onda kada je jedan od skupova varijabli identian drugom
ili je nesingularna linearna transformacija drugog skupa varijabli.
KLJUNE REI: skupovi varijabli / mere asocijacije / vektorski koeficijent
korelacije / kanonika korelacija / generalizirana image transformacija /
operatorska norma / normalna norma

1 . Uvod
Za analizu sloenih sistema, a posebno operacije klasifikacije komponenata takvih sistema, od
presudne je vanosti i raspolagati nekim pogodnim merama relacija izmeu dva skupa kvantitativnih
varijabli. Te se relacije, u principu, mogu analizirati na dva razliita naina. Prvi nain, koji je u savremenim
statistikim istraivanjima gotovo bez izuzetka prihvaen kao dominantan, jeste svoenje relacija izmeu
dva skupa varijabli na kovarijanse ili korelacije linearnih kompozita izvedenih iz tih skupova. Tu spadaju
kanonika korelacijska analiza (Hotteling, 1935; 1936), kanonika analiza kovarijansi (Momirovi, Dobri i
Karaman, 1983), analiza prepokrivanja (Van den Wollenberg, 1977), generalizovana image transformacija
(Momirovi, taler i Zakrajek, 1973) i, naravno, multivarijantna regresijska analiza (o modelima
multivarijantne regresijske analize pogodnim za ovu svrhu vidi, na primer, u Anderson, 1984). Drugi nain
je odreivanje neke jedinstvene skalarne mere koja je proporcionalna generalnom intenzitetu asocijacije
izmeu skupova varijabli. I pored mnogih kontroverznih miljenja o njegovoj vrednosti (Nicewander i
Wood, 1974; Miller, 1975; Cooley i Lohnes, 1971), u ovu se grupu definitivno uvrstio generalizovani
kanoniki indeks (Stewart i Love, 1968; Miller, 1969), koji je zapravo mera izvedena iz proseka kvadriranih
koeficijenata kanonike korelacije. U nekim je sredinama znatnu popularnost stekao koeficijent korelacije
konkateniranih vektora, a relativno nedavno je kao takva mera predloen generalizovani koeficijent
asocijacije definisan kao kvocijent maksimalne singularne vrednosti matrice kroskorelacija i produkta
korelacija svojstvenih vrednosti matrica interkorelacija analiziranih skupova varijabli (Momirovi i Dugi,
1986).
216

Objavljeni radovi

U takve skalarne mere generalnog stepena asocijacije izmeu dva skupa varijabli spada i danas
pomalo zaboravljeni vektorski koeficijent korelacije, koji se obino pripisuje Crameru ili Hotellingu (Wilks,
1947; Anderson, 1958; 1981; Morisson, 1967). Kvadrat vektorskog koeficijenta korelacije moe da se
definie kao kvocijent dve generalizovane varijanse. Prva generalizovana varijansa definisana je kao
determinanta matrice kovarijansi jednog skupa varijabli koji je, pod kriterijem najmanjih kvadrata, projiciran
u drugi skup varijabli, a druga generalizovana varijansa definisana je kao determinanta matrice kovarijansi
tog drugog skupa varijabli. Ova je mera simetrina, pa je svejedno koji od ovih skupova ima logiki status
prediktorskog, a koji logiki status kriterijskog skupa. Vektorski koeficijent korelacije je metriki
invarijantan, a jedna njegova jednostavna funkcija ima, pod nultom hipotezom, aproksimativno, 2
distribuciju (Anderson, 1984; Momirovi, 1987).
Cilj ovog rada je da opie i predloi etiri druge mere opteg stepena asocijacije izmeu dva skupa
varijabli, izvedene na osnovu istog logikog pristupa iz kojeg je izveden i vektorski koeficijent korelacije
Cramera i Hotellinga. Pokazae se da se te mere mogu svesti na neke, manje poznate ili do sada osporavane
mere, to prua moda novi uvid u prirodu tih mera i daje argumente za njihovu eu primenu, osobito u
postupcima za klasifikaciju skupova varijabli.
2. Definicije
Neka je E = (ei; i = 1, ..., n) neki skup entiteta izabran, nadajmo se sluajno, iz neke homogene
populacije P. Neka je S neki sloeni sistem, i neka su S1 i S2 bilo koja dva podsistema sistema S. Neka je B1
= (1j; j = 1,..., m1) skup kvantitativnih varijabli izabran tako da opisuje karakteristike podsistema S1 na
svakom entitetu ei iz E, i neka je B2 = (2k; k = 1,..., m2) skup kvantitativnih varijabli izabran tako da opisuje
karakteristike podsistema S2 na svakom entitetu ei iz E. Dopustimo, ne gubei mogunost generalizacije, da
su lokalni parametri i metrike varijabli iz B1 i B2 irelevantni za opis relacija izmeu podsistema S1 i S2. Tada
je
Z1 = E B1 (Z1) = 0, diag( Z1t Z1 ) = I
matrica, u standardnoj normalnoj formi koja opisuje entitete iz E na skupu varijabli iz B1, a
Z2 = E B2 (Z2) = 0, diag( Z 2t Z 2 ) = I
matrica, koja, takoe u standardnoj normalnoj formi, opisuje entitete iz E na skupu varijabli iz B2.
U tom e sluaju
R 11 = Z1t Z1

biti matrica interkorelacija varijabli iz B1 na skupu E, a


R 22 = Z t2 Z 2

e biti matrica interkorelacija varijabli iz B2 na skupu E.


Matrica kroskorelacija varijabli iz skupova B1 i B2 na skupu E bie.
t
R 12 = Z1t Z 2 = R 21

Reimo regresijski problem


Z2 = Z1 + E trag (EtE) = minimum,
gde je neka nepoznata matrica reda (m2, m1). Derivacijom funkcije trag (EtE), nakon preureenja,
= R 221R 21 ,

pa je oekivana matrica rezultata entiteta iz E na varijablama iz B1, ako se varijable iz B2 definiu kao
regresori,

Z1* = Z 2 = Z 2 R 221 R 21
s matricom kovarijansi
217

Konstantin Momirovi u statistici

G = Z1*t Z1* = R 12 R 221 R 21 .


Uoimo, meutim, da je G istovremeno i matrica kovarijansi izmeu varijabli iz B1 i oekivanih
varijabli iz B1 na osnovu njihovih relacija s varijablama iz B2 jer, zaista,

C = Z1t Z1* = R 12 R 221 R 21 = G .


Razmotrimo sada odnose izmeu ma koje varijable 1j iz B1 i ma koje varijable 2k iz B2. Opis entiteta
iz E na varijabli 1j bie vektor z1j iz Z1, a opis entiteta iz E na varijabli 2k bie vektor z2k iz Z2, oba u
standardnoj normalnoj formi. Zbog toga e produkt-moment koeficijent korelacije izmeu varijabli 1j i 2k
biti prosto

r jk = z1t j z 2 k ,
oekivane vrednosti u varijabli 1j e biti elementi vektora

z1*j = z 2 k r jk ,
njihova varijansa

1*2j = z1*tj z1*j = r jk2 ,


a kovarijansa sa stvarnim vrednostima iz vektora zij takoe

c jj* = z1t j z1*j = r jk2 .


Definiimo, na kraju, korelacioni razmer izmeu ma koje dve varijable kao

2jk = 2jk / 2j ,
gde je 2jk uslovna varijansa neke varijable j na osnovu njenih relacija s nekom varijablom k, a 2j stvarna
varijabla varijable j. Oigledno, i ne samo za sluaj varijabli u standardnoj formi, 2jk = r jk2 .
Ove definicije i ove injenice bie upotrebljene ne samo za odreivanje smisla i znaenja vektorskog
koeficijenta koleracije Cramera i Hotellinga, ve i za odreivanje karakteristika, znaenja i smisla nekoliko
drugih, u ovom radu predloenih, mera povezanosti izmeu dva skupa varijabli.
3. Vektorski koeficijent korelacije
Kako se kvadrat ma kog koeficijenta koleracije produkt-moment tipa moe napisati u obliku

r jk2 = 2jk / 2j
gde je 2jk varijansa varijable j procenjena na osnovu relacija te varijable s varijablom k, a 2j stvarna
varijabla varijable j, to, po analogiji, vredi i za skalarne funkcije matrice kovarijansi jednog skupa varijabli,
procenjene na osnovu relacija tog skupa s nekim drugim skupom varijabli, i matrice kovarijansi prvog skupa
varijabli. Budui da je generalizirana varijansa varijabli iz B1 procenjenih na osnovu varijabli iz B2
m1

g 12 = det(G ) = j ,
j=1

gde det (G) oznaava determinantu, dok su j , j = 1,..., m1 svojstvene vrednosti matrice G, a generalizirana
varijansa varijabli iz B1
m1

g 1 = det(R 11 ) = j ,
j=1

gde su j svojstvene vrednosti matrice R11, to je kvadrat vektorskog koeficijenta koleracije izmeu varijabli

B1 i B2
218

Objavljeni radovi

c 2 = g 12 / g 1 .
Lako se moe videti da je ova mera simetrina, da je invarijantna na metriku varijabli, i da varira
izmeu 0 i 1, poprimajui vrednost 0 onda i samo onda ako je R12 = 0, a vrednost 1 onda i samo onda ako je
R12 = R11 = R22.
4. Neke druge mogue mere asocijacije izmeu dva skupa varijabli
Jedna klasa moguih mera asocijacije izmeu dva skupa varijabli moe biti definisana kao odnos
izmeu skalarnih funkcija matrice kovarijansi prvog skupa varijabli projiciranih u prostor koji razapinju
vektori drugog skupa varijabli, i matrice korelacija prvog skupa varijabli. To je, u sutini, ista ideja koja stoji
i iza vektorskog koeficijenta korelacije Cramera i Hotellinga koji je, budui da je odnos izmeu determinanti
tih matrica, istovremeno i odnos izmeu volumena paralelotopa definisanog projekcijama vektora prvog
skupa varijabli projiciranih u prostor koji razapinju vektori drugog skupa varijabli i volumena paralelotopa
koji definiu vektori prvog skupa varijabli.
4.1. Ekstremizacija odnosa izmeu kvadratnih formi
Definiimo meru asocijacije izmeu dva skupa varijabli kao reenje problema

= ( x t G x ) /( x t R 11 x ) = max x t R 11 x = 1.
Funkcija koju treba derivirati je

f ( x, ) = ( x t G x ) /( x t R 11 x ) ( x t R 11 x 1)
gde je neki nepoznat i Lagrangeov multiplikator.
Deriviranjem ove funkcije s obzirom na x, nakon deljenja sa 2 i svoenja na nulu, dobijamo

G x = R 11 x ,
to se moe napisati i u obliku

(G R ) x = 0 ;
no, taj oblik se oito svodi na poznatu kanoniku formu
1
(R 11
R 12 R 221 R 21 I ) x = 0 ,

iz ega sledi = = r2, gde je r2 kvadrat maksimalnog koeficijenta kanonike korelacije izmeu skupova B1 i
B2. Naravno, zbog toga 0 1. Oito, postie vrednost nula onda i samo onda ako je R12 = 0. Meutim,
dostie vrednost 1 u dva sluaja: (1) ako je B1 = B2, iz ega sledi R11 = R22 = R12, ili (2) ako za bar jedan
par varijabli 1j i 2k vredi rjk =1.
4.2. Odnos izmeu ekstremiziranih kvadratnih formi
Kao to e se videti, postiu se neke prednosti ako se kao mera asocijacije izmeu dva skupa varijabli
definie reenje problema
t
= ( x t Gx ) /( y t R 11 y) = x Gx = max

= y t R 11 y = max
Ekstremizacija prvog uslova svodi se, oito, na maksimiziranje funkcije

x t Gx ( x t x 1) ,
to, nakon deriviranja s obzirom na x, deljenja sa 2 i svoenja na nulu, daje

Gx = x
odnosno
219

Konstantin Momirovi u statistici

(G I) x = 0 ,
to je obian problem svojstvenih vrednosti neke kvadratne simetrine matrice, iz ega sledi = .
Na slian nain, ekstremizacija drugog uslova svodi se na reenje problema

y t R 11 y ( y t y 1),
to, nakon deriviranja s obzirom na y i sreivanja, proizvodi opet obian problem svojstvenih vrednosti jedne
kvadratne simetrine matrice

R 11 y = y
odnosno

(R 11 I) y = 0 ,
iz ega sledi = .
Kako je G matrica kovarijansi vektora varijabli iz B1 projiciranih u prostor koga razapinju
iz
B2,
a
R11
matrica
vektora
varijabli
iz
B1,

,
pa
0 1.

vektori
vredi

Naravno, i sada je = 0 onda i samo onda ako je R12 = 0. Meutim, moe dosei vrednosti 1 onda i
samo onda ako je B1 = B2, jer je u tom sluaju G = R11.
4.3. Odnos izmeu ukupne varijanse procenjenih i realnih varijabli
Logiki najblia mera vektorskom koeficijentu korelacije jeste kvocijent izmeu ukupne varijanse
procenjenih i realnih varijabli.
Ovo zbog toga to je vektorski koeficijent korelacije kvocijent generaliziranih varijansi procenjenih
kriterijskih varijabli i realnih varijabli, a mera koja se ovde predlae kvocijent izmeu ukupnih varijansi tih
varijabli. Dakle, mogua mera asocijacije izmeu dva skupa varijabli je

= trag(G ) / trag(R 11 ).
Meutim, oito,

= trag(R 12 R 221 R 21 ) / m 1
m1

= 2p / m 1
p =1

gde su

2
p,

p = 1,..., m1, koeficijenti determinacije varijabli iz skupa B1 na osnovu njihovih veza s

varijablama iz skupa B2.


Naravno, je, u stvari, indeks koji je predloen u okviru modela generalizirane image transformacije
jednog skupa varijabli (Momirovi, talec i Zakrajek, 1973). Oigledno, zbog toga to

2p 1 p, 0 1.
4.4. Kvocijent kvadrata normalnih normi matrice procenjenih i matrice realnih kovarijansi
U skladu s logikom koja vredi za definiciju mera generalizabilnosti (Kaiser i Rice, 1974), jedna mera
asocijacije izmeu varijabli iz B1 i B2 moe se definisati kao
= 1t(G~G) 1 / 1t(R11~ R11) 1
gde je 1 sumacioni vektor reda (m1, 1), a ~ oznaka Hadamardovog mnoenja.
je, u stvari, kvocijent kvadrata normalnih normi matrice kovarijansi varijabli iz B1 procenjenih na
osnovu varijabli iz B2 i matrice kovarijansi varijabli iz B1. Zbog toga to je
220

Objavljeni radovi
1
1t (R 11 R 12 R 22
R 21 )1 0,

0 1.
5. Program
Program koji izraunava, pored Cramer-Hotellingovog vektorskog koeficijenta korelacije, i sve etiri
mere predloene u ovom radu napisan je u GENSTAT jeziku, verzija 4.04 B. S neznatnim izmenama, ovaj se
program moe prevesti u verziju 5 GENSTAT jezika, a uz male promene i u SAS/IML. Program je tako
strukturiran da ga je lako prevesti i u neki drugi pogodan programski jezik.
'MACRO' ASOC $
NAPISALI
NA DAN

K. MOMIROVI I B. WOLF
31.0l.1993.

FUNKCIJA
OVAJ MAKRO PROGRAM IZRAUNAVA OVE MERE ASOCIJACIJE
IZMEU DVA SKUPA VARIJABLI:
(1) CRAMER-HOTELLINGOV VEKTORSKI KOEFICIJENT KORELACIJE
(2) KVADRAT MAKSIMALNOG KOEFICIJENTA KANONIKE
KORELACIJE
(3) KVOCIJENT OPERATORSKIH NORMI
(4) PROSEK KOEFICIJENATA DETERMINACIJE
DOKUMENTACIJA

(5) KVOCIJENT KVADRATA NORMALNIH NORMI


WOLF, B.; MOMIROVI, K. (1983): NEKE VARIJACIJE
NA CRAMER-HOTELLINGOVU TEMU. TEHNIKI IZVETAJ,
FILOZOFSKI FAKULTET U NOVOM SADU I FILOZOFSKI
FAKULTET U BEOGRADU.

ZAHTEVI
REFERENCE PROGRAM ILI NEKI DRUGI MACRO PROGRAM MORA
DA PRENESE OVOM MACRO PROGRAMU SLEDEE STRUKTURE
PODATAKA:
(1) JEDNU VARIATE STRUKTURU, POD IMENOM VRS, S
PODACIMA. VARIJABLE IZ PRVOG SKUPA MORAJU BITI NAVEDENE PRE
VARIJABLI IZ DRUGOG SKUPA.
(2) DVE POINTER STRUKTURE, POD IMENIMA PNT1 I PNT2
SA IMENIMA VARIJABLI IZ PRVOG I DRUGOG SKUPA.
UPOZORENJE
(1) SKUPOVI VARIJABLI MORAJU BITI REGULARNI.
(2) OVAJ PROGRAM MORA BITI AKTIVIRAN SA USE/R
OPCIJOM.
"
'

START'

"

221

Konstantin Momirovi u statistici


SEKCIJA 0
DEKLARACIJA STRUKTURA PODATAKA
"

'LOCAL' PNT, SSP, R, R11, R22, R12, LAMBDA1, LAMBDA2, X1, X2,
E, G, LAMBDA3, Y, C, DUMMY, RHO, PSI, TAU, ETA
'SCAL' DUMMY, C, RHO, PSI, TAU, ETA
'DSSP' SSP $ VRS
'POIN' PNT = PNT1, PNT2
'SYMM' R $ PNT
'SYMM' R11, G $ PNT1
'SYMM' R22 $ PNT2
'MATR' R12 $ PNT1, PNT2
'MATR' X1, X2, Y $ PNT1, 1
'MATR' E $ PNT1, 1=1.0
'DIAG' LAMBDA1, LAMBDA2, LAMBDA3 $ 1
"
SEKCIJA 1
IZRAUNAVANJE KOEFICIJENATA ASOCIJACIJE
"
'SSP' SSP
'CALC' R = CORMAT (SSP)
'CALC' R11, R12, R22 = SUBMAT (R)
'CALC ' G = PDT (R12; PDTT (INV (R22); R12))
'CALC' C = DET (G) / DET ( Rl1 )
'LRV' G, R11; Y, LAMBDA3, DUMMY
'DEVA' DUMMY, Y
'CALC ' RHO = LAMBDA3
'LRV' G; X1, LAMBDA1, DUMMY
'DEVA' DUMMY, X1
'LRV' R11; X2, LAMBDA2, DUMMY
'DEVA' X2, DUMMY
'CALC' PSI = LAMBDA1 / LAMBDA2
'DEVA' LAMBDA1, LAMBDA2
'CALC ' TAU = TRACE (G1) / TRACE (R11)
'CALC' DUMMY = TPDT (E; PDT((G*G); E))
'CALC' ETA = TPDT (E; PDT((R11*R11); E))
'CALC' ETA = DUMMY / ETA
"

222

Objavljeni radovi

SEKCIJA 2
IZLAZNI PODACI
"
'LINE 2
'CAPT' "
* KOEFICIJENTI ASOCIJACIJE IZMEU DVA SKUPA VARIJABLI *
"
'LINE' 4
'CAPT' "CRAMER-HOTELLINGOV KOEFICIJENT ASOCIJACIJE"
'LINE' 2
'PRIN' C $ 12.3
'LINE' 4
'CAPT' "KVADRAT MAKSIMALNE KANONIKE KORELACIJE"
'LINE' 2
'PRIN' RHO $ 12.3
'LINE' 4
'CAPT' "KVOCIJENT OPERATORSKIH NORMI"
'LINE' 2
'PRIN' PSI $ 12.3
'LINE' 4
'CAPT' "PROSEK KOEFICIJENATA DETERMINACIJE"
'LINE' 2
'PRIN' TAU $ 12.3
'LINE' 4
'CAPT' "KVOCIJENT KVADRATA NORMALNIH NORMI"
'LINE' 2
'PRINT' ETA $ 12.3
"
KRAJ PROGRAMA ASOC
"
'ENDMACRO/LOCAL=DESTROY'

6. Numeriki primer
U jednom, nedavno publikovanom istraivanju (Vuini, Popovi i Momirovi, 1992) analizirane su
relacije izmeu subsistema za obradu informacija i subsistema za regulaciju funkcija nervnog sistema.
Kognitivni subsistem bio je opisan rezultatima koji su dobijeni sa 7 testova, a konativni subsistem
rezultatima koji su dobijeni sa 6 testova. Prvi skup testova sastojao se od po dva testa perceptivnog,
paralelnog i serijalnog procesiranja i jednog testa pretraivanja trajne memorije, a drugi od po jednog testa za
procenu efikasnosti sistema za aktivaciju, regulaciju organskih funkcija, regulaciju i kontrolu reakcija
odbrane i napada, koordinaciju i integraciju regulativnih funkcija. Matrice interkorelacija i kroskorelacija tih
testova nalaze se u citiranom radu.

223

Konstantin Momirovi u statistici

Na osnovu tih matrica dobijeni su ovi koeficijenti asocijacije izmeu kognitivnih i konativnih
funkcija:
CRAMER-HOTELLINGOV KOEFICIJENT ASOCIJACIJE
c = 0.000
KVADRAT MAKSIMALNE KANONIKE KORELACIJE
=0.279
KVOCIJENT OPERATORSKIH NORMI

= 0.127
PROSEK KOEFICIJENTA DETERMINACIJE

= 0.085
KVOCIJENT KVADRATA NORMALNIH NORMI

= 0.014

Kako se vidi, predloene mere asocijacije daju razliite rezultate. Vektorski koeficijent asocijacije je
praktiki jednak nuli, jer je matrica kovarijansi jednog skupa varijabli, projiciranih u prostor koji razapinju
vektori drugog skupa varijabli, bila skoro singularna. Naravno, maksimalni koeficijent determinacije daje
najveu vrednost, no pitanje je koliko je ta vrednost realna s obzirom na to da i koeficijent operatorskih
normi i prosek koeficijenata determinacije daju vrednost koja je reda veliine 0.1.
Oito je da su sutinske karakteristike skalarnih mera asocijacije izmeu dva skupa varijabli koje su
ovde razmatrane razliite, i da izbor izmeu tih mera zavisi od teorijskih pretpostavki koje su upotrebljene za
definiciju odnosa dva subsistema nekog sloenog sistema.

Literatura

224

Anderson, T. W. (1958): An introduction to multivariate statistical analysis. Wiley, New York.


Anderson. T. W. (1984):An introduction to multivariate statistical analysis. (2nd ed ition). Wiley, New York.
Cooley, W. W.; Lohnes, P. R. (1971): Multivariate data analysis. Wiley, New York.
Hotelling, H. (1935): The most predictable criterion. Journal of Educational Psychology, 26:139-142.
Hotelling, H. (1936): Relations between two sets of variates. Biometrika, 28: 321-377.
Kaiser, H. F.; Rice, J. (1974): Little Jiffy, Mark IV. Educational and Psychological Measurements, 34: 111-117.
Miller, J. K. (1969): The development and application of bi-multivariate correlation: a measure of statistical
association between multivariate measurement sets. Ed. D. dissertation, Faculty of educational studies, State
University of New York and Buffalo.
Miller, J. K. (1975): In defence of the general canonical correlation index: Reply to Nicewander and Wood.
Psychological Bulletin, 82:207-209.
Momirovi, K.; talec, J.; Zakrajek, E. (1973): Primjena generaliziranih image transformacija u analizi relacija
skupova varijabli. Kineziologija, 3, 2:45-56.
Momirovi, K.; Dugi, D. (1986): A measure of association between two sets of variates. Procedings of 8
International Symposium "Computer at the University", 506: 1-4.
Momirovi, K. i saradnici (1987): Metode, algoritmi i programi za analizu kvantitativnih i kvalitativnih
promjena. Institut za kineziologiju, Zagreb.
Morison, D. F. (1967) : Multivariate statistical methods. McGraw-Hill, New York.
Nicewander, W. A.; Wood, D. A. (1974): Comments on "A general canonical correlations index". Psychological
Bulletin, 81, 1: 92-94.
Stewart, D. K.; Love, W. A. (1968): A general canonical correlation index. Psychological Bulletin, 70: 160-163.
Vuini, B.; Popovi, B. V.; Momirovi, K. (1992): Prilog poznavanju odnosa izmeu intelektualnih sposobnosti
i osobina linosti. Zbornik IKSI, 1.
Wilks, S. (1947): Mathematical statistics. Prinston University Press, Prinston.

Objavljeni radovi

Boris Wolf, Faculty of Arts, University of Novi Sad


Konstantin Momirovic, institute of criminological and sociological research and Faculty of Arts,
University of Belgrade

SOME VARIATIONS ON CRAMER - HOTELLING THEME


Let be R11 the intercorrelation matrix of a set of quantitative variables, and let be R22 the
intercorrelatian matrix of an anotner set of quantitative variables. Denote by R12 the crosscorrelation matrix
of these two sets. Define G= R12 R-122 R21 as the covariance matrix of the first set of variables projected into
the space of variables of second set. Then, at is well known,

c 2 = det G / det R 11
is the square of Cramer - Hotelling so called vectorial coefficient of correlation.
In the present paper four another measures of two sets of
variables are proposed:

(1)

= ( x t G x ) /( x t R 11 x ) x t R 11 x = max

This measure obviously reduce to the solution of characteristic equation

(R 12 R 221 R 12 R 11 ) x = 0
and is therefore equal to the square of maximal coefficient of canonical correlation.

(2)

= ( x t G x ) /( y t R 11 y) x t G x = max, y t R 11 y = max

This measure reduces to the ratio of maximal eigenvalues of matrices G and R11 and is therfore equal
to the coefficient of their operators norm.
(3)

= trace (G) / trace (R11)

It is clear that T is actually the average of coefficients of determination of variables of the first set,
regressed to variables of the second set.
(4)
= 1t(G~G) 1 / 1t(R11~ R11) 1
with 1 the sumation vector, and ~ operator of Hadamard multiplication. Obviously, is nothing else as the
coefficient of squares of normal norms of matrices G and R11.
All four proposed measures varies between 0 and 1, with value 0 if the two sets of variables are
completly orthogonal, and with value 1 if one of the sets is equal to the second, or if is a nonsingular linear
transformation of the second set.

225

Konstantin Momirovi u statistici

(16) ZBORNICI RADOVA 1994 VI i VII

Dr Konstantin Momirovi - Filozofski fakultet Univerziteta u Beogradu i


Institut za kriminoloka i socioloka istraivanja
O JEDNOM TAKSONOMSKOM ALGORITMU
U PARCIJALNOM IMAGE PROSTORU
REZIME
Predloen je algoritam za odreivanje polarnih taksona u parcijalnom
image prostoru. Algoritam se sastoji od ovih operacija: (1) transformacija
standardiziranih varijabli u parcijalni image oblik, (2) odreivanje glavnih kompo
nenata tako transformiranih varijabli; broj komponenata odreen je na osnovu
DMEAN kriterija, (3) transformacija zadranih komponenata u oblimin poziciju,
(4) transformacija tako dobijenih komponenata u Mahalanobisov oblik, (5)
odreivanje taksona transformacijom tako dobijenih latentnih dimenzija postupkom
koji minimizira oblimin kriterij na vrednostima objekata i (6) izraunavanje
interkorelacija, sklopa i strukture taksonomskih dimenzija. Razmatrane su prednosti
ovog algoritma u sluajevima u kojima nije mogue primeniti ni jedan algoritam za
odreivanje distinktnih taksona i kada, zbog prirode podataka, nije pogodno
primeniti druge algoritme za odreivanje polarnih taksona.
KLJUNE REI: klasifikacija/ image prostor/ polarni taksom

1. Uvod
U okviru modela polarnih taksona (Momirovi i Zakrajek, 1973) moe se, variranjem leve i desne
metrike matrice podataka, postupaka za kompresiju, postupaka za intermedijamu transformaciju, i postupaka
za odreivanje konane taksonomske solucije, generirati vrlo iroka klasa taksonomskih algoritama
(Momirovic, 1986). Do sada je predloeno relativno mnogo takvih algoritama, ali svi su pripadali ili grupi
onih kod kojih desna metrika generira standardizirane varijable, ili grupi onih kod kojih su varijable
reskalirane na univerzalnu metriku.
Meutim, jedna vana klasa metrikih prostora su Guttmanovi image prostori (Guttman, 1953).
Varijable transformirane u jedan od takvih prostora, parcijalni image prostor, imaju mnoga pogodna svojstva
od kojih su najvanija:
(1) iz varijanse parcijalnih image varijabli eliminisana je, koliko je to mogue, unikna varijansa, pa stoga i
varijansa pogreke merenja ili registracije
(2) budui da su parcijalne image varijable nesingularna linearna transformacija originalnih varijabli,
imaju, asimptotski, normalnu distribuciju
(3) latentne dimenzije izvedene iz ovih varijabli imaju pouzdaniju egzistenciju od latentnih dimenzija
izvedenih iz originalnih varijabli, jer su defmisane u zajednikom prostoru tih varijabli.
Ova su svojstva do sada smatrana povoljnim sa aspekta faktorske, odnosno komponentne analize i
nekih metoda za analizu relacija izmeu skupova varijabli. Cilj je ovog rada da pokae da ta svojstva mogu
biti pogodna i sa aspekta taksonomske analize.
2. Algoritam
Neka je E=(e; i=1,...,n) skup objekata definisan kao uzorak iz neke heterogene populacije P. Neka je
V=(v; j=1,...,m), n>m skup kvantitativnih, ne nuno normalno distribuiranih varijabli, definisan kao
reprezentativni uzorak iz nekog univerzuma varijabli U. Neka je
Z=EV
gde oznaava Descartesov produkt matrica podataka u standardnoj normalnoj formi, tako da je procena
oekivanih vrednosti u svakoj varijabli jednaka nuli, a
226

Objavljeni radovi

R=ZTZ
procena matrice korelacija varijabli iz V u populaciji P.
Neka je
U -2=diagR -1
inverz procene uniknih varijansi analiziranih varijabli. Rezultati entiteta iz E na varijablama iz V koje su
trans fomiisa ne u Guttraanov parcijalni image oblik (Guttman, 1953; Kaiser, 1963) bie elementi matrice
Y=Z(I-R-1U2)
sa matricom kovarijansi
G=YTY=(I-U2 R-1)R I-R-1U2=R+U2R-1U2-2U2
Neka je bazina struktura matrice G
G=XXT+ X**X*T
gde su X i X* matrice koje sadre k, odnosno m-k, svojstvenih vektora pridruenih svojstvenim vrednostima
u dijagonalnim matricama i *.
Odredimo k na neki pogodan nain, npr.
k=num(p (trace + trace*)/m)
(Momirovi i talec, 1975) i formirajmo matricu glavnih komponenata u Guttmanovom prostoru
K=YX
sa matricom kovarijansi
KTK=XTGX=.
Matrica kovarijansi varijabli u Guttmanovom prostoru i njihovih standardiziranih komponenata bie
H=YTK-1/2=X-1/2.
Neka je Q kvadratna matrica reda k koja omoguava transformaciju
A=HQ
tako da je, uz uslov
I=diag(QTQ)-1
p(A)=ET((A*A)T(A*A))E-trace((A*A)T(A*A))=min.
Ovde * oznaava Hadamardovo mnoenje, E je sumacioni vektor reda k, pa je p(A) parsimonijska
funkcija ekvivalentna oblimin funkciji sa parametrom fiksiranim na nulu.
Sada e vrednosti entiteta na latentnim dimenzijama koje su odreene ovom transformacijom biti
elementi matrice
=YA(ATA)-1=YX-1/2Q-T
sa matricom korelacija
M=T=(QTQ)-1,
matricom strukture
F=YT=X1/2QT=HQ-T
i matricom sklopa
FM-1=X1/2Q=A.
Transformirajmo sada varijable iz u Mahalanobisov oblik operacijom
= M-1/2.
Ova transformacija formira, kako se lako moe videti, ortogonalne varijable koje zadovoljavaju uslov
trace((-)T(-))=min.
Kako je, oigledno
T = I
matrica
V=YT=AM1/2=FM-1/2
227

Konstantin Momirovi u statistici

bie istovremeno i matrica sklopa i matrica strukture tako dobijenih latentnih dimenzija.
Ako se objekti iz E grupiraju ili na drugi nain diferenciraju u prostoru koji je definisan matricom
<3>, transformacija
T=L
koja, uz uslov diag (TTT)=I, minimizira parsimonijsku funkciju
p(L)=ET((L*L)T(L*L))E-trace((L*L)T(L*L))
definisae koordinate objekata na taksonomskim dimenzijama tako da slini objekti imaju sline koordinate
na onoj dimenziji koja prolazi kroz oblak koga ti objekti formiraju. Ortogonalne projekcije, dakle vrednosti
objekata na taksonomskim dimenzijama odreene su operacijom
W=L(TTT)-1=T-T=Z(I-R-1U2) X1/2Q-TM-1/2T-T
sa matricom korelacija
C=WTW=T-1T-T=(TTT)-1
Identifikacija dobijenih taksonomskih dimenzija mogua je na osnovu njihovih korelacija sa
originalnim varijablama
S=ZTW=(R-U2) X1/2Q-TM-1/2T-T
ili, jo bolje, na osnovu njihovog sklopa
P=SC-1
Naravno, ako su objekti poznati, identifikacija je mogua i na osnovu njihovih koordinata definisanih
matricom L.
3. Neka svojstva taksonomskog algoritma u parcijalnom image prostoru
Image transformacija ima tendenciju da normalizuje distribucije varijabli. Zbog toga ovaj algoritam
ima smisla kada su marginalne varijable i onako unimodalne, sto je i najei sluaj kada se analiziraju
skupovi objekata nad skupom kvantitativnih varijabli u veini prirodnih i drutvenih nauka. Kako tada
algoritmi koji se zasnivaju na principu distinktnih taksona obino nemaju mnogo smisla, razumno je
razmotriti prednosti ovog algoritma nad drugim algoritmima iz klase algoritama za odreivanje polarnih
taksona.
Osnovne prednosti su, naravno, povezane sa svojstvima image varijabli. Meu njima je, za mnoge
nauke koje raspolau nedovoljno pouzdanim mernim instrumentima za karakteristike objekata koje istrauju,
verovatno najvanije svojstvo image varijabli da su osloboene varijanse pogreke.
Svakako da je mogue u image prostoru konstruisati i druge taksonomske
algoritme, na primer one koji se zasnivaju na ortonormalnim transformacijama nestandardizovanih glavnih
komponenata. Predloeni algoritam ima meutim tu prednost to je identifikacija taksonomskih dimenzija
mogua i na osnovu njihovog poloaja u prostoru koji je definisan latentnim dimenzijama dobijenim
analizom image varijabli; te dimenzije obino su dobro definisane i najee nije teko prepoznati njihov
sadraj. Ova prednost verovatno nadoknauje komplikovanost predloenog algoritma koga ipak, uprkos
tome, nije nimalo teko implementirati bilo kojim jezikom pogodnim za programiranje statistikih
procedura.
Literatura

Guttsnan, L. (1953): Image theory for the structure of quantitative variates. Psychometrika, 18: 227-296.

Kaiser, HE (1963): Image analysis. In C.W. Harris, "Problems in measuring change". University of Wisconsin
Press, Medison.

Momtovic, K.; Zakrajek, E. (1973): Odreivanje taksonomskih skupina direktnom oblimin transformacijom
ortogonaliziranih originalnih i latentnih varijabli. Kineziologija, 3, 1: 83-92.

Momirovic, K.; talec, I (1975): DMEAN i DMAX kriteriji za odreivanje broja znaajnih image faktora pri
analizi zadataka u psihologijskim testovima. Zbornik radova sa strunog skupa "Dani Ramira Bujasa", Drutvo
psihologa Hrvatske, Zagreb.

Momirovi, K. (1986): COMTAX - Algoritam i program za detekciju i komparaciju polarnih i distinktnih


taksona. Statistika revija, 36, 3-4: 141-149.

228

Objavljeni radovi

(17) ZBORNICI RADOVA 1994 VIII (1)

Majski skup 1994, Beograd


Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja i
Filozofski fakultet Univerziteta u Beogradu
Ankica Hoek, Institut za kriminoloka i socioloka istraivanja
JEDNA PRIMITIVNA MERA SLINOSTI IZMEU
DVE OTVORENE RAZLIVENE KLASIFIKACIJE
Predloena je jedna mera slinosti izmeu dve otvorene razlivene
klasifikacije definisana kao kosinus ugla izmeu vektora koji prolaze kroz centroide
taaka koje su odreene ishodom klasifikacijskih postupaka. Pokazano je da je ova
mera, koja je smislena samo kada se radi o otvorenim razlivenim skupovima sa
nejednakom determiniranou objekata koji su predmet klasifikacije, zaista mera
slinosti, da je optimalna pod vidom reprezentacije klasifikacijskih vektora, da je
nuno vea od nule, i da poprima vrednost 1 samo ako su dve klasifikacije identine.
Translacijom klasifikacijskih vektora moe se postii da ova mera varira u rasponu
od -1 do 1, to uvodi diskutabilni pojam negativne slinosti, i jo diskutabilniji
pojam negativnih verovatnoa. Kako, osim toga, ova mera daje besmislene rezultate
primenjena na kompaktne i zatvorene razlivene skupove, pa ak i na otvorene
razlivene skupove ako je determiniranost svih objekata identina, postavlja se
pitanje u kojoj su meri razumni postupci za poreenje ishoda klasifikacijskih
postupaka koji se osnivaju na zdravom razumu.
KLJUNE REI: klasifikacija / razliveni skupovi / centroidna teorema /
mere slinosti / metoda jednostavne sumacije

A PRIMITIVE MEASURE OF SIMILARITY BETWEEN


TWO FUZZY CLASSIFICATIONS
A measure of similarity between two open fuzzy classifications was defined as
the cosinus of the angle between the vectors passing through the centroids of the
points defined as the outcome of classification procedures. It has been demonstrated
that this measure, which is only meaningful in the case of open fuzzy sets with
unequal determination of the objects of classification, is indeed a measure of
similarity. It has been equally demonstrated that this is an optimal measure for
representation of classificational vectors, that the proposed measure is necessarily
greater than zero and that it reaches 1 only when two classifications are identical. A
translation of classification vectors could make this measure vary between -1 and 1,
which leads to the debatable notion of negative similarity and to the even more
debatable notion of negative probabilities. Even more: since this measure gives
nonsensical results when applied to compact sets and closed fuzzy sets (and even
when applied to open fuzzy sets if the determination of all objects is equal) it is not
clear how really reasonable are common senseprocedures for comparison of
outcomes of classification algorithms.
KEY WORDS: classification / fuzzy sets / centroid theorem / measures of
similarity / method of simple summation

Ta je metoda besmislena jer se zasniva na zdravom razumu.


Iz rasprave na Naunom veu Instituta za kriminoloka i socioloka istraivanja

229

Konstantin Momirovi u statistici

1. Uvod

Otvorenim razlivenim klasifikacijama nazivaju sa klasifikacije koje formiraju otvorene razlivene


skupove. Otvoreni razliveni skupovi definisani su kao podskupovi nekog skupa objekata tako da je zbir
verovatnoa da neki objekt pripada nekom od tih podskupova manji od 1.
Za dve otvorene razlivene klasifikacije predloeno je nedavno osam razliitih mera slinosti91
(Momirovi, 1994a; 1994b; 1994c). Meu tim merama, od posebnog su interesa one koje su definisane
relacijama izmeu vektora koji na neki nain reprezentiraju vektore iji su elementi verovatnoe pripadanja
objekata podskupovima koji su dobijeni sa dve otvorene razlivene klasifikacije. Jedna od tih mera, 2,
definisana je kao kvadrat kosinusa minimalnog ugla koji zaklapaju kanoniki vektori izvedeni iz vektora
definisanih tim klasifikacijama. Druga mera, 2, iako definisana na drugaiji nain, svodi se, u stvari, na
normiranu funkciju skalarnog produkta dva kvazikanonika vektora izvedena iz vektora definisanih tim
klasifikacijama; normiranje tog skalarnog produkta uinjeno je na osnovu normi onih vektora izvedenih iz
vektora verovatnoa koji imaju maksimalnu duinu. Manje je egzotina trea mera, , definisana kao kosinus
ugla kvazikanonikih vektora, izvedenih iz dva skupa klasifikacijskih vektora, tako da je skalarni produkt
kvazikanonikih vektora maksimum. I etvrta predloena mera, 4, formalno je definisana drugaije, ali se u
stvari svodi na normirani skalarni kvadrat vektora koji ima maksimalnu normu, a izveden je iz vektora
dobijenih jednom od klasifikacija projiciranih u prostor koga razapinju vektori dobijeni drugom
klasifikacijom; normiranje tog skalarnog produkta uinjeno je na osnovu norme onog vektora izvedenog iz
vektora dobijenih prvom klasifikacijom koji ima maksimalnu duinu. Peta mera, , definisana je kao skalarni
produkt onih levih svojstvenih vektora matrica koje sadre klasifikacijske vektore koji su pridrueni
maksimalnim singularnim vrednostima tih matrica.
U izvornoj formi sve ove mere variraju izmeu 0 i l, ali ne mogu nikada poprimiti vrednost 0, a
dostiu vrednost 1 samo ako su dve klasifikacije identine; izuzetak je mera 2, koja dostie vrednost 1 i u
sluaju kada su samo dva podskupa iz skupova dobijenih klasifikacijskim postupcima identina. Mere 2 i 4
pretpostavljaju da su klasifikacijski vektori dobijeni sa oba klasifikacijska postupka linearno nezavisni; taj
uslov nije potreban za mere 3, i .
Premda je jasno, i u radovima u kojima su predloene te mere eksplicitno dokazano, da su 2, 3, , 4
i zaista mere slinosti izmeu dve otvorene razlivene klasifikacije, jasno je i da su te mere definisane tako
da je za razumevanje njihove sutine, pa prema tome i za njihovu smislenu primenu, potrebno znanje
matematike kojim obino ne raspolau oni koji se u praksi bave klasifikacijskim procedurama. Osim toga,
samo je Y mera koja je eksplicitno izvedena tako da pod nekim uslovima najbolje predstavlja stvarnu
slinost izmeu klasifikacijskih postupaka, ako se pod tim podrazumeva da vektori, iji je skalarni produkt
argument tih mera, najbolje reprezentiraju klasifikacijske vektore.
Zbog toga je u ovom radu predloena jedna zdravorazumska mera slinosti izmeu dve otvorene
razlivene klasifikacije, koja je isto tako definisana kao funkcija skalarnog produkta vektora dobijenih
linearnim kombinacijama klasifikacijskih vektora, i koja, pod jednim opteprihvaenim kriterijumom,
najbolje reprezentira stvarnu slinost izmeu dve klasifikacije. Pokazae se, naalost, da ta jednostavna mera
ima pored dobrih i tako mnogo loih svojstava da je pitanje ima li smisla da se slinost izmeu razlivenih
klasifikacija procenjuje postupcima koji se zasnivaju na zdravom razumu.
2. Definicije

Neka je E = (ei; i = 1,..., n) B neki skup objekata definisan kao ne nuno sluajni uzorak iz neke
populacije B; pretpostavimo da su objekti iz E predmet klasifikacije bilo kojim taksonomskim algoritmom.
Neka je E = (cj; j = 1,..., m) U skup dobijen ma kojom klasifikacijom iz univerzuma U svih dopustivih
klasifikacija objekata iz B. Neka je
2 m < n < .
Neka je
R = (rij) = (rj) = E

91

U stvari, predloeno je 16 takvih mera, jer se svaka od osam izvorno predloenih mera moe reparametrizirati centroidnom translacijom vektora
iji su elementi verovatnoe pripadanja objekata podskupovima koji su dobijeni tim klasifikacijskim postupcima.

230

Objavljeni radovi

matrica iji su elementi


rij = p (ei cj)
verovatnoe da neki objekt ei iz E pripada nekom podskupu cj iz , a rj vektori iji su elementi te verovatnoe za
podskupove cj iz .
Neka je en = (ei); i = 1,..., n; ei = 1 ei sumacioni vektor reda (n) i neka je em = (ej); j = 1,..., m; ej = 1 ej sumacioni
vektor reda (m). Pretpostavimo da je

ent R em < n,
to jest da je klasifikacijski postupak proizveo neki otvoreni razliveni skup, i da, tavie,
R em enc,
0 < c < 1, tj. da je stepen determiniranosti objekata iz E razliit.
Teorema 1.
Vektor b = Remm-1 je, pod kriterijem najmanjih kvadrata, najbolja reprezentacija klasifikacijskih
vektora rj iz R.
Dokaz:
Neka je x neki nepoznati m-dimenzionalni vektor, i neka je b = Rx; b e biti, pod kriterijem najmanjih
kvadrata, najbolja reprezentacija vektora rj; j = 1,..., m ako je
m

= (rj b) t (rj b) = minimum .


j =1

Ali,
m

= (rj R x)t (rj R x)


j =1

= (r jt r j 2 x t R t r j + x t R t R x) ;
j =1

neka je
W = RtR,
tako da je
m

= tragW 2 x t R t rj + m x tW x .
j =1

Derivacijom ove funkcije s obzirom na x i izjednaavanjem s nulom


m

/ x = 2 R t r j + 2m W x = 0 ,
j =1

i otuda
m

m W x = R t rj .
j =1

Meutim, kako je
m

R r
j =1

= W em ,

to se mnoenjem rezultata dobijenog derivacijom funkcije sa m-1 i W-1 dobija


x = emm-1,
to je i trebalo dokazati.
Prema tome, najbolja reprezentacija, pod kriterijem najmanjih kvadrata, klasifikacijskih vektora je
231

Konstantin Momirovi u statistici

prosto njihov centroidni vektor. Da je zaista tako vidi se iz toga to je


m

(r
j =1

j =1

j =1

j =1

b) = (rj R em m 1 ) = rj m R em m 1 = r j R em = 0 .

Uoimo, odmah, da je ova reprezentacija trivijalna za kompaktne i zatvorene razlivene skupove, jer je
u tom sluaju b = enm-1, i da je trivijalna i za otvorene razlivene skupove ako je determiniranost svih objekata
jednaka, recimo, c, jer je u tom sluaju b = enc m-1. Zbog toga ova reprezentacija, i mera slinosti koja e na
osnovu nje biti izvedena, imaju smisla samo kada je rel o otvorenim razlivenim skupovima s nejednakom
determiniranou objekata koji su predmet klasifikacije. Sreom, najvei deo klasifikacijskih postupaka koji
generira otvorene razlivene skupove generira i skupove s nejednakom determiniranou objekata.

3. Mera slinosti dve otvorene razlivene klasifikacije

Neka je i dalje E = (ei; i = 1,..., n) B neki skup objekata, i neka su nad tim skupom uinjene dve
klasifikacije iz skupa U a = (cj; j = 1,...,m) i b = (cq; q = 1,..., k). Neka su
Ra = (rij) = E a
Rb = (riq) = = E b
matrice kojima su predstavljeni ishodi tih klasifikacija, i neka su ea = (ej), ej = 1 i eb = (eq), eq = 1 sumacioni
vektori reda (m) i (k). Pretpostavimo da obe klasifikacije formiraju otvorene razlivene skupove s nejednakom
daterminiranou objekata.
Ako sada, u skladu sa ishodom Teoreme 1, definiemo
xa = ea m-1
i
xb = eb m-1,
klasifikacije a i b bie, pod kriterijumom najmanjih kvadrata, optimalno predstavljene centroidnim vektorima
ba = Ra xa
i
bb = Rb xb.
Definiimo

Waa = Rat Ra ,
Wbb = Rbt Rb
i

Wab = Rat Rb .
Kvadrati normalnih normi vektora ba i bb bie

a2 = bat ba = xat Waa xa


i

b2 = bbt bb = xbt Wbb xb ,


a njihov skalarni produkt

= bat bb = xat Wab xb ,


tako da e kosinus ugla izmeu vektora ba i bb biti

= a1 b1 .
Propozicija 1.
je mera slinosti izmeu klasifikacija Ca i Cb i varira u rasponu 0 < 1.

232

Objavljeni radovi

Dokaz:

ba i bb su reprezantanti vektorskih snopova definisanih matricama Ra i Rb pa je zato kosinus ugla


izmeu ba i bb sigurno mera slinosti izmeu tih vektorskih snopova. Kako oba vektorska snopa lee u
pozitivnom hiperkvadrantu Rn prostora, Wab 0. Pa je otuda > 0; zbog istog razloga, 1, i dostie
vrednost 1 samo ako su otvoreni razliveni skupovi Ca i Cb identini, a to je i trebalo dokazati.
Posledica 1.
Udaljenost

d ab = (ba bb )t (ba bb ) = a2 + b2 2
je metrika mera udaljenosti izmeu Ca i Cb.
Dokaz:
Dokaz je trivijalan, jer je dab Euklidska udaljenost izmeu dve take u Rn prostoru, pa je dab 0, dab = 0
samo ako je Ca = Cb, dab = dba i dab dac + dbc, za bilo koju treu klasifikaciju Cc.
Oigledno je, meutim, da ova svojstva mere i mere dab vrede samo ako su skupovi Ca i Cb otvoreni
razliveni skupovi s nejednakom determiniranou objekata iz E. Ako su Ca i Cb kompaktni ili zatvoreni
razliveni skupovi, ba = enm-1, a bb = enk-1, pa je = 1 i dab = 0 bez obzira na stvarnu slinost ili stvarnu
udaljenost izmeu tih skupova. ak i kad su Ca i Cb otvoreni razliveni skupovi, ali je determiniranost
objekata u svakom od njih identina, ca i cb recimo, pri emu nije nuno da je ca = cb, i dab su besmislene
mere, jer je, u tom sluaju, ba= encam-1, a bb = encbk-1, pa je tada, naravno,

bat bb /(bat ba )1/ 2 (bbt bb )1/ 2 = 1


dakle = 1 dab = 0. Prema tome, koliko god razumno izgledala, je mera koja ima smisla samo su klasifikacije
Ca i Cb ne samo takve da proizvode otvorene razlivene skupove, to je loe, samo po sebi, ve i takve da su
verovatnoe da ti objekti pripadaju tim skupovima nejednake, to je jo gore. Ali, naalost, kako je pokazano u radu
u kome je definisan pojam otvorenih razlivenih skupova (Momirovi, 1994a), mnogi klasifikacijski postupci, pa i
neki taksonomski algoritmi, proizvode rezultate za koje ova nerazumna mera postaje razumna.
4. Reparametrizacija mere : mera

Kao i ostale mere slinosti izmeu razlivenih klasifikacija, i mera ima tu nezgodnu osobinu da ne
moe poprimiti vrednost 0. Meutim, na isti nain kao to je to uinjeno sa ostalim predloenim merama,
ova se mera moe reparametrizirati centroidnom translacijom klasifikacijskih vektora iz matrica Ra i Rb.
Neka je

C = en (ent en ) 1 ent
centroidni projektor za prostor koga razapinju vektori objekata iz E. U matricama

Qa = Ra CRa

Qb = Rb CRb

bie sada klasifikacijski vektori centrirani na nulu. Definiimo

Vaa = Qat Qa = Rat Ra Rat CRa ,


Vbb = Qbt Qb = Rbt Rb Rbt CRb ,
i

Vab = Qat Qb = Rat Rb Rat CRb ,


i uoimo da svi elementi u matrici Wab sada mogu biti jednaki nuli, i da, tavie, svi mogu biti negativni.
Centroidni vektori tako transliranih klasifikacijskih vektora bie

g a = Qa xa
i

g b = Qb xb .

233

Konstantin Momirovi u statistici

Kvadrati normalnih normi vektora ga i gb bie

a2 = g at g a = xat Vaa xa
i

b2 = g bt g b = xbt Vbb xb
a njihov skalarni produkt

= g at g b = xat Vab xb .
Sada e mera slinosti izmeu klasifikacija Ca i Cb, definisana kao kosinus ugla izmeu vektora ga i gb biti
= a1 b1.
Propozicija 2.
ja mera slinosti izmeu klasifikacija Ca i Cb i varira u rasponu -1 1.
Dokaz:
ga i gb su centroidni vektori klasifikacijskih vektora iz Qa i Qb pa je njihov skalarni produkt proporcionalan
slinosti izmeu tih vektorskih snopova. Kako elementi u matrici Vab mogu svi biti jednaki nuli, to i skalarni
produkt vektora ga i gb moe biti jednak nuli; a kako elementi u toj matrici mogu biti i negativni, to i skalarni
produkt vektora ga i gb moe biti negativan.
Naravno, kako je kosinus ugla izmeu dva vektora, njegova je donja granica -1 a gornja l. Stoga
koeficijent poprima vrednost 1 kada su klasifikacije Ca i Cb identine, vrednost -1 kada su te klasifikacije
inverzno identine, a vrednost 0 kada izmeu njih ne postoji nikakva saglasnost, to je i trebalo dokazati.
Prema tome, ova reparametrizacija, potrebna da bi mera slinosti izmeu dve klasifikacije mogla
poprimiti vrednost 0, uvodi dva krajnje diskutabilna pojma: pojam negativne verovatnoe i pojam negativne
slinosti. Veliko je pitanje da li na tako neto treba pristati samo zato da bi se dobila mera ija je je osnovna
logika svakome razumljiva; ini se, zbog toga, da je od dve sumnjive mere slinosti izmeu otvorenih
razlivenih skupova mera prihvatljivija od mere .
5. Umesto zakljuka
Statistique n`est pas probabilite. Sous le nom de statistique mathematique des auteurs... ont edifie une
pompeuse discipline, riche an hypotheses qui ne sont jamais satisfaite dans la pratique. Ce n`est pas de
ses auteurs qu`il faut attendre la solution des nos problemes typologiques.
J. P. Benzecri
, ,
, ,
.

Literatura
Momirovi, K. (1994): O nekim merama slinosti izmeu klasifikacija koje formiraju otvorene razlivene
skupove. Referat na seminaru Matematiki i kiberne-tiki modeli u psihologiji, Laboratorija za eksperimentalnu
psihologiju Filozofskog fakulteta u Beogradu, Beograd, 10. 2. 1994.
Momirovi, K. (1994): Predlog jedne robustne mere slinosti izmeu dve razlivene klasifikacije. Nepublikovani
rukopis, Institut za kriminoloka i socioloka istraivanja, Beograd.
Momirovi, K. (1994): Jo jedna robustna mera slinosti izmeu dva razlivene klasifikacije. Nepublikovani
rukopis, Institut za kriminoloka i socioloka istraivanja, Beograd.

234

Objavljeni radovi

(18) ZBORNICI RADOVA 1994 VIII (2)

Majski skup 1994, Beograd


Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja i
Filozofski fakultet Univerziteta u Beogradu
O NEKIM MERAMA SLINOSTI IZMEU KLASIFIKACIJA
KOJE FORMIRAJU OTVORENE RAZLIVENE SKUPOVE
Otvoreni razliveni skupovi definisani su kao podskupovi nekog skupa
objekata tako da je zbir verovatnoa da neki objekt pripada nekom od tih
podskupova manji od 1. Za dve klasifikacije koje formiraju otvorene razlivene
skupove predloene su ove mere njihove slinosti:
(1) Razmer paralelotopa dobijenog projekcijom vektora definisanih jednom
od klasifikacija, u prostor koji razapinju vektori dobijeni drugom klasifikacijom i
paralelotopa definisanog vektorima prve od tih klasifikacija;
(2) Kvadrat kosinusa minimalnog ugla koji zaklapaju kanoniki vektori
izvedeni iz vektora definisanih tim klasifikacijama;
(3) Relativna operatorska norma matrice krosprodukata vektora definisanih
tim klasifikacijama;
(4) Razmer operatorske norme matrice krosprodukata vektora definisanih
jednom od klasifikacija projiciranih u prostor koji razapinju vektori definisani
drugom klasifikacijom i operatorske norme matrice krosprodukata vektora
definisanih prvom od tih klasifikacija;
(5)Razmer traga matrice krosprodukata vektora definisanih jednom od
klasifikacija projiciranih u prostor koji razapinju vektori definisani drugom
klasifikacijom i traga matrice krosprodukata vektora definisanih prvom od tih
klasifikacija;
(6)Razmer kvadrata normalne norme matrice krosprodukata vektora
definisanih jednom od klasifikacija, projiciranih u prostor koji razapinju vektori
definisani drugom klasifikacijom i kvadrata normalne norme matrice krosprodukata
vektora definisanih prvom od tih klasifikacija.
Pokazano je da su sve ove mere nuno vee od nule za sve klasifikacije koje
formiraju otvorene razlivene skupove ako se ne redefiniu na osnovu procena
gustina podskupova dobijenih dvema klasifikacijama, i da dostiu vrednost 1 onda i
samo onda ako su dve klasifikacije identine.
KLJUNE REI: klasifikacija / razliveni skupovi / mere slinosti

235

Konstantin Momirovi u statistici

ABOUT SOME MEASURES OF SIMILARITY BETWEEN TWO


OPEN FUZZY CLASSIFICATIONS
Open fuzzy sets are defined as the subsets of a set of objects such that the sum
of probabilities that a given object belongs to subsets is smaller than 1. The
following measures of similarity between two classifications forming open fuzzy sets
are proposed:
(1) Ratio between the volume of paralelotope obtained through projection of
the vectors defined by one classification into the space defined by the vectors
obtained from the second classification and the volume of paralelotope defined by
the vectors from the first of these classifications;
(2)The squared value of the cosinus of the minimal angle formed by
canonical vectors derived from the vectors defined by these classifications;
(3) The relative operator norm of the matrix of cross-products of the vectors
defined by these classifications;
(4) Ratio of the operator norm of the matrix of cross-products of vectors
defined by one of these classifications projected into the space defined by vectors
defined by the another classification and the operator norm of the matrix of crossproducts of vectors defined by the first of these classifications;
(5) Ratio of the trace of matrix of cross-products of vectors defined by one of
these classifications projected into the space defined by the second classification
and the trace of the matrix of cross-products of vectors defined by the first of these
classifications;
(6) Ratio of the square values of the normal norm of the matrix of crossproducts of vectors defined by one of the classifications projected into the space
defined by vectors defined by the second classification and square values of the
normal norm of the matrix of cross-products of vectors defined by the first of these
classifications.
It was demonstrated that all of these measures are necessarily greater than 0
for all classifications which form open fuzzy sets if they are not redefined on the
basis of evaluation of the density of subsets obtained by two classifications. It was
equally demonstrated that these measures reach the value of 1 only when two
classifications are identical.
KEY WORDS: classification / open fuzzy sets / measures of similarity

Ako se neki problem, u bilo kojoj nauci dostojnoj tog imena, ne moe reiti svoenjem na
reavanje nekog matematikog problema, onda je ili pogreno postavljen,
ili uopte nema reenja.
Iz rasprave na naunom veu Instituta za kriminoloka i socioloka istraivanja u Beogradu

1. Uvod

Ako neke dve klasifikacije generiraju kompaktne distinktne skupove, kao to je to sluaj s velikom
veinom taksonomskih algoritama (Anderberg, 1973; Devijver i Kittler, 1982; Everitt, 1974; Ferligoj, 1989;
Hartigan, 1985; Jambu, 1979; Tou i Gonzales, 1974), onda je na mnogo razliitih naina mogue proceniti
neku meru njihove slinosti, iz prostog razloga to sve klasifikacije koje generiraju kompaktne distinktne
skupove generiraju, u stvari, nominalne varijable koje je mogue predstaviti binarnim indikatorskim
matricama. Svi naini za procenu slinosti takvih klasifikacija mogu se podeliti u mere slinosti u 2metrici,
u mere slinosti izvedene iz stepena redukcije pogreke prognoze jedne na osnovu ishoda druge klasifikacije,
u entropijske mere slinosti, i u mere slinosti dobijene kanonikom dekompozicijom kontingencijskih tabela
(Momirovi, 1988). Osim ovih, Ivanovi je nedavno (Ivanovi, 1989) predloio jednu meru udaljenosti
izmeu dveju klasifikacija, koja se na jednostavan nain, jednom inverznom monotonom transformacijom,
moe pretvoriti u meru slinosti, a definisana je normiranim brojem koraka koji su potrebni da se iz jedne
pree u drugu, hijerarhijsku ili nehijerarhijsku klasifikaciju. I mera slinosti izmeu jedne klasifikacije koja
generira kompaktne i jedne klasifikacije koja generira razlivene taksone, koju je, takoe nedavno, predloila
Bodjanova (Bodjanova, 1991), moe na jednostavan nain biti primenjena i za procenu slinosti izmeu
dveju klasifikacija koje generiraju kompaktne taksone, ali uz ogranienje da obe klasifikacije generiraju isti
broj taksona.
236

Objavljeni radovi

Ako dve klasifikacije generiraju Zadehove razlivene skupove, dakle skupove definisane verovatnoama pripadanja objekata podskupovima tih skupova, uz uslov da je zbir tih verovatnoa 1, mogunost
procene njihove slinosti svodi se, uglavnom, na generalizaciju mere 2 koju je predloila Bodjanova (1991);
no, ta jednostavna mera, koja ima jasna i intuitivno dobro razumljiva svojstva, jer se svodi na inverzno
skaliranu normiranu meru zbira kvadrata razlika izmeu verovatnoa pripadanja podskupovima, ograniena
je samo na sluaj kada dve klasifikacije proizvode jednaki broj taksona. Meutim, za klasifikacije koje
formiraju razlivene skupove Zadehovog tipa, definisane ishodima algoritama koje su, izmeu ostalih,
predloili Backer (1978), Bezdek (1981), Bodjanova (1991), Ruspini (1973; 1982); Watada, Tanaka i Asai
(1982) i drugi, nije teko konstruisati razumne mere slinosti; jedan skup takvih mera bie predloen u
jednom narednom radu.
Naalost, do sada nije, koliko se moglo utvrditi inspekcijom dostupne literature, predloena nijedna
mera slinosti dveju klasifikacija koje proizvode otvorene razlivene skupove. Razlog je vrlo jednostavan,
koliko god bio neobian: do sada niko nije formalno definisao pojam otvorenih razlivenih skupova, dakle
skupova definisanih ma kojim klasifikacijskim postupkom tako da je zbir verovatnoa da neki objekt pripada
nekom od podskupova tog skupa manji od 1. Izgleda da se nikome nije svidela definicija koja, u stvari,
doputa da neki skup ne bude unija podskupova od kojih se sastoji; uostalom, nije bilo malo otpora ni prema
pretpostavci da mogu postojati valjane klasifikacije uinjene tako da preseci podskupova dobijenih tim
klasifikacijama ne budu prazni skupovi, to je nuna posledica svih klasifikacija koje generiraju razlivene
skupove. Neobinost injenice da do sada nije definisan pojam otvorenih razlivenih skupova sastoji se u
tome da ima mnogo algoritama koji proizvode upravo takve skupove (Momirovi i Zakrajek, 1973; Zlobec,
1975; Szirovitza, Gredelj, Momirovi i Zakrajek, 1978; Momirovi i Gredelj, 1982; Momirovi, 1978;
1986; 1993) i, to je jo vanije, da skoro sve intuitivne klasifikacije u psihologiji i psihologiji srodnim ili iz
nje izvedenim naukama, kao to su, ali ne iskljuivo, sociologija, ekonomija, pedagogija, kineziologija,
bioloka i socijalna antropologija, formiraju, najee, ba otvorene razlivene skupove.
Zbog toga je cilj ovog rada da prvo definie ta se podrazumeva pod pojmom otvoreni razliveni
skupovi, i da zatim predloi nekoliko mera slinosti izmeu dveju raznih klasifikacija istog skupa objekata
koje proizvode takve skupove. Te e mere biti definisane u za verovatnoe prirodnoj metrici, jer ma koja
mera iskazana verovatnoom nekog dogaaja lei sigurno na nekoj apsolutnoj skali, u smislu definicije
apsolutnih skala koju su dali Zegers i Ten Berge (1985); mere slinosti definisane u 2 metrici, koje, izmeu
ostalog, doputaju da slinost dveju klasifikacija bude jednaka nuli, i da se testira hipoteza da je to zaista
tako, bie predloene u jednom sledeem radu.
2. Definicije

Neka je E = (ei; i = 1,..., n) B skup objekata izvuen, ne nuno sluajno, iz neke populacije B. Neka
je C = (ej; j = 1,..., k) U skup kategorija, dobijenih nekom klasifikacijom iz univerzuma U svih doputenih
klasifikacija objekata iz B. Neka je k < n < .
Neka je en = (ei); i = 1,..., n; ei = 1 i, sumacioni vektor reda n, i neka je
ek = (ej); j = 1,..., k; ej = 1 j, sumacioni vektor reda k. Oznaimo sa p() verovatnou nekog dogaaja ,
uvedimo oznaku za izraz "pod uslovom da" i oznaku za Descartesov produkt dva skupa. I, na kraju,
oznaimo sa Rm m-dimenzionalni unitarni vektorski prostor, i pretpostavimo da se sva zbivanja o kojima e
ovde biti rei odvijaju u nekom takvom prostoru za m < .
Sada je razliite tipove klasifikacija objekata iz E mogue definisati ovako:
(1) Klasifikacije koje generiraju kompaktne skupove (compact sets; hard sets).
Neka je
S = E C = (sij)
i = 1,..., n; j = 1,..., k binarna indikatorska matrica iji su elementi definisani funkcijom

sij = 1 ei c j

sij = 0 ei c j
tako da je
k

s
j =1

ij

= 1 ei .

237

Konstantin Momirovi u statistici

Oigledno, za sve klasifikacije koje generiraju matrice tipa matrice S vredi

Sek = en ;
elementi vektora

f = ( f j ) = S t en
jesu frekvencije objekata iz E koji pripadaju podskupovima cj iz C, pa su, jer je

ent S ek = n,
elementi vektora

g = ( g j ) = fn 1
relativne gustine podskupova cj iz C, a ako je E zaista sluajan uzorak iz B, onda su elementi gj vektora g procene
verovatnoa da neki objekt iz B pripada nekom podskupu cj iz C, dakle

g j = p (e c j ).
Naravno, za klasifikacije koje proizvode kompaktne skupove,

g t ek = 1,
pa, jer je

S t S = F = diag f ,
to je i

c j c1 =

j 1

gde oznaava prazan skup.


Prema tome, svaka klasifikacija koja proizvodi kompaktne skupove ne proizvodi nita drugo do jednu
nominalnu varijablu. Naravno, kao i kod svih nominalnih varijabli, i ovde je re, zapravo, o skupu od k
binarnih varijabli, koje su oigledno ortogonalne i zbog toga linearno nezavisne. Uoimo, meutim, da su
klasifikacije za svaki pojedini objekt ei iz E linearno zavisne, jer je ishod klasifikacije u ma koju kategoriju cj
iz C mogue izvesti na osnovu ishoda k1 preostalih klasifikacija.
(2) Klasifikacije koje proizvode zatvorene razlivene skupove (closed fuzzy sets; fuzzy sets; Zadeh
sets).
Neka je
P = (pij) = E C
i = 1,..., n; j = 1,..., k, matrica iji su elementi
pij = p (eicj)
odreeni tako da je
k

j =1

pij = 1 ei ,

pri emu verovatnoe pij mogu poprimiti bilo koju vrednost u rasponu <0, 1>. I za ovako dobijene matrice oigledno
vredi

P ek = en ,
pa zato i

ent S ek = n.
Ukupne gustine podskupova cj iz C bie elementi vektora
238

Objavljeni radovi

h = (h j ) = P t en ,
pa su stoga relativne gustine tih podskupova elementi vektora

d = (d j ) = hn 1
i, ako je E sluajan uzorak iz B, mogu da budu interpretirane kao procene verovatnoa

p (ei c j ).
Naravno, i za zatvorene razlivene skupove vredi

d t ek = 1.
Meutim, kako svi vektori pj matrice P lee unutar pozitivnog hiperkvadranta Rn prostora, matrica

C = Pt P
ne moe biti dijagonalna matrica, pa preseci podskupova cj, cl; j l ne mogu biti, u optem sluaju, prazni skupovi. U
stvari, elementi matrice

G = ( g jl ) = Cn 1
su procene verovatnoa

p (ei c j cl )
za preseke svih podskupova iz C.
Taksoni dobijeni klasifikacijama koje generiraju razlivene skupove stoga nisu, u stohastikom smislu,
nezavisni. Neka je

= diag C.
Kosinusi uglova izmeu vektora pj; j = 1,..., k, bie sada elementi matrice

= ( jl ) = 1 / 2C 1 / 2
i kako kod razlivenih skupova C ne moe biti dijagonalna matrica, to su koeficijenti jl ; j, l = 1,..., k, mere slinosti
izmeu podskupova cj, cl.
Prema tome, svaki algoritam koji proizvodi zatvorene razlivene skupove proizvodi k meusobno
povezanih, ali linearno nezavisnih varijabli jer, pod normalnim uslovima, od kojih je najvaniji da nijedna
relativna gustina dj ne bude jednaka nuli,

C 0,
osim u teko zamislivom sluaju da su jedan ili vie vektora Pj iz P linearna kombinacija preostalih vektora te
matrice, to je mogue onda i samo onda kada algoritam nije zapravo ni klasifikovao objekte ei iz E. Ali i kod
zatvorenih razlivenih skupova klasifikacije svakog pojedinog objekta ei iz E su linearno zavisne, jer je, naravno,
k 1

pij = 1 pil , l j ,
l =1

(3) Klasifikacije koje proizvode otvorene razlivene skupove (open fuzzy sets).
Neka je

R = (rij ) = E C
matrica iji su elementi

rij = p (ei c j )
i mogu poprimiti bilo koju vrednost u rasponu <0, 1>, ali odreeni tako da vredi
239

Konstantin Momirovi u statistici


k

r
j =1

ij

1 ei ,

dakle, tako da se na definitivan nain ne moe odrediti ni da li ma koji ei iz E uopte pripada skupu C.
Stepen zatvorenosti ovakve klasifikacije definisan je merom
n

z = (
i =1

r )n
j =1

ij

1;

pa su, prema tome, zatvoreni razliveni skupovi poseban sluaj otvorenih razlivenih skupova kod kojih je mera
zatvorenosti jednaka 1.
Kod otvorenih razlivenih skupova mogue je odrediti i stepen determiniranosti svakog objekta ei iz E.
Naime, elementi vektora

k = (ki ) = R ek
za koje vredi

ki 1 ei
jesu mera stepena determiniranosti klasifikacije objekata ei iz E nekim algoritmom za klasifikaciju.
I kod klasifikacija koje proizvode otvorene razlivene skupove elementi vektora

q = (q j ) = R t en
proporcionalni su ukupnoj gustini podskupova cj tako da se relativne gustine tih podskupova, definisane elementima
vektora

m = ( m j ) = q n 1 ,
mogu tretirati kao procene verovatnoa

p (e c j )
ako je E sluajan uzorak iz B. Ali sada, naravno,

z = mt ek 1,
pa je pokrivanje skupa E skupom C nepotpuno za meru 1 z.
Ako je ki < 1 ei, z je nuno < 1, pa su klasifikacije uinjene na svakom objektu ei iz E linearno
nezavisne. Ponovo, osim u degenerativnom sluaju da je neki vektor rj iz R linearna kombinacija preostalih
vektora, matrica

T = Rt R
koja sadri krosprodukte vektora rj koji korespondiraju sa podskupovima cj bie regularna; elementi matrice

U = (u jl ) = T n 1
bie procene verovatnoa

p jl = p (ei c j cl ),
i kako ni sada T ne moe biti dijagonalna matrica, to ne moe biti ni matrica U, pa su prema tome varijable kojima je
reprezentirana neka klasifikacija koja proizvodi otvorene razlivene skupove linearno nezavisne, ali nuno u nenultim
relacijama. Te relacije, definisane kosinusima uglova vektora rj iz R, jesu elementi matrice

= (v jl ) = 1 / 2 T 1 / 2 ,
gde je

= diag T ,
i mogu se interpretirati kao mere slinosti izmeu podskupova skupa C.
240

Objavljeni radovi

Svaki algoritam, i uopte svaki postupak koji generira otvorene razlivene skupove, formira, u stvari, k
linearno nezavisnih, ali meusobno nuno povezanih varijabli koje, budui da su definisane verovatnoama,
sigurno lee na nekoj apsolutnoj skali, jer verovatnoa pij koja je jednaka nuli sigurno znai odsustvo
karakteristika kojima je definisan neki podskup cj za objekt ei, a nema razumne monotone transformacije
verovatnoa pij kojom bi se postiglo da tako transformisane varijable sadre ona svojstva koja imaju mere
iskazane u verovatnoama.
Razmotrimo sada neke od moguih generatora otvorenih razlivenih skupova.
(1) Klasifikacija na osnovu ishoda merenja.
Svaka operacija merenja, u bilo kojoj nauci, a pogotovo u antropolokim naukama, optereena je
nekom pogrekom merenja.
To zapravo znai da je rezultat, dobijen merenjem, definisan, s nekom
verovatnoom, u okviru raspona rezultata koji je odreen prihvaenom merom pouzdanosti zakljuivanja.
Taj je raspon, naravno, definisan koeficijentom pouzdanosti mernog instrumenta, a i ovaj je odreen do na
neku pogreku procene. To nuno znai da zbir verovatnoa razliitih rezultata nije 1, pa svaka diskretizacija
neke kontinuirane varijable, proizvedene bilo kojim realnim mernim instrumentom, dakle instrumentom ija
je pouzdanost manja od 1, proizvodi razlivene otvorene skupove.
(2) Klasifikacija na osnovu ishoda taksonomskih algoritama koji ekstremiziraju neku parsimonijsku
funkciju.
Svi algoritmi koji klasifikuju objekte iz nekog skupa objekata ekstremizacijom neke parsimonijske
funkcije zapravo su specijalni sluajevi algoritma COMTAX (Momirovi, 1986). Svaki od njih definie
pozicije objekata na taksonomskim dimenzijama, koje su dobijene linearnim transformacijama varijabli
kojima su ti objekti opisani tako da se, u razliitim metrikim prostorima, ekstremizira neka funkcija cilja uz
neke odreene uslove. I bez obzira na to to su vrednosti na tim varijablama odreene do na neku pogreku
merenja, alokacija objekata u podskupove koji korespondiraju sa taksonomskim dimenzijama odreena je
nekom funkcijom udaljenosti vektora objekata od taksonomskih vektora, koja, uz neku pretpostavku o
funkciji distribucije taksonomskih varijabli, generira neku procenu verovatnoe da neki objekt pripada
nekom od dobijenih podskupova. Zbir tih verovatnoa je, skoro uvek, manji od 1, pa stoga i ovi, inae vrlo
efikasni algoritmi, formiraju otvorene razlivene skupove.
(3) Klasifikacija na osnovu multidimenzionalnog skaliranja objekata opisanih merama njihovih razlika
ili njihove slinosti.
Sve metode metrikog ili nemetrikog multidimenzionalnog skaliranja (dobar pregled tih metoda
moe se nai u, na primer, Shepard, Romney i Nerlove, 1972; Davison, 1983: Kruskall i Wish, 1978) sastoje
se, u stvari, u odreivanju optimalnog koordinatnog sistema za neku konfiguraciju taaka. Veina tih
metoda, najee nakon neke parsimonijske transformacije inicijalnog koordinatnog sistema, definie
dimenzije na kojima slini objekti imaju sline projekcije, pa je konaan ishod logiki slian ishodu
taksonomskih algoritama koji formiraju taksone parsimonijskim transformacijama matrica podataka ili neke
komprimirane forme tih matrica. Zbog toga i ovi algoritmi generiraju, kao i ti taksonomski algoritmi,
otvorene razlivene skupove, budui da je na osnovu projekcija objekata na dimenzije dobijenih
multidimenzionalnim skaliranjem, ija je funkcija distribucije u pravilu nepoznata, pogotovo nemogue
odrediti verovatnoe pripadanja objekata pojedinim taksonima tako da zbir tih verovatnoa bude 1.
(4) Klasifikacija na osnovu dijagnostikih operacija.
Dijagnostike operacije u klinikoj psihologiji, medicini i slinim naukama ili vetinama u pravilu su
ishod nekog, ne sasvim jasno definisanog procesa sinteze ne sasvim precizno dobijenih
informacija, ija relativna vanost nije gotovo nikada tano numeriki odreena i ija je pouzdanost vrlo
esto nepoznata. Zbog toga niko razuman, osim lekara i drugih laika, ne postavlja neku, pogotovo ne
diferencijalnu dijagnozu, uveren da je verovatnoa da je ta dijagnoza ispravna jednaka 1. Ako se kod
postavljanja diferencijalnih dijagnoza eksplicitno ili implicitno procenjuje verovatnoa pripadanja objekata
koji su predmet dijagnostikih operacija razliitim nozolokim kategorijama, zbir tih verovatnoa, kod iole
savesnih dijagnostiara, svesnih nedovoljnosti informacija na osnovu kojih su dijagnoze postavili i svesnih
suboptimalnosti dijagnostikih algoritama (jer je lako dokazati (Momirovi, 1989) da su i dijagnostiki
algoritmi implementirani u dijagnostike ekspertne sisteme suboptimalni), nee gotovo nikada biti 1, pa
stoga i dijagnostike operacije formiraju otvorene razlivene skupove.

241

Konstantin Momirovi u statistici

(5) Subjektivni sudovi.


Sudovi koje obini ljudi svakodnevno izriu sastoje se, zapravo, u tome da se nekom subjektu pridrui
neki predikat iz skupa dopustivih predikata koji se na taj subjekt mogu odnositi. Jasno je da je to, u stvari,
operacija klasifikacije, koja se sastoji u tome da se neki subjekt uvrsti u podskup svih subjekata na koje se
neki predikat moe odnositi. I ako broj predikata moe biti konaan, zbir subjektivnih verovatnoa,
procenjenih, na primer, na osnovu stepena uverenosti u ispravnost suda da neki subjekt pripada
podskupovima koji su definisani tim predikatima nee, osim kod glupaka, neznalica, paranoidnih osoba ili
osoba s jakom analnom fiksacijom, gotovo nikada biti jednak 1. Prema tome, gotovo svi ljudi, gotovo svakog
dana, generiraju otvorene razlivene skupove.

3. Dve otvorene razlivene klasifikacije

Neka je B populacija nekih objekata koja se, na osnovu bilo kog argumenta, moe smatrati
heterogenom. Neka je
E = (ei; i = 1,..., n) B
bilo kakav, eventualno i sluajan, uzorak iz populacije B. Neka je U univerzum svih dopustivih klasifikacija
populacije B, pa zato i objekata iz uzorka E. Neka su
Ca = (cj; j = 1,..., ka)
i
Cb = (cq; q = 1,..., kb)
skupovi dobijeni primenom bilo koje dve klasifikacije iz U, takve da generiraju otvorene razlivene skupove.
Pretpostavimo, ne gubei mogunost generalizacije, da je
kb ka,
i da je
2 ka, kb < n < .
Definiimo ea kao sumacioni vektor reda (ka), eb kao sumacioni vektor reda (kb) i en kao sumacioni
vektor reda (n).
Neka je
Ra = (rij) = E Ca
matrica kojom je predstavljena otvorena razlivena klasifikacija skupa E, i neka je
Rb = (riq) = E Cb
matrica kojom je predstavljena otvorena razlivena klasifikacija Cb skupa E. Ako su obe klasifikacije takve da
generiraju, ne nuno ni istim ni analognim postupkom, otvorene razlivene skupove, mere njihove zatvorenosti bie

za = ent Ra ea n 1 < 1
i

zb = ent Rb eb n 1 < 1.
Ako su obe klasifikacije uinjene na bilo koji smislen nain, vektori rj matrice Ra koji sadre
verovatnoe pripadanja objekata iz E podskupovima cj iz Ca bie linearno nezavisni, a tako e biti i sa
analognim vektorima rq matrice Rb, pa e stoga vredeti da je

Rat Ra 0
i

Rbt Rb 0.
242

Objavljeni radovi

4. Neke relacije izmeu dveju klasifikacija

Smisao mera slinosti izmeu dve klasifikacije koje formiraju otvorene razlivene skupove izvedenih u
prirodnoj metrici za varijable apsolutnog tipa bie mnogo jasniji ako se prethodno razmotre neke formalne
relacije izmeu tih klasifikacija. Pri tome je, jednostavnosti radi, pretpostavljeno da je kb ka, to jest da je
klasifikacija predstavljena matricom Rb grublja, ili jednako gruba kao i klasifikacija predstavljena matricom
Ra.
Definiimo

Waa = Rat Ra ,
Wbb = Rbt Rb ,
i

Wab = Rat Rb = Wbat


i uoimo da Waa i Wbb ne mogu biti dijagonalne matrice, ali da imaju regularan inverz, i da matrica Wab ne moe
biti nula matrica, jer i vektori rj iz Ra i vektori rq iz Rb lee u istom, pozitivnom hiperkvadrantu Rn prostora; tavie,
svi skalarni produkti tih vektora, dakle svi elementi matrica Waa, Wbb i Wab moraju biti pozitivni.
Definiimo

a = diag Waa
i

b = diag Wbb ,
Sada e mere slinosti podskupova iz Ca biti elementi matrice

aa = a1 / 2Waa a1 / 2 = (v js ),
mere slinosti podskupova iz Cb elementi matrice

bb = b1 / 2Wbb b1 / 2 = (vqr ),
a mere slinosti podskupova iz Ca i podskupova iz Cb elementi matrice

ab = a1 / 2Wab b1 / 2 = (v jq );
sve su te mere, oigledno, kosinusi uglova izmeu vektora kojima su predstavljeni podskupovi ovih skupova, dakle
Burt-Tuckerovi koeficijenti kongruencije koji su prirodna mera povezanosti varijabli apsolutnog tipa. Naravno, zbog
poloaja to ga u ma kom Rm prostoru zauzimaju sve apsolutne varijable,

0 < v js , vqr , v jq 1,
pa se ve sada vidi da u ovoj metrici slinost izmeu podskupova nekog razlivenog skupa, i slinost
izmeu
podskupova dvaju razliitih razlivenih skupova ne moe biti jednaka nuli ni za koji par tih podskupova.
Razmotrimo sada relacije izmeu klasifikacija predstavljenih matricama Ra i Rb na osnovu ishoda
regresijskog problema

Ra B = Ra + N = trag ( N t N ) = minimum.
Funkcija koju treba minimizirati je

= trag (( Rb Ra B)t ( Rb Ra B))


= trag (Wbb 2 B tWab + B tWaa B)
pa derivacija ove funkcije s obzirom na B daje

/ B = 2Wab + 2Waa B;
deljenjem sa 2 i svoenjem na nulu,

Waa B = Wab ,
i otuda

B = Waa1 Wab .
243

Konstantin Momirovi u statistici

Prema tome, matricom

Rb = Ra B
= Ra Waa1 Wab
= Ra ( Rat Ra ) 1 Rat Rb
bie predstavljena klasifikacija objekata iz E izvedena iz klasifikacije Ca, koja je, pod kriterijem najmanjih kvadrata,
najslinija klasifikaciji Cb. Definiimo

H = Ra ( Rat Ra ) 1 Rat
i uoimo da je H projektor koji, u stvari, projicira vektore iz Rb u prostor koji razapinju vektori iz Ra. Otuda su
vektori u matrici

Rb* = H Rb
reprezentanti klasifikacije Cb u prostoru klasifikacije Ca, pa je Euklidska mera udaljenosti izmeu stvarne
klasifikacije Cb i klasifikacije C b * koja se moe izvesti iz klasifikacije Ca.
Relacije podskupova definisanih takvom uslovljenom klasifikacijom proporcionalne su skalarnim
produktima vektora rq* iz Rb* i elementi su matrice

W = Rb*t Rb*
= Wba Waa1 Wab ;
uoimo da W ne moe biti nula matrica, i da je sigurno regularna.
Za ponaanje mera slinosti izmeu klasifikacija Ca i Cb od znaaja su relacije izmeu vektora matrice

N = Rb Rb*
= Rb Ra Waa1 Wab ,
kao i krosrelacije vektora iz matrica N, Ra, Rb i R *b . Eksplicitne forme tih relacija su

N t N = ( Rb RaWaa1Wab )t ( Rb RaWaa1Wab )
= Wbb Wba Waa1 Wab
= Wbb W ,
R N = Rat ( Rb RaWaa1Wab )
t
a

= Wab Waa Waa1 Wab


= 0,
Rbt N = Rbt ( Rb RaWaa1Wab )
= Wbb Wba Waa1 Wab
= Wbb W ,
R N = WbaWaa1Rat ( Rb RaWaa1Wab )
*t
b

= Wba Waa1 Wab Wba Waa1 Wab


= 0,

Rat Rb* = WaaWaa1Wab


= Wab .
Rbt Rb* = WbaWaa1Wab
i
244

= W.

Objavljeni radovi

Neka je

w = diag W
i

n = diag ( N t N ) = b w .
Mere slinosti podskupova iz Cb projiciranih u prostor definisan podskupovima iz Ca bie elementi
matrice

w = (vst ) = w1 / 2 W w1 / 2
a mere slinosti rezidualnih podskupova, definisanih matricom N, elementi matrice

n = (vqs ) = n1 / 2 (Wbb W ) n1 / 2 .
Kako matrica W ne moe biti nula matrica,
0 < vst 1,
a kako je N = 0 onda i samo onda kada je Ca = Cb Ra = Rb,
0 vqs 1.
5. Mere slinosti dve razlivene klasifikacije

Ono to se naziva razmiljanjem svodi se, gotovo bez ostatka, na donoenje sudova i poreenje
sudova. Kako se skoro svi sudovi, bez obzira na to jesu li intuitivne naravi ili posledica nekog taksonomskog
algoritma, mogu svesti na neku operaciju klasifikacije, i kako mnoge od tih operacija formiraju otvorene
razlivene skupove, od izvesnog je interesa razmotriti neke mere slinosti dve klasifikacije koje, u optem
sluaju, proizvode takve skupove.
(1) Razmer volumena paralelotopa dobijenog projekcijom vektora definisanih jednom od klasifikacija
u prostor koji razapinju vektori dobijeni drugom klasifikacijom i volumena paralelotopa definisanog
vektorima prve od tih klasifikacija.
Neka je k = kb i neka je
k

g = W = s
s =1

gde su s; s = 1,..., k kvadratne forme dobijene reavanjem problema

vst W vs = s s = maximum

s s +1
vst vt = st
gde je st Kroneckerov simbol, dakle svojstvene vrednosti matrice W. Oigledno, g, determinanta matrice W,
definie volumen paralelotopa koji, u Rk prostoru, formiraju vektori matrice R *b .
Neka je
k

gb = Wbb = s
s =1

gde su s; s = 1,..., k kvadratne forme dobijene reavanjem problema

u st Wbb us = s s = maximum

s s +1
u st ut = st
245

Konstantin Momirovi u statistici

dakle svojstvene vrednosti matrice Wbb. Naravno, gb, determinanta matrice Wbb, definie volumen paralelotopa
koji, u Rk prostoru, formiraju vektori matrice Rb.
Propozicija 1.
Koeficijent
1 = g / gb
je mera slinosti izmeu klasifikacija Ca i Cb i varira u rasponu 0 < 1 1.
Dokaz:
Kako je W pozitivno definitna matrica, jer je R *b matrica iji su vektori rq* linearno nezavisni, to je g
> 0 1 > 0. Vektori matrice Rb dobijeni su projekcijom vektora matrice Rb u prostor koji razapinju vektori
matrica Ra, pa je stoga

(rq*t rq* ) (rqt rq ) q;


otuda je i volumen paralelotopa definisanog vektorima matrice R *b manji ili jednak volumenu paralelotopa
definisanog vektorima matrice Rb, pa je stoga g gb 1 1. Koeficijent 1 moe dostii vrednost 1 onda i samo
onda kada je Ra = Rb, jer je, zapravo,

W = Rbt H Rb ,
a H je projektor izveden iz Ra; otuda je 1 = 1 onda i samo onda kada je Ca = Cb. Kako operacija

Rb* = H Rb
skrauje vektore rq iz Rb za duine q, gde su q dijagonalni elementi matrice

(diag (Wbb Wba Waa1 Wab ))1 / 2 ,


to e 1 biti sve blii 1 to su klasifikacije Ca i Cb slinije, to je i trebalo dokazati.
(2) Kvadrat kosinusa minimalnog ugla koga zaklapaju kanoniki vektori izvedeni iz vektora
definisanih klasifikacijama Ca i Cb.
Razmotrimo meru definisanu reenjem problema

2 = ( x tWx) /( x tWbb x) = maximum ( x tWbb x) = 1.


Funkcija koju treba maksimizirati je

f ( x, ) = ( x tWx) /( x tWbb x) ( x tWbb x 1),


gde je neki nepoznati Lagrangeov multiplikator. Derivacijom ove funkcije s obzirom na x,

f ( x, ) / x = 2Wx 2 Wbb x;
nakon deljenja sa 2 i svoenja na nulu,

W x = Wbb x,
ili

(W Wbb ) x = 0,
to se moe napisati i u obliku

(Wbb1 Wba Waa1 Wab I ) = 0,


iz ega sledi

2 = .
246

Objavljeni radovi

Propozicija 2.
Koeficijent

2 = ( y t Wab x) 2 ,
gde je

y = Waa1 Wab x 1 / 2 ,
mera je slinosti izmeu klasifikacija Ca i Cb i varira u rasponu 0 < 2 1.
Dokaz:
Reimo kanoniki problem

Ra y = qa

= qat qb = y tWab x = maximum

Rb x = qb

qat qa = y tWaa y = 1
qbt qb = x tWbb x = 1.

Funkcija koju treba maksimizirati je

f ( y, x, , ) = y t Wab x 1 / 2 ( y t Waa y 1) 1 / 2 ( x t Wbb x 1),


gde su i nepoznati Lagrangeovi multiplikatori. Deriviranjem ove funkcije s obzirom na y i izjednaavanjem s
nulom

f ( y, x, , ) / y = Wab x Waa y = 0,
a deriviranjem s obzirom na x i izjednaavanjem s nulom

f ( y, x, , ) / x = Wba x Wbb x = 0.
Mnoenjem s leva prve jednaine sa yt, a druge sa xt,

y t Wab x y t Waa y = 0
i

x t Wba y x t Wbb x = 0.
Kako je

y t Waa y = 1
i

x t Wbb x = 1,
to je

= = y t Wab x = ,
pa se rezultati dobijeni derivacijama funkcije f (y, x, , ) mogu napisati kao

Wab x Waa y = 0
i

Wba y Wbb x = 0.
Ako prvu od tih jednaina pomnoimo sa W-1aa a drugu sa ,

Waa1 Wab x = y
i
247

Konstantin Momirovi u statistici

Wba y = 2 Wbb x,
pa zamenom

Wba Waa1 Wab x = 2 Wbb x


dakle

(W 2 Wbb ) x = 0;
naravno,

y = Waa1 Wab x 1.
Prema tome,

2 = 2 ,
pa kako je , oigledno, kosinus ugla izmeu vektora qa i qb, a W ne moe biti nula matrica,

0 < 2 1;
jasno je da 2 dostie 1 onda i samo onda kada je W = Wbb, dakle kada je Ca i Cb, a pribliava se toj vrednosti
utoliko vie ukoliko su te klasifikacije slinije. Prema tome, 2 je mera slinosti izmeu klasifikacija Ca i Cb, a to je i
trebalo dokazati.
(3) Relativna operatorska norma matrice krosprodukata vektora definisanih klasifikacijama Ca i Cb.
Neka je bilinearna forma dobijena reavanjem problema

= s t Wab t = maximum s t s = t t t = 1,
dakle, neka je maksimalna singularna vrednost matrice Wab. Neka su 2 i 2 kvadratne forme dobijene reavanjem
problema

2 = b tWaa b = maximum bt b = 1
i

2 = u tWbbu = maximum u t u = 1,
dakle, neka su 2 i 2 najvee svojstvene vrednosti matrica Waa i Wbb. Naravno, , 2 i 2 su, istovremeno, i
operatorske norme matrica Wab,Waa i Wbb.
Definiimo kao meru slinosti klasifikacija Ca i Cb koeficijent

3 = 1 1.
Propozicija 3.
Koeficijent 3, relativna operatorska norma matrice Wab, jeste mera slinosti izmeu klasifikacija Ca i
Cb i varira u rasponu

0 < 3 1.
Dokaz:
Kako su elementi matrice Wab skalarni produkti vektora rj iz Ra i vektora rq iz Rb, oni su oigledno
proporcionalni merama slinosti izmeu poskupova cj iz Ca i podskupova Cq iz Cb, pa je maksimalna
operatorska norma matrice Wab proporcionalna intenzitetu slinosti izmeu klasifikacija Ca i Cb. Kako Wab
ne moe biti nula matrica, > 0 3 > 0. Ostaje da se dokae da je 3 1, i da dostie 1 onda i samo onda
kada je Ca = Cb.
Definiimo s* = Ras, t* = Rbt, b* = Rab i u* = Rbu. Iz uslova pod kojima su dobijene operatorske norme
248

Objavljeni radovi

matrica Waa i Wbb sledi da je

s*t s* b*t b* = 2
i da je

t *t t * u *t u * = 2 ,
pa, primenom generalizovane Cauchy-Schwartzove nejednaine,

( s*t t * ) 2 (b*t b* ) (u *t u* ) 2 2 2 ,
dakle

3 1,
a to je i trebalo dokazati. Jasno je da je 3 = 1 onda i samo onda kada je = 2 = 2, to je mogue samo ako je Ra =
Rb, i da je , pa stoga i 3, monotona rastua funkcija neke stvarne mere slinosti izmeu Ca i Cb.
(4) Razmer operatorske norme matrice krosprodukata vektora definisanih jednom od klasifikacija
projiciranih u prostor koga razapinju vektori definisani drugom klasifikacijom i operatorske norme matrice
krosprodukata vektora definisanih prvom od tih klasifikacija.
Neka je 2 kvadratna forma dobijena reavanjem problema

2 = v t W v = maximum v t v = 1
dakle najvea svojstvena vrednost matrice W, i neka je i sada

2 = u t Wbbu = maximum u t u = 1
dakle najvea svojstvena vrednost matrice Wbb. Uoimo da je 2 operatorska norma matrice

W = Rbt H Rb ,
gde je

H = Ra ( Rat Ra ) 1 Rat
projektor izveden iz matrice Ra, a 2 operatorska norma matrice

Wbb = Rbt Rb ,
i da je stoga 2 2.
Definiimo kao meru slinosti izmeu klasifikacija Ca i Cb koeficijent

4 = 2 / 2 .
Propozicija 4.
Koeficijent 4 je mera slinosti izmeu klasifikacija Ca i Cb i varira u rasponu

0 < 4 1.
Dokaz:
Iz dokaza Propozicije 2. jasno je da je svaka kvadratna forma matrice W funkcija stvarne slinosti
izmeu klasifikacija Ca i Cb. Uostalom, razmotrimo neku, najbolje maksimalnu, kvadratnu formu matrice
Wbb. Lako se vidi da je

2 = u t Wbb u = u t W u + u t (Wbb W ) u,
i da stoga 2, maksimalna kvadratna forma matrice W, moe dosei 2 samo ako je

N = Rb Ra Waa1 Wab
249

Konstantin Momirovi u statistici

nula matrica, to je mogue onda i samo onda ako je Ca = Cb. Zbog toga je i 4 mera slinosti izmeu klasifikacija Ca
i Cb i varira u rasponu 0 < 4 1, to je i trebalo pokazati.
(5) Razmer traga matrice krosprodukata vektora definisanih jednom od klasifikacija projiciranih u
prostor koji razapinju vektori definisani drugom klasifikacijom i traga matrice krosprodukata vektora
definisanih prvom od tih klasifikacija.
Neka je

t = trag W
i

tb = trag Wbb .
Definiimo kao meru slinosti izmeu klasifikacija Ca i Cb koeficijent

5 = t / tb .
Propozicija 5.
Koeficijent p5 je mera slinosti izmeu klasifikacija Ca i Cb i varira u rasponu

0 < 5 1.
Dokaz:
Oigledno,

trag Wbb = trag W + trag (Wbb W ) = tb = t +


odakle sledi da e 5 biti utoliko blii 1 ukoliko je , pogreka prognoze klasifikacije Cb na osnovu klasifikacije Ca,
manja, i dosei 1 onda i samo onda kada je = 0, to je mogue samo ako je Ca = Cb. Prema tome, 5 je zaista mera
slinosti izmeu klasifikacija Ca i Cb, a to je i trebalo pokazati.
(6) Razmer kvadrata normalne norme matrice krosprodukata vektora definisanih jednom od
klasifikacija projiciranih u prostor koji razapinju vektori definisani drugom klasifikacijom i kvadrata
normalne norme matrice krosprodukata vektora definisanih prvom od tih klasifikacija.
Neka je

w = ebt (W ~ W )eb ,
gde je ~ oznaka Hadamardovog mnoenja, kvadrat normalne norme matrice W, i neka je

wb = ebt (Wbb Wbb ) eb


kvadrat normalne norme matrice Wbb. Definiimo kao meru slinosti izmeu klasifikacija Ca i Cb koeficijent

6 = w / wb .
Propozicija 6.
Koeficijent 6 je mera slinosti izmeu klasifikacija Ca i Cb i varira u rasponu

0 < 6 1.
Dokaz:
Kako je svaka norma matrice W funkcija neke mere stvarne slinosti izmeu klasifikacija Ca i Cb, to
je i normalna norma te matrice takva funkcija, pa prema tome i kvadrat normalne norme. Uoimo, pri tome,
da je

0 < et (W ~ W ) e et (Wbb ~ Wbb ) e ,


iz ega neposredno sledi da je 6 zaista mera slinosti izmeu klasifikacija Ca i Cb i da varira u rasponu 0 < 6 1,
to je i trebalo pokazati.
250

Objavljeni radovi

6. Neke zavrne napomene

Ako dve klasifikacije proizvode otvorene razlivene skupove, logiki je nezamislivo da slinost izmeu
tih klasifikacija bude jednaka nuli, jer je nemogue da dva vektora iji su elementi verovatnoe budu
ortogonalna.
Ako je ipak zbog neega potrebno da se uvede pojam nulte slinosti izmeu dveju klasifikacija,
predloene je mere na trivijalan nain mogue redefinisati tako da svi koeficijenti v; v = 1,..., 6, variraju u
rasponu

0 v 1.
To se moe postii transformacijama

Qa = Ra A Ra
i

Qb = Rb A Rb ,
gde je

A = en (ent en ) ent ,
dakle centriranjem verovatnoa da objekti iz E pripadaju podskupovima cj iz Ca, odnosno cq iz Cb, na nulu. U tom
sluaju,

Vab = Qat Qb
moe biti nula matrica, pa stoga sve predloene mere slinosti mogu biti jednake nuli; naravno, i dalje e gornja
granica svake od tih mera biti jednaka 1.
Meutim, ova transformacija uvodi, u stvari, pojam negativne verovatnoe, i ne doputa da
verovatnoa da neki objekt pripada nekom od podskupova bude jednaka 1. Osim toga, naravno, zbir tako
dobijenih pseudoverovatnoa da objekti iz E pripadaju ma kom podskupu iz skupova Ca, Cb bie jednak
nuli, to je isto tako besmisleno. Zbog toga je, dok se ne definiu mere slinosti u 2 metrici, i ne ispita
smislenost tih mera, razumno prihvatiti injenicu da dve razlivene klasifikacije ne mogu biti nezavisne.

Literatura
Anderberg, M. R. (1973): Cluster analysis for applications. Academic Press, New York.
Backer, J. (1978): Cluster analysis by decomposition of induced fuzzy sets. Delft Technical University, Delft.
Bezdek, J. C. (1981): Pattern recognition with fuzzy objective function algorithms. Plenum Press, New York.
Bodjanova, S. (1991): Some relations between hard and fuzzy classification of multivariate statistical
observations. Zbornik radova 4. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni
zavod za statistiku, Institut za statistiku, Beograd, 27 - 41.
Davison, M. L. (1983): Multidimensional scaling. Wiley, New York.
Devijver, P. A.; Kittler, J. (1982): Pattern recognition: A statistical approach. Prentice Hall, Englewood
Cliffs.
Everitt, B. S. (1974): Cluster analysis. Haineman, London.
Ferligoj, A. (1989): Razvravanje v skupine. Metodoloki zvezki, 4, JUS, Ljubljana.
Hartigan, J. A. (1975): Clustering algorithms. Wiley, New York.
Ivanovi, B. (1989): Odstojanje izmeu dve klasifikacije jednog statistikog skupa. Zbornik radova 3. sekcije
za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni zavod za statistiku, Institut za statistiku,
Beograd, 79 -87.
Jambu, M. (1979): Classification automatique pour l' analyse des donnees. Dunod, Paris.
Kruskal, J. B. (1978): Multidimensional scaling. Sage, Beverly Hills.
Momirovi, K.; Zakrajek, E. (1973): Odreivanje taksonomskih skupina direktnom oblimin transformacijom
ortogonaliziranih originalnih i latentnih varijabli. Kineziologija, 3, 1: 83 - 92.
Momirovi, K. (1978):XTQ procedures for the determination of polar taxonomic variables. Informatica 78, 3:104.
Momirovi, K.; Gredelj, M. (1982): Jednostavan postupak za detekciju konsistentnih rojeva. Zbornik VI
simpozija iz informatike, ETF, Sarajevo, 282: 1-7.
251

Konstantin Momirovi u statistici

Momirovi, K, (1986): COMTAX: Algoritam i program za detekciju i komparaciju polarnih i distinktnih


taksona. Statistika revija, 36, 3-4: 141 - 149.
Momirovi, K. (1988): Uvod u analizu nominalnih varijabli. Metodoloke sveske, 2, JUS, Ljubljana.
Momirovi, K. (1989): On the real value of diagnostic expert systems. Proceedings of 13th Informatics
Technologies Conference, 207: 1 - 6.
Momirovi, K. (1993): O jednom taksonomskom algoritmu u parcijalnom image prostoru. Zbornik radova 6.
i 7. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni zavod za statistiku, Institut za
nacionalne raune, registre i analizu, Beograd, 22 - 30.
Ruspini, E. H. (1973): New experimental results in fuzzy clustering. Information Sciences, 6: 273 - 284.
Ruspini, E. H. (1982): Recent developments in fuzzy clustering. In R. R. Yager, Fuzzy sets and possibility
theory, Pergamon Press, New York.
Shepard, R. N.; Romney, A. K.; Nerlove, S. B. (1972): Multidimensional scaling: Theory and applications in
the behavioral sciences. Vol. 1. Seminar Press, New York.
Szirovicza, L.; Gredelj, M.; Momirovi, K. (1978): MORPHOTAX: Algoritam i program za taksonomsku
analizu u prostoru multivarijantno normalno rasporeenih varijabli. Informatica 78, 7: 105.
Tou, J. T.; Gonzales, R. C. (1974): Pattern recognition principles. Addison - Wesley, Reading.
Watada, J.; Tanaka, H.; Asai, K. (1982): A heuristic method of hierachical clustering for fuzzy intransitive
relations. In R. R. Yager, Fuzzy sets and possibility theory, Pergamon Press, New York.
Zegers, F. E.; Ten Berge, J. M. F. (1985): A family of association coefficients for metric scales.
Psychometrika, 50:17 - 24.
Zlobec, L. (1975): Komparativna analiza nekih taksonomskih algoritama. Magistarski rad, Elektrotehniki
fakultet, Zagreb.

252

Objavljeni radovi

(19) ZBORNICI RADOVA 1994 VIII (3)

Majski skup 1994, Beograd

Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja i


Filozofski fakultet Univerziteta u Beogradu
Goran Kneevi, Boris Kuzeljevi i Bora Radovi
Institut za kriminoloka i socioloka istraivanja
MERE ASOCIJACIJE IZMEU JEDNE NOMINALNE I JEDNOG
SKUPA KVANTITATIVNIH VARIJABLI
Predloene su etiri mere asocijacije jedne nominalne i jednog skupa
kvantitativnih varijabli, dakle mere razlika vektora aritmetikih sredina definisanih
na subpopulacijama neke populacije, koje su definisane karakteristikama koje
opisuje neka nominalna varijabla. Sve su te mere definisane kao razmeri identino
definisanih skalarnih funkcija matrice intergrupnih kovarijansi i matrice
interkorelacija nekog skupa standardizovanih varijabli. Prva od tih mera, ,
dobijena je ekstremizacijom kolinika izmeu kvadratnih formi tih matrica, i
pokazano je da se svodi na kvadrat maksimalnog koeficijenta kanonike korelacije.
Druga mera,, definisana je kao kolinik maksimalnih kvadratnih formi tih matrica,
i pokazano je da se svodi na neku vrstu korelacionog razmera glavne komponente
kvantitativnih varijabli, i glavne komponente tih varijabli projiciranih u prostor
nominalnih varijabli. Trea mera, , definisana je kao razmer traga matrice,
intergrupnih kovarijansi i traga matrice interkorelacija, i pokazano je da se svodi
na prosek korelacionih kolinika svake od kvantitativnih varijabli. etvrta mera, ,
definisana je kao razmer kvadrata normalne norme matrice intergrupnih kovarijansi
i normalne norme matrice interkorelacija, i pokazano je da se ponaa kao neka
mera reprezentativnosti uzorka kvantitativnih varijabli za diferencijaciju
podskupova definisanih nekom nominalnom varijablom. Za sve predloene mere
dokazano je da variraju u rasponu <0, 1> i da su monotona rastua funkcija
stvarne povezanosti izmeu jedne nominalne i jednog skupa kvantitativnih varijabli.
Za razliku od mere , mere , i nisu osetljive na determiniranost matrice
kovarijansi kvantitativnih varijabli, i zbog toga su manje osetljive i na prisutnost
entiteta sa ekstremnim vrednostima na tim varijablama od Fisherovog
generalizovanog koeficijenta intergrupne korelacije.
KLJUNE REI: multivarijantna analiza varijanse / diskriminativna analiza
/ mere asocijacije

ON SOME MEASURES OF ASSOCIATION BETWEEN A QUALITATIVE AND A SET OF


QUANTITATIVE VARIABLES
Four measures of association between a categorical variable and a set of
quantitative variables have been proposed. These measures are, in fact, measures of
differences of centroidvectors of sub populations of a population. All these measures
are defined as ratios of identically defined scalar functions of matrix of inter-group
covariances and the matrix of intercorrelations of the set ofstandardized variables.
The first of these measures, , wasobtained through an extremization of the ratio
between thequadratic forms of these matrices. It was demonstrated that, tthis
measure could be reduced to the square value of themaximal coefficient of canonical
correlation. The secondmeasure, , was defined as the ratio of the maximal
quadratic forms of these matrices. It was demonstrated that this measure could be
reduced to some form of the correlational ratio of the principal component of
253

Konstantin Momirovi u statistici

quantitative variables and the principal component of these variables projected into
the space of nominal variables. The third measure, , was defined as the ratio of the
trace of the matrix of inter-group covariances and the trace of the matrix of
intercorrelations. It was demonstrated that this measure could be reduced to the
average value of correlational ratios of each of these quantitative variables.,The
fourth measure, , was defined as the ratio of the square value of the normal norm
of the matrix of intergroup covariances and the normal norm of the matrix of
intercorrelations. It has been demonstrated that it behaves like a measure of
representativeness of a sample of quantitative variables for differentiation of subgroups defined by some nominal variable. It has been equally demonstrated that all
of the measures proposed vary from 0 to 1. Also, it has been prooved that they are
the monotonously growing function of the real relationship between a nominal
variable and a group of quantitative variables. Quite contrary to the measure ,
measures , and are not sensitive to the singularity or near singularity of the
matrix of covariances of quantitative variables. Moreover, when compared with
Fisher's generalized coefficient of intergroup correlation, they turn out to be less
sensitive to the presence of entities with extreme values on any one of quantitative
variables.
KEY WORDS: multivariate analysis of variance / discriminant analysis /
measures of association
1. Uvod

U jednom, nedavno publikovanom radu (Wolf i Momirovi, 1993) predloeno je nekoliko mera
asocijacija izmeu dva skupa kvantitativnih varijabli. Sve su te mere izvedene kao kvocijenti skalarnih
funkcija matrice kovarijansi jednog skupa varijabli projiciranih u prostor koji razapinju vektori drugog skupa
varijabli, i identino definisanih skalarnih funkcija matrice kovarijansi prvog od tih skupova.
U ovom e radu biti predloene analogno definisane mere asocijacije izmeu jedne nominalne i jednog
skupa kvantitativnih varijabli. Bie pokazano da su te mere istovremeno i mere globalnih razlika izmeu
vektora aritmetikih sredina podskupova entiteta definisanih kategorijama neke nominalne varijable, i da se
neke od njih mogu svesti na drugaije izvedene mere globalnih razlika vektora aritmetikih sredina,
predloene u okviru multivarijantne analize varijanse ili kanonike diskriminativne analize, koje se spominju
u nekim radovima koji tretiraju ove, uostalom formalno identine metode (Anderson, 1966; Anderson, 1984;
Bryan, 1975; Cooley i Lohnes, 1971; Fisher, 1975; Ivanovi, 1963; Momirovi i Dobri, 1984; 1988;
Porebski, 1975; Rao, 1968; 1975; Romeder, 1973). Ostale mere koje e biti predloene ne mogu se,
meutim, svesti ni na jednu do sada poznatu meru, ali su ipak, neke od njih robustne, mere asocijacije
izmeu jedne nominalne i jednog skupa kvantitativnih varijabli, jer su definisane funkcijama varijabli u
Pearsonovoj metrici (Guttman, 1988; Momirovi, 1989).
Kako svaka klasifikacija koja proizvodi kompaktne skupove proizvodi, u stvari, jednu nominalnu
varijablu, predloene mere mogu se smatrati i merama efikasnosti klasifikacijskih algoritama da u prostoru
definisanom nekim skupom kvantitativnih varijabli zaista pronau distinktne podskupove entiteta.
2. Definicije

Neka je E = (ei; i = 1,..., n) B sluajan uzorak iz neke heterogene populacije B = Ugk Bk, gde su Bk
prirodne, eksperimentalno generirane ili nekim klasifikacijskim algoritmom formirane subpopulacije iz B.
Neka
je
B = (wk; k = 1,..., g) nominalna varijabla koja opisuje podskupove Bk iz B.
Neka je
S = (sik) = E B

i = 1,..., n
k = 1,..., g

indikatorska matrica dobijena opisom skupa E nad skupom B iji su elementi definisani funkcijom

254

Objavljeni radovi

sik = 1 ei mk

sik = 0 ei mk .
Neka je
P = S (StS)-1 St
projektor izveden iz indikatorske matrice S, dakle operator koji projicira svaki vektor z reda (n) u prostor koga
razapinju vektori kojima je opisano pripadanje entiteta iz E podskupovima iz B.
Neka je B = (vj; j = 1,..., m) U skup kvantitativnih varijabli, dakle varijabli barem intervalnog tipa,
koji je, u skladu s nekim teorijskim modelom, ili na osnovu valjanih empirijskih argumenata, izabran iz
nekog univerzuma varijabli U sa istim poljem znaenja. Pretpostavimo da sve varijable iz B imaju neku
eliptinu funkciju distribucije, to jest da imaju konane etvrte momente.
Neka je
B = (bij) = E B

i= 1,..., n
j= 1,..., m

matrica podataka, dobijena opisom skupa E nad skupom B.


Neka je e = (ei), i = 1,..., n; ei = 1 ei sumacioni vektor reda (n), i neka je
C = e(ete)-1et
iz tog vektora izvedeni centroidni projektor. Definiimo levu metriku matrice podataka matricom
L = (I C)
a desnu metriku matrice podataka matricom
D = (diag(BtB Bt C B)n-1)-1/2 n-1/2.
Sada e matrica
Z=LBD
biti matrica koja, u standardnoj normalnoj formi, opisuje skup E nad skupom B, pa e
R = ZtZ
biti matrica produkt-moment koeficijenata korelacije varijabli B na skupu E.
Neka je
E = P Z = (eij)
matrica dobijena projekcijom vektora iz Z u prostor koji razapinju vektori iz S. Oigledno, elementi eij matrice E
bie, u prostoru definisanom metrikama L i D, jednaki aritmetikim sredinama varijabli vj za entitete ei koji
pripadaju kategorijama wk nominalne varijable B. Zbog toga e matrica
A = EtE =ZtP Z
biti, u prostoru definisanom metrikama L i D, matrica intergrupnih kovarijansi varijabli iz B, definisanih pripadanjem
entiteta podskupovima vk skupa B. Ali, u ovako definisanom prostoru, koeficijenti ajj matrice A jednaki su 2j ,
kvadratima Fisherovih koeficijenata intergrupne korelacije (Guttman, 1988; Momirovi, 1989); uoimo da je i
ZtE = A,
i da su, prema tome, elementi matrice A istovremeno i kovarijanse izmeu varijabli iz Z i tih varijabli projiciranih u
prostor definisan vektorima matrice S.
Definiimo, na kraju,
W=RA

255

Konstantin Momirovi u statistici

kao matricu intragrupnih kovarijansi varijabli iz


podskupovima skupa B.

z,

dakle kovarijansi nezavisnih od pripadanja entiteta iz E

Ako je (g 1) < m, to je najei sluaj kada se analiziraju podaci dobijeni multivarijantnim


eksperimentalnim nacrtom, rang matrice A bie ba g 1, jer je ta matrica dobijena mnoenjem, s leva,
matrice E s njenom transpozicijom, a kolonski rang matrice E je g 1, jer se svaki red te matrice sastoji od g
aritmetikih sredina, od kojih je samo g 1 nezavisno. U optem sluaju,
rang (A) = q = min ((g 1), m).
Do sada je kao globalna mera asocijacije izmeu jedne nominalne i jednog skupa kvantitativnih
varijabli primenjivan, uostalom dosta retko, Fisherov korelacioni razmer
2 = 1 ,
gde je
=|W|/|R|
Wilksova mera znaajnosti razlika izmeu vektora aritmetikih sredina varijabli iz B subpopulacija
definisanih kategorijama nominalne varijable B (Cooley i Lohnes, 1971). Pogodnost korelacionog razmera
2 lei pre svega u tome to se njegova znaajnost moe testirati, i to na vie, dodue ne sasvim
ekvivalentnih naina. Obino se primenjuje aproksimativni test Rao-a:
f = ((1 - 1/s)/ 1/s)(n2 / n1),
gde je
s=((m2(g 1)2 4) / (m2 + (g 1)2 5))1/2,
n1 = m(g 1),
a
n2 = s ((n 1) (m +(q 1) + 1) / 2) (m (g 1) 2 )/2,
jer pod hipotezom da izmeu vektora aritmetikih sredina nema razlika, koja je ekvivalentna hipotezi da je
korelacioni razmer 2 jednak nuli, f ima, aproksimativno, Fisher-Snedecorovu f distribuciju sa n1 i n2 stepeni
slobode. Osim ovog, esto se primenjuje i Bartlettov aproksimativni test
2 = (n 1 (m+g) / 2) loge
koji pod identinom nultom hipotezom ima, aproksimativno, 2 distribuciju sa m(g 1) stepeni slobode (Anderson,
1966; Cooley i Lohnes, 1971; Anderson, 1984; Romeder, 1973), iako je, zapravo, taj test namenjen testiranju
hipoteze da je maksimalna kanonika korelacija izmeu varijabli iz B i B jednaka nuli. Osim ovih, u istu se svrhu
mogu primeniti i drugi testovi znaajnosti razlika izmeu vektora aritmetikih sredina; izvanredan pregled svih
testova koji se za to mogu primeniti nalazi se u Anderson (1984) i Porebski (1975).
3. Predlog nekih mera asocijacije jedne nominalne i jednog skupa kvantitativnih varijabli

Sve mere koje e ovde biti predloene su, po analogiji s merama asocijacije dva skupa kvantitativnih
varijabli koje su predloili Wolf i Momirovi (1993), kvocijenti identino definisanih skalarnih funkcija
matrica A i R, dakle matrice kovarijansi jednog skupa standardizovanih varijabli projiciranih u prostor
definisan jednom nominalnom varijablom, i matrice kovarijansi tog skupa standardizovanih kvantitativnih
varijabli.
Odmah je jasno da je definicija neke mere, analogne Cramer-Hotellingovom vektorskom koeficijentu
korelacije, u optem sluaju nemogua, jer je u optem sluaju matrica A singularna. Meutim, u posebnom
sluaju, kada je q m, mera
2 = | A | / | R |
je ba Fisherov korelacioni razmer, jer je
2 =1 ,
a
256

Objavljeni radovi
q

= (1 k2 )
k =1

gde su k2 , k = 1,..., q svojstvene vrednosti dobijene reavanjem karakteristine jednaine

( A k2 R) xk = 0,
dakle kvadrati koeficijenata kanonikih korelacija izmeu varijabli iz B i B (Anderson, 1984; Romeder, 1973).
Zbog toga e sve mere koje e u ovom radu biti predloene biti definisane tako da ne zavise od
regularnosti matrice A.
(1) Mera maksimalne povezanosti jedne nominalne i jednog skupa

kvantitativnih varijabli

Definiimo meru asocijacije izmeu B i B kao veliinu dobijenu reenjem problema

= (xt A x) / (xt R x) = maximum | xt R x = 1.


gde je x neki nepoznati m-dimenzionalni vektor.
Reenje ovog problema lako se dobija deriviranjem funkcije
f(x) = (xt A x) / (xt R x) (xt R x 1),
gde je X neki nepoznati Lagrangeov multiplikator.
Deriviranjem ove funkcije s obzirom na x

f / x = 2 A x 2 R x,
pa deljenjem sa 2 i izjednaavanjem s nulom
A x R x = 0,
i otuda
A x = R x,
to se svodi na reenje opteg problema svojstvenih vrednosti
(A R) x = 0,
koji se moe napisati i u obliku
(R-1 A I) x = 0.
Prema tome, = , pa je najvea svojstvena vrednost matrice R-1 A.
Razmotrimo sada neka svojstva ove mere.
Propozicija 1.
Mera je metriki invarijantna.
Dokaz:
Neka je Q proizvoljna kvadratna regularna matrica reda (m); u posebnom sluaju, neka je Q
proizvoljna regularna dijagonalna matrica tog reda.
Neka je
Zq = Z Q
matrica podataka reparametrizirana matricom Q. Matrica kovarijansi varijabli iz Zq bie
Rq = ZtqZq = Qt R Q;
vektori tih varijabli, projicirani u prostor koji razapinju vektori iz S, bie
Eq = P Zq,
a matrica kovarijansi varijabli iz Eq
257

Konstantin Momirovi u statistici

Aq = EtqEq = Qt ZtP Z Q = QtA Q.


Sada se predloena mera moe definisati kao reenje problema

q = (xqtAqxq) / (xqtRqxq) = maximum | xqtRqxq = 1.


Otuda je eksplicitni oblik funkcije koju treba derivirati
f(xq) = (xqtQtAQxq) / (xqtQtRQxq) q (xqtQtRQxq 1).
Derivacijom ove funkcije s obzirom na xq

f / xq = 2 QtA Q xq 2 q Qt R Q xq,
pa nakon sreivanja
QtA Q xq = q Qt R Q xq.
Problem se, dakle, svodi na reenje opteg problema svojstvenih vrednosti
(QtA Q xq - q Qt R Q)xq = 0,
odnosno na reenje problema
(Q-1 R-1A Q - q I)xq = 0.
Ali matrice Q-1 R-1A Q i R-1A su sline, pa imaju iste svojstvene vrednosti; otuda q = = i xq = Q-1 x, a to
je i trebalo dokazati.
Propozicija 2.
je kvadrat maksimalnog koeficijenta kanonike korelacije izmeu jedne nominalne i jednog skupa
kvantitativnih varijabli.
Dokaz:
Odreivanje maksimalnog koeficijenta kanonike korelacije izmeu varijabli iz B i B svodi se na
reavanje problema
Sy=g

= gt k = yt St Z x = maximum

Zx=k

gt g = yt StS y = 1
kt k = xt R x = 1,

gde je y neki nepoznati vektor reda (g), a x neki nepoznati vektor reda (m). Reenje ovog problema svodi se,
naravno, na ekstremizaciju funkcije
f(y, x, , ) = yt St Z x 1/2 (yt St S y 1) 1 /2 (xt R x 1)
gde su i neki nepoznati Lagrangeovi multiplikatori.
Derivacijom ove funkcije s obzirom na y i izjednaavanjem dobijenog rezultata s nulom

f / y = St Z x St S y = 0,
dakle
St Z x = St S y,
a derivacijom s obzirom na x, nakon izjednaavanja dobijenog rezultata s nulom,

f / x = Zt S y R x = 0,
dakle
Zt S y = R x.
Ako rezultat dobijen derivacijom s obzirom na y pomnoimo, s leva, sa yt, a rezultat dobijen
derivacijom s obzirom na x pomnoimo, naravno, takoe s leva, sa xt, dobiemo
ytStZ x = ytStS y
i
258

Objavljeni radovi

xtZtS y = xtR x;
no, kako je
ytStS y = xtR x = 1,
to je

= = ytStZ x = .
Sada rezultate dobijene derivacijama funkcije f s obzirom na y i x moemo napisati u obliku
StS y + StZ x = 0
i
ZtS y R x = 0.
Ako prvu od tih jednaina pomnoimo sa , a drugu, s leva, sa R-1, dobiemo

StZ x = 2 StS y
i
R-1 ZtS y = x.
Otuda
y = (StS)-1 StZ x -1
i
x = R-1 ZtS y -1.
Zamenom,
ZtS(StS)-1 StZ x = 2R x,
dakle
A x = 2R x,
to se svodi na reavanje opteg problema svojstvenih vrednosti
(A - 2R)x = 0
pa je, oigledno, = = 2, a to je i trebalo dokazati.
Posledica 2.1.
je monotona rastua funkcija povezanosti izmeu jedne nominalne i jednog skupa kvantitativnih
varijabli i varira u rasponu <0, 1>.
Dokaz:
Kako je oigledno da je kvadrat maksimalne kanonike korelacije izmeu varijabli iz B i B,
oigledno je i da je monotona rastua funkcija stvarne povezanosti izmeu tih varijabli i da varira u rasponu
<0, 1>. Zbog toga je interesantno utvrditi samo u kojim sluajevima postie granine vrednosti.
Oigledno, = 1 onda i samo onda kada je A = R, a to je mogue samo ako je P Z = Z. No, kako, kada
je n > gf, ne moe biti P = I, pa je P Z = Z samo ako Z ima formu P Z, jer je tada, naravno, P2Z = P Z = Z.
No, to je mogue onda i samo onda kada su rezultati svih entiteta iz E definisani funkcijom
zij = jk | sik = 1,
gde je

jk = (sktsk)-1 sktzj
za sve vektore sk, k = 1,..., g matrice S i sve vektore zj, j = 1,..., m matrice Z, to jest kada je rezultat svakog
entiteta iz E na svakoj varijabli iz B jednak aritmetikoj sredini podskupa mk kome taj entitet pripada. Isto
tako, oigledno je da je = 0 onda i samo onda kada je A = 0, a to je mogue onda i samo onda kada je
259

Konstantin Momirovi u statistici

ispunjen uslov

jk = 0 vj, wk
to jest kada su aritmetike sredine svih varijabli iz B jednake u svim podskupovima iz B. Prema tome, varira u
rasponu <0, 1>, u meri u kojoj se razlikuju centroidi podskupova iz B, a to je i trebalo dokazati.
Posledica 2.2.
Mera je osetljiva i na entitete sa ekstremnim vrednostima u bilo kojoj varijabli vj iz B i na
determiniranost matrice kovarijansi tih varijabli, pa prema tome ne spada u klasu robustnih mera.
Dokaz:
Kako mera zavisi od R-1, zavisi i od determiniranosti matrice R; a kako je svaki koeficijent
korelacije produkt-moment tipa izmeu dveju varijabli osetljiv na egzistenciju entiteta sa ekstremnim
vrednostima na bilo kojoj od tih varijabli, matrica R moe biti kompromitirana ako takvi entiteti postoje, a
tada e jo vie biti kompromitirana matrica R-1. Zbog toga je smislena mera samo ako nema ili ima vrlo
malo ekstremnih entiteta i ako su sve svojstvene vrednosti matrice R znaajno razliite od nule, to znai da
nije robustna mera povezanosti izmeu jedne nominalne i jednog skupa kvantitativnih varijabli, pa prema
tome ni robustna mera kvantitativnih razlika izmeu subpopulacija neke populacije.
(2) Mera definisana razmerom operatorskih normi matrica A i R
Pored uslova da matrica E bude ne samo regularna, ve i dobro definisana, mera ima jo jedan, za
mnoge primene neugodan nedostatak. Naime, iz dokaza Propozicije 2. jasno je da je dovoljno da samo jedna
varijabla iz B separira podskupove wk iz B pa da mera bude ne samo statistiki znaajna, ve i da dostigne
visoku numeriku vrednost, jer e u tom sluaju vektor varijable definisane diskriminativnom funkcijom Z x
biti kolinearan ili gotovo kolinearan s vektorom jedine varijable iz B koja separira podskupove iz B. Stoga
mera u optem sluaju ne mora biti reprezentativna mera stvarne povezanosti varijabli iz B i B.
Zbog toga je umesno definisati neku meru povezanosti izmeu varijabli iz B i B koja ne zavisi od
regularnosti ili dobre definisanosti matrice R, i koja, osim toga, predstavlja reprezentativnu meru povezanosti
izmeu jedne nominalne i jednog skupa kvantitativnih varijabli. Kako je mogue konstruisati vie mera tog
tipa, definiimo prvo jednu takvu meru koja je formalno najslinija meri .
Ovu je meru najjednostavnije definisati kao razmer ekstremizovanih kvadratnih formi matrica A i R,
dakle kao reenje problema

= (vtAv) / (wtAw)

= vtAv = maximum
= wtRw = maximum
vtv = wtw = 1.

Reenje je, naravno, trivijalno, jer se svodi na dva nezavisna obina problema svojstvenih vrednosti.
Derivacijom funkcije
f(v) = vtAv (vtv 1)
s obzirom na v dobija se, nakon deljenja dobijenog rezultata sa 2, izjednaavanja s nulom i sreivanja, karakteristina
jednaina
(A I)v = 0,
dakle = , i na isti nain, derivacijom funkcije
f(w) = wtRw (wtw 1)
s obzirom na w dobija se karakteristina jednaina
(R I)w = 0,
dakle = .
Razmotrimo sada neka svojstva mere .

260

Objavljeni radovi

Propozicija 3.
Mera varira u rasponu
0 1.
Dokaz:
Kako je 0 i skoro uvek > 0, oigledno je da je 0 i da poprima vrednost 0 onda i samo onda
kada je A = 0, to je mogue onda i samo onda kada je ispunjen uslov
jk = 0 vj, wk,
dakle kada su aritmetike sredine svih varijabli iz B jednake u svim podskupovima iz B. Stoga ostaje da se
d_Ookae da je 1. No, kako je

= wtRw = wt(A+W)w = wtAw + wtWw = maximum,


oigledno je da ne postoji drugi vektor, osim w, na kome bi kvadratna forma vtAv mogla dostii vrednost , i da je v
= w onda i samo onda kada je A = R, to je, kako je pokazano u dokazu Posledice 2.1., mogue onda i samo onda
ako je Z = P Z, to jest ako svi entiteti iz svakog od podskupova imaju wk rezultate na jk svim varijablama vj iz B.
Zato je 0 1, to je i trebalo dokazati.
Propozicija 4.
Mera lei u rasponu

1 2
gde je 1 korelacioni kolinik prve glavne komponente varijabli iz Z u odnosu na varijable iz S, a 2 maksimalni
korelacioni kolinik neke linearne kombinacije varijabli iz Z u odnosu na varijable iz S.
Dokaz:
Uoimo da je
E = S (StS)-1StZ
i da je, prema tome, E matrica oekivanih rezultata iz Z u prostoru koga tvore vektori iz S. Oekivani rezultati u tom
prostoru na prvoj glavnoj komponenti varijabli iz Z, definisanoj vektorom
k = Z w,
bie elementi vektora
ek = S(StS)-1Stk
pa e varijansa varijable definisane vektorom ek biti

ek2 = ekt ek = k t Pk = wt Aw;


no, kako je ek2 uslovna varijansa prve glavne komponente varijabli iz Z u odnosu na varijable iz S, a

= wtR w = ktk
je varijansa te komponente, to je

1 = ek2 / = (wtA w)/( wtR w),


dakle razmer operatorskih normi matrica A i R induciranih vektorom w uz uslove wtw = 1 i wtRw = maximum,
korelacioni kolinik prve glavne komponente varijabli iz Z u odnosu na varijable iz S92. Jasno je da je 1 , jer je
wtAw vtAv, to dokazuje da mera bolje diferencira podskupove skupa B od korelacionog kolinika prve
glavne komponente.
Na slian nain, ako definiemo prvu glavnu komponentu varijabli iz E vektorom
g = E v = S(StS)-1StZv

92

Naravno da ovako definisani korelacioni kolinik moe biti vrlo zanimljiva mera asocijacije jednog skupa kvantitativnih varijabli i jedne nominalne
varijable; o osobinama ove mere bie rei u jednom sledeem radu.

261

Konstantin Momirovi u statistici

s maksimalnom uslovnom varijansom

g2 = gtg = vtZtP Z v = vtA v =


korelacioni kolinik varijable definisane vektorom
h=Zv
ija je varijansa

h2 = hth = vtR v
bie

2 = / h2 = (vtA v) / (vtR v),


pa kako je vtRv wtRw, to je 2, to znai da postoji bar jo jedna mera, osim mere , koja bolje diferencira
podskupove iz B od mere . Time je dovren dokaz Propozicije 4.
Posledica 4.1.
Mera je robustna na determiniranost matrice R.
Dokaz:
Dokaz je oigledan, jer ne zavisi od R-1.
Posledica 4.2.
Ako je matrica R regularna, .
Dokaz:
Oigledno je da je , jer je maksimalna mera reparacije podskupova iz B opisane na
varijablama iz B. Naravno, ako je matrica R singularna, mera ne moe biti definisana.
Posledica 4.3.
Mera nije metriki invarijantna.
Dokaz:
Mera je kolinik varijansi dveju glavnih komponenti, a glavne komponente nisu metriki
invarijantne.
Propozicija 5.
Mera je najreprezentativnija mera asocijacije jedne nominalne varijable i jednog skupa
kvantitativnih varijabli pod klasinim modelom merenja.
Dokaz:
Reprezentativnost neke mere, koja je definisana kao razmer varijansi dveju varijabli, funkcija je
reprezentativnosti tih varijabli za univerzume svih varijabli kojima te varijable pripadaju. Pod klasinim
modelom merenja, reprezentativnost nekog skupa varijabli jednaka je maksimalnoj pouzdanosti glavnih
komponenata tih varijabli (Lord i Novick, 1968). Kako su Lord-Kaiser-Caffreyeve mere pouzdanosti
varijabli definisanih vektorima k i g
k = m(m 1)-1(1 -1)
g = m(m 1)-1(1 -1),
a te su mere maksimizirane jer su i varijanse glavnih komponenata i maksimizirane, to je i mera
najpouzdanija, i, pod klasinim modelom merenja, najreprezentativnija mera povezanosti izmeu jedne nominalne i
jednog skupa kvantitativnih varijabli, a to je i najvanija osobina mere koju je trebalo dokazati.
(4) Mera definisana kao razmer traga matrice A i traga matrice R
Najjednostavnija robustna mera asocijacije izmeu jedne nominalne varijable i jednog skupa
kvantitativnih varijabli verovatno je
= trag (A) / trag (R),
koja se oigledno svodi na

262

Objavljeni radovi
m

j =1

j =1

= trag ( A) / m = a jj / m = 2j / m
gde su j, j = 1,..., m kvadrati intergrupnih koeficijenata korelacije varijabli iz B, pa se stoga lako moe videti da ima
ova svojstva:
Propozicija 6.
Kako je prosek kvadrata intergrupnih koeficijenata korelacije, ta je mera, pod kriterijem najmanjih
kvadrata, nepristrasna procena globalne povezanosti izmeu varijabli iz B i B.
Dokaz:
Ako varijable vj iz B imaju standardnu normalnu formu, kvadratne forme

2j = z tj P z j
jesu kvadrati intergrupnih koeficijenata korealcije tih varijabli u odnosu na grupe definisane kategorijama nominalne
varijable B; a kako su koeficijenti determinacije aditivni, je, pod kriterijem najmanjih kvadrata, nepristrasna
procena globalne asocijacije izmeu varijabli iz B i B, jer je, budui da je prosek koeficijenata 2j , oigledno da je
m

(
j =1

2
j

) 2 = minimum.

Sve posledice ove Propozicije jasne su i bez posebnih dokaza.


Posledica 6.1.
Mera varira u rasponu <0, 1> i dostie vrednost 0 onda i samo onda kada su aritmetike sredine svih
varijabli iz B u svim
grupama definisanim nominalnom varijablom B jednake, a vrednost 1 onda i samo
onda kada svi entiteti iz E imaju na svakoj varijabli iz B rezultate koji su jednaki aritmetikoj sredini grupe
kojoj pripadaju.
Posledica 6.2.
Mera nije osetljiva na determiniranost matrice R, pa je u tom smislu robustna procena asocijacije
izmeu B i B.
(3) Mera definisana razmerom kvadrata normalnih normi matrica A i R
Jednu, takoe vrlo jednostavnu i robustnu na determiniranost matrice R meru asocijacije izmeu
varijabli iz B i B mogue je, po analogiji sa Kaiser-Riceovom merom reprezentativnosti nekog skupa
varijabli, definisati kao

= (et( A~A )e) / (et( R~R )e)


gde je e sumacioni vektor reda (m, l), a ~ oznaka Hadamardovog mnoenja, dakle kao razmer kvadrata normalne
norme matrice intergrupnih kovarijansi i normalne norme matrice interkorelacija varijabli iz B. Naravno, kako je
m

=
j =1

q =1

j =1

2jq /

r
q =1

2
jq

lako se moe videti da ima ova svojstva:


Propozicija 7.
Mera je monotona rastua funkcija povezanosti izmeu varijabli iz B i B i varira u rasponu <0, 1>.
Dokaz:
Kako je
A = R W,
to je
et(A ~ A)e et(R ~ R)e
263

Konstantin Momirovi u statistici

pa je 1 i dostie 1 samo ako je W = 0; oigledno, i 0 poprima vrednost 0 onda i samo onda kada je A = 0.
Naravno, 0 kada A0, dakle kada centroidi grupa tendiraju prema 0, i 1 kada W0, dakle kada rezultati
entiteta koji pripadaju razliitim pod skupovima wk iz B kolapsiraju prema centroidima tih podskupova. Stoga je
monotona rastua funkcija asocijacije izmeu varijabli iz B i B, a to je i trebalo pokazati.
Propozicija 8.
Mera je procena reprezentativnosti uzorka B iz univerzuma U za diferencijaciju podskupova iz B.
Dokaz:
Neka je
G = (I P)Z
matrica rezultata entiteta iz E opisanih, u standardnoj normalnoj formi, na skupu varijabli B, centriranih na centroide
podskupova wk iz skupa B. Uoimo da je
EtG = 0,
i da je, u stvari,
W = GtG.
Kako matrica G sadri komponente pogreke varijabli iz B pri diferencijaciji podskupova iz B,
koeficijent
= 1 et(W ~ W)e et(R ~ R)e
je, u skladu s Kaiserovom (Kaiser i Rice, 1974) operacionalnom definicijom reprezentativnosti procena
reprezentativnosti uzorka varijabli B iz univerzuma varijabli U za diferencijaciju podskupova wk iz B. Ali, kako su
A i W matrice kovarijansi mutualno ortogonalnih varijabli,
= f(),
a to je i trebalo dokazati.
Literatura
Anderson, H. E. (1966): Regression, discriminant analysis, and a standard notation for basic statistics. U R. B.
Cattell, Handbook of multivariate experimental psychology. McNally, Chicago.
Anderson, T. W. (1984): An introduction to multivariate Statistical analysis (2 ed.). Wiley, New York.
Bryan, J. G. (1975): The generalized discriminant function: Mathematical foundation and computational routine.
U W. R. Atchley and E. H. Bryant, Multivariate statistical methods: Among - groups covariation. Dowden,
Hutchinson and Ross, Stroudbury, pp. 176-181.
Cooley, W. W.; Lohnes, P. R. (1971): Multivariate data analysis. Wiley, New York.
Fisher, R. A. (1975): The use of multiple measurements in taxonomic problems. U W. R. Atchley and E. H.
Bryant, Multivariate statistical methods: Among - groups covariation. Dowden, Hutchinson and Ross,
Stroudbury, pp. 114-123.
Guttman, L. (1988): Eta, disco, odisco and F. Psychometrika, 53: 393-405.
Ivanovi, B. (1963): Diskriminaciona analiza. Nauna knjiga, Beograd.
Kaiser, H. F.; Rice, J. (1974): Little Jiffy, Mark IV. Educational and Psychological Measurements,
34:111-117.
Lord, F. M.; Novick, M. (1968): Statistical theories of mental test scores. Addison-Wesley, Reading.
Momirovi, K.; Dobri, V. (1984): O nekim odnosima izmeu kanonike i kvazikanonike diskriminativne
analize. Biokibernetika, 5:17-22.
Momirovi, K.; Dobri, V. (1988): Diagnostic efficiency of a robust method for discriminant analysis.
Proceedings of 10th International Symposium "Computer at the University", 5.3:1-10.
Momirovi, K. (1989): Kvazikanonika diskriminativna analiza u Pearsonovoj diskriminativnoj metrici. Zbornik
radova 3. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni zavod za statistiku, Institut za
statistiku, Beograd, 190-199.
Porebski, O. R. (1975): On the interrelated nature of the multivariate statistics used in discriminant analysis. U
W. R. Atchley and E. H. Bryant, Multivariate statistical methods: Among groups covariation. Dowden,
Hutchinson and Ross, Stroudbury, pp. 182-199.
Rao, C. R. (1975): The utilisation of multiple measurements in problems of biological classification. U W. R.
Atchley and E. H. Bryant, Multivariate statistical methods: Among groups covariation. Dowden, Hutchinson
and Ross, Stroudbury, pp. 131-165.
Rao C.R. (1968): Jibhehwe ctathctmheckiae MeTonbi H- MX npwmehehme nepebon A. M. HaraHa, B. M.
KajTHHHna w K. n. JlaTuieBai. Hayna, HocHBa.
Romeder, J. M. C1973): Methodes et programmes danalyse discriminante. Dunod, Paris.
Wolf, B.; Momirovi, K. (1993): Neke varijacije na Cramer - Hotellingovu temu.
Zbornik radova 6. i 7. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni zavod za
statistiku, Institut za nacionalne raune, registre i analizu, Beograd, 139-157.

264

Objavljeni radovi

(20) ZBORNICI RADOVA 1994 VIII (4)

Majski skup 1994, Beograd

Ankica Hoek - Institut za kriminoloka i socioloka istraivanja u Beogradu


Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja i
Filozofski fakultet Univerziteta u Beogradu
OPTIMALNA EKSPLOATACIJA INFORMACIJA KOJE SADRE
SOCIOMETRIJSKI PODACI
Predloen je jedan novi postupak za analizu sociometrijskih podataka. Taj se
postupak sastoji u tome da
(1) svaki lan neke grupe uestvuje u odreivanju strukture grupe
proporcionalno svom aktivnom ueu u stvaranju interpersonalnih odnosa,
(2) svaki lan neke grupe uestvuje u odreivanju strukture grupe
proporcionalno svom pasivnom ueu u stvaranju interpersonalnih odnosa,
(3) struktura grupe bude odreena na osnovu poloaja lanova grupe u
prostoru koji je definisan aktivnom komunikacijom lanova grupe s drugim
lanovima grupe, i
(4) struktura grupe bude odreena na osnovu poloaja lanova grupe u
prostoru koji je definisan pasivnom komunikacijom lanova grupe s drugim
lanovima grupe.
Predloeni postupak omoguava detekciju klika na osnovu strukture
komunikacijskih mrea definiranih intenzitetima ulaznih i izlaznih kanala na osnovu
vee koliine informacija, za razliku od postupka koji su, 1984, predloili
Momirovi, Hoek, Bosnar i Prot, i od drugih postupaka koji su se do sada
primenjivali za analizu sociometrijskih podataka.
KLJUNE REI: grupna dinamika / sociometrija / komunikacijske mree /
optimalno skaliranje / analiza latentnih struktura / taksonomaka analiza / klike

AN ALGORITHM FOR NETWORK ANALYSIS OF


SOCIOMETRIC DATA
An algorythm for the analysis of a relational matrix, defined by sociometric data, is
proposed. The main feature of this algorythm is reperametsrisation of variables describing
the structure of input and output channels of objects to Harris universal metrics. Cliques,
defined on input channels, are obtained by a parsimony transformation of the left
eigenvectors of the reparametrised relational matrix. In a similar way, cliques, defined on
output channels are obtained by a parsimony transformation of the right eigenvectors of
relational matrix. Relations among and between cliques are determined by congruence
coefficients of taxonomic vectors.
1. Uvod

Postupci za analizu podataka dobijenih sociometrijskim postupcima za odreivanje strukture malih


grupa mogu se podeliti u tri velike skupine.
Prvu skupinu ine postupci zasnovani na vizualnoj analizi grafova kojima se mogu prikazati rezultati
dobijeni sociometrijskim ispitivanjima, i tim grafovima pridruenim indeksima kohezivnosti, i popularnosti
pojedinih lanova neke male grupe; ti su postupci optepoznati i opisani u svakom tekstu o sociometriji i
grupnoj dinamici, najsistematinije, verovatno, u Knig (1973).
265

Konstantin Momirovi u statistici

Drugu skupinu ine postupci ija je svrha detekcija interne strukture grupe na osnovu matrice
meusobnih izbora njenih lanova. Ti se postupci svode ili na analizu matrice dobijene potenciranjem
binarne matrice na koju se moe svesti ma koji graf dobijen sociometrijskim ispitivanjima, ili na primenu
postupaka izvedenih iz teorije grafova, ili primenu multidimenzionalnog skaliranja, ili na primenu nekog od
algoritama hijerarhijske ili nehijerarhijske taksonomske analize. Ovi se postupci, osobito u poslednjih
desetak godina, sve ee primenjuju. Jednostavniji od njih opisani su u ozbiljnijim sociolokim tekstovima,
na primer, u Nehnevajsa (1973), a vrlo dobar pregled savremenijih postupaka moe se nai u Ferligoj (1990),
zajedno s pregledom veeg broja programskih proizvoda namenjenih analizi relacionih matrica, koja se u
zapadnoj literaturi obino naziva analiza mrea.
Treu skupinu ine postupci koji se zasnivaju na spektralnoj dekompoziciji ne nuno binarne matrice
dobijene registracijom komunikacija izmeu lanova grupe. Predloeno je nekoliko algoritama ove vrste, no
najtipiiji od njih, i onaj koji se do sada najee primenjivao, jeste algoritam koji su predloili Momirovi, Hoek,
Bosnar i Prot (1984); slian, ali neto jednostavniji algoritam predloili su i Momirovi, Erjavec i Mildner (1988).
Postupak koji e biti predloen u ovom radu spada u treu od ovih skupina. Zbog lakeg poreenja s
postupkom Momirovia, A. Hoek, K. Bosnar i Prota, koji je glavni predstavnik te skupine, njihov e
postupak biti ukratko opisan.
Taj postupak, poznat pod imenom ITA, nazivom programa kojima je, u nekoliko razliitih
programskih jezika, implementiran, sastoji se u parsimonijskim ortonormalnim transformacijama levih i
desnih svojstvenih vektora pridruenih natprosenim vrednostima spektra komunikacijske mree tako da
jedna solucija odreuje klike na osnovu ulaznih, a druga na osnovu izlaznih kanala. Vektori koji prolaze kroz
klike ortogonalni su u prostoru ulaznih, odnosno u prostoru izlaznih kanala, dakle u prostorima u kojima su i
definisani, ali, naravno, nisu ortogonalni ni vektori dobijeni na osnovu ulaznih kanala u prostoru koji je
definisan izlaznim kanalima, ni vektori dobijeni na osnovu izlaznih kanala u prostoru koji je definisan
ulaznim kanalima.
Iako se, primenjen u nekoliko desetina analiza preteno polemolokih i kineziolokih grupa, ovaj
algoritam pokazao kao vrlo efikasan, on ipak ima nekoliko nedostataka, od kojih su najvaniji potencijalno
jednako uee lanova grupe u odreivanju njene strukture, jednako uee zadranih levih i desnih vektora
u odreivanju finalne konfiguracije, i ortogonalnost strukturalnih vektora, dobijenih parsimonijskim
transformacijama, u svojim sopstvenim prostorima. Zbog tih ogranienja, taj algoritam ne eksploatie sve
potencijalne informacije koje sadri matrica podataka kojom je opisana neka komunikacijska mrea, pa se
pod tim vidom moe smatrati suboptimalnim.
Svrha ovog rada je da predloi jedan novi algoritam koji:
(1) omoguava lanovima grupe da utiu na detekciju klika u skladu sa svojom stvarnom ulogom u
formiranju ulaznih kanala komunikacijske mree,
(2) omoguava lanovima grupe da utiu na detekciju klika u skladu sa svojom stvarnom ulogom u
formiranju izlaznih kanala komunikacijske mree,
(3) omoguava da struktura grupe, definisana na osnovu ulaznih kanala komunikacijske mree, zavisi
od normi svojstvenih vektora koji razapinju prostor u kome lee ulazni kanali,
(4) omoguava da struktura grupe, definisana na osnovu izlaznih kanala komunikacijske mree, zavisi
od normi svojstvenih vektora koji razapinju prostor u kome lee izlazni kanali,
(5) omoguava detekciju klika ortonormalnim parsimonijskim transformacijama vektora koji razapinju
prostor u kome lee ulazni kanali, tako da bude ekstremizirana neka objektivna parsimonijska funkcija,
(6) omoguava detekciju klika ortonormalnim parsimonijskim transformacijama vektora koji razapinju
prostor u kome lee izlazni kanali, tako da bude ekstremizirana neka objektivna parsimonijska funkcija,
(7) dozvoljava da vektori koji prolaze kroz klike, definisane u prostoru ulaznih kanala, zauzmu onaj
poloaj koji zavisi od stvarne udaljenosti klika kroz koje prolaze,
(8) dozvoljava da vektori koji prolaze kroz klike, definisane u prostoru izlaznih kanala, zauzmu onaj
poloaj koji zavisi od stvarne udaljenosti klika kroz koje prolaze,
(9) omoguava da se odrede mere kongruencije vektora klika, definisanih u prostorima ulaznih i
izlaznih komunikacijskih kanala.
Re je, dakle, o jednom taksonomskom algoritmu ija je osnovna svrha da otkrije podskupove nekog
skupa entiteta koji su povezani asimetrinim komunikacijskim kanalima. Iako namenjena analizi podataka
dobijenih sociometrijskim ispitivanjima, ova se metoda, naravno, moe primeniti i za analizu strukture bilo
koje grupe objekata ija se meusobna komunikacija moe na bilo koji nain izmeriti ili proceniti.
266

Objavljeni radovi

2. Algoritam

Neka je G = (gi, i = 1,..., n) neka grupa objekata meusobno povezanih asimetrinim komunikacijskim
kanalima, od kojih ne moraju svi biti propusni. Neka je
S = G G = (sij)
matrica iji su elementi definisani intenzitetom komunikacija izmeu objekata gi i gj, i, j = 1,..., n, pri emu sij
oznaava intenzitet komunikacije izmeu objekata gi i gj ako objekt gi emitira informacije objektu gj, a sij oznaava
intenzitet komunikacije izmeu objekata gj i gi ako objekt gj emitira informacije objektu gi. Pretpostavimo da je
koliina informacija koje neki objekt gi emitira sam sebi jednaka sumi informacija koje taj objekt emitira svim
ostalim lanovima grupe, tako da su dijagonalni lanovi matrice S
n 1

sii = sij .
j =1

Neka je
P = StS,
i neka je
E = SSt.
Dijagonalni lanovi matrice E bie proporcionalni ukupnoj koliini informacija koje emitiraju objekti gi iz G ostalim
lanovima grupe; ukljuujui i informacije koje emitiraju samima sebi, a vandijagonalni lanovi te matrice bie
proporcionalni koliini informacija koje zajedniki emitiraju objekti gi i gj ostalim lanovima grupe G. Dijagonalni
lanovi matrice P bie proporcionalni ukupnoj koliini informacija koje primaju objekti gi od ostalih lanova grupe
G, ukljuujui i informacije koje primaju od sebe samih, a vandijagonalni lanovi te matrice bie proporcionalni
koliini informacija koje zajedno primaju objekti gj i gi od ostalih lanova grupe G.
Neka je
U = (diag E-1)-1
i neka je
V = (diag P-1)-1.
Dijagonalni elementi matrice U bie proporcionalni koliini informacija koja je specifina za emisiju
objekata gi iz G, dakle koliini emitiranih informacija koja je irelevantna za celokupni emisioni spektar te
matrice, jer su vektori iz matrice U oigledno ortogonalni na zajedniki podprostor definisan emisionim
spektrom lanova grupe G. Analogno tome, dijagonalni lanovi matrice V bie proporcionalni koliini
informacija koja je specifina za recepciju objekata gj iz G, dakle koliini informacija koja je irelevantna za
celokupni recepcioni spektar te matrice, jer su vektori iz matrice V ortogonalni na zajedniki podprostor
definisan recepcionim spektrom lanova grupe G.
Pri odreivanju taksonomske strukture grupe G na osnovu emisione strukture komunikacijskih kanala
razumno je da lanovi grupe uestvuju proporcionalno svom ueu u emisionom spektru koji je zajedniki
za sve lanove grupe. Isto tako, pri odreivanju taksonomske strukture grupe G na osnovu recepcione
strukture komunikacijskih kanala razumno je da lanovi grupe uestvuju proporcionalno svom ueu u
recepcionom spektru koji je zajedniki za sve lanove grupe. Ovo je mogue postii na dva naina; prvi je da
se taksonomske analize uine u image prostoru emisionog odnosno u image prostoru recepcionog spektra93, a
drugi, jednostavniji i laki, jeste da se analize uine na osnovu spektra matrica
G = U-1/2E U-1/2
H = V-1/2P V-1/2,
jer su duine vektora u matrici G proporcionalne ueu objekata iz G u emisionom spektru koji je zajedniki svim
objektima, a duine vektora u matrici H proporcionalne ueu objekata iz G u recepcionom spektru koji je svim
objektima iz te grupe zajedniki.

93

O ovom e nainu biti rei u jednom od sledeih radova istih autora.

267

Konstantin Momirovi u statistici

Neka je, dakle, rezultat spektralne dekompozicije matrice G


G = X Xt + X**X*t,
gde su u dijagonalnoj matrici najveih k svojstvenih vrednosti matrice G, a u matrici X, XtX = I, njima pridrueni
svojstveni vektori, dok su u dijagonalnoj matrici * preostale svojstvene vrednosti matrice G, a u matrici X*, X*tX* =
I, tim vrednostima pridrueni svojstveni vektori.
Neka je k odreen na neki pogodan nain; ako nema nikakve valjane osnove za apriorno odreivanje
broja klika na osnovu strukture izlaznih, dakle emisionih kanala, k je, verovatno, razumno odrediti ili na
osnovu broja natprosenih svojstvenih vrednosti, dakle operacijom
k = num (p > trag G/n),
ili, na neto opravdaniji nain, tako da k zadovolji uslove
k

p trag (G U ),
p =1

k 1

p =1

< trag (G U ),

dakle da koliina informacija sadrana u prvih k vrednosti spektra matrice G dostigne ili upravo premai ukupnu
koliinu zajednikih informacija o informacionom spektru emisionih kanala.
Neka je, analogno tome, rezultat spektralne dekompozicije matrice H
H = Y Yt + Y**Y*t,
gde su u dijagonalnoj matrici najveih q svojstvenih vrednosti matrice H, a u matrici Y, YtY = 1, njima pridrueni
svojstveni vektori, dok su u dijagonalnoj matrici * preostale svojstvene vrednosti matrice H, a u matrici Y*, Y*tY* =
I, tim vrednostima pridrueni svojstveni vektori.
Neka je i sada dimenzionalnost zadranog podprostora, g, odreena tako da, ako nema nikakve valjane
osnove za apriorno odreivanje broja klika na osnovu strukture ulaznih, dakle recepcionih kanala, q bude
odreen ili na osnovu broja natprosenih svojstvenih vrednosti, dakle operacijom
q = num (p > trag H/n),
ili tako da q zadovolji uslove
q

p trag ( H V ),
p =1

q 1

p =1

< trag ( H V ),

dakle da koliina informacija sadrana u prvih q vrednosti spektra matrice H dostigne ili upravo premai ukupnu
koliinu zajednikih informacija o informacionom spektru recepcionih kanala. Uoimo, uzgred, da broj klika
odreen na osnovu struktura emisionih kanala ne mora biti jednak broju klika odreenom na osnovu strukture
recepcionih kanala.
Normirajmo sada svojstvene vektore iz matrica X i Y na njima pridruene svojstvene vrednosti
operacijama
J = X 1/2
i
K = Y 1/2.
Slike, definisane taksonima slinih objekata u prostoru emisionih kanala, mogue je otkriti
transformacijom
A = (aip) = J T,
gde je T, TtT = I ortonormalna matrica koja nad elementima matrice A ekstremizira neku parsimonijsku funkciju, na
primer, Kaiserovu (Kaiser, 1958) brutto varimax funkciju
k

p =1

i =1

v = aip4 ( aip2 ) 2 .
p =1 i =1

268

Objavljeni radovi

Na isti nain, klike, definisane taksonima slinih objekata u prostoru recepcionih kanala, mogue je
otkriti transformacijom
B = (bip) = K Q,
gde je Q, QtQ = I ortonormalna matrica koja nad elementima matrice B ekstremizira neku parsimonijsku funkciju;
najpogodnije je da to opet bude Kaiserova brutto varimax funkcija
q

p =1

i =1

w = bip4 ( bip2 ) 2 .
p =1 i =1

Iako je u oba sluaja re o transformaciji matrica iji su vektori, po kolonama, ortogonalni, to jest
ortonormalnim transformacijskim matricama, taksonomski vektori iz matrica A i B nisu ortogonalni, jer, u
optem sluaju, matrice
AtA = Tt T
i
BtB = Qt Q
nisu, naravno, dijagonalne matrice. Zbog toga je mogue odrediti relacije izmeu klika dobijenih u prostoru
emisionih kanala na osnovu kosinusa uglova izmeu vektora koji prolaze kroz te klike operacijom
M = (diag(AtA))-1/2(AtA)((diag(AtA))-1/2,
a relacije klika dobijenih u prostoru recepcionih kanala analognom operacijom
W = (diag(BtB))-1/2(BtB)((diag(BtB))-1/2.
I, na kraju, relacije izmeu klika dobijenih na osnovu strukture emisionih i klika dobijenih na osnovu
strukture recepcionih kanala mogu se odrediti operacijom
C = (diag(AtA))-1/2(AtB)((diag(BtB))-1/2,
dakle na osnovu kosinusa uglova koje zaklapaju vektori koji kroz te klike prolaze.
Od posebnog je znaaja sluaj kada je S binarna matrica, to je skoro redovna pojava kada se analizira
struktura grupa dobijenih sociometrijskim ispitivanjima, ili struktura grupa definisanih nekim, obino
relacionim, modelom baze podataka; ima, uostalom, jos sluajeva kada je relacije izmeu lanova neke
grupe objekata mogue ili pogodno definisati samo prisustvom ili odsustvom takvih, u pravilu ne nuno
simetrinih relacija. U stvari, ovaj je algoritam prvobitno bio konstruisan za detekciju klika na osnovu
matrica dobijenih sociometrijskim ispitivanjima. Jasno je, meutim, da je primenjiv u svakom sluaju kada je
odnose izmeu lanova neke, ne nuno male grupe, mogue opisati smerom i intenzitetom komunikacijskih
kanala izmeu njenih lanova.

Literatura
Ferligoj, A. (1990): Algoritmi in raunalniki programi za analizo omreij. Metodoloki zvezki, 7:125-144.
Kaiser, H. F. (1958): The varimax criterion for analytic rotation in factor analysis, Psychometrika, 23:187-200.
Knig, R. (1973): Grundlegende Methoden und Techniken der empirische Sozialforshung. (1 Teil, 2 Band, 3
Auflage), Enke Verlag, Stuttgart.
Momirovi, K.; Hoek, A.; Bosnar, K.; Prot, F. (1984): Algoritam za detekciju klika na osnovu strukture
komunikacijskih mrea. Kineziologija, 16, 1:21-24.
Momirovi, K.; Erjavec, N.; Mildner, V. (1988): Taksonomska analiza objekata opisanih asimetrinom
relacionom matricom. Zbornik radova 2. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni
zavod za statistiku, Institut za statistiku, Beograd, 105-110.
Nehnevajsa, I. (1973): Soziometrie. In R. Knig, Grundlegende Methoden und Techniken der empirische
Sozialforshung.(1 Teil, 2 Band, 3 Auflage, pp. 263-285), Enke Verlag, Stuttgart.

269

Konstantin Momirovi u statistici

(21) ZBORNICI RADOVA 1994 VIII (5)

Majski skup 1994, Beograd.

Ankica Hoek i Dobrivoje Radovanovi - Institut za kriminoloka i socioloka istraivanja


Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja
Filozofski fakultet Univerziteta u Beogradu
KLASIFIKACIJA PRIMARNIH FAKTORA AGRESIVNOSTI
Primarni faktori agresivnosti, procenjeni na osnovu prvih glavnih
komponenata standardizovanih i normalizovanih rezultata u stavkama testova
impulsivnosti (N14), bazine agresivnosti (T15), psihopatske agresivnosti (1),
analne agresivnosti (2) oralne agresivnosti (3), harine agresivnosti (SP2),
protenzine agresivnosti (SP3) i histerine agresivnosti (SP5) klasifikovani su
pomou 5 razliitih metoda za klasifikaciju kvantitativnih varijabli definisanih na
jednom reprezentativnom uzorku od 647 zdravih i pismenih mukaraca, starih od 19
do 27 godina. Primenjene su ove metode: (1) Analiza glavnih komponenata sa
nenegativnim koeficijentima generalizabilnosti i njihovom transformacijom u
normalizovanu varimax poziciju, (2) Faktorska analiza sa komunalitetima
procenjenim Guttmanovim postupkom i transformacijom znaajnih faktora u
normalizovanu varimax poziciju, (3) Wardova metoda hijerarhijskog grupiranja, (4)
Guttman-Lingoesova metoda odreivanja optimalnog koordinatnog sistema za neku
konfiguraciju taaka, i (5) Shepardova metoda nemetrikog multidimenzionalnog
skaliranja. Rezultati dobijeni ovim metodama nisu bili sasvim saglasni.
Komponentna i faktorska analiza proizvele su jedan takson norepinefrinske
agresivnosti (N14 i T15) i jedan takson epinefrinske agresivnosti (1, SP5, SP3, 3 i
SP2), izdvojivi analnu agresivnost(2) iz ovih taksona, ali tako da je ovaj modalitet
agresivnosti ipak znatno blii sekundarnoj (epinefrinskoj) nego primarnoj
(norepinefrinskoj) agresivnosti. Metoda hijerarhijskog grupiranja, sa stablom
preseenim na polovinu proizvela je tri taksona: jedan takson norepinefrinske
agresivnosti (N14 i T15), jedan takson nekontrolisane antisocijalne agresivnosti (1
i SP5), i jedan takson agresivnosti koja je posledica fiksacije na rane faze
libidinoznog razvoja (3,SP2 i 2); protenzina agresivnost (SP3) se ponaala kao
izdvojeni objekt, ali je ipak bila najblia treem taksonu. Guttman-Lingoesova
metoda proizvela je jedan takson norepinefrinske (N14 i T15) i jedan takson
verovatno epinefrinske (SP2, 3, 1 i SP5) agresivnosti, ali tako da je iz ovih
taksona sasvim udaljila meru protenzine agresivnosti (SP3). Primenjena metoda
nemetrikog multidimenzionalnog skaliranja proizvela je etiri taksona: takson
norepinefrinske agresivnosti (N14 i T15), takson nekontrolisane antisocijalne
agresivnosti (1 i SP5), takson agresivnosti koja je posledica fiksacije na rane faze
libidinoznog razvoja (2 i 3) i slabo definisan takson harino-protenzine
agresivnosti (SP2 i SP3).
KLJUNE REI: klasifikacija / agresivnost

A CLASSIFICATION OF PRIMARY FACTORS OF AGGRESSIVENESS


Primary factors of aggressiveness, estimated on the basis of principal
components of standardized and normalized results on the items of tests of
impulsiveness (N14), basic aggressiveness (T15), psychopatic aggressiveness (1),
anal aggressiveness (1), oral aggressiveness (84), haric aggressiveness (SP2),
protensic aggressiveness (SP3) and hysteric aggressiveness (SP5), were classified
by 5 different methods for classification of quantitative variables defined on a
representative sample of 647 healthy and literate males, aged from 19 to 27. The
following methods were applied: 1) analysis of the principal components with nonnegative coefficients of generalizibility and their transformation into the normalized
varimax position, 2) factor analysis I with communalities estimated by Guttman's
procedure and with transformation of the significant factors into the normalized
270

Objavljeni radovi

varimaxj position, 3) Ward's method of hierarchical grouping, 4) Guttman-Lingoes'


method of definition of the optimal coordinate system for a configuration of points
and 5) Sheperdfs method of non-metric multi-dimensional scaling. The results
obtained through these methods I were not quite compatible. Component and factor
analysis have produced I a taxon of norepinephrine aggressiveness (N14 and T15)
and a taxon of I epinephrine aggressiveness (1, 2, SP2, SP3 and SP5) while
extracting A anal aggressiveness (2) from these taxons in a way suggesting that j
this modality of aggressiveness was closer to the secondary (epinephrine)
aggressiveness than to the primary (norepinephrine) aggressiveness. Method of
hierarchical grouping, with the obtained 1 graph split at the level of o,5, has
produced three taxons: a taxon of norepinephrine aggressiveness (N14 and T15),
a ' taxon of uncontroled antisocial aggressiveness (1 and SP5) and a taxon of
aggressiveness stemmimg from fixation on the early phases of libidinal development
(1, 2 and SP2). Protensic aggressiveness (SP3) behaved as an isolated % object,
although it was closest to the third taxon. Guttman-Lingoes''"i method produced a
taxon of norepinephrine (Nl4 and T15) and a taxon of i probably epinephrine (1,
2, SP2 and SP5) aggressiveness andJ completely eliminated the measure of
protensic aggressiveness (SP3). I The method of non-metric multi-dimensional
scaling applied here has I produced four taxons: a taxon of norepinephrine
aggressiveness (N14 and I T15), a taxon of uncontroled antisocial aggressiveness
(81 and SP5) a I taxon of aggressiveness stemming from fixation on the early phases
of I libidinal development (2 and 3) and a weakly defined taxon of Jharicprotensic aggressiveness (SP2 and SP3).
KEY WORDS: classification / aggressiveness
1. Uvod

Jedan skup varijabli moe biti klasifikovan na mnogo razliitih naina. Svi se ti naini, meutim,
mogu svesti na tri osnovna modela. Prvi, i onaj koji se najee primenjuje, jeste model komponentne, a
ponekad i model faktorske analize s nekom, u pravilu ortogonalnom, parsimonijskom transformacijom
koordinatnog sistema definisanog vektorima koji razapinju podprostor u kome, do na neku meru pouzdanosti
zakljuivanja, lee vektori varijabli; u sluajevima kada je dimenzionalnost tog podprostora dovoljno mala,
esto je mogue klasifikovati varijable i bez ikakve transformacije inicijalnog koordinatnog sistema. Drugi
model, koji se za klasifikaciju varijabli primenjuje dosta retko, jeste model hijerarhijske taksonomske
analize, pri emu je, najee, i uostalom najpametnije, kriterij zdruivanja definisan kao minimizacija neke
mere intrataksonske dispersije. Trei model, koji postaje sve popularniji, jeste model multidimenzionalnog
skaliranja, u pravilu nemetrikog; no, kako razliiti algoritmi koji se osnivaju na tom modelu daju, obino,
vrlo razliite rezultate, obino se, sigurnosti radi, klasifikacija pokuava izvesti s nekoliko takvih algoritama.
Cilj ovog rada je da, pomou najjednostavnijih algoritama koji pripadaju svakome od ovih modela,
klasifikuje varijable kojima se, na dovoljno pouzdan nain, mogu proceniti primarni faktori agresivnosti.
Ovo zbog toga to ti faktori nisu do sada, koliko se moglo utvrditi inspekcijom dostupne literature, bili ni na
koji pristojan nain klasifikovani. Kako je klasifikacija generatora agresivnog ponaanja operacija koja je
nuna, premda, naravno, nedovoljna, za razumevanje jednog od najvanijih oblika ljudskog ponaanja, ovaj
je rad, u stvari, osnova za nekoliko sledeih radova u kojima e se ispitati konativne i kognitivne
determinante agresivnosti, razvoj agresivnosti u toku perioda psihosocijalnog sazrevanja, uticaj socijalnog
polja na agresivno ponaanje, i uticaj agresivnosti na razliite modalitete psihosocijalne adaptacije, posebno
na one ekstremne oblike psihosocijalne dezadaptacije (koju Anglosaksonci i drugi varvari nazivaju cluster
analysis, a Srbi koji ne znaju srpski klaster analiza dezadaptacije), koji se manifestuju u kriminalnom, i
uopte devijantnom ponaanju.
2. Metode

Podaci su prikupljeni na uzorku od 647 ispitanika mukog pola, starih od 19 do 27 godina. Uzorak je
bio izvuen kao dvoetapni grupni uzorak sa optimalnom alokacijom iz jugoslovenske populacije ove starosti
i pola, uz ogranienje da su ispitanici pismeni, kliniki zdravi, i da dovoljno znaju srpski knjievni jezik.
Efektiv uzorka dozvoljava da se bilo koja mera slinosti izmeu dve varijable, definisana kao procena, pod
kriterijem najvee verodostojnosti, produkt-moment koeficijenta korelacije izmedu tih varijabli, smatra
razliitom od nule sa pouzdanou zakljuivanja od 0.99, ako je njena apsolutna vrednost vea od 0.10.
Ovim je ispitanicima, u grupama od po priblino 30 ljudi, ekipa od dva posebno uvebana psihologa
primenila, pod potpuno identinim uslovima, 8 testova za procenu onih primarnih faktora agresivnosti koji
su utvreni na dovoljno pouzdan nain i koji se mogu proceniti mernim instrumentima prihvatljive
pouzdanosti, bar kada je re o ispitanicima iz jugoslovenske populacije. Nazivi tih testova, imena njihovih
autora, predmeti merenja identifikovani na osnovu strukture prve glavne komponente stavki od kojih su se ti
testovi sastojali, Lord- Kaiser-Caffreyevi koeficijenti pouzdanosti, oznaeni sa a, i Momirovievi koeficijenti
271

Konstantin Momirovi u statistici

homogenosti, oznaeni sa %, prikazani su u tabeli 1. Rezultati u svim testovima definisani su vrednostima na


prvoj glavnoj komponenti standardizovanih i normalizovanih rezultata u stavkama, dakle na nain koji
maksimizira pouzdanost pod klasinim modelom merenja (Momirovi i Gredelj, 1980)
Tabela 1. Nazivi, predmeti, merenja, pouzdanost () i homogenost () testova agresivnosti
test
N14
T15
1
2
3
SP2
SP3
SP5

autori
Momirovi
Momirovi
Radovanovi, Momirovi, Damonja, Wolf
Momirovi, Radovanovi, Wolf, Damonja
Wolf, Damonja, Radovanovi, Momirovi
Hrnjica, Momirovi, Petrovi
Hrnjica, Momirovi, Petrovi
Hrnjica, Momirovi, Petrovi

predmet merenja
impulsivnost
bazina agresivnost
psihopatska agresivnost
analna agresivnost
oralna agresivnost
harina agresivnost
protenzina agresivnost
histerina agresivnost

.93
.94
.81
.89
.86
.83
.92
.86

.68
.45
.53
.72
.65
.66
.82
.69

formi, opisan u Momirovi, Wolf i Damonja (1992). O funkcionalnim i strukturalnim aspektima


agresivnosti raspravljano je, relativno nedavno, i u Ignjatovi (1989) i Vuini i Momirovi (1991).
Klasifikacija ovih varijabli izvedena je na osnovu matrice njihovih interkorelacija. Pri tome je vano
imati na umu da su koeficijenti korelacije definisani, u stvari, kao korelacije izmeu glavnih komponenata, i
da su, zbog toga, na njihovu visinu znatnije od ostalih uticale stavke koje su vie od ostalih bile zasiene
onim primarnim faktorima agresivnosti koji su bili glavni predmeti merenja primenjenih testova.
Primenjeno je ovih pet metoda:
(1) Analiza glavnih komponenata (Hotelling, 1933) tako da su zadrane samo komponente sa
nenegativnim koeficijentima generalizabilnosti (Kaiser, 1961); te su komponente zatim transformisane u
normalizovanu Varimax poziciju (Kaiser, 1958);
(2) Faktorska analiza izvedena metodom glavnih osovina redukovane matrice korelacija sa inicijalnim
komunalitetima koji su procenjeni Guttmanovim (Guttman, 1956) regresijskim postupkom; u skladu sa
ishodom analize glavnih komponenata, broj faktora je bio fiksiran na 2, i ti su faktori zatim transformisani u
normalizovanu Varimax poziciju;
(3) Metoda hijerarhijskog grupiranja izvedena tako da se kao kriterij zdruivanja uzme minimalni
porast intrataksonske dispersije (Ward, 1963); kao inicijalne mere udaljenosti izmeu varijabli uzete su
vrednosti (1 rjk), gde su rjk koeficijenti korelacije izmeu varijabli vj i vk; stablo je preseeno na polovini
svoje visine, definisane relativnom vrednou intrataksonske dispersije;
(4) Odreivanje optimalnog koordinatnog sistema za neku konfiguraciju taaka (Guttman, 1968;
Lingoes, 1973), izvedenona osnovu koeficijenata korelacije kao mera slinosti;
(5) Nemetriko multidimenzionalno skaliranje objekata na osnovu mera njihove slinosti (Shepard,
1962); ponovo su kao mere slinosti uzeti koeficijenti korelacije izmeu varijabli.
Kod obe metode nemetrikog multidimenzionalnog skaliranja broj dimenzija je unapred fiksiran na 2.
Prema tome, primenjene su vrlo jednostavne metode za klasifikaciju varijabli, opisane u mnogim
standardnim tekstovima. Potpun i precizan opis oba postupka za analizu latentnih struktura moze se nai, na
primer, u Mulaik (1972); lep opis Wardovog algoritma u Ferligoj (1989); a jednostavan prikaz oba postupka
nemetrikog multidimenzionalnog skaliranja u Davison (1983).
Slina tehnologija za klasifikaciju varijabli primenjena je, na primer, u Hoek (1993) i pokazala se
prilino efikasnom za klasifikaciju indikatora socijalnog statusa.
3. Rezultati

Rezultati koji su dobijeni metodama koje su primenjene za klasifikaciju primarnih faktora agresivnosti
prikazani su u ovim tabelama:
* U tabeli 2. je matrica interkorelacija glavnih komponenata definisanih rezultatima u stavkama
primenjenih testova;
* U tabeli 3. su koordinate primarnih faktora agresivnosti u koordinatnom sistemu koji je definisan
272

Objavljeni radovi

Varimax transformacijom glavnih komponenata s pozitivnim Kaiser-Caffreyevim koeficijentima


generalizabilnosti; u toj tabeli su i komunaliteti testova u dvodimenzionalnom latentnom prostoru;
* U tabeli 4. su koordinate primarnih faktora agresivnosti u koordinatnom sistemu koji je definisan
Varimax transformacijom dve zadrane glavne osovine; u toj su tabeli i finalne procene komunaliteta
primenjenih testova;
* U tabeli 5. je opisan proces formiranja stabla Wardovom metodom hijerarhijskog grupiranja;
* U tabeli 6. su koordinate testova agresivnosti u koordinatnom sistemu koji je dobijen GuttmanLingoesovom metodom analize najmanjeg prostora;
* U tabeli 7. su koordinate testova agresivnosti u koordinatnom sistemu koji je dobijen Shepardovom
metodom nemetrikog multidimenzionalnog skaliranja.
Grafiki prikaz dobijenih rezultata prikazan je na ovim grafikonima:
* Na grafikonu 1. je koordinatni sistem dobijen analizom glavnih komponenata;
* Na grafikonu 2. je koordinatni sistem dobijen faktorskom analizom;
* Na grafikonu 3. je stablo dobijeno metodom hijerarhijskog grupiranja;
* Na grafikonu 4. je kordinatni sistem dobijen analizom najmanjeg prostora;
* Na grafikonu 5. je koordinatni sistem dobijen nemetrikim multidimenzionalnim skaliranjem.

Tabela 2. Korelacije faktora agresivnosti (faktori N14 i T15)


faktor
N14
T15
1
2
3
SP2
SP3
SP5

N14
1.00
.76
.43
.16
.38
.35
.35
.45

T15

SP2

SP3

SP5

1.00
.48
.20
.43
.41
.38
.36

1.00
.43
.62
.44
.31
.71

1.00
.54
.47
.40
.40

1.00
.57
.36
.53

1.00
.45
.40

1.00
.28

1.00

Tabela 3. Glavne komponente, u Varimax poziciji, faktora agresivnosti


faktor
N14
T15
1
2
3
SP2
SP3
SP5

k1
.18
.23
.68
.84
.78
.70
.52
.64

k2
.91
.88
.42
-.09
.27
.26
.30
.38

h2
.86
.83
.63
.71
.69
.56
.36
.55

273

Konstantin Momirovi u statistici

Grafikon 1. Glavne komponente u Varimax poziciji

Tabela 4. Sekundarni faktori, u Varimax poziciji, faktora agresivnosti


faktor
N14
T15
1
2
3
SP2
SP3
SP5

274

f1
.22
.26
.68
.67
.73
.61
.43
.64

f2
.80
.80
.37
.04
.28
.28
.30
,33

h2
.68
.64
.62
.40
.55
.43
.30
.56

Objavljeni radovi

Grafikon 2. Sekundarni faktori u Varimax poziciji

Tabela 5. Proces zdruivanja varijabli u toku hijerarhijskog grupiranja


udaljenosti
.2400
.2900
.4300
.5167
.6583
.8017
1.0508

01
N14
1
3
2
2
1
N14

02
T15
SP5
SP2
a3
a3
SP5
T15

03

04

05

06

07

08

SP2
SP2
2
1

SP3
3
SP5

SP2
2

SP3
3

SP2

SP3

Grafikon 3. Stablo dobijeno Wardovom metodom hijerarhijskog grupiranja

275

Konstantin Momirovi u statistici

Tabela 6. Koordinate varijabli u minimalnom optimalnom prostoru


dimenzija
N14
T15
1
2
3
SP2
SP3
SP5

g1
-.48
-.27
-.22
.13
-.11
.13
1.12
-.30

g2
.65
.46
.11
.78
.27
.23
.42
.15

koeficijent alijenacije .08


Grafikon 4. Minimalni optimalni koordinatni sistem

Tablela 7. Koordinate varijabli dobijene multidimenzionalnim skaliranjem


Dimenzija
N14
T15
1
2
3
SP2
SP3
SP5

d1
-1.13
-.89
-.20
1.10
.39
.61
.66
-.53

stress .05
276

d2
-.19
-.61
.46
.55
.41
-.27
-1.22
.88

Objavljeni radovi

Grafikon 5. Koordinatni sistem dobijen metodom nemetrikog multidimenzionalnog skaliranja

Lako se moe videti da rezultati dobijeni ovim metodama nisu bili sasvim saglasni. Komponentna i
faktorska analiza proizvele su jedan takson norepinefrinske agresivnosti (N14 i T15) i jedan takson
epinefrinske agresivnosti (1, SP5, SP3, 3 i SP2), izdvojivi analnu agresivnost (2) iz ovih taksona, ali
tako da je ovaj modalitet agresivnosti ipak znatno blii sekundarnoj (epinefrinskoj) nego primarnoj
(norepinefrinskoj) agresivnosti. Metoda hijerarhijskog grupiranja, sa stablom preseenim na polovinu,
proizvela je tri taksona: jedan takson norepinefrinske agresivnosti (N14 i T15), jedan takson nekontrolisane
antisocijalne agresivnosti (1 i SP5), i jedan takson agresivnosti koja je posledica fiksacije na rane faze
libidinoznog razvoja (3, SP2 i 2); protenzina agresivnost (SP3 se ponaala kao izdvojeni objekt, ali je
ipak bila najblia treem taksonu. Guttman- Lingoesova metoda proizvela je jedan takson norepinefrinske
(N14 i T15) i jedan takson verovatno epinefrinske (SP2, 3, 1 i SP5) agresivnosti, ali tako da je iz ovih
taksona sasvim udaljila meru protenzine agresivnosti (SP3). Primenjena metoda nemetrikog
multidimenzionalnog skaliranja proizvela je etiri taksona: takson norepinefrinske agresivnosti (N14 i T15),
takson nekontrolisane antisocijalne agresivnosti (1 i SP5), takson agresivnosti koja je posledica fiksacije na
rane faze libidinoznog razvoja (2 i 3), i slabo definisan takson harino-protenzine agresivnosti (SP2 i SP3) .
Prema tome, jedino je takson primarne agresivnosti, dakle agresivnosti koja je neposredna posledica
disfunkcije sistema za regulaciju i kontrolu reakcija napada, i u ijoj osnovi lei debalans norepinefrina,
dobijen u istoj formi u svih pet provedenih analiza. Takson mera sekundarne agresivnosti, dakle
agresivnosti koja je posledica prethodnog uzbuenja sistema za regulaciju i kontrolu reakcija odbrane, koje
se prenosi na sistem za regulaciju i kontrolu reakcija napada, i u ijoj osnovi lei debalans epinefrina, dobijen
je samo pod oba modela za analizu latentnih struktura, i u ne sasvim u istoj formi pod modelom
nemetrikog multidimenzionalnog skaliranja koji odreuje optimalni koordinatni sistem za neku
konfiguraciju taaka. Metoda hijerarhijskog grupiranja i standardna metoda nemetrikog multidimenzionalnog skaliranja razbile su, u stvari, ovaj takson na subtaksone, od kojih se najstabilnije ponaao
subtakson definisan merama agresivnosti koja je posledica fiksacije na rane faze libidinoznog razvoja.
277

Konstantin Momirovi u statistici

4. Diskusija

Dobijeni rezultati mogu se razmatrati sa dva razliita aspekta. Prvi je uporedna efikasnost primenjenih
postupaka za klasifikaciju varijabli, a drugi je psiholoki smisao taksona primarnih faktora agresivnosti
dobijenih tim postupcima. Meutim, ta se dva aspekta ne mogu razmatrati odvojeno, iz prostog razloga to
efikasnost taksonomskih algoritama zavisi od prirode objekata koji su predmet klasifikacije i prirode mera
koje su upotrebljene za procenu njihove slinosti ili njihove udaljenosti, i to smisao dobijenih taksona zavisi
od prirode funkcije koja je ekstremizirana nekim taksonomskim algoritmom i svojstava algoritma koji je
upotrebljen da bi se dobio ekstrem te funkcije, jer nijedna od parsimonijskih funkcija nema ekstrem koji se
moe dobiti u zatvorenoj formi (Mosier, 1939).
Kada je re o podruju agresivnosti, a verovatno i kada je re o podruju konativnih funkcija uopte,
komponentna i faktorska analiza ponaaju se vrlo slino; te se metode, uostalom, kada se tretiraju kao
klasifikacijske procedure, ionako ponaaju gotovo istovetno, jer je, sa klasifikacijske take gledita, nevano
to se vrednosti entiteta na kojima su varijable opisane u prostoru latentnih dimenzija mogu samo, nikada
sasvim tano, proceniti a ne izraunati ako su te dimenzije definisane pod faktorskim, a ne pod
komponentnim modelom. Obe metode otkrile su samo dva, u fiziolokim teorijama agresivnosti
pretpostavljena taksona (Ignjatovi, 1989; Momirovi, Wolf i Damonja, 1992; Vuini i Momirovi, 1991),
definisana relativnom dominacijom norepinefrina ili epinefrina, odnosno direktnim ili indirektnim
pobuivanjem sistema za regulaciju i kontrolu reakcija napada. Svi modaliteti agresivnosti, za koje se u
nekim teorijama agresivnosti smatra da SU formirani pod uticajem uenja ili egzogenih, preteno socijalnih
faktora uopte, uli su u takson sekundarne, epinefrinske agresivnosti.
Fleksibilniji, ali, naravno, ne nuno i sigurniji uvid u konstelaciju faktora agresivnosti dobijen je
Wardovom metodom hijerarhijskog grupiranja. Izgleda da je, u zoni prostora u kojoj su faktori sekundarne,
epinefrinske agresivnosti, mogue nai dva taksona, od kojih je jedan definisan antisocijalnom agresivnou,
i dakle agresivnou koja je posledica defektne superego formacije, a drugi agresivnou koja je posledica
poremeaja u toku psihoseksualnog razvoja. Ovaj, sa psiholoke tacke gledita vrlo zanimljiv rezultat
potvren je, u sutini, i rezultatima koji su dobijeni Shepardovom metodom nemetrikog
multidimenzionalnog skaliranja; naprotiv, Guttman-Lingoesova metoda proizvela je rezultat vrlo slian
rezultatima komponentne i faktorske analize.
Problem optimalne klasifkacije faktora od kojih zavisi agresivno ponaanje slian je, izgleda,
problemu identifikacije slona. Kao to slon drugaije izgleda ako ga se posmatra spreda, sa strane ili straga,
ali svako razuman zna da se radi o slonu, tako i agresivnost ima razliite modalitete ispoljavanja, ali svako,
osim nekih psihologa, koji se vie zabavljaju nego to se bave ovim podrujem, zna da je agresivnost
socijalno modulirani oblik funkcionisanja sistema koji regulie i kontrolie reakcije napada, i da stoga pre
svega zavisi od fiziolokih i biohemijskih procesa koji se odvijaju u tom sistemu.

Literatura
Davison, M. L. (1983): Multidimensional scaling. Wiley, New York.
Ferligoj, A. (1989): Razvrsanje v skupine - Teorija in uporaba v druzboslovlju. Metodoloski zvezki, 4, JUS,
Ljubljana
Guttman, L. (1956): "Best possible" systematic estimates of communalities. Psychometrika, 21: 273-285.
Guttman, L. (1968): A general nonmetric technique for finding the smallest coordinate space for a configuration
of points. Psychometrika, 33: 469-504.
Horga, S.; Ignjatovi, I.; Momirovi, K.; Gredelj, M. (1982): Prilog poznavanju strukture konativnih
karakteristika. Psihologija, 15, 3: 3-21; 4: 17-34.
Hottelling, H. (1933): Analysis of a complex of of statistical variables into principal components. Journal of
Educational Psychology, 24: 417-441, 498-520.
Hoek, A. (1993): Komparativna klasifikacija nekih indikatora socijalnog statusa. Zbornik radova 6. i 7. sekcije
za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni zavod za statistiku, Institut za nacionalne
raune, registre i analizu, Beograd, 237-252.
Hrnjica, S. (1992): Zrelost linosti. Zavod za udbenike i nastavna sredstva, Beograd.
Ignjatovi, I. (1989): Skala za procenu agresivnosti VAPO. Savez drutava za psihologiju SR Srbije, Beograd.
Kaiser, H. F. (1958): The varimax criterion for analytic rotation in factor analysis. Psychometrika, 23: 187-200.
Kaiser, H. F. (1961): A note on Guttman's lower bound for the number of common factors. British Journal of
Statistical Psychology, 14, 1:1.
278

Objavljeni radovi

Lingoes, J. C. (1973): The Guttman-Lingoes nonmetric program series. Mathesis Press, Ann Arbor.
Momirovi, K. (1971): Struktura i mjerenje patolokih konativnih faktora. Republiki zavod za zapoljavanje SR
Hrvatske, Zagreb.
Momirovi, K.; Gredelj, M. (1980): Primjena elektronikih raunala u odreivanju metrijskih karakteristika i
izraunavanju testovnih rezultata. Drutvo psihologa Hrvatske, Zagreb.
Momirovi, K.; Radovanovi, D.; Wolf, B.; Damonja, Z. (1992): Test analne agresivnosti Sigma 2. Zbornik
Instituta za kriminoloka i socioloka istraivanja, 21, 1-2:206-209.
Momirovi, K.; Wolf, B.; Damonja, Z. (1992): KON 6. Kibernetika baterija konativnih testova. Savez drutava
psihologa Srbije, Centar za primenjenu psihologiju, Beograd.
Mosier, C. I. (1939): Determining a simple structure when loadings for certain tests are known.Psychometrika, 4:
149-162.
Mulaik, S. A. (1972): The foundations of factor analysis. McGraww-Hill, New York.
Radovanovi, D.; Momirovi, K.; Damonja, Z.; Wolf, B. (1992): Test psihopatske agresivnosti Sigma 1.
Zbornik Instituta za kriminoloka i socioloka istraivanja, 21, 1-2:201-205.
Shepard, R. N. (1962): The analysis of proximities: Multidimensional scaling with an unknown distance function.
Psychometrika, 27: 125-140, 219-246.
Vuini, B.; Momirovi, K. (1991): Latentna struktura nekih indikatora agresivnosti dece. Zbornik Instituta za
kriminoloka i socioloka istraivanja, 19, 1-2:330-336.
Ward, J. H. (1963): Hierarhical grouping to optimize an objective function. Journal of American Statistical
Association, 58: 236-244.
Wolf, B.; Damonja, Z.; Radovanovi, D.; Momirovi. K. (1992): Test oralne agresivnosti Sigma 3. Zbornik
Instituta za kriminoloka i socioloka istraivanja, 21, 1-2:210-213.

279

Konstantin Momirovi u statistici

(22) STATISTIKA REVIJA 1995 I

Goran Kneevi, Boris Kuzeljevi, Bora Radovi, Konstantin Momirovi


Institut za kriminoloka i socioloka istraivanja, Beograd
RELACIJE IZMEU JEDNOG MODELA KOMPONENTNE I
JEDNOG MODELA TAKSONOMSKE ANALIZE
REZIME
Izvedeni su formalni odnosi izmeu jednog standardnog modela
komponentne analize i jednog manje standardnog modela taksonomske ili
pseudoklaster analize. Model komponentne analize je definisan ortlmblique
transformacijom glavnih komponenata iji je broj odreen tako da je varijansa
zadranih komponenata jednaka ili tek prelazi totalnu varijansu analiziranih
varijabli transformisanih u parcijalnu image formu. Model taksonomske analize je
definisan ortogonalnom transformacijom onoliko levih svojstvenih vektora
standardizovane matrice podataka, koliko je zadrano glavnih komponenata,
normiranih na pridruene matrice podataka, koliko je zadrano glavnih
komponenata, normiranih na pridruene singtdarne vrednosti. Ako je A dijagonalna
matrica zadranih svojstvenih vrednosti matrice interkorelacije, D2 dijagonalna
matrica varijansi glavnih komponenata u orthoblique poziciji, L2 dijagonalna
matrica varijansi taksonomskih dimenzija, T ortonormalna matrica dobijena
transformacijom glavnih komponenata u orthoblique poziciji i Q ortonomralna
matrica dobijena transformacijom glavnih komponenata u taksonomske dimenzije,
onda vae sledece relacije:
(1) Kroskorelacije izmeu orthoblique faktora i taksonomskih dimenzija su elementi
matrice D-1TTQL-1
(2) Koeficijenti kongruencije izmeu vektora matrica sklopa dobijenih pod ova dva
modela su elementi matrice TTQ
Kljune rei: komponentna analiza / orthoblique / taksonomska anatiza /
TAXONOMI
1. Uvod

U nekim skoranjim kriminolokim istraivanjima (Leone, Radovanovic et all., 1991) kao i u nekim
istraivanjima socio-ekonomskog razvoja (Wolf, Hoek, Uzelac i Jurina, 1991; Wolf, Hoek, Obradovi i
Jurina, 1991) isti skup podataka je analiziran i pod modelom komponente analize i pod modelom
taksonomske analize. Komponentna analiza je definisana ortonormalnom transformacijom desnih svojsvenih
vektora standardizovane matrice podataka, iji je broj odreen po PB kriterijumu (talec i Momirovi, 1971),
tako da je brutto varimax kriterijum maksimiziran. Ovo je ekvivalentno tipu II orthoblique transformacije
koju su predloili i izveli Harris i Kaiser (1964). Taksonomski model je definisan ortonormalnom
transformacijom levih svojstvenih vektora standardizovane matrice podataka koji su normirani na pridruene
singulame vrednosti, pri emu je broj vektora takoe odreen na osnovu PB kriterijuma sa ciljem da se
maksimizira brutto varimax kriterijum tako transformisane matrice podataka (algoritam TOXONOM koji je
predloio Zlobec (1975), u verziji koju su predloili Momirovi, Zakrajek, Hoek i Stojanovi, 1979).
Iako su formalne relacije izmeu faktorske i klaster analize istraivane u nekoliko radova, uglavnom u
vezi sa problemima klasifikacije (Jambu, 1988; Mirkin, 1991), ovaj problem je ostao gotovo neistraen, zbog
obilja modela i algoritama za faktorsku analizu i proliferacije modela za taksonomsku analizu. Posebno, nisu
nikad bile formalno definisane relacije izmeu dimenzija i identifikacijskih struktura dobijenih algoritmom
TOXONOM, jednim od najboljih u grupi algoritama zasnovanih na modelu polarnih taksona (Momirovi,
Zakrajek, Hoek i Stojanovi, 1979) s jedne strane, i, s druge strane, orthoblique transformacije znaajnih
glavnih komponenata, jednostavnog i elegantnog modela za odreivanje latentnih dimenzija (Momirovi,
Erjavec i Radakovi, 1988).
Upravo zato cilj ovog rada je da se definiu formalne relacije izmeu komponentnih i taksonomskih
skorova, kao i relacije izmeu vektora matrica sklopa dobijenih pod ova dva modela, sa namerom da sa ove
relacije uine jasnim i omogui kompletiranje postojeih kompjuterskih programa.
280

Objavljeni radovi

2. Analiza glavnih komponenata

Neka je E skup entiteta koji se sastoji od n elemenata izabranih kao uzorak iz neke ne nuno
homogene populacije P:
E={ei; i=1,...,n} P
Oznaimo sa V skup kvantitativnih varijabili od m elemenata na kojima se entiteti iz skupa E mogu na
neki nain opisati:
V={vj; j=1,...,m} U
gde je U univerzum varijabli iz koga je skup V izabran, u pravilu na osnovu nekog eksplicitnog teorijskog modela.
Definiimo sada dve strukture, jedinini vektor e i centridni projektor
eT=(1 1 ... 1)

=e(eTe)-1eT
Neka su opisi entiteta iz skupa E na varijablama iz skupa V organizovani u matricu B
B=EV=(bij)

i=1,...,n; j=1,...,m

Centrirajmo sada podatke iz matrice B


BC=B-B
Tada e matrica kovarijansi varijabli iz V na skupu E biti
W = BCT BC n 1

a matrica iji su elementi dijagonalni elementi iz matrice W bie matrica varijansi dobijenih rezultata
V=diag W
Operacija

Z = BCV

1
2

1
2

proizvee tada matricu podataka u standardnoj normalnoj formi.


Neka je, u skladu sa komponentnim modelom faktorske analize, struktura matrice Z
Z=AT+NT
gde je matrica prvih k, a matrica poslednjih m - k latentnih dimenzija, a A i N njima pridruene matrice sklopa.
Struktura matrice interkorelacija bie tada:
ZTZ=R=ATAT + NTNT =AMAT+NJNT
gde su
M=T
i

J=T

matrice korelacija latentnih dimenzija.


Odredimo sada neki vektor xp kojim emo izvriti preslikavanje matrice podataka u standardnoj
normalnoj formi Z u neki vektor k tako da koliina informacija koja se na osnovu strukture k dobija o
entitetima bude maksimalna (tj. tako da varijansa rezultata u vektoru dobijenom mnoenjem matrice
podataka Z i vektora xp bude maksimalna, uz dati uslov na xp):
Zx p = k p

2p = k Tp k p = max
xTp x p = 1

Definiirno funkciju f koju treba maksimizirati:


281

Konstantin Momirovi u statistici

f ( x p , p ) = p2 p ( xTp x p 1 )
= k Tp k p p ( xTp x p 1 )
= xTp RxT p ( xTp x p 1 )
Deriviranjem funkcije f, deljenjem sa 2 i svoenjem na nulu
Rx p = x p p

p=1,...k,k+1,...,m

( R p I )x p = 0

p=1,...k,k+1,...,m

ili

to je obian problem svojstvenih vrednosti matrice R.


Jasno je da je varijansa t2 rezultata na komponentama jednaka svojstvenim vrednostima, jer, kako je
kp=Zxp
to je
2p = k Tp k p = xTp Rx p = p

Na osnovu ovoga lako je uvesti neka svojstva glavnih komponenata. Tako je matrica kovarijansi
standardizovaih varijabli i glavnih komponenata jednaka proizvodu svojstvenih vektora i svojstvenih
vrednosti matrice interkorelacija
H*=ZTK=RX=X
gde je
K=(kp), p=1,...m
matrica glavnih komponenata.
Ako odredimo mataricu standardizovanih glavnih komponenata

K* = K

1
2

matrica korelacija podataka (u standardizovanoj normalnoj formi) i standardizovanih glavnih komponenata bie

H = Z T K* = RX

1
2

= X2

a skalarni produkti vektora iz H jednaki su svojstvenim vrednostima


1

H T H = 2 X T X2 =
Iz ovoga sledi, dakle, da su maksimizacijom varijanse rezultata u komponenti.
3. Odreivanje faktora orthoblique transformacijom

Ukupan broj latentnih dimenzija koje e ui u dalju transformaciju odredimo po PB kriterijumu. To


zapravo znai da e se zadrati onoliko latentnih dimenzija koliko je potrebno da se pomou njih dostigne
ukupna varijansa skupa izvornih varijabli transformisanih u parcijalni image oblik:
Neka je
U-2=diagR-1
dijagonalna matrica recipronih vrednosti uniknih varijansi varijabli iz V. Varijanse tih varijabli transformisanih u
parcijalni image oblik bie elementi dijagonalne matrice
(I-U-2)=diag(R+U2R-1U2-2U2)
Ukupna varijansa tako transformisanih varijabli je, oigledno

282

Objavljeni radovi
m

c = trace( I U 2 ) = m u 2j
j =1

gde su u 2j elementi dijagonalne matrice U2. PB kriterijum definisan je relacijom


k 1
k

c
,
p < c

p =1
p =1

(talec i Momirovi, 1971) Definiimo sada


X=(xp)
=(p)
p=1,...,k
K=ZX=(kp)
Matricu prvih k zadranih svojstvenih vektora matrice interkorelacija rezultata podvrgnimo sada ortonormalnoj
tranformaciji tako da se maksimizira Kaiserov brutovarimax kriterijum
XT = A *

w=

a njp a 2jp = max

j =1 p =1

p =1 j =1
T

T T = TT

=I

Proizvod matrice glavnih komponenti transformacijske matrice T daje mataricu nestandardizovanih


glavnih komponenti u orthoblique poziciji

*=KT=ZXT=ZA*
Koverijanse ovako transformiranih nestandardizovanih glavnih komponenti bie elementi matrice
M*=*T*=TTxTZTZxT=TTxTRxT =TTT
Neka je:
D2=diagM*
dijagonalna matrica koja sadri varijanse glavnih komponenata u orthoblique poziciji. Podvrgnimo sada ovako
dobijene latentne dimenzije procesu standardizacije:

=*D-1=ZXTD-1
Matrica korelacija glavnih komponenata u orthobique poziciji bie:
M=T=D-1TTTD-1
Matrica korelacija standardizovanih rezultata i standardizovanih glavnih komponenata u orthoblique
poziciji odreuje strukturu latentnih dimenzija u prostoru varijabli
F=ZT=RXTD-1=XTD-1
Sklop latentnih dimenzija u prostoru varijabli tj. projekcije varijabli na vektore glavnih komponenata u
orthoblique poziciji bie definisan matricom
A=FM-1=XTD-1(DTT-1TD) = XTD
4. Algoritam TAKSONOM

Podvrgnimo matricu koja sadri vektore glavnih komponenata (ili, to je isto, matricu proizvoda levih
zadranih svojstvenih vektora matrice Z i zadranih singularnih vrednosti) nekoj ortonormalnoj
transformaciji tako da se maksimizira neka mera jednostavnosti opisa entiteta na dobijenim latentnim
dimenzijama:

KQ = C *

f ( C*) = ext
g( Q ) = fix

gde je f(C) neka parsimonijska funkcija, na primer Kaiserova brutto varimax funkcija.
283

Konstantin Momirovi u statistici


2

n 2
f ( C*) = c c*ip = max
i =1 p =1
p =1 i =1

*2
ip

a
g(Q)=QTQ=I
U matrici C* nalazie se vrednosti entiteta na dimenzijama koje prolaze kroz taksone entiteta.
Odredimo sada matricu koverijansi ovako dobijenih taksonomskih dimenzija:
W*=C*TC*=QTKTKQ=QTQ
Neka je
L2=diagW*
dijagonalna matrica koja sadri varijanse taksonomskih dimenzija. Podvrgnimo sada dobijcne taksonomske
dimenzije standardizaciji:
C=C*L-1=ZXQL-1
Matrica korelacija izmeu raksonomskih dimenzija bie:
CTC=L-1QT-1QL-1=W
Struktura taksonomskih dimenzija u prostoru varijabli bie odreena matricom korelacija
standardizovainh varijabli i standardizovanih taksonomskih varijabli:
S=ZTC=ZTZXQL-1 =R XQL-1=XQL-1
Sklop taksona u prostoru varijabli, tj. projekcije varijabli na taksonomske dimenzije bie efinisane
matricom:
P=SW-1L-1= XQL-1(L-1QTQL-1)
=XQ
Uoimo da je:
PTP=L2
5. Relacije faktora i TAKSONA

Korelacija izmeu faktorskih i taksonomskih skorova je:


TC=D-1TTXTZTZXQL-1
=D-1TTXTRXQL-1
=D-1TTQL-1
a, kako je
PTP=L2 ATA=D2
to je matrica koeficijenta kongruencije izmeu vektora sklopa faktora i vektora sklopa taksonomskih dimenzija
D-1ATP-1=D-1DTTXTXQ-1
=TTQ

Literatura
Jambu, M. (1988): - . , Moskva.
Lcone, V.; Radovanovi, D. et. ali (1991): Crime and development, UNICR, Rome.
Mirkin, B. (1991): A clustering method based on linear data reduction model. Zbornik radova 4, Majski skup
sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, Savezni zavod za statistiku, Instsitut za
statistiku, Beograd, pp 120-125.
Momirovi, K.; Zakrajek, R; Hoek, A.; Stojanovi, M. (1979): Comparative evaluation of some taxonomic
algorithms for the determination of morphological types. Collegium Antropologicum, 3, 1:59-65.
Momirovi, K.; Erjavec, AC; Radakovi, J. (1988): Metoda, algoritam i program za konkurentnu validaciju
mjernih instrumenata pod konformatornim i cksploralivnim modelom komponentne analize. Primenjena
psihologija, 9, 3-4:157-166.
talec, Momirovi, K. (1971): Ukupna koliina valjane varijanse kao osnov kriterija za odreivanje broja
znaajnih glavnih komponenata. Kineziologija, 1, 1:79-81.
284

Objavljeni radovi

Wolf, B.; Hoek, A.; Uzelac, S; Jurina, M.. (1991): Faktorska struktura indikatora socio-ekonomskog razvoja u
Hrvatskoj. Fakultet za defektologiju, Zagreb.
Wolf, B.; Hoek, A.; Obradovi, V.; Jurina, M. (1991): Taksonomska analiza optina u Hrvatskoj na osnovu
podataka o socio-ekonomskom razvoju. Fakultet za defektologiju, Zagreb.
Zlobec, L. (1975): Komparativna analiza nekih taksonomskih algoritama. Magistarski rad, Elektrotehniki
fakultet, Zagreb.

Goran Kneevi, Boris Kuzeljevi, Bora Radovi, Konstantin Momirovi


Institute for Criminological and Socological Research
RELATIONS BETWEEN A MODEL OF TAXONOMIC ANALYSIS AND
A MODEL OF COMPONENT ANALYSIS
SUMMARY
Formal relationships between a standard model of component analysis and a less standard model of
taxonomic or pseudo-claster analysis have been deduced. The model of component analysis is defined through
an orthoblique transformation of the main components whose number is defined in such a way that the variance
of contained components is equal or slightly higher than the total variance of analysed variables transformed
into a partial image-form. The model of taxonomic analysis is defined through an orthogonal transformation of
the left eigen vectors of standardized data matrix, whose number is equal with the number of retained main
components, which are normed by corresponding singular values. If is a diagonal matrix of retained eigen
values of the intercorrelation matrix, D2 a diagonal matrix of variance of the main components in orihoblique
position, L2 a diagonal matrix of the variances of taxonomic dimensions, T an orthonormal matrix obtained by a
transformation of the main components into orthoblique position and Q an orthonormal matrix obtained by a
transformation of the main components into taxonomic dimensions, then the following relationships are valid:
(1) Crosscorrelations between orthoblique factors and taxonomic dimensions are the elements of the
matrix
D-lTTAQL-1
(2) The congruency coefficients between vectors of the pattern matrix obtained under these two models
are the elements of the matrix
TTQ
Key words: component analysis / orthoblique / taxonomic analysis / TAXONOM /

285

Konstantin Momirovi u statistici

(23) STATISTIKA REVIJA 1995 II

IZVORNI NAUNI LANCI

Konstantin Momirovi, Ankica Hoek I


nstitut za kriminoloka i socioloka istraivanja u Beogradu
O JO NEKIM SKALARNIM MERAMA ASOCIJACIJE IZMEDJU
DVE NOMINALNE VARIJABLE
REZIME
Predloene su dve jedinstvene mere asocijacije izmeu dve nominalne varijable koje
se osnivaju na odnosima izmeu identino deftnisanih skalarnih formi matrice koja
sadri oekivane frekvencije dogaaja definisanih jednom od varijabli, ako su
poznate verovatnoe dogaaja definisanih drugom varijablom, i matrice koja sadri
frekvencije dogaaja definisanih pravom varijablom nezavisno od verovatnoa
dogaaja definisanih drugom varijablom. Prva mera je definisana kao razmer
tragova ovih matrica i pokazano je se svodi na proporciju tonih prognoza. Druga
mera dejinisana je kao razmer kvadrata normalnih normi tih matrica i pokazano je
da se svodi na meru reprezentacije jedne varijable n prostom koga razapinju vektori
druge varijable.
Kljune rei: mere asocijacije /nominalne varijable/ uslovne verovatnoe

1. Uvod

Kako su nominalne varijable, u stvari, skupovi meusobno iskljuivih binarnih varijabli, nije mogue
na jednoznaan nain definisali neku skalarnu mera asocijacije izmeu vc nominalne varijable, osim u
posebnom sluaju kada svaka od njih sadri samo (dve kategorije; u tom sluaju sve se racionalne mere
asocijacije svode na jedinu netrivijalnu kanoniku korelaciju izmeu binarnih varijabli kojima su opisane
kalegorije tih nominalnih varijabli (Momirovi, 1988).
To je i glavni razlog zbog koga su, do sada, predloene brojne skalarae mere asocijacije izmeu dve
nominalne varijable koje sadre konaan, ali proizvoljan broj kategorija. Te su mere efinisane na osnovu
razliitih teoretskih modela, i u optem se sluaju ponaaju vrlo razliito: uostalom, razliito se ponaaju i
neke mere koje su efinisane u okviru istog teoretskog modela.
Veina do sada predloenih skalarnih mera asocijacije koje su se uspele odrati, i koje su, zbog toga
implementirane u veinu statistikih programskih paketa, moe se, na osnovu teoretskog modela iz koga su
izvedene, podeliti u tri grupe (Goodman & Kruskall, 1954; Kendall & Stuart, 1961; Blelock, 1972;
Reynolds, 1977; Momirovi, 1988):
(1) Mere asocijacije u 2 metrici, u koje spadaju koeficijent kontingencje K. Pearson-a, Cramer-ovi
koeficijenti nestandardizovane i standardizovane aso-cijacije, koeficijent asocijacije Tschuprow-a i jo
nekoliko mera koje se vrlo retko primenjuju:
(2) Mere asocijacije izvedene iz redukcije pogreke prognoze rezultata u jednoj varijabli, ako su
poznali rezultati u drugoj; ovu grupu mera predloili su Goodman i Kruskall, a od njihovih se mera najee
primenjuju koeficijenti i ''u'' svom originalnom asimetrinom ili poneto na silu izvedenom
simetriziranom obliku;
(3) Entropijske mere asocijacije, od kojih su poznati asimetrini i simetrini koeficijenti relativnog
protoka informacija koje je predloio Garner, i asimetrini i simetrini koeficijenti korelacije nominalnih
varijabli W. Pearson-a.
U ovom e radu biti predloene dve mere asocijacije koje se osnivaju na jednom starom, ali do sada
286

Objavljeni radovi

slabo upotrebljavanom modelu kada se radi o relacijama nominalnih varijabli. Osnova tog modela su odnosi
izmeu skalarnih formi matrice koja sadri oekivane frekvencije dogaaja definisanih jednom od varijabli,
ako su poznate verovatnoe dogaaja efinisanih drugom varijablom, i matrice koja sadri frekvencije
dogaaja efinisanih prvom varijablom nezavisno o verovatnoa dogaaja efinisanih drugom varijablom.
Ovaj je model slian modelu koji je primenjen za konstrukciju jedne grupe mera asocijacije izmeu dva
skupa kvantitativnih varijabli (Volf i Momirovic, 1994) i jedne grupe mera asocijacije izmeu jedne
nominalne i jednog skupa kvantitativnih varijabli (Momirovi, Kneevi, Kuzeljevi i Radovi, 1994) i
pokazao se pogodnim za generiranje mera koje imaju neka vrlo korisna svojstva. Kako e se videti, neka od
tih svojstava imaju i mere asocijacije izmeu dve nominalne varijable koje su izvedene iz ovog osnovnog
modela.
2. Definicije

Neka je
C=(ei; i=1,...,n) P
konaan skup objekata izabran, sluajno, iz neke bar dvostruko heterogene populacije P . Neka je

B=(Bj; j=1,...,m) U
skup nominalnih varijabli izabran, na neki razuman nain, iz nekog unive-rzuma nominalnih varijabli sa istim
poljem znaenja. Neka je

Bj=(Wjs; s=1,...,mj)
neka nominalna varijabla iz skupa B. Dcfiniimo rezultat opisa skupa C nad skupom kategorija Wjs nominalne
varijable Bj kao indikatorsku matricu
Sj=C Bj =(Sjis)

j=1,...,m
i=1,...,n
s=1,...mj

iji su elementi definisani funkcijom


s jis = 1 ei W js
s = 0 e W
i
js
jsi

i definiimo
Sj= (Sjis)

s=1,...mj

kao indikatorsku matricu kojom su opisani entiteti iz C na varijabli Bj iz B koja ima status prediktorske varijable, a
Sk= (Skir)

r=1,...mk

kao indikatorsku matricu kojom su opisani entiteti iz C na varijabli Bk iz B koja ima status kriterijske varijable. Neka
su

K jj = S Tj S j
i

K kk = S kT S k
dijagonalne matrice iji su dijagonalni elementi, oigledno,
kss= num(ei Wjs)
odnosno
krr= num(ei Wkr)
i neka je
287

Konstantin Momirovi u statistici

K jk = S Tj S k
konlingencijska matrica iji su elementi
ksr = num(ei Wjs Wkr).
Neka je Bjk neka nepoznata matrica reda (mj, mk) takva da reavn regresijski problem
SjBjk =Sk - Ek 2k= tr (ETkEk) = minimum.
gde je tr oznaka traga.
Funkcija koju treba minimizirati je

2k= tr ((Sk -SjBjk)T(Sk -SjBjk))


= tr (Kkk -2BTjk Kjk + BTjk KjjBjk)
jer je, naravno, deriviranjem ove funkcije po elementima matrice Bjk
tr(BTjk Kjk)=tr(KTjk Bjk).

k2 / Bjk=-2 Kjk+2 KjjBjk ,


pa nakon deljenja sa 2 i svoenja na nulu,
KjjBjk = Kjk.
dobija

Matrica Kjj je, naravno, regularna dijagonalna matrica, te se mnoenjem dobijenog rezultata sa K-1jj

Bjk = K-1jj Kjk.


Uoimo da je Bjk u stvari matrica uslovnih verovatnoa
p=(ei Wkr) ei Wjs
dakle verovatnoa da neki objekt iz P koji pripada nekoj kategoriji prediktorske varijable Bj pripada i nekoj kategoriji
kriterijske varijable Bk . Zbog toga operacija
Gk = SjBjk =Sj(STj Sj)-1 STj Sk,
dakle projekcija vektora Skr iz matrice Sk u mj dimenzionalni hiperkub koga razapinju vektori iz Sj , generira matricu
iji su elementi verovatnoe da se nekom objektu e iz C dogodi neki dogaaj defmisan nekom kategorijom Wkr iz Bk
ako mu se dogodio neki dogaaj definisan kategorijom Wjs iz Bj Kako je
Akk=GTkGk= STkSj(STjSj)-1STjSk= STkGk
a

2k= tr(Kkk Akk),


to je neka skalrna funkcija matrice Akk prirodna mera slinosti izmeu klasifikacije definirane nominalnom
varijablom Bj i klasifikacije definisane nominalnom varijablom Bk. Prema tome, problem se svodi na konstrukciju
neke pogodne skalarne funkcije matrice Akk i neke mere koja normira tu skalarnu funkciju na neki pogodan nain.
Ova ideja nije, naravno, nova. Lauro i D'Ambra (I984) su, pod jednom varijantom kanonikog modela
poznatog pod imenom analiza korespodencije, takoe analizirali svojstva matrica tipa matrice Akk izvedenih
na neto drugaiji nain, i nali su da se jedna skalarna funkcija te matrice svodi na Kendall-ov koeficijent .
3. Kvadrat maksimalne netrivijalne kanonike korelacije izmeu sj i sk: koeficijent 2

Neka je x neki nepoznati mk diinenzionalni vektor takav da je

2p = (xTp Akkxp) / (xTp Kkkxp)= maximum 2 1, xTpKkkxp=1.


Funkcija koju treba maksimizirati je
288

Objavljeni radovi

f(xp,p)= (xTp Akk xp) / (xTp Kkk xp)- p (xTp Kkk xp -1)
gde je p neki nepoznati Lagrange-ov multiplikator. Diferenciranjem ove funkcije obzirom na elemente vektora xp, i
vodei rauna o uslovu xTpKkkxp=1,

f / x=2Akk xp - 2p Kkk xp
pa nakon deljenja sa 2 i svoenja na nulu
Akk xp =2p Kkk xp.
Ali, matrica Akk ima kao elemente skalarne produkte binarnih vektora projiciranih u hiperkub
definisan takode binarnim vektorima, pa je oigledno je da je, za p=1, p=1. Prema tome, netrivijalno reenje
je p za p=2. Stoga se problem svodi na reavanje karakteristine jednaine
(Akk -p Kkk) x2=0
koja se moe napisati i u obliku

( K kk1 K kj K jj1 K jk 2jk I ) x2 = 0


pa je jasno da se ova meni svodi na kvadrat maksimalnog netrivijalnog koeficijent kanonike korelacije izmeu
nominalnih varijabli Bj i Bk (Momirovi, 1988). Zbog toga, naravno,
Hipoteza H0jk : Pjk2 = 0, gde je Pjk2 vrednost maksimalnog koeficijenta kanonike determinacije
varijable Bk na osnovu varijable Bj u populaciji P moe testirati na vie naina. Prvi je postupak koji su
razmatrali Kendall i Stuart (1961)
2jk =n 2jk
je pod H0jk varijabla2jk ima, aproksimativno, 2 distribuciju sa
v=mjmk-3
stepeni slobode. Meutim, Lancaster je pokazao da je ova aproksimacija prilino loa (Kendall & Stuart, 1973).
Zbog toga je pogodniji drugi nain, koji su, verovatno, prvi predloili Ajvazjan, Jenjukov i Mealkin (1985), da se
hipoteza H0jk testira na osnovu vrednosli varijable

2jk =-(n-1-(mj+mk-1 )/2)loge(1- 2jk )


koja pod lom hipotezom ima 2distribuciju sa v slepeni slobode. Trei nain je da se u tu svrhu primeni uobiajeni
Bartlett-ov test (Bartlett, 1941)
q

2jk =-(n-1-(mj+mk-1 )/2)loge (1-pk )


p =2

gde je q= min (mj, mk ), jer i ovako elefinisana vrednost 2jk ima, aproksimativno, 2 distribuciju sa v=(mj-1)(mk-1)
stepeni slobode.
Kvadrat maksimalnog netrivijalnog koeficijenta korelacije izmeu kanonikih varijabli izvedenih iz
binarnih varijabli iz Sj i Sk, dakle izmeu tih varijabli reparametriziranih vrednostima y, vektorima x i
yz=Bjkx2 jk1
operacijama
k2=Sjyz
i
h2=Skxz
je oigledno mera koja ima vrlo pogodna svojstva, ali ima i dva vrlo ozbiljna nedostatka. Prvi je da je dovoljno da su
samo dva vektora, Sis iz Sj i Skr iz Sk identina, ili priblino identina, pa da ova mera poprimi vrednost 1 ili vrednost
blisku 1. Drugi je da ostale netrivijalne kanonike korelacije mogu lakoe biti znaajne, i definisati sasvim drugaiji
sklop odnosa izmeu binarnih varijabli iz odnosa koji efinie prvi par Sj i Sk netrivijalnih kanonikih varijabli.
289

Konstantin Momirovi u statistici

i Kkk

Zbog toga je umesno razmotriti i neke druge mere definisane odnosima skalarnih funkcija matrica Akk

4. Proporcija adekvatnih prognoza: koeficijent 2

Dijagonalni elementi matrice Akk su, oigledno,


arr=num(eiWkr eiBj)
dakle oekivane frekvencije dogaaja definisanih kategorijama Wkr kriterijske varijable Bk na osnovu pripadanja
objekata ei iz C bilo kojoj kategoriji Wjs prediktorske varijable Bj.
Zbog toga je koeficijent

jk2 = trAkk / trK kk = trAkk / n = 1 k2 / n


primitivna, ali razumna mera asocijacije izmeu varijabli Bj i Bk.
Propozicija 1.
Koeficijent jk2 je monotona rastua funkcija stvarne povezanosti izmeu varijabli Bj i Bk i varira u
rasponu
0 < jk2 1.
Dokaz:
Da je jk2 monotona rastua funkcija povezanosti izmeu Bj i Bk oigledno je iz konstrukcije matrice
Akk. Oigledno je i da jk2 moe poprimili vrednost 1 onda i samo onda kada je Sj = Sk. Meutim, jk2 ne moe
poprimiti vrednost nula jer je na osnovu injenice da je neki entitet lan bilo kog podskupa skupa dakle na
osnovu injenice da taj entitet postoji, uvek mogue predvideti da e bili lan Bj bilo kog podskupa skupa Bj
i Bk
Propozicija 2.
Koeficijent jk2 je asimetrina mera povezanosti izmeu varijabli Bj i Bk u optem sluaju

jk2 kj2
Dokaz:
Asimetrinost je posledica injenice da, u optem sluaju
tr Akk tr Ajj
gde je
Ajj = StjSk(StkSk)-1StkSj.
5. Koeficijent reprezentacije: mera 2

Zanimljiva mera asocijacije izmeu varijabli Bj i Bk moe se definisati analogno Kaiserovoj meri
reprezentativnosti nekog uzorka varijabli na osnovu opteg modela generalizovani image transformacija
(Momirovi, talec i Zakrajek, 1973) primenjenih na binarne varijable iz Sj i Sk Naime, mera

2jk = (eT(Akk Akk)e) / (eT(Kkk Kkk)e)


gde je e sumacioni vektor reda (q), q=mk a oznaka Hadamard-ovog mnoenja, dakle
2jk =

art2 / k rr2

r =1 i =1

r =1

je oigledno propocionalna reprezentaciji vektora iz Sfc u prostom koga razapinju vektori iz Sj pa je stoga neka mera
290

Objavljeni radovi

asocijacije izmeu varijabli Bj i Bk.


Propozicija 3.
2jk je monotona rastua funkcija povezanosti izmeu Bj i Bk i varira u rasponu

0 < 2jk 1
Dokaz:
Ako je Bj = Bk , Akk = Kkk i 2 = 1. Meutim, kako Akk ne moe biti 0, 2 > 0.
Propozicija 4.
Koeficijent 2jk je asimetrina mera relacija izmeu varijabli Bj i Bk jer u optem sluaju

2jk kj2 .
Dokaz:
Kako u optem sluaju Akk Ajj to
eTk(Akk Akk)ek eTj(Ajj Ajj)ej
eTk(Kkk Kkk)ek eTj(Kjj Kjj)ej
gde su ek i ej sumacioni vektori reda mk, odnosno mj.
6. Problem nezavisnosti

injenica da ni jk2 ni 2jk ne mogu poprimiti vrednost 0 ni u sluaju da je

2jk = 0 2jk = 0, gde je


2jk = n( tr( K kk1 K kj K jj1K jk ) 1 ),
vrednost 2 testa pridruenog kontingencijskoj tabeli Kjk =KTkj, dakle u sluaju potpune nezavisnosti, sigurno e
izazvati nelagodnu kod svakog pravovernog statistiara. Uoimo, meutim, da je na osnovu informacija sadranih u
jednoj nominalnoj varijabli uvek mogue, sa nekom verovalnoom razliitom od nule, prognozirati da e neki objekt
imati neku karakteristiku koja definie podskupove bilo koje druge nominalne varijable, na osnovu proste injenice
da je u svakoj nominalnoj varijabli virtualno sadrana informacija da objekt postoji, i da mora imali neku od
karakteristika koje definiu neku drugu nominalnu varijablu koja se na njega odnosi. S te take gledita hipoteza o
nezavisnosti je, kada se radi o nominalnim varijablama, jedan od statistikih mitova: ta hipoteza, u stvari, ne znai da
su dve nominalne varijable stvarno nezavisne, ve samo da je prognoza 0 ishodu jednog skupa dogaaja na osnovu
ishoda drugog skupa dogaaja tana u meri u kojoj je to mogue na osnovu zakona sluaja. Uostalom, neke mere
asocijacije izmeu dve nominalne varijable, kao to je, na primer, koeficijent konlingencije, ne mogu poprimiti
vrednost 1 ni u sluaju da su Bj i Bk dve identine varijable, pa su mnogi to prihvatili iako je ta osobina mnogo
neobinija od osobine da neki koeficijent asocijacije ne moe poprimiti vrednost 0.
Ipak, pristojno je razmotriti problem donjih granica koeficijenata jk2 i 2jk dakle vrednost koju ti
koeficijenti posliu u sluaju koji se obino naziva sluaj stohastike nezavisnosti, dakle u sluaju da je

2jk = n(tr ( K kk1 K kj K jj1K jk ) 1) = 0.


Kako je, u tom sluaju, oigledno

tr ( K kk1 K kj K jj1 K jk ) = tr ( K kk1 Akk ) = 1,


kako su dijagonalni elementi matrice Akk
w

arr = k ss2 k ss1


s =1

291

Konstantin Momirovi u statistici

gde su kss elementi kontingencijske matrice Kjk, a w=mj, tako se moe pokazati da je
q

min( jk2 ) = prr2


r =1

gde su
prr =krrn-1

r=1,...,q=mk

procene verovatnoa
prr =p(eiWkr)

r=1,...,mk

jer su u sluaju potpune stohaslike nezavisnosti varijabli Bj i Bk elementi kontingencijske matrice Kjk
ksr=ksrkrrn-1 .
Neka je
q

hk = prr log e prr


r =1

entropija varijable Bk, Oigledno je da

min( jk2 ) 0 hk
dakle da donja granica koeficijenta jk2 zavisi od apriorne nesigurnosti da e se dogoditi neki dogaaj definisan
kategorijama nominalne varijable Bk.
Na slian se nain moe odrediti donja granica koeficijenta 2jk . U sluaju potpune slohastike
nezavisnosti izmeu varijabli Bj i Bk elementi matrice Akk su
w

art = k sr k st k ss1

r,t=1,...,q

s =1

pa je tada
q

r =1

r =1

r =1

ast2 / krr2 = k rr2 / n 2 = prr2 ;


r =1 r =1

prema tome, u sluaju potpune stohaslike nezavisnosti izmeu varijabli Bj i Bk ako varijabla Bj ima logiki, status
nezavisne, a varijabla Bk zavisne varijable,
min( 2jk ) = min( jk2 )
Naravno, zbog toga vredi i da
min( 2jk ) 0 hk ,
dakle da donja granica repiezentativnosti varijable Bk varijablom Bj zavisi od apriorne neisgurnosti da e se dogodili
neki od dogaaja definisanih kategorijama varijable Bk.
7. Reparametrizacija koeficijenta 2 : koeficijent 2

Kako je donja granica koeficijenta jk2 u svakom sluaju poznata i ima jasan smisao, lako je
reparametrizirali taj koeficijent Lako da u sluaju potpune nezavisnosti poprimi vrednost 0. Takva
reparametrizacija definisana je funkcijom
q

jk2 = ( 2jk prr2 ) /( 1 prr2 ).


r =1

r =1

Koocficijent varira u rasponu 0 2jk 1, i oigledno je da je jednak koeficijentu i jk koji su


2
jk

predloili Goodman i Kruskall (1954) i analognom asimetrinom koeficijentu asocijacije koji su predloili
Lauro i D'Ambra (1984) jer je, u stvari,
292

Objavljeni radovi
w

r =1

r =1

jk = ( psr2 pss1 prr2 ) /( 1 psr2 )


S =0 r =1

dakle jednak normiranoj raziici izmeu verovatnoe da se na osnovu rezultata u varijabli Bj sasvim tano odrede
rezultati u varijabli Bk i verovatnoe da se ti rezultati odrede na osnovu zakona sluaja.
U posebnom sluaju mj = mk =2

jk2 = 2jk = 2jk


gde je

2jk = 2jk / n
kvadrat koeficijenta asocijacije koji se obino pripisuje Cramer-u, pa je stoga, u tom sluaju, 2jk = kj2 ; ovo sledi iz
injenice da se u tom sluaju i 2jk moe svesti na generalni koeficijent determinacije metrikih varijabli
n

i =1

i =1

i =1

g 2jk = ((2 xij xik ) /( xij2 + xik2 )) 2


ako su veklori Sj1 iz Sj, i Sk1 iz Sk standardizovani operacijama

x j = ( s j1 C s j1 ) j11 = ( xij )
xk = ( sk1 C sk 1 ) k11 = ( xik )
formula gde je, ako je en sumacioni vektor reda n,

C = en ( enT en )1 enT
centroidni projektor, a

2j1 = ( sTj1s j1 s Tj1C s j1 )n 1


drugi momenti tih veklora (Momirovi, 1988).
8. Testiranje hipoteza o koeficijentima 2 i 2

Kako je
q

r =1

r =1

n jk2 = trA = arr = num(ei Wkr ei B j )


frekvencija svih dogaaja definisanih kategorijama nominalne varijable Bk koji se mogu predvideti na osnovu
dogaaja definisanih kategorijama nominalne varijable Bj lako je konstruisati test hipoteza tipa

H jk : 2jk = 2h
gde je 2jk vrednost koeficijenta 2jk u populaciji P , a 2h neka hipotetska vrednost tog koeficijenta.
Naime, pod Hjk,
q

n h2 = num ( ei Wkr ei B j ) 2jk = h2


r =1

pa varijabla

2jk = (n 2jk nh2 ) 2 (nh2 ) 1


ima 2 distribuciju sa v=1stepeni slobode.
U posebnom sluaju varijabla

H jk : 2jk = min( jk2 )


293

Konstantin Momirovi u statistici


q

r =1

r =1

2jk 0 = (n jk2 n prr2 ) 2 (n prr2 ) 1


je, naravno, test hipoteze

H jko :
gde je

2
jk

2
jk

=0

vrednosl oeficijenta 2jk u populaciji P, dokle test hipoteze da je varijabla Bk stohastiki nezavisna od

varijable Bj
9. Reparametrizacija koeficijenta 2 : koeficijent 2

Reparametrizacija koeficijenta reprezentativnosti koja ima za cilj da taj koeficijent poprimi vrednost 0
u sluaja potpune nezavisnosti definisana je funkcijom
q

r =1

r =1

jk2 = ( 2jk prr2 ) /(1 prr2 ).


Koeficijent

2
jk

varira u rasponu

0 jk2 1,

ali i pored toga to je, u stvari, normirana mera

reprezentativnosti skupa Bk skupom Bj nije jasno na koji se nain mogu testirati bilo koje hipoteze koje se
odnose na koeficijente 2jk i jk2 .
10. Numeriki primer

Ponaanje ovih mera asocijacije ilustrovano je jednim primerom u kome je, na uzorku od 314
punoletnih kriminalaca mukog pola, starih od 21 do 55 godina, koji je bio reprezentativan za populaciju
kliniki zdravih jugoslovenskih kriminalaca te starosti i pola koji su pravomono osueni i nalaze se na
izdravanju kazne za ma koje krivino delo, osim politikih delikata, koje je predvieno Krivinim zakonima
Srbije ili Jugoslavije, analizirana veza izmeu njihove delinkventne aktivnosti u doba dok su bili maloletni, i
recidivizma u doba punoletslva.
Nominalna varijabla Bm, kojom je opisana delinkventna aktivnost u doba malolelstva,
sadravala je dve kategorije; U kategoriju 1 uvrteni su kriminalci kojima, kao maloletnicima, nije bila
izreena nijedna od sankcija koje se izriu maloletnicima za bilo koju vrstu delinkventnog ponaanja, a u
kategoriju 2 kriminalci kojima je, u to doba, izreena bar jedna takva sankcija. Nominalna varijabla kojom je
opisan kriminalni recidivizam sadravala je tri kategorije: U kategoriju 1 uvrteni su kriminalci koji su, do
dana kada je provedeno ispitivanje, poinili samo jedno krivino delo; u kategoriju 2 uvrteni su kriminalci
koji su ve ranije, ali kao punoletne osobe, osueni za neko krivino delo, a u kategoriju 3 kriminalci koji su
ranije, kao punoletne osobe, osueni za dva ili vie krivinih dela.
U Tabeli 1. navedena je kontingencijska matrica izmeu ovih varijabli, zajedno sa vektorima
marginalnih frekvencija. U Tabeli 2. je naveden ishod uobiajenog 2 testa znaajnosti asocijacije izmeu
ovih varijabli i neke od uobiajenih mera asocijacije. Sa je oznaen Cramer-ov koeficijent asocijacije, sa
jedini netrivijalni koeficijent kanonike korelacije, koji je, naravno, u ovom sluaju jednak koeficijentu ,
sa Pearsou-nov koeficijent kontingencije, sa simetrini koeficijent asocijacije koji su predloili
Goodman i Kruskall, a sa simetrini entropijski koeficijent asocijacije koji je predloio Garner. U toj tabeli
su i nesimetrini koeficijenti, oznaeni sa mr i nn, nesimetrini koeficijenti, oznaeni sa mr i mn i
nesimetrini koeficijenti, oznaeni sa mr i nn. U tabeli 3 su koeficijenti asocijacije koji su predloeni ili
2
razmatrani u ovom radu; sa 2 je oznaen kanoniki koeficijent determinacije, sa 2mr i nn
proporcije
2
2
tanih prognoza, sa 2mr i nn
reparametrizirani 2 koeficijenti, sa 2mr i nn
koeficijenti reprezentativnosti,
2
2
a sa mr
i nn
rerparamerlizirani koeficijenti reprezentativnosti.
2
2
2
Testovi znaajnosti 2mr i nn
i nn
koeficijenata, ekvivalenti testovima nuliteta mr
koeficijenata
2
2
oznaeni su sa mr
i nn
. U svim tabelama sa p su oznaene verovalnoe pogreke pri odbacivanju
hipoteze da je neki koeficijent asocijacije jednak nuli. Ta je verovalnoa za sve simetrine i asimetrine mere
asocijacije za koje postoje testovi znaajnosti, a njihov ishod nije eksplicilno naveden, iznosila 0.000.

294

Objavljeni radovi

Tabela 1. Kontingencija varijabli Bm i Br


Bm / Br
1
2
fr

151
1
152

48
14
02

fm

50
50
100

249
65
314

Tabela 2. Standardne mere asocijacija

89.625

p
.000
mr
.302

.534
nn
.000

.534

.471
mr
.157

mn
.323

.216
mr
.177

.213
nn
.285

Tabela 3. Mere asocijacije izvedene iz matrice A.


2

.285

2mr

nn2

2
mr

nn2

435

.765

.177

.284

2
mr

pmr

nn2

pnn

10.344

.001

4.041

.044

2mr

nn2

2
mr

nn2

.416

.733

.067

.186

Kako se vidi iz ovih rezultata ponaanje predloenih mera je priblino toliko pristojno, ili, tanije,
priblino tako nepristojno kao to je i ponaanje ostalih skalarnih mera asocijacije nominalnih varijabli. Ipak,
briljivije razmatranje uslovnih verovatnoa, koje je lako izraunati iz podataka navedenih u Tabeli 1,
pokazuje da te mere nisu samo jo jedan doprinos posvemanjoj zbrci koja sada vlada u ovom podruju
analize podataka.
Literatura:
Ajvazjaan, S.A.; Jenjukov, I. S: Mealkin, L.D. (1985): Prlkladnaja statistika:
Moskva: Finansi i statistika.
Bartlelt, M. S. (1941): The statistical significance of canonical correlation. Biotnetrika, 32:29-38.
Mc Graw-HJDL Blalock.H. M. (1972): Social statistics (2 edition). New York:
Goodman, L.A.; Kruskall, W. H. (195-1): Measures of association far crossclassification. Journal of American
Statistical Association, 49:732-764.
Kendall, M. G.; Stuart, A. (1961): The advanced theory of statistics. 2. Inference and relationship. New York:
Hafner.
Kendall, M. G.; Stuart, A. (1973): Siatistieskuje vivodi i svjavi (perevod L.I. Galjuka i A. T. Terehina).
Moskva. Nauka.
Lauro, N.; D'Ambra, L. (1984): L'analyse non symetrique des correspondanccs. Data analysis and informatics, 3,
Amsterdam: North-Holland, 433-466.
Momirovic, K.; talec, J.; Zakrajek, E, (1973): Primjena generaliziranih image transformacija u analizi relacija
skupova varijabli. Kineziologija, 3, 2:57-61.
Momirovi, K. (1988): Uvod u analizu nominalnih varijabli. Ljubljana: JUS, Metodoloke sveske, 2.
Momirovi, K.; Kneevi, G.; Kuzeljevi, B.; Radovi. B. (1994): Mere asocijacije izmeu jedne nominalne i
jednog skupa kvantitativnih varijabli. Zbornik radova 8 Sekcije za klasifikacije Saveza statistikih drutava
Jugoslavije, Beograd: Savezni zavod za statistiku, 73-98.
Reynolds, H.T. (1977): Analysis of nominal data. Beverly Hills and London: Sage University Paper Series on
Quantiative Applications in Social Sciences, 07-007, Sage Publications.
Volf, B.; Momirovi, K. (1994): Neke varijacije na Cramer - Hotelling-ovu temu. Statistika revija, 43, 3-4:1-14.

ON SOME ADDITIONAL SCALAR MEASURES OF ASSOCIATION BETWEEN


THE TWO NOMINAL VARIABLES

SUMMARY
We proposed two simple measures of association between the two nominal variables that are formed on
the relation between the identically defined scalar matrix forms which contain expected frequencies of events
defined by one of the variables, provided that probabilities of the events defined by the second variable are
known, as well as the matrices that, contain frequencies of the events defined by the first variable independently
of the probabilities of the events defined by the second variable. The first measure is defined as the proportion of
the traces of these matrices. It was shown that it is reduced to the proportion of correct prognoses. The second
measure is defined as the proportion of the squares of normal norms of these matrices, and it was shown that it
is reduced to the measure of representation of one variable in the space expanded by the vectors of second
variable.

295

Konstantin Momirovi u statistici

(24) STATISTIKA REVIJA 1996 II

IZVORNI I NAUNI LANCI

Mr Milivoje Bogdanovi i dr Konstantin Momirovi


Filozofski fakultet Univerziteta u Beogradu
REINTERPRETACIJA POINT-BISERIJALNOG KOEFICIJENTA KORELACIJE
REZIME
Produkt-moment koeficijent korelacije izmeu jedne binarne i jedne kontinuirane
varijable, poznat pod imenom point-biserijalni koeficijent korelacije, reinterpretiran
je s take gledita analize podataka i definisan kao poseban sluaj kanonike
korelacije izmeu jedne nominalne i jedne kvantitativne varijable. Pokazano je da je
nezadovoljavajue ponaanje point-biserijalnog koeficijenta korelacije uglavnom
posledica pokuaja da se, pod linearnim modelom, predvidi jedna kontinuirana na
osnovu jedne binarne varijable. Predloen je stoga jedan drugi model za procenu
relacije izmeu jedne binarne i jedne kontinuirane varijable, zasnovan na
kanonikom modelu analize korespodencije.
Kljune rei: POINT-BISERIJALNA KORELACIJA / DISKRIMINACIJA /
KANONIKI MODELI / ANALIZA KORESPODENCIJE
1. Uvod

Produkt-moment koeficijent korelacije izmeu jedne binarne i jedne kontinuirane varijable, poznat
pod imenom point-biserijalni koeficijent korelacije, verovatno spada u jedno od najmarginalnijih podruja i
matematike i primenjene statistike. Neto vie o ovoj meri, koja se obino oznaava sa rpb, moe se nai
uglavnom u udbenicima psihometrije ili psiholoke statistike (vidi, na primer, Garret, 1967; Ferguson,
1981: Bukvi, 1996, itd.). Glavni, ali ne jedini razlog za to je to se diskriminativnost binarnih estica
psiholokih mernih instrumenata obino procenjuje na osnovu koeficijenta korelacije sa ukupnim rezultatom
u testu, izvedenim obinim sabiranjem rezultata u esticama ili nekom drugom pogodnom procedurom.
Tretman point-biserijalnog koeficijenta korelacije u veini udbenika primenjene statistike obino je vie
nego povran. U najveem delu udbenika matematike statistike ovaj se koeficijent ni ne spominje, ali
postoje i vani izuzeci, posebno relativno kratka ali izvanredno dobro napisana sekcija u uvenoj knjizi
Kendala i Stjuarta (Kendall and Stuart, 1967; 1973).
Izvoenje koeficijenta rpb vrlo je jednostavno. Neka je b neka binarana varijabla s prva dva momenta
b = E (b) i b2 = E (b) E (b)) 2 i neka je v neka kontinuirana varijabla s prva dva momenta

r = E (v) i v2 = E (v) E (v)) 2 .


Neka je bv = E ((b E (b))(v E (v))) produkt-moment varijabli b i v. Tada iz formalne definicije
bilo kog produkt-moment koeficijenta korelacije sledi da je pb = 'b br 'r
Neka je sada e sumacioni vektor reda n, neka je M = e(ete)-1et centroidni projektor izveden iz e, neka je
b binarni vektor dobijen opisom nekog uzorka od n entiteta na varijabli b i neka je v vektor dobijen opisom
tog uzorka na varijabli v. Ocene prva dva momenta varijable b su p=etbn-1 i s2b=(btb-btMb)n-1=p(1-p)=pq,
recimo, a ocene prva dva momenta varijable v su m= etvn-1 i s2=(vtv-vtMv)n-1. Kako je ocena produktmomenta izmeu varijabli b i v

c = (bt v bt Mv)n 1 ,
nakon jednostavnih algebarskih manipulacija moe se pokazati da je ocena koeficijenta pb

rpb = ( pq) 1/ 2 es 1 = ( pq)1/ 2 (m1 m2 ) s 1


296

Objavljeni radovi

ako oznaimo sa m1 aritmetiku sredinu varijable v u poduzorku entiteta koji na varijabli b imaju rezultat 1, a sa m2
aritmetiku sredinu varijable v u poduzorku entiteta koji na varijabli b imaju rezultat 0.
Postoje oigledne relacije izmeu ovog koeficijenta i uobiajene forme t-testa znaajnosti razlike
izmeu aritmetikih sredina subpopulacija koje se razlikuju na varijabli b. Kako je

rpb2 (1 rpb2 ) 1 = t 2 (n 2) 1
gde je n veliina uzorka, a t uobiajeni t-test hipoteze Ho : 1 = 2 pod pretpostavkom da su varijanse u
subpopulacijama definisanim vrednostima na varijabli b jednake, znaajnost koeficijenta rpb moe se testirati na
osnovu vrednosti varijable

f = rpb2 (1 rpb2 ) 1 (n 2)
jer pod Ho ta varijabla ima Fishcr-Snedecorovu F distribuciju sa 1 i n - 2 stepeni slobode. Prema tome, problem
znaajnosti razlike izmeu oekivanih vrednosti dveju populacija moe se svesti na problem znaajnosti pointbiserijalnog koeficijenta korelacije, pri emu se dobija dodatna informacija o snazi relacije izmeu jedinstvenih
karakteristika tih subpopulacija i neke kvantitativne karakteristike entiteta.
Ipak, poznato je da je ponaanje koeficijenta rpb retko kada zadovoljavajue. Ova mera ne moe dostii
1 ak i u sluaju kompletne disjunkcije vrednosti na varijabli v na poduzorcima definisanim vrednostima na
varijabli b, i veoma je osetljiva na relaciju izmeu p i q. Cilj ovog rada je da redefinie ovu meru sa
stanovita analize podataka kako bi bili jasniji razlozi njenog neobinog ponaanja i da ponudi neke
ekvivalentne mere s neto pogodnijim karakteristikama.
2. Definicije

Neka je E = {ei; i = 1,..., n} P, P = P1 P2 sluajni uzorak iz neke populacije P koja se sastoji iz dve
subpopulacije P1 i P2 takve da je P1 P2 = 0 i neka je v neka kvantitativna varijabla s nekom eliptikom
funkcijom distribucije u P. Neka je e n-dimenzionalni sumacioni vcktor, i neka je

z = E v z t e = 0.z t z = 1
n-dimenzionalni vektor dobijen opisom, u standardnoj normalnoj formi, skupa E na varijabli v. Neka je W = {w1;
w2} neka kategorijalna varijabla kojom su definisana jedinstvena svojstva entiteta iz subpopulacija P1 i P2, i neka je

S = ( sij ) = E W
i = 1,..., n
j = 1,2
indikatorska matrica sa elementima sij definisanim funkcijom

{s

ij

= 1 ei w j , sij = 0 ei w j }.

3. Reinterpretacija point-biserijalnog koeficijenta korelacije

Neka je neki nepoznati 2-dimenzionalni vektor dobijen kao reenje problema

S = z ' = 2 = min imum.


Oigledno, funkcija koju treba minimizirati je

f ( ) = ( z S )t ( z S ) = 1 2 ' S ' z + ' S ' S


tako da se nakon diferencijacije te funkcije po

f ( ) / = 2 S ' z + 2 S ' S
dobija reenje

= ( S t S )' S ' z
gde su 1 i 2, elementi vektora , prosto ocene oekivanih vrednosti varijable v u subpopulacijama P1 i P2 u metrici
297

Konstantin Momirovi u statistici

izabranoj za opis skupa E na varijabli V.


Neka je sada

y = S = S ( S ' S )' S ' z


vektor predvienih vrednosti entiteta iz E na varijabli v na osnovu njihovih vrednosti na varijabli W. Jasno je da je y
vektor dobijen projekcijom vektora z u prostor razapet vektorima iz S. U ovoj metrici varijansa varijable v je

2 = y ' y = z ' S ( S ' S )' S ' z;


a kako je kovarijansa varijabli iz z i y

c = z ' y = z ' S ( S ' S )' S ' z = 2 .


ocena varijanse greke je

2 = ' = 1 2c + 2 = 1 2 .
tako da, zato to je 2 = min imum, 2 = c = max imum.
Kao i u reenjima drugih problema pod kriterijumom najmanjih kvadrata, neposredno su jasne sledee
relacije izmeu z, y i :

z' = z' ( z y) = 1 2 = 2
i

y' = y' ( z y) = 0
Kako je nepristrasna procena, pod modelom najmanjih kvadrata, nekog nepoznatog vektora u P,
matrica kovarijansi elemenata j je

C = 2 ( S t S ) t .
dijagonalna matrica s dijagonalnim elementima 2 n j 1 , j = 1,2 gde su

n j = num(ei w j )
j = 1,2
frekvencije entiteta iz E u subuzorcima E1 i E2 definisanim varijablom W.
Stoga su testovi hipoteza

H oj : j = 0
l = 1,2
prosto

t j = n1j/ 2 j 1
j = 1,2
jer, pod H0j, varijable tj imaju t distribuciju sa n - 2 stepeni slobode.
Definiimo sada specijalni sluaj kanonike korelacije izmeu W i v kao korelaciju izmeu z i y.
Oigledno,

= c ' =
je u stvari dobro poznati point-biserijalni koeficijent korelacije, tako da, zato to je

2 = maximum = maximum
Asimptotska varijansa koeficijenta jednaka je asimptotskoj varijansi bilo kog kanonikog
koeficijenta korelacije i moe se oceniti kao
298

Objavljeni radovi

p2 (1 2 ) 2 n1
tako da se donja i gornja granica intervala poverenja (1-) za mogu oceniti kao
la pta/2
i
ua pta/2
budui da koeficijent nije nikad blizak 1. Meutim, neto bolja aproksimacija varijanse ovog koeficijenta je
(Kendall and Stuart, 1967)

p2 = (1 p 2 ) 2 n 1 (1 2' (3 p 2 ) + p 2 (4 y 2 ) 1 )
gde je
y2 = (p1p2),
a p1 = n1n-1 i p2 = n2n-1 ocene verovatnoa p(ei P1) i p(ei P2).
Kako je koeficijent u stvari samo poseban sluaj kanonikog koeficijenta korelacije dobijenog
kanonikom diskriminacionom analizom, postoji mnotvo mogunosti za testiranje hipoteze H0p : = 0,
oigledno ekvivalentne hipotezi H0 : 1 = 2 = 0, dakle hipotezi da je udaljenost centroida subpopulacija P1 i
P2 na varijabli v jednaka nuli (Porebski, 1966). Jedan od njih je poseban sluaj Bartlettovog testa definisanog
u ovom sluaju sa

2 = -(n-2)loge2
jer pod H0p varijabla 2 ima 2 distribuciju s jednim stepenom slobode.
Sada je jasno da nezadovoljavajue ponaanje point-biserijalnog koeficijenta korelacije uglavnom
proistie iz pokuaja da se kontinuum predvia pod linearnim modelom preko binarne varijable korienjem
mehanizma najmanjih kvadrata. ak sa logikog stanovita ovo je skoro nereiv zadatak tako da razmatranje
jednog drugaijeg pristupa moe biti od nekog teorijskog, a moda i praktinog interesa.
5. Alternativna definicija point-biserijalne korelacije

Point-biserijalna korelacija u stvari je samo formalno simetrina mera asocijacije zato to mogunost
da se predvidi varijabla v na osnovu varijable W nije nuno jednaka mogunosti da se predvidi varijabla W
na osnovu varijable v94. Iako je mogue konstruisati vie asimetrinih mera asocijacije izmeu jedne
kvantitativne i jedne binarne varijable, jedna mera asocijacije, takoe definisana kao kanoniki koeficijent
korelacije, moe se smatrati pogodnom alternativom za predloenu reinterpretaciju point-biserijalnog
koeficijenta korelacije.
Neka su

d ij2 = n j ( zi j ) 2 2
j = 1,2
Mahalanobisove udaljenosti entiteta ei opisanih elementima zi
subpopulacija Pj, j = 1, 2 u metrici elemenata j iz .

vektora z od ocena centroida

Neka je C = {c1, c2} jedna druga kategorijalna varijabla definisana indikatorskom matricom

K = (kij ) = E C
i = 1,..., n
j = 1,2
sa elementima kij definisanim funkcijom
94

Ako je s ma koji vektor iz S, to se, na primer, moe uiniti na osnovu jednostavnog logit modela p = ((e-(a+bz))(1+e-(a+bz))-1) | (s-p)t(s-p) =
minimum, gde su z elementi vektora z, a p elementi nekog vektora p ogranieni na vrednosti u rasponu <0, 1>.

299

Konstantin Momirovi u statistici

{k

ij

= 1 d ij = min j d ij , kij = 0 d ij min j d ij }.

Jedna mera asocijacije izmeu varijabli v i W moe se sada definisati kao jedina netrivijalna
kanonika korelacija izmeu varijabli C i W. Ta se mera moe definisati kao reenje kanonikog problema u
analizi korespodencije (Momirovi, 1988), definisanog maksimizacijom funkcije

Kx = k .Sq = s k ' s = = max imum, 1.k ' k = s ' s = 1.


Funkcija koju treba maksimizirati je

f ( x, q, , ) = x' K ' Sq 1 / 2 ( x' K ' Kx 1) 1 / 2 (q ' S ' Sq 1) gde su x i q neki nepoznati


dvodimenzionalni vektori, a i neki nepoznati Lagrangeovi multiplikatori. Nakon diferencijacije te
funkcije po elementima x i q i neto jednostavnih algebarskih manipulacija, reenje za i x svodi se na
reenje kanonike jednaine.
((KtS)(StS)-1(StK)-2 (KtK))x = 0
tako da je reenje za q
q = (StS)-1(StK)x-1.
Naravno, koeficijent je, u stvari, Cramerov koeficijent , pa se hipoteza H0: = 0 moe testirati
operacijom

2 = n2
jer pod H0 varijabla 2 ima 2 distribuciju s jednim stepenom slobode.
Asimptotska varijansa koeficijenta je, naravno,

2 (1-2 )2n-1
ali je bolja aproksimacija te varijanse

2 = (4n 2 )
gde je

2 = 4n (22 - 4 )
u ovom sluaju ocena varijanse varijable 2 (Momirovi, 1988).
Naravno, koeficijent zavisi od efikasnosti klasifikacije. Ta se efikasnost moe proceniti kanonikom
korelacijom izmeu v i C

= (zK(KK)-1Ktz)1/2.
Jedna korigovana mera asocijacije izmeu varijabli v i W moe se sada definisati kao

= -1,
ali ima smisla razmotriti i neke druge mere asocijacije izmeu varijabli W i C. Jedna od tih mera je dobro poznati
koeficijent
y = (g11g22-g12g21) (g11g22+g12g21)-1
gde su grs, r, s = 1, 2 elementi kontingencijske matrice
G = StK.
Ocena varijanse koeficijenta y je
1
1
r2 = 4 1 (1 y 2 ) 2 ( g111 + g 22
+ g121 + g 21
)

tako da je lako testirati hipoteze tipa


Hr : y = yh,
jer pod Hr varijabla
300

Objavljeni radovi

zr = (y-yh) -1,
ima asimptotski normalnu distribuciju s parametrima 0. i 1. Sa stanovita teorije klasifikacije, koeficijent

2 = trag((KtS)(StS)-1(StK)n-1,
koji su predloili Momirovi i Hoek (1995) kao meru asocijacije izmeu dve kategorijalne varijable, moe takoe
biti od nekog interesa95. Kako je 0 < 2 1, neka hipoteza tipa
H : 2 =h | h 0
moe se testirati na osnovu vrednosti varijable

2 = (n2 - nh)2 (nh)-1


jer, pod H varijabla 2 ima 2 distribuciju s jednim stepenom slobode.
5. Numeriki primer

Kao ilustraciju ponaanja predloenih alternativnih definicija point-biserijalnog koeficijenta korelacije


naveemo neke rezultate analize relacija izmeu delinkvencije i amoralnosti96.
Jedan uzorak 318 ispitanika mukog pola, starih od 18 do 21 godinu, izvuen iz formalno
nedelinkventne populacije, i jedan uzorak maloletnih delinkvenata, takoe mukog pola, starih od 15 do 21
godinu u vreme kada je provedeno ovo istraivanje, ispitani su testom amoralnosti AMR23, koji su
konstruisali G. Kneevi i B. Radovi. Neke metrijske karakteristike ukupnog rezultata, dobijenog obinim
sabiranjem rezultata u esticama, prikazane su u tabeli 1. Simboli u toj tabeli imaju ovo znaenje:
: Kaiser-Meyer-Olkinov koeficijent reprezentativnosti
h3: Mera homogenosti koju su predloli Momirovi i Gredelj
1: Guttmanova prva donja granica pouzdanosti
3: Guttman-Cronbachov koeficijent pouzdanosti
6: Guttmanova esta donja granica pouzdanosti.
Tabela 1. Metrijske karakteristike testa amr23 u uzorcima iz nedel1nkventne i delinkventne populacije

h3

nedelinkventi

.9242

.7794

.9460

.9599

.9752

delinkventi

.8479

.7353

.9419

.9557

.9780

uzorak

U tabeli 2. su frekvencije (n) i relativne frekvencije (p) ispitanika, aritmetike sredine () i standardne
devijacije () rezultata na testu AMR23, i centroidi uzoraka na diskriminativnoj funkciji (c).
Tabela 2. Frekvencije ispitanika i aritmetike sredine na testu amr23 i diskriminativnoj funkcij1 u uzorcima
iz nedelinkventne i delinkventne populacije
uzorak

nedelinkventi

318

.6437

187.1478

45.0683

-.3149

delinkventi

176

.3563

228.1875

48.8095

.5690

U tabeli 3. je ukupan broj ispitanika (n), aritmetika sredina () i standardna devijacija () rezultata na
celom uzorku ispitanika, Boxova mera homogenosti varijansi testa AMR23 u subozorcima (m), stepeni
slobode pridrueni Boxovoj (v1 i v2) i verovatnoa pogreke pri odbacivanju hipoteze o homogenosti
varijansi (p).
Tabela 3. Zajednike karakteristike uzoraka i rezultati boxovog testa homogenosti varijansi
n
494

201.7692

50.3861

m
1.4550

v1
1

v2
577718.2

p
.2284

95

Naravno, i bilo koja druga mera asocijacije izmeu varijabli W i C moe se takoe smatrati procenom asocijacije izmeu varijabli v i W.

96

Matrice podataka bile su dobijene u jednom istraivanju uticaja poremeaja eventualnih funkcija na kriminalno ponaanje, koje su proveli G.
Kneevi i B. Radovi (1997). Ti su podaci ovde analizirani samo u ilustrativne svrhe; rezultate jedne sistematske analize ovih podataka pod
razliitim modelima saoptie Kneevi i Radovi u jednom posebnom radu.

301

Konstantin Momirovi u statistici

Glavni rezultati kanonike analize prikazani su u tabeli 4. Simboli u toj tabeli imaju ovo znaenje:
: Wilksova mera relativne intragrupne dispersije
f: Fisher-Snedecorov f-test izveden iz
v1 i v2: stepeni slobode pridrueni f-testu
p: verovatnoa greke pri odbacivanju hipoteze da se aritmetike sredine ne razlikuju
: kanonika korelacija
Tabela 4. Glavni rezultati kanonike anal1ze

.8475

F
88.5029

v1
1

v2
492

.3905

p
.0000

Neki dodatni rezultati dobijeni pod kanonikim modelom prikazani su u tabeli 5. Sa c i oznaeni su
aritmetika sredina i varijansa diskriminativne funkcije, sa min i max minimalna i maksimalna vrednost na
toj funkciji, sa d udaljenost, a sa z standardizovana udaljenost izmeu centroida.
Tabela 5. Parametri diskriminativne funkcije i udaljenos tcentroida subuzoraka
c
.0000

11.0900

Min
-2.6224

Max
3.0846

d
.8839

z
.8109

Kontingencijska tabela stvarnog i predvienog pripadanja ispitanika uzorcima iz nedelinkventne i


delinkventne populacije navedena je u tabeli 6, zajedno sa verovatnoama ispravne i pogrene klasifikacije.
Tabela 6. Stvarna i prognozirana klasifikacija ispitanika
Uzorak

nedelinkventi
216
.679
54
.307

Nedelinkventi
P
Delinkventi
P

delinkventi
102
.321
122
.693

Na kraju, u tabeli 7. su rezultati procena relacija izmeu delinkvencije i amoralnosti na osnovu nekih
drugih mera asocijacije koje se osnivaju na analizi odnosa izmeu stvarne i prognozirane klasifikacije
ispitanika. Simboli u toj tabeli imaju ovo znaenje:
: kanonika korelacija izmeu diskriminativne funkcije i klasifikacije koja se zasniva na toj funkciji
: kanonika korelacija izmeu stvarne i prognozirane klasifikacije
: korigovana kanonika korelacija izmeu stvarne i prognozirane klasifikacije
2: verovatnoa ispravne klasifikacije
y: koeficijent slaganja izmeu stvarne i prognozirane klasifikacije
Tabela 7. Alternativne mere asocijacije izmeu delinkvencije i amoralnosti

.7896

.3583

.4538

2
.6842

y
.6542

Kako se vidi iz ovog primera, problem asocijacije izmeu jedne binarne i jedne kontinuirane varijable
daleko je od toga da bude tako jednostavan kao to veruju naivni korisnici point-biserijalnog koeficijenta
korelacije. Razlog za to je vrlo jednostavan: ograniavanje na problem znaajnosti razlika izmeu oekivanih
vrednosti u P1 i P2 retko je kada od stvarnog interesa; u ozbiljnim istraivanjima pitanje intenziteta
asocijacije izmeu W i v je mnogo vanije, ali ni ni rpb nisu uvek pravi odgovori na to pitanje.
5. Neke zavrne primedbe

Odgovor na sasvim oekivano pitanje zbog ega je potrebna tolika koliina formalizma da bi se dobilo
jedno trivijalno reenje jednog trivijalnog problema je da je klasifikacija objekata u dve meusobno
iskljuive kategorije najjednostavnija mogua operacija u bilo kojoj nauci, i da jasne i razumljive informacije
o svojstvima te operacije moraju biti osnova za bilo koji smisleni odgovor na bilo koje smisleno pitanje. Jer,
komplikovane procedure u analizi podataka, statistici i teoriji merenja skoro su uvek beskorisne ako
jednostavni problemi ostaju nereeni, ili bivaju reeni na neki nezadovoljavajui nain.
Problem procene korelacije izmeu jedne binarne i jedne kontinuirane varijable je, meutim, samo
jedan, i verovatno najlaki od mnotva slinih problema u analizi podataka koji se mogu reiti njihovom
302

Objavljeni radovi

projekcijom u prostor kanonikih modela. To je posledica jednostavne injenice da je biortogonalni model


kanonike korelacijske analize, i sa logike i sa matematike take gledita, osnovna metoda za analizu
podataka i testiranje statistikih hipoteza. Lako se moe dokazati da su skoro sve standardne statistike
metode, ukljuujui regresijsku analizu, analizu varijanse, diskriminacionu analizu, faktorsku analizu, pa ak
i neke metode u taksonomskoj analizi i analizi stohastikih procesa u stvari posebni sluajevi opteg modela
kanonike korelacijske analize, i da se veina statistikih testova moe svesti na testove znaajnosti
kanonikih koeficijenata korelacije.

LITERATURNA BELEKA
Kneevi, G.: Radovi. B. (1997): On the amorality of juvenile delinquents. (privatno saoptenje).

LITERATURA

Bukvi. A. (1996): Naela izrade psiholokih testova (3. izdanje). Beograd: Zavod za udbenike i nastavna
sredstva.
Garret. H. E. (1962): Statistics in psychology and education (5th edition).

London: Longmans.
th

Ferguson. G. A. (1981): Statistical analysis in psychology and education (5 edition). New York: McGraw-Hill.
Kendall. M. G.; Stuart. A. (1967): The advanced theory of statistics. 2. Inference and relationships (2nd edition).
London: Griffin.
Kendall, M. G.; Stuart, A. (1973): Statistieskie vyvody i svjazi (perevod L. I. Gal'uka i A. T. Terehina).
Moskva: Nauka.
Momirovi, K.(1988): Uvod u analizu nominalnih varijabli. Ljubljana: JUS.
Momirovi. K.; Hoek. A. (1995): O jo nekim skalarnim merama asocijacije izmeu dve nominalne varijable.
Statistika revija. 44, 3-4: 3-18.
Porebski. O. R. (1966): On the interrelated nature of the multivariate statistics used in discriminatory analysis.
British Journal of Mathematical and Statistical Psychology, 19, 2:197-214.

303

Konstantin Momirovi u statistici

(25) STATISTIKA REVIJA 1997 I (1)

Konstantin Momirovi, Ankica Hoek i Svetlana Logar-uri


Institut za kriminoloka i socioloka istraivanja
REINTERPRETACIJA INTERGRUPNOG KOEFICIJENTA KORELACIJE
Produkt-moment koeficijent korelacije izmeu jedne nominalne i jedne kontinuirane
varijable, poznat pod imenom intergrupni koeficijent korelacije, reinterpretiran je s
take gledita analize podataka i definisan kao poseban sluaj kanonike korelacije
izmeu jedne nominalne i jedne kvantitativne varijable. Pokazano je da je
univarijantna jednofaktorska analiza varijanse, u stvari, ne sasvim razuman pokuaj
da se, pod linearnim modelom, predvidi jedna kontinuirana na osnovu jedne
nominalne varijable. Predloen je stoga jedan drugi model za procenu relacija
izmeu jedne nominalne i jedne kontinuirane varijable, zasnovan na teoriji
klasifikacije i kanonikom modelu analize korespodencije.
KLJUNE REI: intergrupna korelacija / diskriminacija / kanoniki modeli /
analiza varijanse
1. Uvod

U jednom, nedavno zavrenom radu (Bogdanovi i Momirovi, 1997) produkt-moment koeficijent


korelacije izmeu jedne binarne i jedne kontinuirane varijable, poznat pod imenom point-biserijalni
koeficijent korelacije, reinterpretiran je s take gledita analize podataka i definisan kao poseban sluaj
kanonike korelacije izmeu jedne nominalne i jedne kvantitativne varijable. Pokazano je da je
nezadovoljavajue ponaanje point-biserijalnog koeficijenta korelacije uglavnom posledica pokuaja da se,
pod linearnim modelom, predvidi jedna kontinuirana na osnovu jedne binarne varijable, i predloen jedan
drugi model za procenu relacije izmeu jedne binarne i jedne kontinuirane varijable, zasnovan na
kanonikom modelu analize korespodencije. U druga dva, takoe nedavno zavrena rada (Momirovi i
Zori, 1996; Momirovi, 1997), nakon jedne reformulacije kanonike diskriminativne analize, izvedene pod
modelom kanonike korelacijske analize, pokazano je da implementacija standardne definicije
diskriminativnog modela izaziva, u graninim sluajevima, nesavladive numerike tekoe, i da je definicija
strukture kanonikih faktora, koja sledi iz standardnog diskriminativnog modela, potpuno besmislena, jer na
strukturu tako definisanih diskriminativnih faktora uopte ne utiu komponente varijabli na osnovu kojih su
formirane diskriminativne funkcije.
Ovaj rad je, s jedne strane, generalizacija modela koji su predloili Bogdanovi i Momirovi (1997), a
s druge strane, redukcija modela koji su predloili Momirovi i Zori (1996) i Momirovi (1997).97 Produktmoment koeficijent korelacije izmeu jedne nominalne i jedne kontinuirane varijable, poznat pod imenom
Fisherov intergrupni koeficijent korelacije, reinterpretiran je s take gledita analize grupisanja i definisan
kao poseban sluaj kanonike korelacije izmeu jedne nominalne i jedne kvantitativne varijable. Pokazano je
da je univarijantna jednofaktorska analiza varijanse, u stvari, ne sasvim razuman pokuaj da se, pod
linearnim modelom, predvidi jedna kontinuirana na osnovu jedne nominalne varijable, pa je stoga predloen
jedan drugi model za procenu relacija izmeu jedne nominalne i jedne kontinuirane varijable, zasnovan na
teoriji klasifikacije i kanonikom modelu analize relacija izmeu dve nominalne varijable.
2. Univarijantna jednofaktorska analiza varijanse

Univarijantna jednofaktorska analiza varijanse je, verovatno, jedna od najee primenjivanih


statistikih metoda ne samo za analizu podataka dobijenih nekim eksperimentalnim postupkom, emu je
prvobitno i bila namenjena, nego i za analizu podataka dobijenih sistematskom opservacijom skupova
entiteta koji pripadaju razliitim, prirodno formiranim subpopulacijama ako se ti entiteti mogu opisati nekom
kvantitativnom, eventualno normalno distribuiranom varijablom u tim subpopulacijama.
Meutim, ako se izuzmu tekstovi iz podruja matematike statistike u kojima je ta metoda opisana na
97

I jedan vrlo provokativan Guttmanov rad (Guttman, 1988) imao je veliki uticaj na stavove zauzete u ovom radu.

304

Objavljeni radovi

strog i, u granicama modela pod kojim je izvedena, dovoljno potpun nain (na primer, Fisher, 1947; Scheffe,
1959; Wilks, 1962; Rao, 1973; Kendall i Stuart, 1967; 1973; Goon, Gupta i Dasgupta, 1976; Seber, 1977;
Hadi, 1989), ali koji, naalost, imaju vrlo ogranien krug italaca, opis te metode u udbenicima
namenjenim obinim korisnicima statistikih metoda98 obino je prilino povran, a ponekad i vie nego
povran, u ta se svako moe uveriti prelistavi neki uzorak iz populacije takvih tekstova (na primer, Walker
i Lev, 1953; Garret, 1962; Obradovi i Senti, 1967; Petz, 1970; Ferguson, 1981; Diem i Seldrup, 1982;
Dragievi, 1991; Malacko i Popovi, 1997; spomenuto je samo nekoliko inae zaista dobrih udbenika, od
kojih su neki stekli veliku popularnost i doiveli mnoga izdanja). Nije stoga nita neobino to je u mnogim
radovima ta metoda primenjena na povran, nepotpun ili ak pogrean nain; i u to se svako moe uveriti
prelistavi asopise iz sasvim razliitih disciplina, u kojima se objavljuju rezultati eksperimentalnih, i uopte
empirijskih istraivanja.
U veini popularnih, ali ipak pristojnih tekstova, jednofaktorska analiza varijanse definie se najee
na ovaj nain:
Neka je P populacija nekih objekata i neka su Pp subpopulacije te populacije koje su definisane nekim
jedinstvenim svojstvom svih objekata iz neke subpopulacije P. Populacija P moe biti neka hipotetska
populacija, definisana eksperimentalnim ili nekim drugim tretmanima kojima su izloeni ili mogu biti
izloeni objekti iz subpopulacija Pp, ili neka realna populacija, definisana nekim prirodnim karakteristikama
objekata iz subpopulacija Pp. Neka je v neka kvantitativna varijabla, normalno distribuirana u svim
subpopulacijama Pp s parametrima p i p2 = 2, dakle s jednakom varijansom u svim subpopulacijama Pp.
Hipoteza koja se testira ovom metodom analize varijanse obino je formulisana kao
H0: p = Pp, p = 1,..., g,
dakle kao hipoteza da se aritmetike sredine varijable v u subpopulacijama Pp ne razlikuju, to se ponekad
brzopleto99 interpretira kao hipoteza da tretmani kojima su izloeni objekti iz tih subpopulacija ne proizvode razliite
efekte, ili kao hipoteza da se prirodne subpopulacije Pp ne razlikuju po svojstvu koje je izmereno ili procenjeno
varijablom v.
Testiranje te hipoteze se u analizi varijanse osniva na dobro poznatoj injenici, po kojoj je, uostalom,
ta metoda i dobila ime, da se varijansa moe rastaviti na nezavisne aditivne delove. Zaista, ako je iz neke
heterogene populacije P izvuen neki jednostavni sluajni uzorak, stratifikovani uzorak ili grupni uzorak E
od n objekata, taj e se uzorak sastojati od g subuzoraka Ep sa po np objekata; subuzorci Ep mogu, naravno,
biti izvueni i kao sluajni uzorci iz subpopulacija Pp, to teorijski nije isto, ali ne menja nita u postupku
testiranja hipoteze H0. Ako je sada vip realizacija varijable v na nekom objektu eip Ep, ako je aritmetika
sredina varijable v procenjena na celom uzorku E, i ako su p, p = 1,..., g aritmetike sredine varijable v
procenjene na subuzorcima Ep, tautoloka deskripcija rezultata vip je
vip = + (p ) + (vip p) (vip ) = (p ) + (vip p).
Ako se ovaj izraz kvadrira i sumira od i = 1 do i = n,
n

( vip )2 =
i

n p(p )2 +
p

( v

ip

p)2,

jer je, oigledno,


n

( )(v
p

ip

p) = 0.

Prema tome, suma kvadriranih devijacija rezultata od aritmetike sredine tih rezultata procenjene na
celom uzorku E jeste zbir sume kvadriranih devijacija aritmetikih sredina procenjenih na subuzorcima Ep
od aritmetike sredine procenjene na celom uzorku E i sume kvadriranih devijacija rezultata od aritmetikih
sredina tih rezultata u subuzorcima Ep100. No, te su sume, oigledno, momenti varijable v, pa su stoga
procene varijanse te varijable ako se podele s brojem stepeni slobode, dakle s brojem nezavisnih informacija
na osnovu kojih su dobijene101.
98

Ukljuujui i psihologe, koji, obino, imaju neto bolje statistiko obrazovanje od ljudi iz drugih struka. Naravno, takav tretman analize varijanse
u veini udbenika koji su namenjeni nematematiarima nije posledica ni neznanja a ni povrnosti autora tih udbenika; simplifikacija problema,
ponekad sasvim preterana, uinjena je namerno, da bi tekst bio razumljiv i itaocima sa oskudnim ili nikakvim obrazovanjem iz matematike
analize, linearne algebre i teorije verovatnoe. Naalost, i u ovom podruju vredi pravilo da je ponekad bolje ne znati nita nego znati neto malo.

99

Jednakost aritmetikih sredina neke varijable u prirodnim ili eksperimentalno formiranim subpopulacijama ne znai nuno da se te subpopulacije ne
razlikuju po svojstvu koje je izmereno ili procenjeno tom varijablom, jer su, ak i kada su i varijanse te varijable u svim subpopulacijama identine,
mogue strukturalne razlike koje se mogu otkriti nekim taksonomskim postupkom (Momirovi, 1987).

100

Obiaj je u analizi varijanse da se sume kvadriranih devijacija rezultata od aritmetike sredine tih rezultata nazivaju prosto sume kvadrata i
oznaavaju sa SS.
101
U analizi varijanse, procene varijanse obino se nazivaju srednji kvadrati i oznaavaju sa MS.

305

Konstantin Momirovi u statistici

Kako je
=n1
n

broj nezavisnih informacija na osnovu kojih je dobijen izraz

( v

ip

)2,

b = g 1
g

broj nezavisnih informacija na osnovu kojih je dobijen izraz

n ( ) , a
p

w = n g
n

broj nezavisnih informacija na osnovu kojih je dobijen izraz

( v

ip

p)2, to su procene varijanse varijable v

2=

( v

ip

)2 / (n 1),

b2 =

n (
p

)2 / (g 1)

w2 =

( v

ip

p)2 / (n g),

od kojih su b2 i w2 nezavisne. Ako je varijabla v normalno distribuirana u svim subpopulacijama Pp, onda b2 ima
2 distribuciju sa (g 1) stepeni slobode, a w2 isto tako 2 distribuciju, ali sa (n g) stepeni slobode. Zbog toga
razmer
f = b2 / w2
ima, pod H0, Fisher-Snedecorovu F distribuciju sa b = g 1 i w = n g stepeni slobode, pa je

=1

F (f) d f

procena verovatnoe pogreke pri odbacivanju hipoteze H0.


U manje pristojnim popularnim udbenicima obino se izostavlja nain na koji je ova metoda
izvedena, a u mnogima i oigledna veza izmeu analize varijanse i regresijske analize102. Naravno, zbog toga
se vrlo retko spominje koeficijent
g

2 = ( n p(p )2) / ( ( vip )2)


dakle kvadrat Pearson-Fisherovog intergrupnog koeficijenta korelacije, iako je to prirodna mera razlika izmeu
aritmetikih sredina subpopulacija Pp (Fisher, 1947; Guttman, 1988)103.
Ali kako je i regresijska analiza samo poseban sluaj kanonike korelacijske analize, moe biti korisno
da se analiza varijanse razmotri kao poseban sluaj opteg kanonikog modela, dakle kao poseban sluaj
kanonike diskriminativne analize. Pod tim se modelom, naime, jasnije vidi o emu je tu, u stvari, re, i kako
se problemi koji se obino reavaju univarijantnom jednofaktorskom analizom varijanse mogu reavati i na
neki alternativan nain.
3. Definicije

Neka je E = {ei; i = 1,..., n} P, P =

pg Pp sluajni uzorak iz neke populacije P koja se sastoji iz

102

Ta se veza, naravno, uvek spominje u svim udbenicima regresijske analize. U onim statistikim tekstovima koji tretiraju analizu varijanse ta se
veza obino spominje samo u onim tekstovima koji pripadaju podruju matematike statistike.

103

Ipak, programi za analizu varijanse u nekim statistikim programskim paketima izraunavaju kvadrat intergrupnog koeficijenta korelacije. To
automatski rade ANOVA programi iz sistema SAS i paketa SPSS, ali, naalost, ne i analogni programi iz paketa Statistica i Statgraphics, koji su
inae ekvivalentni zaista dobro napisanim programima za analizu varijanse u najboljem (SAS) i najpopularnijem (SPSS) statistikom programskom
proizvodu. Naravno, taj se koeficijent u svakom od spomenutih programskih proizvoda moe dobiti ako se univarijantna analiza varijanse simulira
kanonikom diskriminativnom analizom.

306

Objavljeni radovi

prirodnih ili eksperimentalno formiranih subpopulacija Pp: Pp Pq = Op q. Neka je v neka kvantitativna


varijabla s nekom eliptikom funkcijom distribucije u P. Neka je e n-dimenzionalni sumacioni vektor, i neka
je
z = E v zte = 0, ztz = 1
n-dimenzionalni vektor dobijen opisom, u standardnoj normalnoj formi104, skupa E na varijabli v. Neka je W = {wp,
p = 1,..., g} neka kategorijalna varijabla kojom su definisana jedinstvena svojstva entiteta iz subpopulacija Pp, i neka
je
S = (sip) = E W
i = 1,..., n
p = 1,..., g
indikatorska matrica sa elementima sip definisanim funkcijom
{sip = 1 ei wp, sip = 0ei wp}.
4. Reinterpretacija intergrupnog koeficijenta korelacije

Neka je neki nepoznati g-dimenzionalni vektor dobijen kao reenje problema


S = z - t = 2 = minimum.
Oigledno, funkcija koju treba minimizirati je

() = (z S)t(z S) = 1 2 tStz + tStS.


Diferencijacijom te funkcije po elementima vektora

() / = 2Stz + 2StS
lako se dobija da je

= (StS)-1Stz
pa su p, elementi vektora , u stvari ocene oekivanih vrednosti varijable v u subpopulacijama Pp u metrici
izabranoj za opis skupa E na varijabli v.
Neka je sada
y = S = S(StS)-1Stz
vektor predvienih vrednosti entiteta iz E na varijabli v na osnovu njihovih vrednosti na varijabli W. Jasno je da je y
vektor dobijen projekcijom vektora z u prostor razapet vektorima iz S. U ovoj metrici varijansa varijable v je

2 = yty = ztS(StS)-1Stz;
a, kako je i kovarijansa varijabli iz z i y
c = zty = ztS(StS)-1Stz = 2,
ocena varijanse greke je

2 = t = 1 2c + 2 = 1 2 = ,
dakle Wilksova mera relativne intragrupne dispersije (Wilks, 1932), tako da, zato to je 2 = = minimum, 2 = c =
maximum.
Kao i u reenjima drugih problema pod kriterijumom najmanjih kvadrata, neposredno su jasne sledee
relacije izmeu z, y i :
zt = zt(z y) = 1 2 = 2
i
y t = y t(z y) = 0.
104

Kako je analiza varijanse samo poseban sluaj kanonike diskriminativne analize, potpuno je svejedno u kojoj e metrici biti rezultati dobijeni
operacijom E v. Standardna normalna metrika pretpostavljena je samo zato da se pojednostave neki izvodi i da neke injenice postanu jasnije.

307

Konstantin Momirovi u statistici

Kako je nepristrasna procena, pod modelom najmanjih kvadrata, nekog nepoznatog vektora u P,
matrica kovarijansi elemenata p vektora je
C = 2(StS)-1,
dakle dijagonalna matrica s dijagonalnim elementima 2np-1, p = 1,..., g, gde su
np = num(ei wj)
p = 1,..., g
frekvencije entiteta iz E u subuzorcima Ep definisanim varijablom W.
Stoga su testovi hipoteza
H0p : p = 0

p = 1,..., g

tp = np1/2p -1

p = 1,..., g

prosto
jer, pod H0p, varijable tp imaju t distribuciju sa n g stepeni slobode.
Definiimo sada specijalni sluaj kanonike korelacije izmeu W i v kao korelaciju izmeu z i y.
Oigledno,

= zty -1 = c -1 = =
u stvari je dobro poznati Fisherov intergrupni koeficijent korelacije, tako da, zato to je 2 = maximum =
maximum.
Asimptotska varijansa koeficijenta jednaka je asimptotskoj varijansi bilo kog kanonikog
koeficijenta korelacije i moe se definisati kao

2 (1 2)2n-1
gde je vrednost intergrupnog koeficijenta korelacije u populaciji P. Kako je ocena te varijanse u uzorku E

2 (1 2)2n-1,
donja i gornja granica intervala poverenja (1 ) za mogu se oceniti kao
l t/2
i
u + t/2
budui da je koeficijent retko kad blizak 1.
Kako je koeficijent u stvari samo poseban sluaj kanonikog koeficijenta korelacije dobijenog
kanonikom diskriminacionom analizom, postoji mnogo mogunosti za testiranje hipoteze H0 : = 0,
oigledno
ekvivalentne
hipotezi
H0 : p = 0 p, p = 1,..., g, dakle hipotezi da je udaljenost centroida subpopulacija Pp na varijabli v jednaka
nuli.
Jedan od njih je poseban sluaj Bartlettovog testa definisanog u ovom sluaju sa

2 = (n g/2 1)loge 2
jer pod H0 varijabla 2 ima 2 distribuciju sa g stepeni slobode. Drugi se lako moe izvesti iz injenice da je,
oigledno, univarijantna analiza varijanse poseban sluaj regresijske analize, i da je stoga , u stvari, multipla
korelacija izmeu binarnih varijabli iz S i varijable definisane vektorom z; zbog toga varijabla
f = (2(1 2)-1)((n g 1)(g 1)-1)
ima, pod hipotezom H0,
2 = n g 1 stepeni slobode.

Fisher-Snedecorovu

distribuciju

sa

Sada je jasno da je univarijantna jednofaktorska analiza varijanse pokuaj da se jedna kontinuirana


varijabla predvidi pod linearnim modelom na osnovu jedne nominalne varijable na osnovu kriterijuma
najmanjih kvadrata. Kako tako definisan problem teko da moe biti ocenjen kao sasvim logiki odriv,
308

Objavljeni radovi

razmatranje jednog drugaijeg pristupa univarijantnoj analizi varijanse, zasnovanog na primeni formalne
definicije bilo kog klasifikacijskog problema, verovatno moe biti od nekog teorijskog, a moda i praktinog
interesa.
5. Alternativna definicija intergrupne korelacije

Koeficijent intergrupne korelacije je, u stvari, samo formalno simetrina mera asocijacije zato to
mogunost da se predvidi varijabla v na osnovu varijable W nije nuno jednaka mogunosti da se predvidi
varijabla W na osnovu varijable v. Iako je mogue konstruisati vie asimetrinih mera asocijacije izmeu
jedne kvantitativne i jedne nominalne varijable, jedna mera asocijacije, takoe definisana kao kanoniki
koeficijent korelacije, moe se smatrati pogodnom alternativom za predloenu reinterpretaciju intergrupnog
koeficijenta korelacije.
Neka su
dip2 = np(zi p)2 -2
i = 1,..., n
p = 1,..., g
Mahalanobisove udaljenosti entiteta ei opisanih elementima zi vektora z od ocena centroida
subpopulacija Pp, p = 1,..., g u metrici elemenata p iz .
Neka je C = (cp, p = 1,..., g) jedna druga kategorijalna varijabla definisana indikatorskom matricom
K = (kip) = E C
i = 1,..., n
p = 1,..., g
sa elementima kip definisanim funkcijom
(kip = 1dip = minp dip, kip = 0dip minp dip).
Jedna mera asocijacije izmeu varijabli v i W moe se sada definisati kao maksimalna netrivijalna
kanonika korelacija izmeu varijabli C i W. Ta se mera moe definisati kao reenje kanonikog problema u
analizi korespodencije (Momirovi, 1988), definisanog maksimizacijom funkcije
Kxp = kp, Sqp = spkptsp = p = maximum, p 1, kptkq = sptsq = pq.
Funkcija koju treba maksimizirati je, za p = 2,

(xp, qp, p, p) = xptKtSqp 1/2p(xptKtKxp 1) 1/2p(qptStSqp 1)


gde su xp i qp neki nepoznati g-dimenzionalni vektori, a p i p neki nepoznati Lagrangeovi multiplikatori. Nakon
diferencijacije te funkcije po elementima vektora xp i qp i neto jednostavnih algebarskih manipulacija, reenje za p i
xp svodi se na reenje kanonike jednaine
((KtS)(StS)-1(StK) p2(KtK))xp = 0
tako da je reenje za qp
qp = (StS)-1(StK)xpp-1.
Naravno, koeficijent p, p = 2 je, u stvari, maksimalna kanonika korelacija izmeu nominalnih
varijabli opisanih indikatorskim matricama K i S, pa se hipoteza H0 : = 0 moe testirati operacijom

2 = (n g 3/2)

loge(1 p2)

p = 2,..., g
jer pod H0 varijabla 2 ima 2 distribuciju sa (g 1)2 stepeni slobode.
Ocena asimptotske varijanse koeficijenta p je, naravno,

309

Konstantin Momirovi u statistici

2 (1 p2)2n-1
pa varijabla

p = (p p)-1,
gde je p neka hipotetska vrednost tog koeficijenta, ima asimptotski normalnu distribuciju s parametrima 0.0 i 1.0.
Naravno, koeficijent p zavisi od efikasnosti klasifikacije. Ta se efikasnost moe proceniti
kanonikom korelacijom izmeu v i C

= (ztK(KtK)-1Ktz)1/2.
Jedna korigovana mera asocijacije izmeu varijabli v i W moe se sada definisati kao

p = p -1,
ali ima smisla razmotriti i neke druge mere asocijacije izmeu varijabli W i C.
Sa stanovita teorije klasifikacije, koeficijent

2 = trag((KtS)(StS)-1(StK))n-1,
koji su predloili Momirovi i Hoek (1995) kao meru asocijacije izmeu dve kategorijalne varijable, moe takoe
biti od nekog interesa.105 Kako je 0 < 2 1, neka hipoteza tipa
H: 2 = h2h2 0
moe se testirati na osnovu vrednosti varijable

2 = (n 2 nh2)2(nh2)-1
jer, pod H, varijabla 2 ima 2 distribuciju s jednim stepenom slobode. Uoimo, meutim, da je 2 u stvari
kvadratna mera asocijacije izmeu dve nominalne varijable (Momirovi i Hoek, 1995); zbog toga je za poreenje s
koeficijentima , , p i p adekvatniji drugi koren tog koeficijenta.
6. Numeriki primer

Jedan uzorak od 314 ispitanika mukog pola, starih od 21 do 55 godina, izvuen iz populacije
sankcionisanih kriminalaca, ispitan je sa 5 testova agresivnosti kojima su procenjeni bazina agresivnost,
psihopatska agresivnost, oralna agresivnost, analna agresivnost i introjekcija subkulture nasilja. Generalni
faktor agresivnosti, kodiran u tabelama kao agg, procenjen je prvom glavnom komponentom
standardizovanih rezultata u tim testovima. Neke metrijske karakteristike tako formirane varijable prikazane
su u tabeli 1. Simboli u toj tabeli imaju ovo znaenje:
: Kaiser-Meyer-Olkinov koeficijent reprezentativnosti
: Mera homogenosti definisana kao relativna varijansa prve glavne komponente
: Lord-Kaiser-Caffreyev koeficijent pouzdanosti
Tabela 1. Metrijske karakteristike procene generalnog faktora agresivnosti
karakteristike
agg

.845

.673

.879

Ti su ispitanici pre toga klasifikovani Wardovom metodom hijerarhijskog grupisanja (Ward, 1963), na
osnovu kvadrata njihovih Euklidskih udaljenosti u prostoru definisanom potpunim kibernetikim modelom
regulativnih funkcija, koji je bio operacionalizovan sa 19 kompozitnih testova konativnih karakteristika.
Metoda je izdvojila tri, na osnovu Mirkinove mere efikasnosti razbijanja (Jambu, 1988), jasno
izdiferencirana taksona, koji su se, na osnovu svojih centroida u prostoru manifestnih i diskriminativnih
varijabli mogli identifikovati kao takson normalnih ispitanika, takson psihopata i takson larviranih
psihotiara.
U tabeli 2. su frekvencije (n) i relativne frekvencije (p) ispitanika u tim taksonima, aritmetike sredine
() i standardne devijacije () rezultata na varijabli agg i centroidi taksona na diskriminativnoj funkciji (c).
Tabela 2. Frekvencije i relativne frekvencije ispitanika, aritmetike sredine i standardne devijacije na
105

Naravno, i bilo koja druga mera asocijacije izmeu varijabli W i C moe se takoe smatrati procenom asocijacije izmeu varijabli v i W.

310

Objavljeni radovi

varijabli agg i centroidi diskriminativne funkcije


takson
normalni
psihopati
psihotiari

n
119
144
51

p
.379
.459
.162

m
-.909
.293
1.295

s
.639
.607
.562

c
-1.485
.478
2.114

U tabeli 3. je ukupan broj ispitanika (n), aritmetika sredina () i standardna devijacija () rezultata na
celom uzorku ispitanika, Boxova mera homogenosti varijansi varijable agg u subozorcima (m),
aproksimativni F test izveden iz te mere (f), stepeni slobode pridrueni Boxovom testu (1 i 2) i verovatnoa
pogreke pri odbacivanju hipoteze o homogenosti varijansi (p).
Tabela 3. Zajednike karakteristike uzoraka i rezultati boxovog testa homogenosti varijansi
n
314

0.000

m
1.160

s
1.000

f
.577

n1
2

n2
138435

p
.562

Glavni rezultati kanonike analize prikazani su u tabeli 4. Simboli u toj tabeli imaju ovo znaenje:
: Wilksova mera relativne intragrupne dispersije
f: Fisher-Snedecorov f-test izveden iz
1 i 2: stepeni slobode pridrueni f-testu
p: verovatnoa greke pri odbacivanju hipoteze da se aritmetike sredine ne razlikuju
: kanonika korelacija
Tabela 4. Glavni rezultati kanonike analize
l
.373

1
2

f
261.548

2
310

.792

p
.000

Kontingencijska tabela stvarnog i predvienog pripadanja ispitanika uzorcima iz populacija konativno


normalnih kriminalaca, kriminalaca psihopata i kriminalaca koji su, u stvari, larvirani psihotiari navedena
je u tabeli 5.
Tabela 5. Stvarna i prognozirana klasifikacija ispitanika
takson
normalni
psihopati
psihotiari
ukupno

normalni
98
17
0
116

psihopati
21
96
12
129

psihotiari
0
31
39
70

ukupno
119
144
51
314

Na kraju, u tabeli 6. su rezultati procena relacija izmeu poremeaja linosti i agresivnosti na osnovu
nekih drugih mera asocijacije koje se osnivaju na analizi odnosa izmeu stvarne i prognozirane klasifikacije
ispitanika. Simboli u toj tabeli imaju ovo znaenje:
2: Pearsonov test hipoteze da su stvarna i prognozirana klasifikacija nezavisne; p je verovatnoa
greke pri odbacivanju te hipoteze
: kanonika korelacija izmeu diskriminativne funkcije i klasifikacije izvedene iz te funkcije
: kanonika korelacija izmeu stvarne i prognozirane klasifikacije
: korigovana kanonika korelacija izmeu stvarne i prognozirane klasifikacije
2: verovatnoa ispravne klasifikacije
: koeficijent asocijacije koji su predloili Momirovi i Hoek.
Tabela 6. Alternativne mere asocijacije izmeu poremeaja linosti i agresivnosti
c2
247.234

p
.000

.893

.778

.871

2
.742

.861

Iz ovog primera se jasno vidi da je problem asocijacije izmeu jedne nominalne i jedne kontinuirane
varijable i suvie sloen da bi se mogao reavati pod primitivnim modelom univarijantne jednofaktorske
analize varijanse. Razlog za to je vrlo jednostavan: ograniavanje na problem znaajnosti razlika izmeu
oekivanih vrednosti u prirodnim ili eksperimentalno formiranim subpopulacijama retko je kada od stvarnog
311

Konstantin Momirovi u statistici

naunog interesa; u ozbiljnim istraivanjima pitanje intenziteta asocijacije izmeu nominalne varijable koja
karakterizira te subpopulacije i neke teorijski vane kvantitativne varijable je mnogo vanije, pa je
ograniavanje na primenu standardnog modela analize varijanse nedopustivo povran pristup ovom
problemu. Naalost, ni intergrupni koeficijent korelacije oigledno nije uvek ni jedini, a ni pravi odgovor na
to pitanje.

7. Neke zavrne napomene

Nije uvek lako dati taan odgovor na pogreno postavljeno pitanje.


Stojan Hadigali, seljak iz Nemenikua
Problem procene korelacije izmeu jedne nominalne i jedne kontinuirane varijable samo je jedan od
mnogih slinih problema u analizi podataka i statistici koji se mogu reiti njihovom projekcijom u prostor
kanonikih modela. To je, naravno, posledica sasvim oigledne injenice koje, naalost, nisu svesni ni neki
statistiari, a jo manje oni koji se statistikom slue, ali se njome ne bave, da je biortogonalni model
kanonike korelacijske analize, i sa logike i sa matematike take gledita, osnovna metoda za analizu
podataka i testiranje statistikih hipoteza pod generalnim linearnim modelom Gaussa, Markova i Raoa. Lako
se, naravno, moe dokazati da su skoro sve standardne statistike metode, ukljuujui regresijsku analizu,
analizu varijanse, diskriminacionu analizu, faktorsku analizu, pa ak i neke metode u taksonomskoj analizi i
analizi stohastikih procesa, u stvari posebni sluajevi opteg modela kanonike korelacijske analize, i da se
veina statistikih testova moe svesti na testove znaajnosti kanonikih koeficijenata korelacije.
Meutim, i reformulacija intergrupnog koeficijenta korelacije, i predlozi nekih alternativnih mera
asocijacije izmeu jedne nominalne i jedne kontnuirane varijable i njima pridrueni testovi znaajnosti jo
uvek pripadaju striktnom linearnom modelu. Cela klasa analognih mera i analognih testova znaajnosti moe
se izvesti i pod nekim nelinearnim modelom, kao to su, ali ne iskljuivo, monotoni ili nemonotoni splinovi
varijable v, ili transformacija te varijable u Hermite- Chebyshevljeve polinome nekog pogodnog reda.
Eksperimentalna primena tih metoda na nekoliko realnih skupova podataka pokazala je da proces ponovnog
razmatranja prividno jednostavnog modela na kome se zasniva univarijantna jednofaktorska analiza varijanse
jo uvek nije zavren.

Literaturne beleke

Bogdanovi, M.; Momirovi, K. (1997): Reinterpretacija point-biserijalnog koeficijenta korelacije. Tehniki


izvetaj, Filozofski fakultet Univerziteta u Beogradu.
Momirovi, K. (1997): O diskriminativnim funkcijama, diskriminativnim faktorima i nekim oiglednim
glupostima. Tehniki izvetaj, Institut za kriminoloka i socioloka istraivanja, Beograd.
Literatura

Diem, K.; Seldrup, J. (1982): Statistical methods. In C. Lentner, Geigy scientific tables, 2. Introduction to
statistics, Statistical tables, Mathematical formulae (8th edition). Basle: Ciba - Geigy.
Dragievi, . (1991): Statistika za psihologe (2. izdanje). Beograd: Drutvo psihologa Srbije.
Garret, H. E. (1962): Statistics in psychology and education (5th edition). London: Longmans.
Ferguson, G. A. (1981): Statistical analysis in psychology and education (5th edition). New York: McGraw-Hill.
Fisher, R. A. (1947): The design of experiments (4th edition). Edinburgh: Oliver and Boyd.
Goon, A. M.; Gupta, M. K.; Dasgupta, B. (1976): Fundamentals of statistics. Calcuta: World Press.
312

Objavljeni radovi

Guttman, L. (1988): Eta, disco, odisco and F. Psychometrika, 53: 393-405.


Hadi, O. (1989): Numerike i statistike metode u obradi eksperimentalnih podataka. I. Elementi teorije
verovatnoe, Ocenjivanje parametara, Testiranje statistikih hipoteza, Modeliranje sluajnih promenljivih. Novi
Sad: Institut za matematiku.
Jambu, M. (1988): Ierarhieskij klaster-analiz i sootvetstvija (perevod B. G. Mirkina). Moskva: Finansy i Statistika.
Kendall, M. G.; Stuart, A. (1967): The advanced theory of statistics. 2. Inference and relationships (2nd edition).
London: Griffin.
Kendall, M. G. Stuart,A. (1973): Statistieskie vyvody i svjazi (perevod L. I.Gal'uka i A. T. Terehina). Moskva:
Nauka.
Malacko, J.; Popovi, D. (1997): Metodologija kinezioloko antropolokih istraivanja. Pritina: Univerzitet u Pritini.
Momirovi, K. (1987): Metode, algoritmi i programi za analizu kvantitativnih i kvalitativnih promjena. Zagreb:
Institut za kineziologiju.
Momirovi, K. (1988): Uvod u analizu nominalnih varijabli. Ljubljana: Jugoslovensko udruenje za sociologiju.
Momirovi, K.; Hoek, A. (1995): O jo nekim skalarnim merama asocijacije izmeu dve nominalne varijable.
Statistika revija, 44, 3-4: 3-18.
Momirovi, K.; Zori, A. (1996): On the variance, reliability, significance and importance of canonical
discriminant functions.
In S. Bogosavljevi and M. Kovaevi, Analiza grupisanja, 2, 79-91. Beograd: Savezni zavod za statistiku.
Obradovi, S.; Senti, M. (1967): Osnovi statistike analize (4. izdanje). Beograd: Nauna knjiga.
Petz, B. (1970): Osnovne statistike metode (2. izdanje). Zagreb: Izdavaki zavod Jugoslavenske akademije
znanosti i umjetnosti.
Rao, C. R. (1973): Linear statistical inference and its application. New York: Wiley.
Scheffe, H. (1959): Analysis of variance. New York: Wiley.
Seber, G. A. F. (1977): Linear regression analysis. New York: Wiley.
Walker, H. M.; Lev, J. (1953): Statistical inference. New York: Holt, Rinehart and Winston.
Ward, J. H. (1963): Hierachical grouping to optimize an objective function. Journal of American Statistical
Association, 58: 236-244.
Wilks, S. S. (1932): Certain generalizations in the analysis of variance. Biometrika, 24: 471-494.
Wilks, S. S. (1962): Mathematical statistics. New York: Wiley.

313

Konstantin Momirovi u statistici

(26) STATISTIKA REVIJA 1997 I (2)

Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja


O DISKRIMINATIVNIM FUNKCIJAMA, DISKRIMINATIVNIM FAKTORIMA I NEKIM
OIGLEDNIM GLUPOSTIMA
REZIME
Nakon jedne reformulacije kanonike diskriminativne analize, izvedene pod
modelom kanonike korelacijske analize, pokazano je da implementacija standardne
definicije diskriminativnog modela izaziva, u graninim sluajevima, nesavladive
numerike tekoe, i da je definicija strukture kanonikih faktora, koja sledi iz
standardnog diskriminativnog modela, potpuno besmislena, jer na strukturu tako
definisanih diskriminativnih faktora uopte ne utiu komponente varijabli na osnovu
kojih su formirane diskriminativne funkcije. Posledice neoprezne definicije
kanonike diskriminativne analize i pogrene definicije strukture diskriminativnih
faktora prikazane su na tri primera u kojima su realni i simulirani podaci
analizirani programima za diskriminativnu analizu iz programskih paketa SPSS i
Statistica i programskog sistema SAS.
Kljune rei: Diskriminativna analiza / kanoniki modeli / SAS / SPSS / Statistica
1. Uvod

Prilikom rasprave o rezultatima jednog empirijskog istraivanja (Vui, Vukmirovi, Vukmirovi i


Radojii, 1997), prikazanog na desetom skupu Sekcije za klasifikacije Saveza statistikih drutava
Jugoslavije, prof. dr Boris Wolf je upozorio da su rezultati dobijeni kanonikom diskriminativnom analizom
besmisleni, jer su i pored kanonikih korelacija od 0.99 i 0.85 strukturalni vektori obe diskriminativne
funkcije bili praktiki nul vektori. Bilo je potrebno samo nekoliko minuta da se utvrdi da je to zato to je
analiza bila izvedena programom Discriminant... iz programskog paketa SPSS, koji strukturu
diskriminativnih faktora eksplicitno definie kao matricu kroskorelacija izmeu varijabli iz kojih su
parcijalizovani efekti pripadanja grupama koje su bile predmet analize i diskriminativnih funkcija definisanih
u skladu sa standardnom formulacijom kanonikog diskriminativnog problema. Kako je takva
implementacija kanonike diskriminativne analize tipina za mnoge, ali sreom ne za sve, statistike
programske pakete ili sisteme, u ovom je radu, nakon jedne reformulacije kanonike diskriminativne analize,
izvedene pod modelom kanonike korelacijske analize, pokazano da implementacija standardne definicije
diskriminativnog modela izaziva, u graninim sluajevima, nesavladive numerike tekoe, i da je definicija
strukture kanonikih faktora, koja sledi iz standardnog diskriminativnog modela, potpuno besmislena, jer na
strukturu tako definisanih diskriminativnih faktora uopte ne utiu komponente varijabli na osnovu kojih su
formirane diskriminativne funkcije. Da bi se videlo do ega to moe dovesti, posledice neoprezne definicije
kanonike diskriminativne analize i pogrene definicije strukture diskriminativnih faktora prikazane su na tri
primera u kojima su realni i simulirani podaci analizirani programima za diskriminativnu analizu iz
programskih paketa SPSS i Statistica i, u kontrolne svrhe, programom za kanoniku diskriminativnu analizu
iz programskog sistema SAS.
2. Definicije

Neka je
E = {ei; i = 1,..., n} P = pg PpPp Pq = O, p q
sluajni uzorak iz neke heterogene populacije objekata koja se sastoji od g subpopulacija Pp i neka je
W = {wp; p = 1,..., g}
nominalna varijabla ije kategorije wp definiu nuna i jedinstvena svojstva objekata iz subpopulacija Pp.
314

Objavljeni radovi

Neka je
V = {vj; j = 1,..., m} U
skup kvantitativnih ili kvantifikovanih varijabli multivarijantno normalno distribuiranih u svakoj subpopulaciji Pp iz
P izabranih tako da reprezentiraju neki univerzum varijabli U definisan s nekom konzistentnom i
operacionalizibilnom teorijom o ponaanju objekata iz P.
Neka je e = (ei), i = 1,..., n: ei = 1 ei sumacioni vektor reda n. Neka je
Z = EVZte = 0, diag (ZtZ) = I
matrica podataka u standardnoj normalnoj metrici dobijena opisom skupa E na skupu V, i neka je
S = (sip) = EW
indikatorska matrica iji su elementi sip, i = 1,..., n; p = 1,..., g definisani funkcijom
{sip = 1ei wp, sip = 0 ei wp}.
Neka je
R = Zt Z
matrica kojom su, pod kriterijumom najvee verodostojnosti, procenjene interkorelacije varijabli iz V; pretpostavimo
da je ta matrica sigurno nesingularna i oznaimo sa R-1 regularni inverz te matrice.
Neka je
P = S(St S)-1St
projektor u hiperkub definisan vektorima sp iz S, i neka je
Q=IP
projektor u hiperkub koji je ortogonalan na hiperkub definisan vektorima sp iz S jer je, naravno, PQ = 0.
Neka je
G = PZ
matrica dobijena projekcijom vektora zj iz Z u hiperkub definisan vektorima sp iz S, i neka je
H = QZ = Z PZ
matrica dobijena projekcijom vektora zj iz Z u hiperkub koji je ortogonalan na hiperkub definisan vektorima sp iz S.
Matrica kovarijansi varijabli iz G bie
A = GtG = ZtPZ;
uoimo da je matrica A, istovremeno, i matrica kroskovarijansi varijabli iz Z i G.
Matrica kovarijansi varijabli iz H bie
W = HtH = ZtQZ = R A;
oigledno je da je matrica W, istovremeno, i matrica kroskovarijansi varijabli iz Z i H, i da se matrica interkorelacija
varijabli iz Z moe dekomponirati tako da je
R = A + W.
Neka je
L = (lj) = diag W
i neka je
H2 = (j2) = diag A = I .
Lako se moe pokazati (Guttman, 1988; Momirovi, 1989; Momirovi i Zori, 1996) da su, u ovoj
metrici, elementi j matrice u stvari Wilksove mere relativne intragrupne dispersije, i da su stoga elementi
j2 matrice H2 kvadrati Fisherovih intergrupnih koeficijenata korelacije, pa je stoga mogue reformulisati
Raovu (Rao, 1948; 1975) metodu kanonike diskriminativne analize na nain koji ini mnogo jasnijim
315

Konstantin Momirovi u statistici

smisao diskriminativnih funkcija i strukturalnih matrica diskriminativnih faktora koji se obino primenjuju
za identifikaciju sadraja tih funkcija106.
3. Jedna jednostavna reformulacija Raove metode kanonike diskriminativne analize

Metoda poznata pod imenom kanonika diskriminativna analiza (Rao, 1948; 1952; 1968; 1973; Rao i
Slater, 1949) moe se definisati na vie razliitih, ali u sutini ekvivalentnih naina (Anderson, 1966;
Anderson, 1984; Bryan, 1951; 1975; Cooley i Lohnes, 1971; Glahn, 1968; Hadigali, 1984; Hadigali,
Bogdanovi, Tenjovi i Wolf, 1994; Ivanovi, 1963; 1977; Kendall i Stuart, 1976; Kovai, 1994;
Momirovi, Gredelj i Szirovicza, 1977; Momirovi i Dobri, 1984; Momirovi, Kneevi, Kuzeljevi i
Radovi, 1994; Momirovi i Zori, 1996; Mulaik, 1972; Romeder, 1973). Iako se, najee, izvodi kao
generalizacija multivarijantne analize varijanse (Rao, 1948; 1952; 1968; 1973; Rao i Slater, 1949; Anderson,
1966; Anderson, 1984; Bryan, 1951; 1975; Cooley i Lohnes, 1971; Kendall i Stuart, 1976; Kovai, 1994;
Momirovi, Gredelj i Szirovicza, 1977; Romeder, 1973), ipak se esto tretira ili direktno izvodi i kao
poseban sluaj kanonike korelacijske analize (Glahn, 1968; Anderson, 1984; Hadigali, Bogdanovi,
Tenjovi i Wolf, 1994; Momirovi, Kneevi, Kuzeljevi i Radovi, 1994; Momirovi i Zori, 1996) ili kao
poseban sluaj komponentnog modela faktorske analize (Mulaik, 1972; Hadigali, 1984; Momirovi i
Dobri, 1984); u posebnom sluaju kada je g = 2, koji je poznat kao Fisherov sluaj, moe se izvesti i kao
poseban sluaj regresijske analize.
Premda su, pod nekim uslovima, svi ti naini ekvivalentni kada je re o proceni koeficijenata
kanonike korelacije, nije tako kada je re o definiciji diskriminativnih funkcija i identifikacijskih struktura
pridruenih tim funkcijama; i kako izvod koji se zasniva na generalizaciji analize varijanse prepostavlja da je
ispunjen i uslov da su matrice kovarijansi varijabli u subpopulacijama koje treba diskriminisati identine, to
je pre izuzetak nego pravilo, ovde e biti predloena jedna reformulacija kanonike diskriminativne analize
koja tu metodu tretira kao poseban sluaj Hotellingovog modela biortogonalne kanonike korelacijske
analize (Hotelling, 1936), koja u glavnim pravcima sledi reformulaciju te metode koju su predloili
Momirovi i Zori (1996)107.
Neka je B neka nepoznata matrica reda (g, m) takva da je
SB = Z E 2 = trag (EtE) = minimum.
Naravno, re je o jednom posebnom sluaju multivarijantnog regresijskog problema, pa se reenje
lako dobija diferenciranjem funkcije

(B) = trag ((Z SB)t(Z SB))


= trag (R) trag (BtStZ) trag (ZtSB) + trag (BtStSB)
po elementima matrice B.
Kako je trag (BtStZ) = trag (ZtSB) i trag (R) = m,

(B) / B = 2StZ + 2StSB,


pa nakon deljenja sa 2 i svoenja na nulu,
StSB = StZ;
i kako je, naravno, StS regularna dijagonalna matica,
B = (StS)-1 StZ
tako da je jasno da su elementi matrice
G = PZ = SB = (gij)
i = 1,..., n; j = 1,..., m,
gij = (spts)-1sptzj ei wp
i = 1,..., n; j = 1,..., m,
dakle aritmetike sredine normalizovanih i standardizovanih varijabli u subozorcima kojima pripadaju objekti iz E.
Zbog toga se kanonika diskriminativna analiza moe definisati kao reenje kanonikog problema
106

To e biti uinjeno na nain slian, ali ne istovetan onome koji je predloen u radovima Hadigalia (1984), Momirovia i V. Dobria (1984) i
Momirovia i Zoria (1996). Modifikacija njihovih izvoda uinjena je tako da bude jasniji stepen besmislenosti nekih implementacija kanonike
diskriminativne analize u komercijalnim statistikim programskim proizvodima i da bude jasnije kojim se opasnostima izlau oni koji slepo
primenjuju te programske proizvode.

107

U sutini slinu, ali formalno razliitu reformulaciju kanonike diskriminativne analize, definisanu tako da nije neposredno jasno da jr re upravo o
toj metodi, predloio je i Anderson (1984).

316

Objavljeni radovi

Zxk = kk, Gyk = lkk = kktlk = maximum, kktkk = lktlk = kq, kktlq = 0k q
k = 1,..., s; s = min((g 1), m)
gde je kq Kronekerov simbol, a xk i yk nepoznati m-dimenzionalni vektori.
Kako je k = xktAyk, kktkk = xktRxk a lktlk = yktAyk, za k = 1 funkcija koju treba maksimizirati je

(xk, yk, k, k) = xktAyk 2-1k(xktRxk 1) 2-1k(yktAyk 1).


Diferenciranjem ove funkcije po elementima vektora xk

/xk = Ayk kRxk,


a diferenciranjem po elementima vektora yk

/yk = Axk kAyk;


nakon izjednaavanja s nulom
Ayk = kRxk
i
Axk = kAyk.
Diferenciranjem po k i k lako se dobija, iz uslova xktRxk = 1 i yktAyk = 1, da je k = k. Mnoenjem
prvog rezultata sa R-1
xkk = R-1Ayk
pa je
xk = R-1Aykk-1.
Na osnovu drugog rezultata
Axkk-1 = Ayk
tako da je
yk = xkk-1.
Prema tome,
R-1Axkk-1 = xkk;
pa se mnoenjem ovog rezultata sa k dobija
R-1Axk = xkk2,
tako da se problem svodi na reavanje opteg problema svojstvenih vrednosti
(R-1A kI)xk = 0,

k = 1,..., s

odnosno
(A kR)xk = 0

k = 1,..., s

k = xktAyk = xktAxkk-1 = k,

k = 1,..., s

pa su
kanonike korelacije izmeu linearnih kombinacija varijabli iz Z i G koje su proporcionalne diferencijaciji centroida
subuzoraka definisanih selektorskom matricom S u prostoru koji razapinju vektori varijabli iz Z.
Kao i sve ostale statistike metode koje su posebni sluajevi kanonike korelacijske analize, i
kanonika diskriminativna analiza je invarijantna na bilo kakvu nesingularnu transformaciju varijabli, pa je
prema tome i metriki invarijantna.
Neka je H bilo koja nesingularna matrica reda (m), neka je
Zh = ZH
i neka je
317

Konstantin Momirovi u statistici

Gh = PZh.
Tada je
Rh = ZhtZh = HtRH,
Ah = GhtGh = ZhtGh = HtAH,
i, kako su matrice R-1A i H-1R-1AH sline, problem se svodi na reavanje karakteristine jednaine
(H-1R-1AH kI)H-1xk = 0
pa je oigledno da su diskriminativne funkcije kk i kanonike korelacije k zaista invarijantne na metriku varijabli iz
V.
Neka je = (k), k = 1,..., s dijagonalna matrica iji su elementi kanonike korelacije, neka su X = (xk)
i Y = (yk) = X-1, k = 1,..., s matrice svojstvenih vektora dobijenih reavanjem kanonikog diskriminativnog
problema, neka je
K = ZX
matrica diskriminativnih funkcija i neka je
L = GY = PZX-1
matrica diskriminativnih funkcija projiciranih u hiperkub definisan vektorima matrice S normiranim na 1 nakon te
projekcije. Oigledno,
KtL = XtAX-1 = XtAY =
pa kako je, naravno, KtK = I i LtL = I, kanonika diskriminativna analiza proizvodi dva biortogonalna skupa vektora
varijabli takvom transformacijom vektora varijabli iz Z i G koja ortogonalizira te vektore i maksimizira kosinuse
uglova izmeu korespodentnih vektora iz K i L, uz dodatni uslov da su kosinusi uglova nekorespodentnih vektora iz
K i L jednaki nuli.
Meutim, ta transformacija maksimizira, istovremeno, i Euklidske udaljenosti izmeu centroida
subuzoraka Ep iz uzorka E definisanih vrednostima na nominalnoj varijabli W na diskriminativnim
funkcijama iz K. Neka je
M = (StS)-1StK = BZX = (pk)

p = 1,..., g; k = 1,..., s

matrica centroida subuzoraka Ep na diskriminativnim funkcijama, i neka je eg sumacioni vektor reda g. Kako je Zte =
0, to je i Mteg = 0, pa su dijagonalni elementi matrice
D2 = diag (MtM) = diag (XtZtS(StS)-2StZX)
jednaki zbiru kvadrata Euklidskih udaljenosti izmeu elemenata p vektora k iz . Neka je

= (StS)1/2M = (pk) = (np1/2pk)

p = 1,..., g; k = 1,..., s;

oigledno,

t = XtZtS(StS)-1StZX = XtAX = 2,
pa kako je k2 = maximum k2, k = 1,..., sxktRxq = yktAyq = kq, maksimizacija koeficijenata korelacije izmeu
kanonikih varijabli iz K i L ekvivalentna je i maksimizaciji udaljenosti izmeu centroida subuzoraka Ep na
diskriminativnim funkcijama.
Vektori xk iz X su, oigledno, vektori standardizovanih parcijalnih regresijskih koeficijenata varijabli
iz Z koji generiraju diskriminativne funkcije kk koje sa diskriminativnim funkcijama lk, formiranim
vektorima standardizovanih parcijalnih regresijskih koeficijenata yk = xkk-1 iz varijabli iz G, imaju
maksimalne korelacije. Zbog toga su vektori xk proporcionalni koordinatama vektora diskriminativnih
funkcija u kosom koordinatnom sistemu koji tvore vektori iz Z sa kosinusima uglova izmeu koordinatnih
osovina jednakim elementima korelacijske matrice R. Otuda je interpretacija diskriminativnih funkcija na
osnovu sklopa tih vektora veoma komplikovana ako je broj varijabli iz V dovoljno veliki da skup V bude
dovoljno reprezentativan uzorak iz skupa U.108 Kako se diskriminativna analiza moe interpretirati i kao
108

Poseban problem je testiranje hipoteza o elementima vektora xp, jer do sada nije predloen nijedan prihvatljivi postupak za procenu matrica
kovarijansi tih elemenata, osim u sluaju g = 2, jer se tada kanonika diskriminativna analiza moe tretirati kao poseban sluaj regresijske analize;
u tom sluaju, matrica kovarijansi elemenata jedinog vektora x je, naravno, Cx = (1 - 2)R-1(n - m - 1)-1 (Seber, 1977; talec, Momirovi i

318

Objavljeni radovi

poseban sluaj komponentne analize s glavnim komponentama transformiranim, nekom dopustivo


singularnom transformacijom, tako da maksimiziraju udaljenosti izmeu centroida podskupova Ep odnosno
kanonike korelacije k (Cooley i Lohnes, 1971; Mulaik, 1972; Hadigali, 1984; Momirovi i Dobri, 1984;
Hadigali, Bogdanovi, Tenjovi i Wolf, 1994), Cooley i Lohnes su, verovatno prvi, predloili da se
identifikacija sadraja diskriminativnih funkcija temelji na strukturalnim vektorima fk iz matrice
F = ZtK = RX = (fk) = (Rxk),
analogno identifikaciji sadraja kanonikih varijabli dobijenih Hotellingovom metodom biortogonalne kanonike
korelacijske analize. Kako se elementi fjk matrice F ponaaju kao obini produkt-moment koeficijenti korelacije, i
kako su funkcija normalno distribuiranih varijabli, pa su stoga i sami asimptotski normalno distribuirani, njihove
asimptotske varijanse su, naravno,

jk2 (1 - jk2)2n-1

j = 1,..., m; k = 1,..., s

i mogu se upotrebiti za testiranje hipoteza tipa Hjk: fjk = jk, gde su jk neke hipotetske korelacije izmeu varijabli iz V
i diskriminativnih funkcija u populaciji P jer je asimpotska distribucija koeficijenata fjk
f(fjk) N(jk, jk2)
gde je N oznaka normalne distribucije.
Momirovi i Zori (1996) predloili su i inspekciju krosstrukturalnih vektora ck iz matrice
C = ZtL = AY = RX = F,
dakle faktorske matrice matrice A, jer, budui da je XXt = R-1,
CCt = RX2XtR = X2X-1 = A.
Lako se moe pokazati da je F faktorska matrica matrice R. Neka je

2 = diag (XtX)
i neka je
V = X-1.
Tada je

-2 = VtRV
dijagonalna matrica standardiziranih varijansi diskriminativnih funkcija i
FFt = RXXtR = RV2VtR.
Ako je s = m,

2 = V-1R-1V-t
i
XXt = R-1
tako da je
FFt = R.
Ako je s < m,
FFt = RV(VtRV)-1VtR,
to je poseban sluaj opte Guttmanove teoreme o faktorizacije bilo koje kvadratne simetrine matrice ranga m
nekom matricom ranga r < m.
U kanonikoj diskriminativnoj analizi glavni, i obino jedini, skup hipoteza povezanih s parametrima
tog modela je skup
H0 = {k = 0, k = 1,..., s},

Zakrajek, 1983; Anderson, 1984).

319

Konstantin Momirovi u statistici

gde su k hipotetske vrednosti kanonikih korelacija u populaciji P109 .


Hipoteze tipa
H0k: k = 0

k = 1,..., s

mogu, pogotovo u sluaju g = 2, dakle s = 1, biti testirane na vie naina. U veini implementacija kanonike
diskriminativne analize primenjuje se jedna funkcija Wilksove (Wilks, 1932; 1935; 1962) mere

k =

loge (1 t+12)

k = t + 1, t = 0, 1,..., s 1

t +1

koju je predloio Bartlett (1941), koji je naao da pod hipotezom H0k: k = 0 funkcije

k2 = (n (m + g + 3)/2) k

k = 1,..., s

imaju, aproksimativno, 2 distribuciju sa

k = (m k + 1)(g k)
stepeni slobode.
Meutim, osetljiviji test hipoteza H0k: k = 0 je jedna funkcija izvedena pod kriterijumom najvee
verodostojnosti koju je predloio Rao (Rao, 1951; 1973; Momirovi, Gredelj i Szirovicza, 1977; Anderson,
1984). Neka je
a = ((m2(g 1)2 4)/(m2 + (g 1)2 5))1/2,

1k = (m k + 1)(g k)
i

2k = a((n 1) (m g)/2 (m k + 1)(g k) 2)/2.


Tada funkcije
fk = (1 k-a)k-a(2k/ 1k)

k = 1,..., s

imaju pod H0k: k = 0 Fisher-Snedecorovu F distribuciju sa 1k i 2k stepeni slobode110.


Naravno, iako su diskriminativne funkcije ortogonalne, ni testovi tipa k2, ni testovi tipa fk nisu stvarno
nezavisni (Anderson, 1984); osim toga, ishodi tih testova, pogotovo Bartlettovog testa koji se najee
primenjuje, nisu, ni kada je re o velikim uzorcima, u najboljem skladu sa ishodima testova tipa
zk = k/k

k = 1,..., s

koji se temelje na injenici da kanonike korelacije imaju takoe asimptotski normalne distribucije s parametrima k
i

k2 (1 k2)2n-1
(Kendall i Stuart, 1976; Anderson, 1984).111

109

Hipoteza H01: 1 = 0, koja prosto znai da se aritmetike sredine svih varijabli iz V ne razlikuju u subpopulacijama Pp, p = 1,..., g iz P, predmet je,
zbog nejasnih razloga, posebne statistike metode koja se obino naziva multivarijantna analiza varijanse. Naravno, ako je m = 1, re o
jednofaktorskoj analizi varijanse koja se oigledno svodi na test hipoteze = = 0, gde je Fisherov koeficijent intergrupne korelacije jedine
varijable v i nominalne varijable W; ako je, pri tome, g = 2, re je, naravno, o t-testu razlika aritmetikih sredina dve nezavisne subpopulacije,
dakle o testu hipoteze da li je point-biserijalni koefijent korelacije = = pb izmeu v i (w1, w2) jednak nuli. Ovaj autor mora da prizna da mu
nikada nije bilo jasno zato se posebni sluajevi kanonike diskriminativne analize, koje je lako opisati u nekoliko redova jedne fusnote, tretiraju
kao posebne metode i opisuju u posebnim poglavljima u veini statistikih udbenika i tako predaju nedunim studentima matematike ili
primenjene statistike.

110

Ovaj test je ugraen u program CANDISC, programskog sistema SAS, zajedno sa jo etiri nezavisna testa hipoteze 1 = 0 koje su predloili
Wilks; Lawley i Hotelling; Pillai i Bartlett, Nanda i Pillai; i Roy. Ovi su testovi opisani u Anderson (1984, pp. 321-333), ali nee ovde biti posebno
razmatrani jer je trivijalna hipoteza jp = 0 jp; j = 1,..., m; p = 1,..., g retko kada od stvarnog interesa za veinu onih ija struktura podataka
zahteva primenu kanonike diskriminativne analize.

111

Zbog toga to je invarijantna na proizvoljnu afinu transformaciju varijabli, kanonika diskriminativna analiza moe se izvesti i kao poseban sluaj
kanonike korelacijske analize izmeu varijabli iz Z i S (Hadigali, 1984) ili kao poseban sluaj kanonike analize kovarijansi izmeu varijabli iz
M = ZR-/12 i S (Hadigali, Bogdanovi, Tenjovi i Wolf, 1995). Meutim, tada ne bi bile tako neposredno jasne posledice neoprezne definicije
problema koji treba reiti i pogrene definicije strukture diskriminativnih faktora.

320

Objavljeni radovi

4. O tome kako se u nekim statistikim programskim proizvodima izraunavaju diskriminativne funkcije i


struktura diskriminativnih faktora

Iako je, oigledno, kanonika diskriminativna analiza s matematike take gledita prilino
jednostavna, a sa statistike take gledita ne i suvie komplikovana metoda, neki programeri koji rade u
fabrikama komercijalnih statistikih programskih proizvoda nali su, izgleda, puta i naina da unesu
nepotrebnu zbrku, dokazujui tako da Steinitzova teorema vai u svim segmentima humane populacije.
Glavni, ali ne i jedini, razlog te zbrke je to se u veini tekstova posveenih kanonikoj
diskriminativnoj analizi (Rao, 1948; 1952; 1968; 1973; Rao i Slater, 1949; Anderson, 1966; Bryan, 1951;
1975; Cooley i Lohnes, 1971; Ivanovi, 1963; 1977; Kendall i Stuart, 1976; Kovai, 1994; Momirovi,
Gredelj i Szirovicza, 1977; Romeder, 1973) ta metoda definie, u skladu s modelom multivarijantne analize
varijanse, kao reenje problema
k2 = (vktAvk)(vktWvk)-1 = maximum(vktWvq) = kq, k, q = 1,..., s
koji se, nakon neto malo jednostavnih algebarskih manipulacija, svodi na reenje opteg problema svojstvenih
vrednosti
(A k2W)vk = 0
k = 1,..., s.
2
2
Neka je V = (vk) i = (k ), k = 1,..., s. Kako je
VtWV = I,
to je
VtAV = VtWV 2 = 2
i otuda
VtRV = I + 2
pa je
X = V(I + 2)1/2
i

2 = 2(I + 2)-1.
Iako je, dakle, takvo reenje formalno ekvivalentno reenju diskriminativnog problema pod
kanonikim modelom, lako se moe pokazati da u graninim sluajevima vodi do toga da se problem ne
moe uopte reiti, ili da je reenje optereeno tolikim numerikim problemima da je konaan rezultat
sasvim nesiguran.
Kako je
XtRX = Xt(A + W)X = I,
XtWX = I 2 = W = (Wk)

k = 1,..., s

gde su sada Wk Wilksove mere pridruene diskriminativnim funkcijama kk iz K.


Ali, kako je
GtH = 0,
to, kada Z PZ, dakle kada se subpopulacije Pp iz P skoro potpuno kvantitativno razlikuju, i stoga I, H 0
W 0 i problem kanonike diskriminativne analize, definisan na uobiajeni nain112, ili postaje nereiv, ili je
reenje numeriki pogreno zbog slabe uslovljenosti matrice W.
No, dok je problem izbora modela posledica navike i programera, i korisnika gotovih statistikih
programskih proizvoda, ali, naalost, i nekih profesionalnih statistiara, da statistike tekstove itaju prstima,
formiranje strukturalnih matrica diskriminativnih funkcija u veini komercijalnih statistikih programskih
proizvoda113 jednostavno je posledica nemiljenja.
112

To, naravno, vredi i za multivarijantnu i univarijantnu analizu varijanse, to je dovoljan dokaz da treba napustiti klasian tretman tih metoda i
razmatrati ih samo kao posebne sluajeve kanonike korelacijske analize.

113

Kao i obino, SAS je izuzetak; program CANDISC iz tog sistema korektno izraunava strukturalnu matricu diskriminativnih funkcija, ali, valjda
zato da bi zadovoljio i potrebe onih koji su navikli na reenja koja nude drugi, popularniji programski proizvodi, tu matricu izraunava usput i na
isti onaj besmisleni nain kako to ine analogni programi iz paketa kao to su Statistica i SPSS.

321

Konstantin Momirovi u statistici

Ti programi, naime, strukturom kanonikih diskriminativnih funkcija smatraju kroskorelacije izmeu


varijabli iz H i K, dakle korelacije izmeu diskriminativnih funkcija i onih komponenata varijabli iz Z koje
uopte ne uestvuju u formiranju tih funkcija. U stvari, kako je = diag W matrica varijansi varijabli iz H, ti
programi definiu strukturalnu matricu kao
U = -1/2HtK = -1/2ZtQZX = -1/2WX = -1/2(R A)X = -1/2(F AX)
tako da one varijable iz V na kojima se subpopulacije Pp iz P najvie razlikuju najslabije definiu strukturu
diskriminativnih faktora. Naravno, u graninom sluaju kada Z PZ, i zbog toga, naravno, I, U 0, to je
tako oigledna besmislica da je prosto neverovatno da programeri, koji su obino vrlo inteligentni ljudi, to nisu
odmah videli dok su pisali ili testirali svoje programe.
5. Nekoliko numerikih primera

ta se dogaa sa diskriminativnim funkcijama i strukturama diskriminativnih faktora ako se raunaju


na nain kakav je implementiran u dva najpopularnija statistika programska paketa114 prikazano je na tri
primera, namerno odabrana tako da pokriju raspon moguih situacija definisanih strukturama podataka u
problemima koji se obino reavaju primenom kanonike diskriminativne analize. Ako su rezultati dobijeni
primenom programa Discriminant Analysis iz programskog paketa Statistica i programa Discriminant... iz
programskog paketa SPSS, bili identini ili virtualno identini, prikazani su rezultati dobijeni programom
koji je prvi primenjen. Dobijeni rezultati uporeeni su s rezultatima dobijenim programom CANDISC iz
programskog sistema SAS, koji jedini na korektan nain izraunava strukturu diskriminativnih faktora i na
numeriki pouzdan nain izraunava diskriminativne funkcije. U svim sluajevima struktura
diskriminativnih faktora paralelno je izraunata i na osnovu obinih kroskorelacija izmeu varijabli i
korektno izraunatih diskriminativnih funkcija.
Primer 1. Diskriminativna analiza tipova agresivaca u diskretnom image prostoru
Uzorak ispitanika inilo je 257 osoba mukog pola starih od 15 do 20 godina. Na osnovu
standardizovanih i normalizovanih rezultata u baterijama KOG 3 (Wolf, Momirovi i Damonja, 1992) i
KON 6 (Momirovi, Wolf i Damonja, 1992) izraunate su, u skladu sa onim delom kibernetikog modela
regulativnih funkcija koji se odnosi na funkcije sistema za regulaciju i kontrolu reakcija napada, ove
varijable kojima su procenjeni modaliteti agresivnosti pretpostavljeni tim modelom:
GENAG: bazina agresivnost
AG1: primarna agresivnost
AG2: sekundarna agresivnost
PRIMAG: primitivna agresivnost
HISTAG: histerina agresivnost
DISAG: disocirana agresivnost
IMPAG: impulzivna agresivnost
PATAG: psihopatska agresivnost
ORAG: oralna agresivnost
ANAG: analna agresivnost.
Te su varijable ponovo normalizovane i standardizovane, a zatim pretvorene u diskretni mirror image
oblik alternativnom primenom Rosenbrokove metode traenja optimalnog sklopa i Newton-Raphsonovog
algoritma za izraunavanje regresijskih funkcija koje imaju prekidnu taku (Momirovi, 1997). Image
varijable za procenu agresivnosti dobijene na taj nain ponovo su normalizovane i standardizovane, pa su
zatim, konkurentnom primenom Wardove metode hijerarhijskog grupisanja na osnovu Euklidskih udaljenosti
izmeu entiteta (Ward, 1963) i Didayeve metode pokretnih oblaka (Diday, 1971), detektirana 4 taksona
agresivaca, koji su identifikovani primenom kanonike diskriminativne analize. Programi iz paketa Statistica
i SPSS dali su virtualno iste rezultate,115 osim to je SPSS, iz nejasnih razloga, reflektovao drugu
diskriminativnu funkciju.
Rezultati dobijeni programom Discrimanant Analysis iz paketa Statistica prikazani su u tabelama 1.1,
1.2 i 1.3. Stvarna struktura diskriminativnih faktora, saglasno dobijena programom CANDISC iz sistema
SAS i direktnim raunanjem matrice kroskorelacija varijabli i diskriminativnih funkcija izraunatih paketom
Statistica, prikazana jer u tabeli 1.4.
114

To su, naravno, SPSS i Statistica u verzijama koje rade u Windows okruenju.

115

Naravno, program za diskriminativnu analizu iz paketa Statistica proizvodi mnogo vie informacija korisnih za identifikaciju diskriminativnih
funkcija i ima neuporedivo bolju grafiku, a i znatno je bri od programa za diskriminativnu analizu iz paketa SPSS; meutim, kao to e se videti iz
drugog primera, ima i jedan teak nedostatak koji je posledica primene numeriki neadekvatnog algoritma za odreivanje svojstvenih vrednosti i
vektora koji je i suvie osetljiv na slabu uslovljenost matrica.

322

Objavljeni radovi

Tabela 1.1. Kanonike korelacije i ishodi testova njihove znaajnosti


funkcije
1
2
3

.895
.810
.710

.033833
.170520
.495828

2
843.193
440.457
174.680

30
18
8

p
.0000
.0000
.0000

Tabela 1.2. Struktura kanonikih faktora u H prostoru


varijabla
genag
ag1
ag2
primag
histag
disag
impag
patag
orag
anag

d1
.77
.43
-.30
.23
-.26
-.28
.11
.47
.59
.29

d2
-.30
-.09
-.69
-.22
-.76
-.80
.19
-.10
-.14
-.17

d3
.08
.77
-.03
-.18
.24
.31
.08
.05
.07
-.28

Tabela 1.3. Centroidi taksona


takson
agrtip1
agrtip2
agrtip3
agrtip4

d1
-.32
-2.91
2.49
1.46

d2
1.35
-.49
.91
-2.20

d3
-1.10
.80
1.32
-.64

U sluajevima ove vrste, kanonika diskriminativna analiza se, naravno, ne upotrebljava za testiranje
hipoteza o razlikama izmeu centroida, ve za identifikaciju taksona dobijenih nekom klasifikacijskom
procedurom. Meutim, ako je za klasifikaciju entiteta primenjen bilo koji pristojan algoritam, kanonike e
korelacije biti vrlo visoke, pa e razlike izmeu matrica F i U biti esto znatne. Zbog toga e identifikacija
kanonikih varijabli na osnovu tih matrica biti razliita, pa e stoga biti razliita i identifikacija taksona.
Tabela 1.4. Struktura kanonikih faktora u Z prostoru
varijable
genag
ag1
ag2
primag
histag
disag
impag
patag
orag
anag

d1
.91
.63
-.45
.44
-.38
-.38
.24
.76
.85
.54

d2
-.27
-.10
-.78
-.32
-.83
-.84
.31
-.13
-.16
-.24

d3
.06
.71
-.03
-.22
.22
.27
.10
.05
.06
-.33

Upravo to se i dogodilo u ovom primeru, koji je tipian za primenu kanonike diskriminativne analize
pri reavanju klasifikacijskih problema. Kako se vidi iz matrice stvarne strukture kanonikih varijabli, prva
diskriminativna funkcija je vrlo dobra mera generalnog faktora agresivnosti, definisanog indikatorima
primarne agresivnosti i diferenciranog od sekundarne agresivnosti, druga diskriminativna funkcija je
inverzna, ali isto tako dobra mera sekundarne agresivnosti, dok je trea diskriminativna funkcija rezidualna,
ali ista mera primarne agresivnosti. Tako jasna struktura nije, naravno, dobijena u prostoru koji je
ortogonalan na prostor u kome se centroidi taksona razlikuju; prva diskriminativna funkcija se vie ne ponaa
kao generalni faktor primarno uslovljene agresivnosti, druga se ponaa kao znatno slabija mera sekundarne
agresivnosti, i samo trea diskriminativna funkcija ima strukturu koja doputa da se ta funkcija identifikuje
kao rezidualni faktor primarne agresivnosti.
Primer 2. Diskriminativna analiza tri grupe skoro identinih kutija
Ovaj primer na vrlo drastian nain pokazuje koje su posledice klasine formulacije diskriminativnog
problema i besmislene definicije strukture kanonikih faktora. Re je o simuliranom eksperimentu u kome su
konstruisane tri grupe od po 20 kutija, koje su unutar svake grupe bile potpuno identine, ali su se grupe
veoma razlikovale po dimenzijama koje su definisane kao irina (S), visina (V), dubina (D), povrina
323

Konstantin Momirovi u statistici

frontalne ravni (POVR), zapremina (ZAPR), dijametar bazine ravni (DIAG2) i dijametar cele kutije
(DIAG3). Za svaku kutiju te su varijable bile zatim poremeene tako da je svakoj bila sluajno dodata ili
sluajno oduzeta jedna normalno distribuirana varijabla s parametrima 0.0 i 1.0; na taj nain simulirana je
pogreka merenja neizbena u svim empirijskim istraivanjima. Naravno, grupe kutija su se i dalje veoma
razlikovale, pa je prva kanonika korelacija bila jednaka 1, a druga praktiki jednaka 1. Prikazani su rezultati
dobijeni programom Discriminant... iz programskog paketa SPSS; program Discriminant Analysis iz
programskog paketa Statistica nije mogao da bude primenjen, jer je taj program pogreno smatrao, na osnovu
ishoda Dempsterovog algoritma koji je implementiran za izraunavanje kritinih parametara
diskriminativnog modela, da su unikne varijanse svih varijabli jednake nuli, tako da je odbijao da primeni i
bilo koji model iterativne diskriminativne analize. Rezultati dobijeni programskim paketom SPSS
kontrolisani su na osnovu rezultata dobijenih programskim sistemom SAS, koji ne samo da korektno
izraunava strukturu diskriminativnih faktora, ve tano izraunava i diskriminativne funkcije.
Tabela 2.1. Kanonike korelacije i ishodi testova njihove znaajnosti
funkcije
1
2

1.000
.9995

.000000
.000928

2
950.036
384.011

10
4

p
.0000
.0000

Tabela 2.2.1. Struktura kanonikih faktora u H prostoru


varijabla
S
V
D
POVR
ZAPR
DIAG2
DIAG3

d1
.02
-.02
-.02
.01
.00
.03
.01

d2
.07
-.07
-.07
-.07
.01
.08
.08

Tabela 2.2.2. Stvarna struktura kanonikih faktora u H prostoru


varijabla
S
V
D
POVR
ZAPR
DIAG2
DIAG3

d1
.000
.000
.000
.000
.000
.000
.000

d2
.002
-.002
.001
-.002
.000
.003
.003

Tabela 2.3. Centroidi kutija


kutija
1
2
3

d1
-232.24
76.71
155.53

d2
-8.69
42.78
-34.08

Tabela 2.4.1. Struktura kanonikih faktora u Z prostoru


varijabla
S
V
D
POVR
ZAPR
DIAG2
DIAG3

d1
.43
.07
.01
.49
.25
.84
.57

d2
.75
-.88
.61
-.38
.35
.14
.40

Tabela 2.4.2. Stvarna struktura kanonikih faktora


varijabla
S
V
D
POVR
ZAPR
DIAG2
DIAG3
324

d1
.75
-.21
-.11
.62
.27
.88
.58

d2
.60
-.90
.81
-.73
.36
.44
.77

Objavljeni radovi

Dve su stvari oigledne iz rezultata ovog eksperimenta. Prva je da u graninim sluajevima program
Discriminant Analysis iz paketa Statistica ne funkcionie, a program Discriminant... iz paketa SPSS, to je
moda jo gore, pogreno izraunava diskriminativne funkcije jer je, naravno, vrlo osetljiv na uslovljenost
matrice W. Druga je sumanuta struktura diskriminativnih faktora izraunatih na osnovu matrice H; jer, to se
grupe koje su podvrgnute diskriminativnoj analizi vie razlikuju, strukturalni vektori kanonikih varijabli
postaju blii nul vektorima, pa se diskriminativne funkcije na kojima se te grupe razlikuju vie ne mogu
identifikovati.
Ovim rezultatima teko da je potreban komentar. Jasno je da je klasina definicija diskriminativnog
problema, implementirana u standardne statistike programske proizvode kao to su SPSS i Statistica, iako
formalno dopustiva, u stvari neoprezna, jer ne vodi rauna o numerikim tekoama u graninim
sluajevima, i da je izraunavanje strukture diskriminativnih faktora na osnovu korelacija izmeu varijabli iz
kojih su parcijalizovani faktori koji diferenciraju grupe i kako god izraunatih diskriminativnih funkcija
potpuno besmislena operacija.
Primer 3. Diskriminativna analiza mukaraca i ena u kognitivnom i konativnom prostoru
Ovaj primer izabran je za utehu onima koji su do sada primenjivali programe za kanoniku
diskriminativnu analizu iz standardnih statistikih programskih proizvoda. Re je o sluaju kada je
diskriminacija izmeu grupa statistiki nesumnjivo znaajna, ali nevelikog intenziteta, tako da su poremeaji
strukturalne matrice izraunate u H prostoru relativno slabi pa nemaju veliki uticaj na identifikaciju
diskriminativnih funkcija.
Analizirane su razlike u kognitvnim sposobnostima pretpostavljenim kibernetikim modelom
kognitvnih funkcija (Wolf, Momirovi i Damonja, 1992) i poremeajima funkcija konativnih regulatora
pretpostavljenih kibernetikim modelom konativnih funkcija (Momirovi, Wolf i Damonja, 1992) izmeu
257 ispitanika mukog pola i 184 ispitanika enskog pola, starih od 15 do 19 godina. Iz rezultata dobijenih
primenom testova KOG 3 i KON 6 izvedene su, obinim sabiranjem rezultata u esticama tih testova, ove
varijable:
I: efikasnost perceptivnog procesora
S: efikasnost serijalnog procesora
P: efikasnost paralelnog procesora
EPS: poremeaji inhibicije aktivirajueg dela retikularne formacije
HI: poremeaji regulacije i kontrole organskih funkcija
ALF: poremeaji regulacije i kontrole reakcija odbrane
SIG: poremeaji regulacije i kontrole reakcija napada
DEL: poremeaji koordinacije i kontrole regulativnih funkcija
ETA: poremeaji integracije i evaluacije konativnih funkcija.
Rezultati dobijeni programima za diskriminativnu analizu iz programskih paketa SPSS i Statistica bili
su potpuno saglasni, pa su u tabelama 3.1, 3.2 i 3.3. navedeni izvodi iz rezultata dobijenih programom
Discriminant Analysis iz programskog paketa Statistica. Naravno, stvarna struktura diskriminativnih faktora,
prikazana u tabeli 3.4, izraunata je programom CANDISC, iz programskog sistema SAS, i obinim
raunanjem kroskorelacija izmeu varijabli i diskriminativnih funkcija.
Tabela 3.1. Kanonika korelacija i ishod testa njene znaajnosti
funkcija
1

.489

.760897

118.730

.0000

Tabela 3.2. Struktura kanonikog faktora u H prostoru


varijabla
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

d1
.37
.09
.57
.00
-.54
-.58
-.28
-.08
-.48
325

Konstantin Momirovi u statistici

Tabela 3.3. Centroidi grupa


grupa
mukarci
ene

d1
.47
-.66

Tabela 3.4. Struktura kanonikog faktora u Z prostoru


varijabla
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

d1
.42
.10
.62
.00
-.59
-.63
-.32
-.10
-.54

Identifikacija diskriminativne funkcije na kojoj se centroidi uzorka mukaraca i uzorka ena znaajno
razlikuju, jer su udaljeni za 1.13 standardnih devijacija te funkcije, praktiki je identina i na osnovu matrice
strukture u H prostoru i na osnovu matrice strukture u Z prostoru. Ta je funkcija definisana efikasnim
funkcionisanjem paralelnog i perceptivnog procesora za obradu informacija i efikasnim funkcionisanjem
sistema za regulaciju i kontrolu reakcija odbrane, regulaciju i kontrolu organskih funkcija i integraciju i
evaluaciju regulativnih funkcija. Vidi se, uzgred, da je pogrena predrasuda nekih psihologa i mnogih laika
da je efikasnost serijalnog procesora relativno bolja kod ena, i da su ene manje agresivne nego mukarci.
Znaajno je, meutim, da su razlike izmeu mukaraca i ena u efikasnosti sistema za koordinaciju i konrolu
regulativnih funkcija neznatne, i da nema razlika u intenzitetu funkcionisanja aktivirajueg dela retikularne
formacije116.
7. Umesto rasprave: o tome ta valja, a ta ne valja initi

Lake je, zapravo, utvrditi ta ne valja initi: ne valja primenjivati programe za kanoniku
diskriminativnu analizu u kojima je kanoniki problem definisan na klasian Bryanov nain i koji
izraunavaju, upravo zato, strukturu diskriminativnih faktora na osnovu korelacija izmeu varijabli iz kojih
su parcijalizovani faktori koji diferenciraju grupe i diskriminativnih funkcija bez obzira na to kako su te
funkcije izraunate. To praktiki znai da nema smisla, bar kada je re o problemima koji se moraju reiti
kanonikom diskriminativnom analizom ili ma kojim posebnim sluajem kanonikog diskriminativnog
modela, primenjivati nijedan komercijalni statistiki programski paket, ako se izuzme SAS, i programi za
diskriminativnu analizu posebno napisani na nekim statistikim metajezicima, kao to su GENSTAT i SS117.
Kada bi SAS bio dostupan, u svakom smislu te rei, korisnicima statistikih programskih proizvoda,
lako bi bilo rei i ta valja initi: kanoniku diskriminativnu analizu trebalo bi izvoditi programom
CANDISC iz tog sistema, ili analognim programima napisanim u SS ili GENSTAT jeziku. Naalost, SAS
nije dostupan neprofesionalnim statistiarima ne samo zbog administrativnih i ekonomskih razloga, nego i
zbog neeg mnogo ozbiljnijeg, a to vai i za SS i, jo vie, za GENSTAT: ti sistemi nisu ni namenjeni
neprofesionalnim statistiarima, pa ih normalan korisnik ne zna koristiti, jer nema vremena, a ni prethodnog
znanja, da naui kako to treba initi; to se vidi i po tome da ih mnogi ne koriste ni kada ih imaju, jer su na
neki nain savladali administrativne i ekonomske probleme.
Prema tome, postoji samo jedan razuman izlaz koji je mogu zbog toga to je SPSS daleko
najpopularniji statistiki paket i to ipak postoji jedan, premda vrlo rogobatan, jezik u kome je mogue
programirati u SPSS okruenju. Taj se izlaz sastoji u tome da se nekoga privoli ili prisili da u Matrix jeziku
116

Naravno, ovi rezultati prosto znae da kod mukaraca neto bolje, ali ne mnogo bolje, funkcioniu sistemi za obradu informacija ije su funkcije
preteno genetiki uslovljene, i regulacioni sistemi ije su funkcije takoe pod dominantnim uticajem genetikih faktora. Iako je to dobro poznato
svima koji se bave eksperimentalnom psihologijom, to su podaci koji se nerado objavljuju i, uopte, nerado spominju, kako se ne bi uvredio enski
deo humane populacije i dobar deo humanistiki orijentisane muke populacije koji slabo razlikuje znaenje pojmova jednakost i ravnopravnost i
koji je spreman da prizna da su, naravno u proseku, mukarci vii i tei od ena i imaju veu relativnu koliinu miine mase, ali ne i da se
razlikuju po drugim fiziolokim karakteristikama, a naroito ne po onima koje mnogi psiholozi, pa zbog toga i mnogi laici, nazivaju psihikim
osobinama.
117
Program CANDID (Momirovi, 1987), napisan u SS jeziku, rauna diskriminativne funkcije u Mahalanobisovom prostoru na nain opisan u
jednom kasnije publikovanom radu Hadigalia, Bogdanovia, Tenjovia i Wolfa (1995) kako bi izbegao neke numerike probleme i omoguio
testiranje znaajnosti diskriminativnih koeficijenata. Slian je algoritam vrlo lako izvesti i sa nekoliko jednostavnih manipulacija naredbama
GENSTAT jezika, jer funkcija za kanoniku diskriminativnu analizu, koja se u tom jeziku ponaa kao elementarna naredba, korektno rauna
parametre diskriminativnog modela.

326

Objavljeni radovi

napie korektan program za kanoniku diskriminativnu analizu i da ga implementira kao dodatni deo SPSS
sintakse. Onaj ko to uradi uinie, bez sumnje, dobro delo, jer je kanonika diskriminativna analiza metoda
bez koje su nemogua ozbiljna istraivanja u ma kojoj prirodnoj ili drutvenoj nauci, i u ma kojoj
tehnolokoj disciplini izvedenoj iz tih nauka.
Literaturne beleke
Momirovi, K. (1987): CANDID: Program za kanoniku diskriminativnu analizu u Mahalanobisovom prostoru.
Programska biblioteka SRCE*SS-MACRO. Zagreb: Sveuilini raunski centar.
Momirovi, K. (1997): Break mirror image analysis and its application to some classification problems.
Technical report, Institute of criminological and sociological research, Belgrade.
Vui, M.; Vukmirovi, J.; Vukmirovi, D.; Radojii, Z. (1997): Kontrola mernih instrumenata
diskriminacionom analizom u istraivanju hronopsihofiziolokih tipova. Referat na 10. majskom skupu Sekcije
za klasifikacije Saveza statistikih drutava Jugoslavije (umnoeno kao rukopis).
Literatura
Anderson, H. E. (1966): Regression, discriminant analysis and a standard notation for basic statistics. In R. B.
Cattell, Handbook of multivariate experimental psychology, 153-173. Chicago: McNally.
Anderson, T. W. (1984): An introduction to multivariate statistical analysis (20 edition). New York: Wiley.
Bartlett, M. S. (1941): The statistical significance of canonical correlations. Biometrika, 32: 29-38.
Bryan, J. G. (1951; 1975): The generalized discriminant function: Mathematical foundation and computational
routine. In W. R. Atchley and E. H. Bryant, Multivariate statistical methods: Among - groups covariation. 176181. Stroudsburg: Dowden. Hutchinson and Ross.
Hotelling, H. (1936): Relations between two sets of variates. Biometrika, 28: 321-377.
Cooley, W. W.; Lohnes, P. R. (1971): Multivariate data analysis. New York: Wiley.
Diday, E. (1971): La methode des nuages dynamique. Revue de statistique appliquee, 19, 2:19-34.
Glahn, H. R. (1968): Canonical correlation and its relationships to discriminant analysis and multiple regression.
Journal of Atmospheric Sience, 25: 23-31.
Guttman, L. (1988): Eta, disco, odisco and F. Psychometrika, 53: 393-405.
Hadigali. S. (1984): Some useful modification of canonical discriminant analysis. In K. Momirovi and V.
Dobri, O nekim odosima izmeu kanonike i kvazikanonike diskriminativne analize. Skopje: Bioloki i
nebioloki sutestva, V: 17-22.
Hadigali, S.; Bogdanovi, M.; Tenjovi, L.; Wolf, B. (1994): O nekim svojstvima Mahalanobisovih prostora.
Zbornik radova 8. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, 99-132. Beograd: Savezni
zavod za statistiku.
Ivanovi, B. (1963): Diskriminaciona analiza. Beograd: Nauna knjiga.
Ivanovi, B. (1977): Teorija klasifikacije. Beograd: Institut za ekonomiku industrije.
Kendall, M. G.; Stuart, A. (1976): Mnogomernyj statistiestikij analiz i vremennye rjady (perevod E. L.
Presmana i V. I. Rotarja). Moskva: Nauka.
Kovai, Z. J. (1994): Multivarijaciona analiza. Beograd: Ekonomski fakultet.
Momirovi, K.; Gredelj, M.; Szirovicza. L. (1977): Metode multivarijantne analize. Zagreb: Zavod za
produktivnost.
Momirovi, K.; Dobri, V. (1984): O nekim odosima izmeu kanonike i kvazi-kanonike diskriminativne
analize. Skopje: Bioloki i nebioloki sutestva.V: 17-22.
Momirovi, K. (1989): Kvazikanonika diskriminativna analiza u Pearsonovoj diskriminativnoj metrici. Zbornik
radova 3. sekcije za klasifkacije Saveza statistikih drutava Jugoslavije, 190-199. Beograd: Savezni zavod za
statistiku.
Momirovi, K.; Wolf, B.; Damonja, Z. (1992): KON 6. Kibernetika baterija konativnih testova. Beograd:
Centar za primenjenu psihologiju.
Momirovi, K.; Kneevi, G.; Kuzeljevi, B.; Radovi. B. (1994): Mere asocijacije izmeu jedne nominalne i
jednog skupa kvantitativnih varijabli. Zbornik radova 8. sekcije za klasifikacije Saveza statistiKih drutava
Jugoslavije, 73-98. Beograd: Savezni zavod za statistiku.
Momirovi, K.; Zori, A. (1996): On the variance, reliability, significance and importance of canonical
discriminant functions. In S. Bogosavljevi and M. Kovaevi, Analiza grupisanja, 2. 79-91. Beograd: Savezni
zavod za statistiku.
Mulaik, S. A. (1972): The foundations of factor analysis. New York: McGraw-Hill.
Rao, C. R. (1948; 1975): The utilisation of multiple measurements in problems of biological calssification. In W.
R. Atchley and E. H. Bryant, Multivariate statistical methods: Among - groups covariation, 131-203.
Stroudsburg: Dowden. Hutchinson and Ross.
Rao, C. R. (1952): Advanced statistical methods in biometric research. New York: Wiley.
327

Konstantin Momirovi u statistici

Rao, C. R. (1968): Lineinye statisteskie metody i ih primenenie (perevod A. M. Kagana, V. M. Kalinina i K. P.


Latiseva). Moskva: Nauka.
Rao, C. R. (1973): Linear statistical inference and its application. New York: Wiley.
Rao, C. R.; Slater, P. (1949): Multivariate analysis applied to differences between neurotic groups. British
Journal of Psychology, Statistical Section, 2: 17-29.
Romeder, J. M. (1973): Methodes et programmes d'analyse discriminante. Paris: Dunod.
talec, J.; Momirovi, K.; Zakrajek. E. (1983): Statistiki sistem. Zagreb: Fakultet za fiziku kulturu Sveuilita
u Zagrebu.
Ward, J. H. (1963): Hierarchical grouping to optimize an objective function. Journal of American Statistical
Association, 58: 236-244.
Wilks, S. S. (1932): Certain generalizations in the analysis of variance. Biometrika, 24: 471-494.
Wilks, S. S. (1935): On the independence of k sets of of normally distributed statistical variables. Econometrica,
3: 309-326.
Wilks, S. S. (1962): Mathematical statistics. New York: Wiley.
Wolf, B.; Momirovi, K.; Damonja, Z. (1992): KOG 3. Baterija testova inteligencije. Beograd: Centar za
primenjenu psihologiju.
ABSTRACT
After one reformulating of canonical discriminative analysis, carried out under one model of canonical
correlation analysis, it has been shown that implementation of a standard definition of discriminative model
results, in border cases, in insurmountable numerical difficulties. It has also been shown that definition of the
structure of canonical factors, which follows from the standard discriminative model, is absolutely senseless,
since the structure of so defined discriminative factors is absolutely unaffected by the components of the
variables on the basis of which the discriminative functions were formed. Consequences of the careless
definition of canonical discriminative analysis and false definitions of the discriminative factors structure are
presented through three examples in which the real and simulated data were analysed by programs for
discriminative analysis from program packages SPSS and Statistica, as well as the SAS program system.
Key words: Discriminative analysis, canonical models, SAS, SPSS, Statistica.

328

Objavljeni radovi

(27) STATISTIKA REVIJA 1997 II

IZVORNI NAUNI LANCI

Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja


Goran Kneevi, Lazar Tenjovi i Goran Opai - Filozofski fakultet u Beogradu
KANONIKA ANALIZA KOVARIJANSI U
GENERALIZIRANOM IMAGE PROSTORU

REZIME
Predloena je metoda za asimetrinu analizu prepokrivanja koja se sastoji od
kanonike analize kovarijansi jednog skupa varijabli i image varijabli tog skupa
varijabli dobijenih projekcijom tog skupa u prostor koji razapinju vektori nekog
drugog skupa varijabli. Definisane su standardizovane mere asocijacije tako
dobijenih latentnih dimenzija s vrlo jednostavnim asimptotskim drugim momentima i
izvedene identifikacijske strukture kvazikanonikih funkcija pre i nakon
transformacije koja optimizira jednu jednostavnu semiortogonalnu parsimonijsku
funkciju.
KLJUNE RE1: kanonike metode / analiza prepokrivanja / image transfomacije
1. Uvod

Metoda za asimetrinu analizu prepokrivanja predloena u ovom radu zasnovana je na jednom davno
publikovanom radu Momirovia, taleca i Zakrajeka (1973) o generaliziranim image transformacijama i na
metodi za dekompoziciju latentnih struktura koju su predloili Dobri, Karaman i Momirovi (1983). Sutina
predloene metode je kanonika analiza kovarijansi (Momirovi, Dobri i Karaman, 1983) jednog skupa
varijabli i image transformacije tog skupa varijabli izvedene projekcijom tog skupa u prostor koji razapinju
vektori nekog drugog skupa varijabli. Iako je cilj predloene metode u izvesnom smislu slian cilju klasine
metode za analizu prepokrivanja (Van Den Wollenberg, 1977) i metode za kanoniku faktorsku analizu
prepokrivanja (DeSarbo, 1981), kriterijska funkcija kanonike analize kovarijansi u generaliziranom image
prostoru razliita je od kriterijske funkcije Van Den Wollenbergove i DeSarbove metode, tako da se
interpretacija dobijenih mera asocijacije osniva na sasvim razliitim pretpostavkama.
2. Definicije

Ncka je Z1 matrica podataka, u standardnoj normalnoj formi, dobijena opisom nekog sluajnog uzorka
E od n objekata na uzorku V1 od m1 kvantitativnih ili kvantifikovanih varijabli, i neka je Z2 neka druga
matrica podataka, takoe u standardnoj normalnoj formi, dobijena opisom E na uzorku V2 kvantitativnih ili
kvantifikovanih varijabli takvom da V1 V2 = 0. Pretpostavimo, ne gubei mogunost generalizacije, da je
m2 m1, i oznaimo sa R11 = Z1t Z1 i R22 = Z2t Z2 matrice interkorelacija, procenjene pod kriterijumom
najvee verodostojnosti, varijabli iz V1 i V2, a sa R12 = R21t = Z1t Z2 matricu kroskorelacija izmedu varijabli iz
V1 i V2.
Neka je B = R11-1R12 matrica standardizovanih regresijskih koeficijenata dobijena rcavanjem
regresijskog problema Z1B = Z2 E trag (EtE) = minimum i neka jc G = Z1B matrica image varijabli iz
V2 u prostoru koji razapinju vektori varijabli V1. Oznaimo, na kraju, sa M = Gt G = BtR11B matricu
kovarijansi varijabli iz G.
329

Konstantin Momirovi u statistici

3. Osnovna solucija

Kanonika analiza kovarijansi u generaliziranom image prostoru moe se definisati kao reenje
problema
Z2xp = kp, G yp = lp cp = kp lp = maximum, xp xq = yp yq = pq,
t

gde su pq Kronekerovi simboli. Kovarijanse


cp = kptlp = xptMyp
izmeu linearnih kombinacija varijabli iz Z2 i linearnih kombinacija varijabli iz G mogu se maksimizirati
maksimizacijom funkcija
f(xp, yp, p, p) = xptMyp 1/2 p(xpt xp-1) 1/2 p(ypt yq 1),
p = 1,..., m2
gde su p i p neki nepoznati Lagrangeovi multiplikatori.
Diferencijacija funkcije f u odnosu na elemente vektora xp, a zatim u odnosu na elemente vektora yp
daje, za p = 1,

f / xp = Myp p xp Myp = p xp
f / yp = Mxp p yp Mxp = p yp,
tako da se, mnoenjem prvog rezultata sa xpt, a drugog rezultata sa ypt, dobija
xptMyp = p, ypt Mxp = p p = p = cp
i, kako jc Mt = M, xp = yp, problem se svodi na jednostavni problem karakteristinih vrednosti i vektora matrice M
(M p I) xp = 0

p = 1,..., m2,

u sutini, na problem glavnih komponenata varijabli iz G.


Neka je sada 2 = (trag M) / m2 generalizovani kanoniki indeks definisan na relacijama izmeu
varijabli iz Z1 i Z2. Racionalan postupak za odreivanje broja znaajnih latentnih dimenzija koje su
generatori relacija izmeu analiziranih skupova varijabli jeste dobro poznati MEIG kriterijum, definisan sa
k = num(p2).
Ako je X = (xp); p = 1,..., k, matrica svojstvenih vektora pridruenih znaajnim latentnim
dimenzijama, a C = (cp); p = 1,..., k, dijagonalna matrica prvih k kovarijansi izmeu varijabli kp i lp, latentne
dimenzije dobijene linearnim kombinacijama varijabli iz Z2 bie vektori matrice
K = Z2 X,
latentne dimenzije dobijene linearnim kombinacijama varijabli G bie vektori matrice
L = G X,
a
C = KtL = XtM X
bie matrica kovarijansi izmeu varijabli iz K i L i, istovremeno, matrica kovarijansi varijabli iz L jer je, oigledno,
C = LtL = Xt M X.
Prema tome, varijable iz K i L formiraju jedan semibiortogonalan sistem, jer
V = KtK = XtR22X
nije, u optem sluaju, dijagonalna matrica.
Neka je D2 = diag V matrica varijansi varijabli iz K. Tada e dijagonalni elementi matrice
P = D-1KtLC-1/2 = D-1C1/2 = (p)
biti kvazikanonike korelacije izmeu znaajnih latentnih dimenzija varijabli iz Z2 i image varijabli iz G.
Asimptotske varijanse kvazikanonikih korelacija p su, naravno,

p2 = (1 p2 ) 2 / n ,
dakle jednake asimptotskim varijansama produkt-moment koeficijenata korelacije bilo kog tipa. Ta injenica moe
330

Objavljeni radovi

biti upotrebljena za konstrukciju aproksimativnih intervala pouzdanosti i testiranje hipoteza Hp: p = ph, gde su ph
hipotetski kvazikanoniki koeficijenti korelacije.
Identifikacija sadraja latentnih dimenzija iz L je vrlo jednostavna jer je, zbog ortogonalnosti tih
dimenzija i u prostoru objekata i u prostoru varijabli iz G, matrica
S = GtL= XC
istovremeno i matrica sklopa i matrica strukture nestandardizovanih latentnih dimenzija, a matrica
T = GtLC-1/2 = XC1/2
faktorska matrica matrice M.
Identifikacija sadraja latentnih dimenzija K je neto komplikovanija, jer
W = D-1VD-1,
matrica interkorelacija varijabli iz K nije, u optem sluaju, dijagonalna matrica. Matrica strukture, u
prostoru standardizovanih latentnih dimenzija, jeste
F = Z2tKD-1 = R22XD-1,
tako da je, u istom prostoru,
A = FW-1 = R22X(XtR22X)-1D
matrica sklopa varijabli Z2. Uoimo da su A i F faktorske matrice matrice R22, jer je
A Ft = R22X(XtR22X)-1XtR22,
to je dokaz da su varijable iz K faktori, u faktorsko-analitikom smislu, varijabli Z2.
4. Orthoblique transformacija latentnih dimenzija

Kao i u drugim metodama za analizu latentnih struktura i u ovoj moe biti izvedena neka
parsimonijska transformacija latentnih dimenzija da bi se dobilo neko jednostavno i lako interpretabilno
reenje. Takva transformacija moe se definisati kao
XQ= Y p(Y) = extremum, QtQ = 1,
gde je p(Y) neka parsimonijska funkcija, na primer, jednostavna varimax funkcija
(Y) = m(et(Y~Y~Y~Y)f) - ((et(Y~Y)) ~ (et(Y~Y)))f = maximum,
gde je e sumacioni vektor reda m2, f sumacioni vektor reda k, a ~ operator Hadamardovog mnoenja.
Nakon ove transformacije, kvazikanonike funkcije bie
Ky = Z2Y
i
Ly = GY,
s matricama kovarijansi
Vy = KytKy = QtVQ
i
Uy = LytLy = QtCQ
i matricom kroskovarijansi oigledno jednakom matrici Uy. Ako oznaimo sa Dv2 = diag Vy i sa Du2 = diagUy matrice
drugih momenata varijabli iz Ky i Ly, elementi matrice
= Dv-1Uy Du-1
bie sada standardizovane mere asocijacije latentnih dimenzija nakon ove transformacije.
Jednostavnosti radi, verovatno je pogodnije definisati identifikacijske strukture funkcija iz Ky i Ly u
standardnoj i metrici. Neka su

v = Z2YDv-1
i

u = GYDu-1
331

Konstantin Momirovi u statistici

standardizovane kvazikanonike funkcije nakon orthoblique transformacije s matricama inlerkorelacija


v = vtv = Dv-1QtVQDv-1
i

u = utu = Du-1QtCQDu-1.
Tada e strukturalne matrice funkcija iz v i u biti
Sv = Z2tv = R22XQDv-1

Su = Gtu = XCQDu-1,

tako da e matrice sklopa tih funkcija biti


Pv = Svv-1 = R22X(XtR22X)-1QDv
i

Pu = Suu-1 = XQDu.
Naravno, Pv i Sv su faktorske matrice matrice R22 jer je
PvtSv = R22X(XtR22X)-1XtR22,

a Pu i Su su faktorske matrice matrice M jer je


PutSu = XCXt.

4. Program LSD

Jedan program za kanoniku analizu kovarijansi u generaliziranom image prostoru napisan je u Matrix
jeziku i moe biti izveden u SPSS okruenju. Program pretpostavlja da je otvoren zapis s podacima, a
aktivira se ovim naredbama:
include
'lsd.sps'.
lsd set1 = < nazivi varijabli
set2= < nazivi varijabli
iz

iz prvog skupa >/


drugog skupa >
/.

Literatura

De Sarbo, W. S. (1981): Canonical / redundancy factoring analysis. Psychometrika, 46: 307-329.


Dobri, V.; Karaman, .; Momirovi, K. (1983): LSD: A method, algorithm and program for latent structure
decomposition. Proceedings of 7h symposium of informatics, 282: 1-7.
Momirovi, K.; talec, J.; Zakrajek, E. (1973): Primjena generaliziranih image transformacija u analizi
relacija skupova varijabli. Kineziologija, 3, 2: 57-61.
Momirovi, K.; Dobri, V.; Karaman, . (1983): Canonical covariance analysis. Proceedings of 5lh International
symposium 'Computer at the University', 463-473.
Van Den Wollenberg, A. L. (1977): Redundancy analysis: an alternative for canonical correlation analysis.
Psychometrika, 42: 207-219.

332

Objavljeni radovi

(28) STATISTIKA REVIJA 1998 I

IZVORNI NAUNI LANCI


Aleksandar Zori - Filozofski fakultet u Beogradu
Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja
METOD MULTIVARIJANTNE REGRESIJSKE ANALIZE S
KONZISTENTNIM LINEARNIM OGRANIENJEM
REZIME
Predloen je vrlo jednostavan metod multivarijantne regresijske analize s
konzistentnim linearnim ogranienjem. Pored toga, dat je i program za komparaciju
ovog metoda i standardne regresijske analize po kriterijumu najmanjeg kvadrata,
kao i jedan numeriki primer. Metod je sadran u linearnoj transformaciji matrice
podataka, date u standardnoj normalnoj formi, preko matrice ortogonalnih kolona
takve da je tako transformisana matrica podataka slina, u smislu najmanjih
kvadrata, matrici podataka, takoe datoj u standardnoj normalnoj formi, skupa
kriterijskih varijabli. Date su i strukture za identifikaciju ovako dobijenih
regresorskih faktora i pokazano je da je predloeni metod u svojoj osnovi
regresijska komponentna analiza matrice podataka regresorskih varijabli.
KLJUNE REI: regresijska analiza / robustne metode
1. Uvod

Pod odreenim uslovima, multivarijantna regresijska analiza pod kriterijumom najmanjih kvadrata, i u
matematikom i u statistikom pogledu, jeste optimalni metod za predikciju ili eksplanaciju, pa ak i
determinaciju funkcijskih povezanosti izmeu skupa regresijskih i skupa kvantitativnih varijabli. Kao to je
poznato, ovi uslovi podrazumevaju multivarijantnu normalnu distribuciju kriterijskih varijabli, odsustvo
multivarijantnih autlajera, dovoljno stepeni slobode i striktnu regularnost matrice kovarijansi regresorskih
varijabli (Anderson, 1984; Belsley, Kuh and Welsh, 1980; Demidenko, 1981; Draper and Smith, 1966;
Kendall and Stuart, 1968, Seber, 1977; Rao, 1973; etc.). Pa ipak, na mnoge faktore ovaj metod je osetljiviji i
od obine regresije po principu najmanjih kvadrata (Belsley, Kuh and Welsh, 1980; Maxwell, 1977;
Momirovi, Kneevi, Tenjovi and Bogdanovi, 1995):
Sve uzorake vrednosti koeficijenata multiple korelacije jesu precenjene mere povezanosti izmeu
skupa regresora i kriterijskih varijabli; ovaj pozitivni bias jako zavisi od razlike izmeu broja entiteta u
uzorku i broja regresora.
Vektori parcijalnih regresionih koeficijenata su obino korelisani, kao i pojedini parcijalni regresioni
koeficijenti, tako da je problem interpretacije dobijenih rezultata, pa ak i testiranje hipoteze o vrednostima
parcijalnih regresionih koeficijenata, esto nereiv.
Svi vektori parcijalnih regresionih koeficijenata su vrlo nestabilni, osobito ako je matrica kovarijansi
regresora loe definisana i/ili razlika izmeu broja entiteta i broja regresora relativno mala.
Multivarijantni autlajeri imaju nerazumno veliki uticaj na rezultate.
Generezabilnost regresijskih funkcija esto je veoma niska, tako da se njihova egzistencija s pravom
moe dovesti u pitanje.
Glavni razlog ovih problema lei u inverzu kovarijansne matrice regresora, tanije u prevelikom
uticaju poslednjih nekoliko svojstvenih vrednosti ove matrice, koje najee ne predstavljaju nita drugo do
greku merenja. Metodi takozvane ridge regresije korisni su za reavanje nekih numerikih problema, ali ne i
logikih, tako da je predloeno puno robustnih metoda regresijske analize, obino ogranienih na sluaj
jedne kriterijske varijable (Huber, 1977; Belsley, Kuh and Welsh, 1980; talec and Momirovi,1 983;
Momirovi, Kneevi, Tenjovi and Bogdanovi, 1995).

333

Konstantin Momirovi u statistici

Cilj ovog rada je da predloi jedan veoma jednostavan metod, algoritam i program za multivarijantnu
regresijsku analizu s konzistentnim linerarnim ogranienjem i da definie eksplicitne veze ovog metoda sa
standardnim metodom regresijske analize po kriterijumu najmanjih kvadrata. Metod se sastoji u linearnoj
transformaciji matrice podataka, date u standardnoj normalnoj formi, preko matrice ortonormalnih kolona
takve da je tako transformisana matrica podataka slina, u smislu najmanjih kvadrata, matrici podataka,
takoe datoj u standardnoj normalnoj formi, skupa kriterijskih varijabli. Date su i strukture preko kojih se
mogu indentifikovati ovako dobijeni regresioni faktori, te je i pokazano da je predloeni metod u svojoj
osnovi regresijska komponentna analiza matrice podataka regresorskih varijabli.
2. Definicije

Neka je E = {ei; i = 1,, n} skup objekata, a V = {vj; j = 1,, m} skup kvantitativnih varijabli s
logikom strukturom regresora, i neka je C = {cp; p = 1,, g}, g < m, skup kvantitativnih kriterijskih
varijabli.
Neka je
Zc = (zip) = E C
kriterijska matrica podataka takva da je
Zcte = 0, diag(ZctZc) = Ig
i neka je
Zr = (zij) = E V
regresorska matrica podataka takva da je
Zrte = 0, diag(ZrtZr) = Im,
gde je
C = (ZrtZr)
matrica interkorelacija regresora, a
K = ZctZc
matrica interkorelacija kriterijskih varijabli, i
G = ZrtZc = (gjp)
matrica kroskorelacija regresorskih i kriterijskih varijabli.
3. Kanonika forma multivarijantne regresijske analize

Kao to je poznato, multivarijantna regresijska analiza moe biti, u ovoj notaciji, definisana kao
reenje sledeeg problema
Zr = Zc N tr(NtN) = minimum.
Derivacijom sledee funkcije

() = tr((Zc Zr)t(Zc Zr)) = tr(K 2tG + tC


dobijamo matricu standardizovanih parcijalnih regresionih koeficijenata
= C-1G
tako da je
NtN = K tC
matrica kovarijansi reziduala, a
H = Zr
matrica predvienih vrednosti s kovarijansnom matricom
W = tC.
334

Objavljeni radovi

Tada je
2 = diagW
matrica koeficijenata determinacije, je matrica koeficijenata multiplih korelacija, pa je
S = ZrtH -1 = G -1
matrica strukture regresionih faktora. Hipoteze H0p: p* = 0, p = 1,, g, tada se mogu testirati na osnovu sledee
funkcije
fp = ( p2(1 p2)-1)((n m 1)m-1),
zato to pod H0p funkcija fp ima Fisher-Snedecorovu F distribuciju sa m i n m 1 stepeni slobode.
4. Regresijska analiza s konzistentnim linearnim ogranienjem

Predloeni metod moe biti formulisan kao reenje sledeeg problema


Zr = Zc E tr(EtE) = minimum, t = I.
Ovo je aproksimacija po kriterijumu najmanjih kvadrata kriterijske matrice Zc, preko linearne transformacije
regresorske matrice podataka izvedene kolonski ortonormalnom transformacionom matricom.
Neka je

2 = tr(EtE) = tr((Zc Zr)t(Zc Zr )) = tr(K + tC 2tG),


i neka je nepoznata matrica Lagranovih multiplikatora.
Reenje ovoko formulisanog regresijskog problema moe biti reducirano na problem minimizacije
sledee funkcije

(,) = tr(K 2tG + tC) + tr(t I),


tj. na reenje sledee jednaine

2/ + /(tr(t I) = 0.
Prvi deo ove jednaine oigledno odgovara jednaini obinog multivarijantnog regresijskog problema,
tako da je

2/ = 2G + 2C.
Iz uslova
(t I)t = (t I), t =
i

/ (tr(t I) = 2
sledi

2/ + /(tr(t I) = 2G + 2C + 2 = 0
ili
G + C+ = 0,
tako da je
C + = G.
Posle premultipliciranja sa t, dobijamo

tC + t=tG = Gt,
tako da t mora biti matrica koja simetrizira matricu G.
Neka je
G = YXt: YtY = I, XtX = XXt = I
335

Konstantin Momirovi u statistici

bazina struktura matrice G. Tada je, oigledno,

= YXt
i

tG = Gt = XXt,
tada je

tC + t = XXt,
a

2 = n + tr(tC) 2tr(XXt).
Definiimo
T = Zr = (tip)
kao matricu podataka slinu, koliko je to mogue, kriterijskoj matrici podataka Zc pod ogranienjem t = I.
5. Identifikacione strukture

Neka je
V = TtT = tC
matrica kovarijansi varijabli iz T, i neka je
F = ZrtT = C
matrica kovarijansi varijabli iz Zr i T.
Tada su koordinate vektora varijabli iz Zr u prostoru koji razapinju regresijski vektori iz T elementi
matrice
A = FV-1 = C (tC)-1
i
C* = AFt = C (tC)-1tC = PC,
gde je
P = C (tC)-1t
oigledno projektorska matrica, tako da su onda A i F faktorske matrice od C.
Ponekad je jednostavnije definisati veze izmeu regresora i regresorskih funkcija, kao i veze izmeu
regresora kao korelacije umesto kao kovarijanse. Neka je 2 = diag V.
Tada je
M = -1V-1
matrica korelacija regresionih funkcija, a
Q = C-1
matrica kroskorelacija izmeu regresora i regresionih funkcija, i
U = QM-1 = C (tC)-1
je matrica kordinata vektora varijabli u prostoru normalizovanih regresionih vektora.
Uoimo da su U i Q jo uvek faktorske matrice matrice C, jer je
UQt = C(tC)-1tC = C*.

336

Objavljeni radovi

6. Mere asocijacije

Dijagonalni elementi matrice

= ZctT = G = XXt = (pq)


oigledno su kovarijanse izmeu kriterijskih varijabli i predvienih vrednosti istih, a elementi dijagonalne matrice 2
su varijanse predvienih kriterijumskih varijabli. Mere asocijacije izmeu kriterijumskih varijabli i njihovih
predvienih vrednosti tada se mogu definisati kao elementi sledee matrice

= (diag )-1 = (p)


analogno koeficijentima multiple korelacije u standardnoj multivarijantnoj regresijskoj analizi.
Koeficijenti p su, naravno, mere asocijacije izmeu regresora i pojedinih kriterijumskih varijabli pod
predloenim modelom regresijske analize. Zapazimo da ovi koeficijenti nisu maksimizirani tako da su
njihove karakteristike sline karakteristikama obinih produkt-moment koeficijenata korelacije. Tada,
asimptotski, varijansa ovih koeficijenata p tei ka

p2 = (1 p2)2n-1,
pa to moe biti upotrebljeno za izraunavanje asimptotskih intervala poverenja. Naalost, tana funkcija distribucije
koeficijenata p jo uvek nije poznata tako da se test hipoteze H0p: p* = 0, koji definiemo preko funkcije
fp = p2((1 p2)-1(n 2)),
koja se verovatno aproksimativno distribuira kao Fisher-Snedecorov F, ne moe uzeti sasvim pouzdano, jer je vrlo
verovatno da je rezultat ovih testova u kontradikciji s rezultatima testova hipoteza H0jp: gjp* = 0, kao i hipoteza
H0p: p* = 0.
7. Relacije regresijskih analiza pod kriterijumom najmanjih kvadrata sa i bez dodatnih ogranienja

Potrebno je malo algebre pa da se dobiju interesantne relacije izmeu obine regresije i predloene
regresije sa ogranienjem. Relacije izmeu inicijalnih matrica podataka, predvienih vrednosti i reziduala
dobijenih preko ova dva metoda date su u tabeli 1118.
Tabela 1. Relacije regresijskih analiza pod kriterijumom najmanjih kvadrata sa i bez dodatnih ogranienja
matrica
Zrt

Zr
C

Zc
G

H
G

Zct

Gt

tC

XXt

Ht

Gt

tC

tC

XXt

Tt

tC
0

XXt

XXt
0

tC
0

Nt
Et

K-tC

Gt- tC K-XXt tC-XXt XXt-tC

N
0

E
G-C

K-tC
0

K-XXt

tC-XXt

XXt-tC

K-tC

K-tC

K-tC

K+tC-2(XXt)

Moda je od svega najinteresantnija veza izmeu standardizovanih predvienih kriterijskih varijabli


dobijenih preko ova dva metoda. Oigledno je

-1HtT-1 = -1,
tj. korelacija izmeu standardizovanih regresionih funkcija definisanih preko i jednaka koliniku koeficijenata
multiple korelacije po kriterijumu najmanjih kvadrata dobijenih sa i bez ogranienja.
8. Reformulacija regresijskog problema sa ogranienjem

Predloeni metod multivarijantne regresijske analize moe biti definisan na alternativan nain, koji je
posebno koristan za razmatranje distributivnih odlika koeficijenata p, te i testiranja hipoteza o istima. Lako
je dokazati da se predloeni metod moe definisati kao reenje sledeeg problema
Zr = T tr(ZctT) = maximum, t = I.
118

Praktino iste relacije dobili su Dobri i Momirovi (1991) izmeu standardne regresijske analize po kriterijumu najmanjeg kvadrata i bilo kog od
standardnih metoda robustne regresijske analize.

337

Konstantin Momirovi u statistici

Funkcija koju maksimiziramo je jednostavna funkcija od i simetrine matrice Lagranovih


multiplikatora

(, ) = tr(Gt) tr(t I),


tako da je, posle diferencijacije,
G = 0
i
G = = G-1.
Ali, iz uslova t = I, dobijamo

tG-1 = I,
-1GtG -1 = I,
tako da je

-1 = (GtG) -1/2.
Ako opet oznaimo bazinu strukturu od G kao
G = YXt,
tada je
(GtG) -1/2 = X-1Xt,
pa je

= YXt.
Oigledno, predloeni metod moe biti formalno definisan kao specijalni sluaj regresijske analize pod
modelom kanonike analize kovarijansi (talec and Momirovi, 1983; Dobri, talec and Momirovi, 1984)
i jasno je da je relacija izmeu procene regresije i greke pod ovim modelom i pod modelom obine regresije
pod kriterijumom najmanjeg kvadrata u sutini identina odnosu izmeu obine regresije pod kriterijumom
najmanjih kvadrata i takozvane stupidne regresije (Dobri and Momirovi, 1991). Iz istih razloga, neke
sline mere generezabiliteta regresijskih funkcija sa ogranienjem mogu biti na slian nain izvedene kao i
mere generezabiliteta regresijskih funkcija dobijenih pod modelom kanonike analize kovarijanse
(Momirovi, 1996).
9. Generezabilitet regresijskih funkcija sa ogranienjem

Neka je
U2 = (diag C-1)-1
dijagonalna matrica procena unikviteta regresora. Kako je C U2 matrica kovarijansi zajednikih delova regresora,
na dijagonali matrice

= (diag(t(C U2) ))(diag(tC))-1


imamo mere generezabiliteta regresijskih funkcija dobijenih na osnovu predloenog metoda.
10. PROGRAM MAHALREG

Predloeni metod, kao i standardni metod za multivarijantnu regresijsku analizu, implementiran je u


vrlo jednostavan program, napisan u Matrix jeziku. Program moe biti izvren u standardnom SPSS
okruenju, sa sledeim komandama:
include 'mahalreg.sps'.
mahalreg set1=<imena regresora>/set2=<imena kriterijskih varijabli>/.

Dat je i listing simbolikog koda programa MAHALREG kako bismo omoguili komparativnu analizu
predloene i standardne regresijske analize svim zainteresovanim korisnicima.
338

Objavljeni radovi

preserve
set printback=off
set decimal=dot
*-----------------------------------------------------------*
MAHALREG
*
Program for the regression analysis
*
under Least squares and Mahalanobis model
*
*
Version 1.0.
*
21.12.1998
*
* MAHALREG can be run with the following statements:
* INCLUDE 'MAHALREG.SPS'.
* MAHALREG SET1=regressors names/SET2=criterion variables
* names/.
*
* Algorithm is documented in
* Zoric, A.; Momirovic, K. (1998):
* A method for multivariate regression analysis
* with consistent linear constraints.
* Technical report, Institute of criminological and
* socilogical research.
*-----------------------------------------------------------define mahalreg (set1=!charend('/')
/set2=!charend('/'))
preserve
set printback=off mxloop=999 mprint off
*-----------------------------------------------------------* Saving the original file.
*-----------------------------------------------------------save outfile='mr_tmp1.sav'
*-----------------------------------------------------------* Correlation supermatrix.
*-----------------------------------------------------------set results off
corr variables=!set1 !set2 /missing=listwise/matrix out(*)
set decimal=dot
set results listing printback off mprint off
*-----------------------------------------------------------* Correlation submatrices
*-----------------------------------------------------------matrix
get r /variables=!set1/missing=omit/file=*
compute p1=ncol(r)
get r /file=* /names=varname/missing=omit/variables=!set1 !set2
compute p2=ncol(r)-p1
compute nx1=varname(1:p1)
compute nv=p1+p2
compute nx2=varname((p1+1):nv)
compute rr=r(4:(nv+3),1:nv)
compute ns=r(3,1)
compute r11=rr(1:p1,1:p1)
compute r22=rr((p1+1):nv,(p1+1):nv)
compute r12=rr(1:p1,(p1+1):nv)
compute r21=t(r12)
compute m=ncol(r11)
compute k=ncol(r22)
print ns /format "f8.0"/title 'Number of subjects'
print m /format "f8.0"/title 'Number of regressors'
print k /format "f8.0"/title 'Number of criterion variables'
print r11 /format "f8.3"/title 'Correlations of regressors'/space=2
339

Konstantin Momirovi u statistici

/rnames=nx1 /cnames=nx1
print r22 /format "f8.3"/title 'Correlations of criterion variables'/space=2
/rnames=nx2 /cnames=nx2
print r12 /format "f8.3"
/title 'Crosscorrelations of regressors and criterion variables'/space=2
/rnames=nx1 /cnames=nx2
*-----------------------------------------------------------* Uniqueness estimates.
*-----------------------------------------------------------compute rinv=inv(r11)
compute u2=diag(rinv)
compute u2=mdiag(u2)
compute u2=inv(u2)
*-----------------------------------------------------------* Least squares multivariate regression analysis.
*-----------------------------------------------------------compute beta=rinv*r12
compute gmat=r21*beta
compute dtr=diag(gmat)
compute rho=sqrt(dtr)
compute dgrho=mdiag(rho)
compute dgrho=inv(dgrho)
compute fmat=r12*dgrho
compute resmat=r22-gmat
compute one=dtr&/dtr
compute dgf1=m
compute dgf2=ns-m-1
compute eps=one-dtr
compute ftest=dtr&/eps
compute konst=dgf2/dgf1
compute ftest=ftest&*konst
compute sig=one-fcdf(ftest,dgf1,dgf2)
compute lsres={rho,dtr,ftest,sig}
print lsres/format "f8.3"
/title 'Summary results of Least squares regression analysis'/space=2
/rnames=nx2/cnames={"rho","dtr","ftest","sig"}
compute gmat=dgrho*gmat*dgrho
compute eres=diag(resmat)
compute eres=mdiag(eres)
compute eres=inv(sqrt(eres))
compute resmat=eres*resmat*eres
print gmat /format "f8.3"/title 'Correlations of predicted variables'/space=2
/rnames=nx2 /cnames=nx2
print beta /format "f8.3"/title 'Standardized regression coefficients'/space=2
/rnames=nx1 /cnames=nx2
print fmat /format "f8.3"/title 'Structure of regression factors'/space=2
/rnames=nx1 /cnames=nx2
print resmat /format "f8.3"/title 'Correlations of residual variables'
/rnames=nx2 /cnames=nx2
*-----------------------------------------------------------* Mahalanobis regression analysis
*-----------------------------------------------------------call svd(r12,x1,lambda1,x2)
compute x1=x1(:,1:k)
compute x2=x2(:,1:k)
compute gama=x1*t(x2)
compute mmat=t(gama)*r11*gama
compute sigma=diag(mmat)
compute sigma=mdiag(sigma)
compute sigma=inv(sqrt(sigma))
340

Objavljeni radovi

compute sigmav=diag(sigma)
compute mcov=r21*gama
compute smat=r11*gama*sigma
compute mresmat=r22+mmat-(mcov+t(mcov))
compute psi=diag(mcov)
compute psi=psi&*sigmav
compute psisq=psi&*psi
compute psisqw=one-psisq
compute lud1=one&*ns
compute lud2=one&*2
compute lud3=lud1-lud2
compute lud=lud3&/psisqw
compute dff=ns-2
compute tst=psisq&*lud
compute sigm=one-fcdf(tst,1,dff)
compute mres={psi,psisq,tst,sigm}
print mres/format "f8.3"
/title 'Summary results of Mahalanobis regression analysis'/space=2
/rnames=nx2/cnames={"psi","psisq","tst","sigm"}
compute mmat=sigma*mmat*sigma
compute ermat=diag(mresmat)
compute ermat=mdiag(ermat)
compute ermat=inv(sqrt(ermat))
compute mresmat=ermat*mresmat*ermat
print mmat /format "f8.3"/title 'Correlations of M-predicted variables'/space=2
/rnames=nx2 /cnames=nx2
print gama /format "f8.3"/title 'M-regression coefficients'/space=2
/rnames=nx1 /cnames=nx2
print smat /format "f8.3"/title 'Structure of M-regression factors'/space=2
/rnames=nx1 /cnames=nx2
print mresmat /format "f8.3"/title 'Correlations of M-residual variables'
/rnames=nx2 /cnames=nx2
*-----------------------------------------------------------* Relations of regression factors.
*-----------------------------------------------------------compute rel=psi&/rho
print rel/format "f8.3"
/title 'Correlations of regression and M-regression factors'/space=2
/rnames=nx2
*-----------------------------------------------------------* Reliability of regression factors.
*-----------------------------------------------------------compute mumu=r11-u2
compute lsmat=t(beta)*mumu*beta
compute mahmat=t(gama)*mumu*gama
compute lsmat=diag(lsmat)
compute mahmat=diag(mahmat)
compute varmat=t(gama)*r11*gama
compute varmat=diag(varmat)
compute lsrel=lsmat&/dtr
compute mahrel=mahmat&/varmat
compute relcoef={lsrel,mahrel}
print relcoef/format "f8.3"
/title 'Reliability of regression factors'/space=2
/rnames=nx2/cnames={"lsrel","mahrel"}
*-----------------------------------------------------------* Information and redundancy measures of regression factors.
*-----------------------------------------------------------compute lsinf=t(fmat)*fmat
compute lsinf=diag(lsinf)
compute lsinf=lsinf&/m
compute lsred=lsinf&*rho
341

Konstantin Momirovi u statistici

compute mhinf=t(smat)*smat
compute mhinf=diag(mhinf)
compute mhinf=mhinf&/m
compute mhred=mhinf&*psi
compute infred={lsinf,lsred,mhinf,mhred}
print infred/format "f8.3"
/title 'Relative information and redundancy measures'/space=2
/rnames=nx2/cnames={"lsinf","lsred","mhinf","mhred"}
end matrix
*-----------------------------------------------------------* Reconstruction of original file.
*-----------------------------------------------------------get file='mr_tmp1.sav'
restore
!enddefine.
restore

11. Numeriki primer

Ponaanje predloenog metoda i programa ilustrovano je na jednostavnom primeru. Analiza je


izvedena na 15 latentnih dimenzija dobijenih iz mera socijalnog statusa, kognitivnih sposobnosti i
karakteristika linosti, naspram 5 latentnih dimenzija dobijenih kao mere intenziteta kriminalnog ponaanja,
koje su sve dobijene opisivanjem uzoraka od 314 odraslih kriminalaca. Kodirana imena i predmet merenja
socijalnih i psiholokih faktora dati su u tabeli 2.1, a kodirana imena i predmet merenja kriminalnih faktora u
tabeli 2.2. Sve kognitivne i konativne latentne dimenzije definisane su kao glavne komponente
standardizovanih skupova ajtema namenjenih proceni intelektualnih sposobnosti i karakteristika linosti.
Latentne dimenzije socijalnog statusa definisane su kao glavne komponente ordinalnih varijabli za procenu
pozicije ispitanika u socijalizacijskom, institucionalnom i sankcijskom sistemu. Kriminalne latentne
dimenzije definisane su kao glavne komponente broja kriminalnih aktivnosti za vreme celog ispitanikovog
ivota. Rezultati dobijeni programom MAHALREG dati su u tabelama 3-9.
Tabela 2.1. Kodna imena i predmet merenja regresora
Regresor
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG

342

Predmet merenja
Socijalni status subjekta
Socijalni status subjektovog oca
Socijalni status subjektove majke
Ekonomski status subjektove porodice
Efikasnost perceptivnog procesora
Efikasnost serijalnog procesora
Efikasnost paralelnog procesora
Poremeaj kortikalne kontrole retikularne formacije
Poremeaj regulacije i kontrole organskih funkcija
Poremeaj regulacije i kontrole reakcija odbrane
Poremeaj regulacije i kontrole reakcija napada
Poremeaj regulacije i kontrole regulatornih funkcija
Poremeaj regulacije i kontrole integrativnih funkcija
Poremeaj evaluativnih funkcija
Konativna rigidnost

Objavljeni radovi

Tabela 2.2. Kodna imena i predmet merenja kriterijumskih varijabli


Kriterij
REC
DEV
NAS
LOP
NRK

Predmet merenja
Frekfenca kriminalnog recidivizma
Intenzitet devijantnog ponaanja
Intenzitet kriminalnih dela poinjenih nasiljem
Intenzitet kriminalnih aktivnosti protiv imovine
Intenzitet kriminalnih aktivnosti povezanih sa zloupotrebom narkotika

Tabela 3.Korelacije regresora


varijabla
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG

STS
1.000
.520
.415
.630
.239
.246
.192
-.001
-.331
-.323
-.296
-.353
-.306
-.275
-.172

STO
.520
1.000
.712
.506
.158
.124
.158
.063
-.175
-.186
-.124
-.165
-.171
-.122
-.147

STM
.415
.712
1.000
.442
.125
.075
.124
-.015
-.093
-.118
-.089
-.093
-.134
-.089
-.172

EK
.630
.506
.442
1.000
.198
.184
.168
.088
-.253
-.285
-.093
-.191
-.219
-.054
-.168

I
.239
.158
.125
.198
1.000
.630
.589
.047
-.087
-.039
.020
-.054
-.046
.001
-.007

S
.246
.124
.075
.184
.630
1.000
.577
.090
-.176
-.152
-.081
-.172
-.189
-.123
-.090

P
.192
.158
.124
.168
.589
.577
1.000
-.005
-.071
-.042
-.082
-.073
-.062
-.117
-.133

EPS
-.001
.063
-.015
.088
.047
.090
-.005
1.000
.083
.162
.323
.153
.089
.309
.297

Tabela 3. Korelacije regresora (nastavak)


varijabla
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG

HI
-.331
-.175
-.093
-.253
-.087
-.176
-.071
.083
1.000
.827
.568
.790
.797
.489
.408

AL
-.323
-.186
-.118
-.285
-.039
-.152
-.042
.162
.827
1.000
.545
.730
.765
.446
.478

SIG
-.296
-.124
-.089
-.093
.020
-.081
-.082
.323
.568
.545
1.000
.706
.649
.819
.536

DEL
-.353
-.165
-.093
-.191
-.054
-.172
-.073
.153
.790
.730
.706
1.000
.846
.647
.431

ETA
-.306
-.171
-.134
-.219
-.046
-.189
-.062
.089
.797
.765
.649
.846
1.000
.606
.424

AMR
-.275
-.122
-.089
-.054
.001
-.123
-.117
.309
.489
.446
.819
.647
.606
1.000
.425

RIG
-.172
-.147
-.172
-.168
-.007
-.090
-.133
.297
.408
.478
.536
.431
.424
.425
1.000

Tabela 4. Korelacije kriterijumskih varijabli


varijabla
REC
DEV
NAS
LOP
NRK

REC
1.000
.353
.313
.483
.250

DEV
.353
1.000
.730
.750
.467

NAS
.313
.730
1.000
.711
.560

LOP
.483
.750
.711
1.000
.537

NRK
.250
.467
.560
.537
1.000

343

Konstantin Momirovi u statistici

Tabela 5. Kroskorelacije regresora i kriterijskih varijabli


varijabla
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG

REC
-.237
-.103
-.014
-.111
-.088
-.152
-.165
.005
.160
.117
.227
.206
.194
.328
-.014

DEV
-.173
.021
.072
-.032
-.055
-.104
-.054
-.042
.218
.150
.263
.243
.232
.297
.034

NAS
-.095
.081
.106
.039
-.068
-.047
-.056
.000
.158
.066
.251
.187
.158
.277
-.051

LOP
-.106
.039
.080
.059
.036
.006
-.022
.050
.174
.116
.285
.188
.181
.313
.013

NRK
-.023
.158
.219
.151
.033
.033
.033
.019
.096
-.021
.122
.073
.066
.185
-.123

Tabela 6. Rezultati regresijske analize po kriterijumu najmanjih kvadrata


funkcija
REC
DEV
NAS
LOP
NRK

rho

dtr
.433
.391
.406
.394
.414

.188
.153
.164
.155
.171

ftest
4.591
3.593
3.911
3.650
4.110

sig
.000
.000
.000
.000
.000

Tabela 6.1. Korelacije predvienih varijabli


varijabla

REC

DEV

NAS

LOP

NRK

REC

1.000

.850

.772

.784

.576

DEV

.850

1.000

.912

.889

.727

NAS

.772

.912

1.000

.918

.839

LOP

.784

.889

.918

1.000

.824

NRK

.576

.727

.839

.824

1.000

Tabela 6.2. Standardizovani regresijski koeficijenti


varijabla

REC

DEV

NAS

LOP

NRK

STS

-.153

-.164

-.100

-.144

-.191

STO

-.056

.071

.106

.033

.053

STM

.114

.097

.066

.078

.185

EK

-.030

.028

.029

.101

.136

.046

-.022

-.091

.035

-.004

Tabela 6.2. Standardizovani regresijski koeficijenti (nastavak)


varijabla
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG
344

REC
-.035
-.125
-.036
.019
-.025
-.036
-.031
.033
.390
-.185

DEV
-.021
.002
-.116
.114
-.074
.100
-.028
.044
.233
-.100

NAS
.062
-.030
-.071
.162
-.132
.215
-.022
-.018
.212
-.206

LOP
.058
-.058
-.042
.147
-.039
.188
-.140
.016
.243
-.159

NRK
.059
-.004
.000
.308
-.215
.025
-.151
.040
.244
-.181

Objavljeni radovi

Tabela 6.3. Struktura regresionih faktora


varijabla
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG

REC
-.547
-.239
-.033
-.257
-.203
-.350
-.381
.011
.369
.269
.525
.475
.447
.756
-.032

DEV
-.442
.053
.183
-.081
-.141
-.265
-.139
-.106
.556
.383
.671
.620
.593
.758
.088

NAS
-.235
.200
.262
.096
-.167
-.116
-.137
-.001
.389
.164
.620
.461
.390
.682
-.127

LOP
-.268
.098
.202
.150
.092
.016
-.056
.126
.443
.294
.725
.477
.458
.796
.033

NRK
-.056
.381
.529
.366
.079
.080
.081
.045
.232
-.050
.294
.177
.159
.446
-.296

Tabela 6.4. Korelacije rezidualnih varijabli


varijabla
REC
DEV
NAS
LOP
NRK

REC
1.000
.252
.216
.422
.179

DEV
.252
1.000
.696
.725
.417

NAS
.216
.696
1.000
.672
.504

LOP
.422
.725
.672
1.000
.481

NRK
.179
.417
.504
.481
1.000

Tabela 7. Rezultati mahalanobijovske regresijske analize


funkcija
REC
DEV
NAS
LOP
NRK

psi
.320
.253
.285
.227
.286

psisq
.102
.064
.081
.052
.082

tst
35.548
21.304
27.613
17.011
27.886

sigm
.000
.000
.000
.000
.000

Tabela 7.1. Korelacije m-predvienih varijabli


varijabla
REC
DEV
NAS
LOP
NRK

REC
1.000
.489
.317
.158
-.629

Varijabla
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG
DEL
ETA
AMR
RIG

REC
-.476
-.399
-.080
-.258
-.081
-.292
-.417
.119
.025
-.014
.033
.068
.086
.440
-.234

DEV
.489
1.000
.398
.500
-.288

NAS
.317
.398
1.000
.224
.085

LOP
.158
.500
.224
1.000
-.101

NRK
-.629
-.288
.085
-.101
1.000

LOP
.028
-.096
-.113
.209
.422
.346
.096
.350
.115
.218
.455
.103
.141
.393
.226

NRK
-.167
.277
.641
.333
.205
.004
.095
.012
.112
-.181
-.112
-.037
.018
.279
-.431

Tabela 7.2. M-regresioni koeficijenti


DEV
-.220
.130
.195
-.131
-.033
-.256
.208
-.393
.390
.333
.038
.328
.385
-.010
.308

NAS
.273
.356
-.037
.071
-.580
.000
-.195
-.026
.039
-.100
.522
.255
.037
.179
-.184

345

Konstantin Momirovi u statistici

Tabela 7.3. Struktura m-regresionih faktora


varijabla
STS
STO
STM
EK
I
S
P
EPS
HI
AL
SIG

REC
-.775
-.644
-.507
-.614
-.487
-.557
-.569
.091
.436
.403
.451

DEV
-.437
-.146
-.040
-.345
-.127
-.317
-.066
-.094
.880
.844
.611

NAS
.056
.278
.206
.186
-.550
-.434
-.463
.170
.378
.270
.589

LOP
-.123
-.090
-.104
.048
.430
.316
.247
.499
.558
.589
.803

NRK
.473
.752
.833
.653
.335
.256
.325
-.036
-.258
-.344
-.194

Tabela 7.3. Struktura m-regresionih faktora (nastavak)


varijabla
DEL
ETA
AMR
RIG

REC
.488
.466
.514
.231

DEV
.850
.872
.524
.509

NAS
.508
.443
.566
.177

LOP
.657
.626
.742
.571

NRK
-.225
-.259
-.087
-.497

Tabela 7.4. Korelacije m-rezidualnih varijabli


varijabla
REC
DEV
NAS
LOP
NRK

REC
1.000
.378
.214
.182
-.448

DEV
.378
1.000
.444
.544
-.123

NAS
.214
.444
1.000
.311
.197

LOP
.182
.544
.311
1.000
.015

NRK
-.448
-.123
.197
.015
1.000

Tabela 8. Korelacije regresionih i m-regresionih faktora


funkcija
REC
DEV
NAS
LOP
NRK

r
.738
.646
.703
.577
.692

Tabela 9. Pouzdanost regresionih faktora


funkcija
REC
DEV
NAS
LOP
NRK

lsrel

mahrel
.483
.610
.494
.521
.295

.808
.848
.633
.842
.691

Tabela 9. Relativne mere informativnosti i zalihnosti


funkcija
REC
DEV
NAS
LOP
NRK

lsinf
.148
.172
.109
.137
.071

lsred
.064
.067
.044
.054
.030

mhinf
.257
.289
.151
.242
.186

mhred
.082
.073
.043
.055
.053

Tako predloeni metod nije samo formalno ispravan metod robustne regresijske analize, ve i
praktino, jer su mali gubici u koeficijentima determinacije u poreenju sa standardnom regresijskom
analizom obino praeni odlinim generelizabilitetom, informativnou i zalihnou regresionih funkcija
dobijenih regresionom analizom sa ogranienjem.

346

Objavljeni radovi

Literatura
Anderson, T. W. (1984): An introduction to multivariate statistical analysis (2nd edition). New York: Wiley.
Bogdanovi, M.; Tenjovi, L.; Kneevi, G.; Momirovi, K. (1996): O pouzdanosti funkcije viestruke linearne
regresije. U S. Bogosavljevi i M. Kovaevi, Analiza grupisanja, 2, 63-68. Beograd: Savezni zavod za
statistiku.
Demidenko, E. Z. (1981): Lineynaya i nelineynaya regressii. Moskva: Finansy i Statistika.
Dobri, V.; talec, J.; Momirovi, K. (1984): Note on some relationships between least squares and robust linear
regression estimates. Proceedings of 6th International Symposium Computer at the University, 507: 1-7.
Dobri, V.; Momirovi, K. (1991): Some relations between least squares and robust linear regression estimates.
Information Technology Interfaces, 5: 1-9.
Draper, N. R.; Smith, H. (1966): Applied regression analysis. New York: Wiley.
Kendall, M. G.; Stuart, A. (1968): The advanced theory of statistics, 3. London: Griffin.
Maxwell, A. E. (1977): Multiple regression and poorly determined matrices. British Journal of Mathematical and
Statistical Psychology, 30: 210-212.
Momirovi, K.; Kneevi, G.; Tenjovi, L.; Bogdanovi, M. (1995): Some marginal notes and comments on
ultra stupid regression analysis. U S. Bogosavljevi i M. Kovaevi, Analiza grupisanja, 1, 27-40. Beograd:
Savezni zavod za statistiku.
Momirovi, K. (1996): Apsolutna donja granica pouzdanosti i informativnosti regresijske funkcije pod modelom
kanonike analize kovarijansi. U S. Bogosavljevi i M. Kovaevi, Analiza grupisanja, 2, 69-78. Beograd:
Savezni zavod za statistiku.
Rao, C. R. (1973): Linear statistical inference and its application (2nd edition). New York: Wiley.
Seber, G. A. F. (1977): Linear regression analysis. New York: Wiley.
talec, J.; Momirovi, K. (1983): Some properties of a very simple model for robust regression analysis.
Proceedings of 5th International Symposium Computer at the University, 453-461.

347

Konstantin Momirovi u statistici

(29) STATISTIKA REVIJA 1999 I (1)

Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja


UNIVARIJANTNA ANALIZA VARIJANSE POD MODELOM
KANONIKE ANALIZE KOVARIJANSI
REZIME
Predloena je jedna robustna alternativa za kanoniki model univarijantne analize
varijanse. Sutina predloene metode je maksimizacija kovarijanse, a ne korelacije,
izmeu jedne nominalne i jedne kvantitativne varijable. Izvedena je jedna
standardizovana mera asocijacije izmeu jedne nominalne i jedne kvantitativne
varijable, koja ima asimptotsku distribuciju jednaku asimptotskoj distribuciji bilo
kog produkt-moment koeficijenta korelacije, i definisane formalne relacije
predloene metode i kanonike metode univarijantne jednofaktorske analize
varijanse.
KLJUNE REI: kanoniki modeli / robustne metode / analiza varijanse
1. Uvod

Cilj ovog rada je razmatranje jedne robustne alternative za kanoniki model univarijantne analize
varijanse, razmatran u jednom nedavno publikovano radu Momirovia, A. Hoek i S. Logar - uri (1997).
Sutina predloene metode je maksimizacija kovarijanse, a ne korelacije, izmeu jedne nominalne i jedne
kvantitativne varijable. Ova metoda se moe shvatiti kao poseban sluaj robustne metode diskriminativne
analize, koju su predloili talec i Momirovi (1984), ali i kao poseban sluaj jedne robustne metode
regresijske analize, koju su predloili isti autori (talec i Momirovi, 1983), obe izvedene pod modelom
kanonike analize kovarijansi (Momirovi, Dobri i Karaman, 1983).
Kao to je dobro poznato, pretpostavke o normalnoj distribuciji i homogenosti varijansi, bitne za
uobiajeni model analize varijanse, esto nisu ispunjene, posebno kada u uzorku ima aberantnih objekata.
Predloena metoda nije osetljiva na varijansu analizirane varijable, pa stoga nije mnogo osetljiva ni na
prisustvo aberantnih objekata, i doputa, osim normalne, i bilo koji eliptiku distribuciju te varijable. Zbog
toga predstavlja prihvatljivu alternativu za standardnu metodu jednofaktorske univarijantne analize varijanse,
i to ne samo u sluajevima kada karakteristike raspoloivih podataka nisu u skladu sa pretpostavkama o
normalnoj distribuciji i jednakosti varijansi neke kvantitativne varijable u subpopulacijama koje su predmet
analize.
2. Definicije

Neka je E = {ei; i = 1,..., n} P, P = pg Pp sluajni uzorak iz neke populacije P koja se sastoji od


prirodno ili eksperimentalno formiranih subpopulacija Pp: Pp Pq = Op q. Neka je v neka kvantitativna
varijabla sa eliptikom distribucijom u P. Neka je e n-dimenzionalni sumacioni vektor, i neka je
z = E v zte = 0, ztz = 1
n-dimenzionalni vektor koji je dobijen opisom, u standardnoj normalnoj formi119, skupa E na varijabli v.
Neka su nune i jedinstvene karakteristike objekata iz subpopulacija Pp definisane kategorijalnom varijablom
W = {wp, p = 1,..., g}, i neka je
S = (sip) = E W

i = 1,..., n

p = 1,..., g

indikatorska matrica sa elementima sip koji su definisani funkcijom


119

Kako je predloena metoda samo poseban sluaj kvazikanonike diskriminativne analize ili kvazikanonike regresijske analize, izbor metrike za
rezultate dobijene operacijom E v nije nevaan. Standardna normalna metrika izabrana je u ovom radu samo zbog simplifikacije izvoda; slina
metoda u originalnoj metrici dobijenoj operacijom E v moe se izvesti na vrlo jednostavan nain.

348

Objavljeni radovi

{sip = 1 ei wp, sip = 0ei wp}.


Na kraju, oznaimo sa
C = S(StS)-1St
projektor izveden iz S, i sa
P = SSt
relacionu matricu izvedenu iz S.
3. Kanoniki model univarijantne analize varijanse

U spomenutom radu Momirovia, A. Hoek and S. Logar - uri (1997), metoda univarijantne
jednofaktorske analize varijanse, svedena na problem znaajnosti i veliine Fisherovog intergrupnog
koeficijenta korelacije, opisana je na sledei nain:
Neka je neki nepoznati g-dimenzionalni vektor dobijen reenjem problema
S = z t = 2 = minimum.
Oigledno, funkcija koju treba minimizirati je

() = (z S)t(z S) = 1 2tStz + tStS.


Diferenciranjem funkcije () po elementima vektora

() / = 2Stz + 2StS
lako se dobija da je

= (StS)-1Stz,
tako da su p, elementi vektora , u stvari procene oekivanih vrednosti varijable v u subpopulacijama Pp u metrici
izabranoj za opis skupa E na varijabli v.
Neka je sada
y = S = S(StS)-1Stz = Cz
vektor rezultata objekata iz E u varijabli v, predvienih na osnovu njihovih rezultata u varijabli W. Oigledno je da
je vektor y dobijen projekcijom vektora z u prostor razapet vektorima iz S. U ovom prostoru varijansa varijable v je

2 = yty = ztS(StS)-1Stz = ztCz


i, kako je kovarijansa varijabli iz z i y
c = zty = ztS(StS)-1Stz = ztCz = 2,
procena varijanse pogreke je

2 = t = 1 2c + 2 = 1 2 = ,
dakle Wilksova mera relativne intragrupne dispersije (Wilks, 1932), tako da, zato to je 2 = = minimum, 2 = c =
maksimum.
Na isti nain kao i u reenjima drugih problema na osnovu kriterijuma najmanjih kvadrata, neposredno
su jasne sledee relacije izmeu z, y i :
zt = zt(z y) = 1 2 = 2
i
yt = yt(z y) = 0.
Kako je pod modelom najmanjih kvadrata nepristrasna procena nepoznatog vektora u populaciji
P, matrica kovarijansi elemenata p vektora je
V = 2(StS)-1,
dakle dijagonalna matrica s dijagonalnim elementima 2np-1, p = 1,..., g, gde su
349

Konstantin Momirovi u statistici

np = num(ei wj)

p = 1,..., g

frekvencije objekata iz E u subuzorcima Ep definisanih varijablom W.


Zbog toga su testovi hipoteza
H0p : p = 0

p = 1,..., g

tp = np1/2p-1

p = 1,..., g

prosto
jer, pod H0p, varijable tp imaju t distribuciju sa n - g stepeni slobode.
Definiimo sada poseban sluaj kanonike korelacije izmeu varijabli W i v kao korelaciju varijabli iz
vektora z i y. Oigledno,

= zty-1 = c-1 = =
u stvari je dobro poznati Fisherov intergrupni koeficijent korelacije tako da, zato to je 2 = maksimum =
maksimum.
Asimptotska varijansa koeficijenta jednaka je asimptotskoj varijansi bilo kog kanonikog
koeficijenta korelacije tako da je

2 (1 2)2n-1,
gde je vrednost intergrupnog koeficijenta korelacije u populaciji P. Kako je procena ove varijanse u uzorku E

2 (1 2)2n-1,
asimptotske procene donje i gornje granice intervala pouzdanosti od (1 ) za koeficijent su
1 t/2
i
u + t/2,
budui da je vrednost koeficijenta retko kada bliska 1.
Budui da je koeficijent u stvari samo poseban sluaj kanonike korelacije dobijene kanonikom
diskriminativnom analizom, postoji vie mogunosti za testiranje hipoteze H0 : = 0, oigledno
ekvivalentne hipotezi H0 : p = 0 p, p = 1,..., g, dakle hipotezi da su udaljenosti centroida subpopulacija
Pp na varijabli v jednake nuli.
Jedna od tih mogunosti je poseban sluaj Bartlettovog testa, koji je u ovom sluaju definisan
funkcijom

2 = (n g/2 1)loge2
jer, pod H0, varijabla 2 ima 2 distribuciju sa g stepeni slobode. Drugi nain testiranja hipoteze H0 : = 0 moe se
lako izvesti iz injenice da je jednofaktorska univarijantna analiza varijanse poseban sluaj regresijske analize, i da je
u stvari multipla korelacija izmeu binarnih varijabli S i varijable definisane vektorom z; zbog toga varijabla
f = (2(1 2)-1)((n g 1)(g 1)-1)
ima, pod hipotezom H0, Fisher-Snedecorovu F distribuciju sa 1 = g 1 i 2 = n g 1 stepeni slobode
(Momirovi, Hoek i Logar - uri, 1997).
4. Univarijantna analiza varijanse pod modelom kanonike analize kovarijansi

Kao poseban sluaj kanonike analize kovarijansi (Momirovi, Dobri i Karaman, 1983), i, jo
specifinije, kao poseban sluaj jedne robustne metode diskriminativne analize (talec i Momirovi, 1984),
ili ak kao poseban sluaj jedne metode robustne regresijske analize (talec i Momirovi, 1983; Dobri,
talec i Momirovi, 1984), moe se definisati vrlo jednostavna metoda univarijantne jednofaktorske analize
varijanse kao reenje problema
S = k = ktz = maksimum, t = 1,
350

Objavljeni radovi

dakle kao maksimizacija necentrirane kovarijanse izmeu linearne kombinacije binarnih vektora sp iz S i vektora
varijabli z.
Kako je

= tStz,
funkcija koju treba minimizirati je

(, ) = tStz 1/2(t 1),


gde je neki nepoznati Lagrangeov multiplikator.
Diferenciranjem funkcije (, ) po elementima vektora

(, ) / = Stz ,
tako da je, zato to je
Stz = 0 Stz = ,

= Stz-1.
Ali, zato to je

t = -1ztSStz-1 = 1,
-2 = ztSStz = ztPz,
tako da je

= Stz(ztPz)-1/2,
pa je
k = S = Pz(ztPz)-1/2.
Uoimo da je

= tStz = (ztPz)1/2,
dakle maksimizirana kovarijansa izmeu k i z, jednostavna funkcija vektora z i relacione matrice P.
Varijansa ove varijable je, oigledno,

2 = ktk = (ztP2z)(ztPz)-1;
tako da je

= k-1 = Pz(ztP2z)-1/2
standardizovani oblik vektora varijable k. Prema tome, koeficijent

= tz = -1 = (ztPz)(ztP2z)-1/2
je robustni analog intergrupnog koeficijenta korelacije.
Naravno, pripada klasi produkt-moment koeficijenata korelacije, tako da je

2 (1 2)2n-1
procena asimptotske varijanse ovog koeficijenta, pa se asimptotska gornja i donja granica intervala pouzdanosti od (1
- ) koeficijenta mogu proceniti kao
u + t/2
i
l t/2,
budui da koeficijent nije nikada blizak 1.
Zbog istih razloga, jednostavni test hipoteze H0: = 0,
t = ((n 2)(1 2)-1)1/2,
ima, pod hipotezom H0: = 0, aproksimativno, t distribuciju sa n 2 stepeni slobode, i predstavlja robustnu
351

Konstantin Momirovi u statistici

alternativu za test hipoteze H0 : p = 0 p, p = 1,..., g, dakle hipoteze da je udaljenost centroida subpopulacija Pp na


varijabli v jednaka nuli.
5. Neki odnosi izmeu kanonikog i kvazikanonikog modela jednofaktorske univarijantne analize varijanse

Predloena metoda izgleda, na prvi pogled, kao vrlo primitivna, pa ak i glupa alternativa za kanoniki
model univarijantne analize varijanse. Meutim, ovaj bi zakljuak bio, verovatno, pogrean, to se moe
videti iz formalnih odnosa kanonikog i kvazikanonikog modela.
Lako se, naime, moe pokazati da je kovarijansa izmeu funkcija dobijenih pod kanonikim i
kvazikanonikim modelom jednaka kovarijansi izmeu varijable z i funkcije dobijene predloenom
metodom, jer je
ytk = (ztPz)1/2= ,
i da je korelacija izmeu funkcija dobijenih pod kanonikim i kvazikanonikim modelom jednaka razmeru
intergrupnog koeficijenta korelacije dobijenog predloenom metodom i Fisherovog intergrupnog koeficijenta
korelacije, jer je

-1yt = /.
Prema tome, predloena metoda, iako vrlo jednostavna, nije, verovatno, tako glupa, i moe biti korisna
alternativa za standardni model univarijantne analize varijanse u onim sluajevima kada su, zbog prisustva
aberantnih objekata ili zbog nehomogenih varijansi varijable v u subpopulacijama Pp, pretpostavke za
standardni i kanoniki model analize varijanse ozbiljno dovedene u pitanje.
6. Numeriki primer

Na osnovu velikog broja psiholokih testova, koji su ukljuivali mere inteligencije, osobina linosti i
karakteristika sistema vrednosti, procenjena je, na slepo, verovatnoa recidivizma na skali od 4 take za 5
odraslih kriminalaca, 5 maloletnih delinkvenata i 5 kriminalaca sa dokazanim psihopatskim poremeajima,
osuenih za teka krivina dela protiv ivota i tela. Rezultati, dobijeni nakon transformacije u standardnu
normalnu formu, bili su analizirani i standardnom i u ovom radu predloenom metodom analize varijanse. Ti
su rezultati prikazani u sledeim tabelama120.
Tabela 1. Aritmetike sredine i standardne devijacije normalizovanih procena recidivizma i verovatnoe
korektne klasifikacije
grupa

odrasli kriminalci

-.2143

.3313

.60

maloletni delinkventi

.0195

.3313

.60

psihopati

.1948

.3313

.60

Tabela 2. Rezultati dobijeni pod kanonikim modelom

.5488

7.201

.0273

.6717

Tabela 3. Rezultati dobijeni pod kvazikanonikim modelom

1.4387

.6036

.1641

.0172

.9000

Izgleda, prema tome, da predloena metoda uopte nije besmislena i da moe dati interesantne rezultate bilo kao
alternativa metodi koja se osniva na kanonikom modelu, bilo kao paralelna metoda primenjena uporedo sa
standardnom metodom za analizu podataka i testiranje hipoteza kada je re o strukturi podataka koja nalae primenu
analize varijanse.

120

Upotrebljeni su isti simboli kao i u opisu ovih metoda.

352

Objavljeni radovi

LITERATURA

Dobri, V.; talec, J.; Momirovi, K. (1984): Note on some relations between least squares and robust linear
regression estimates. Proceedings of 6th Intenational Symposium 'Computer at the University', 507: 1-7.
Momirovi, K.; Dobri, V.; Karaman, . (1983): Canonical covariance analysis. Proceedings of 5th
Intenational Symposium 'Computer at the University', 463-473.
Momirovi, K.; Hoek, A.; Logar - uri, S. (1997): Reinterpretation of the intergroup correlation
coefficient. Statistika revija, 46, 1-2: 15-28.
talec, J.; Momirovi, K. (1983): Some properties of a very simple method for robust regression analysis.
Proceedings of 5th Intenational Symposium 'Computer at the University', 453-456.
talec, J.; Momirovi, K. (1984): On a very simple method of robust discriminant analysis. Proceedings of
6th Intenational Symposium 'Computer at the University', 515: 1-16.

353

Konstantin Momirovi u statistici

(30) STATISTIKA REVIJA 1999 I (2)

Ankica Hoek i Konstantin Momirovi


Institut za kriminoloka i socioloka istraivanja
PRIMENA TRANSFORMACIJA U SLIKE U SLOMLJENOM
OGLEDALU U REAVANJU TAKSONOMSKIH PROBLEMA

REZIME
I u sluaju kada je neki skup objekata opisan nad skupom multivarijantno normalno
distribuiranih varijabli, mogue je, transformacijom tih varijabli diskretnom
regresijskom analizom u prostoru preostalih varijabli, kojom je implementiran jedan
jednostavan model iz teorije katastrofa, formirati skup varijabli s nekom
multimodalnom distribucijom, i zatim klasifikovati entitete nekim adekvatnim
taksonomskim algoritmom. Na jednom numerikom primeru, u kome je 257 entiteta,
opisanih sa 10 multivarijantno normalno distribuiranih modaliteta agresivnosti,
klasifikovano, Wardovim algoritmom, nakon ovakve transformacije varijabli,
pokazano je da je ovaj oblik image transformacije, za koji se predlae naziv
transformacija u slike u slomljenom ogledalu, omoguio detekciju dobro definisanih
taksona u prostoru kanonikih varijabli koje su se i mogle oekivati na osnovu
rezultata dosadanjih istraivanja strukture agresivnosti.
KLJUNE REI: klasifikacija / teorija katastrofa / nelinearni modeli / taksonomska
analiza

1. Uvod

Ako je neki skup objekata opisan nad skupom multivarijantno normalno distribuiranih varijabli,
obino se smatra da taksonomska analiza tog skupa objekata nema smisla, jer postoji samo jedan takson
(Anderberg, 1973; Hartigan, 1975; Ferligoj, 1989; Jambu, 1991; Bock, 1996), ili da nemaju smisla samo
taksonomske metode koje pripadaju klasi metoda za formiranje distinktnih taksona, ali da ima smisla
primeniti neku metodu za analizu polarnih taksona (opisanih, na primer, u Momirovi, 1981) koja generira
neki skup razlivenih taksona (Hoek, 1980; 1981). Meutim, mogue je, i ako je skup objekata opisan nad
skupom multivarijantno normalno distribuiranih varijabli, da u tom skupu postoje latentni taksoni koji se
mogu otkriti ako se varijable podvrgnu nekoj pogodnoj transformaciji koja, uz minimiziranje koliine
izgubljenih informacija, formira od njih bar bimodalno distribuirane varijable. To je, naravno, mogue onda i
samo onda ako u distribuciji tih varijabli postoje skrivene prekidne take, koje se mogu otkriti uvoenjem
neke transformacijske procedure izvedene iz opte terorije katastrofa (Rapoport, 1983). Jedna od takvih
procedura je formiranje image varijabli regresijskom analizom svake varijable u prostoru preostalih varijabli
pod diskretnim linearnim modelom regresijske analize (Bates i Watts, 1988; Draper i Smith, 1981; Seber,
1977). Image varijable formirane na ovaj nain, koje je zbog grafikog oblika njihovih distribucija pogodno
zvati slike u slomljenom ogledalu, mogu biti pogodan osnov za primenu neke taksonomske procedure,
najbolje takve procedure koja minimizira intrataksonsku dispersiju, jer je to taksonomska funkcija koja
korespondira sa regresijskim funkcijama kojima su formirane takve slike.
Cilj ovog rada je da opie model transformacije u image varijable koja generira slike u slomljenom
ogledalu i da na jednom, sa taksonomske take gledita, tekom problemu pokae da je taj model pogodan za
reavanje taksonomskih problema one vrste koje je na razuman nain nemogue reiti pod modelom
distinktnih taksona, a teko i pod modelom razlivenih polarnih taksona.
354

Objavljeni radovi

2. Taksonomska analiza entiteta nakon transformacije varijabli u slike u slomljenom ogledalu

Neka je
E = {ei; i = 1,..., n} P = k Pk
g

ne nuno sluajan uzorak iz neke heterogene populacije P u kojoj postoje latentne subpopulacije Pk koje se razlikuju
na nekom skupu uniknih svojstava, opisanih nekom latentnom nominalnom varijablom koja je definisana skupom
kategorija
C = {ck; k = 1,..., g}.
Kada bi nominalna varijabla definisana skupom C bila poznata, bilo bi, naravno, mogue opisati skup
E nad skupom C tako da se objekti klasifikuju operacijom koja generira neku indikatorsku matricu, dakle
operacijom
S = (sik) = E C,
gde su elementi sik, i = 1,..., n; k = 1,..., g, matrice S definisani funkcijom

{sik = 1ei ck, sik = 0ei ck}.


Pretpostavimo da varijabla C nije poznata, i da je stoga nepoznata i indikatorska matrica S. Meutim,
neka je poznat skup kvantitativnih varijabli
V = {vj; j = 1,..., m} U
izabran, u skladu s nekim konzistentnim teoretskim modelom, iz nekog univerzuma varijabli U sa istim poljem
znaenja, multivarijantno normalno distribuiranih u populaciji P. Neka je e sumacioni vektor reda (n), i neka je
Z = (zij) = E VZte = 0, diag (ZtZ) = I
matrica podataka, u standardnoj normalnoj formi, dobijena opisom skupa E nad skupom V. Tada e procena, pod
kriterijumom najvee verodostojnosti, matrice interkorelacija varijabli iz V biti matrica
R = ZtZ,
a bilo koji sluajni vektor
z=eV
imae asimptosku funkciju distribucije
g(z) = N(0, R),
gde je N oznaka multivarijantne normalne distribucije.
Zbog toga e taksonomska operacija
C(Z) S(Z,S)
biti ili nemogua ili besmislena, bez obzira na izbor taksonomskog algoritma C i bez obzira na izbor mere slinosti
.
Razmotrimo zato neku transformaciju varijabli iz Z koja je u stanju da otkrije neku jednostavnu
latentnu taksonomiju entiteta iz E na svakoj varijabli vj iz V, ako takva taksonomija uopte postoji. Kako je
najjednostavnija takva taksonomija klasifikacija entiteta u dve mutualno iskljuive kategorije, i kako,
naravno, pri tome treba sauvati najveu moguu koliinu informacija sadranih u matrici Z, definiimo tu
transformaciju operacijom

T(Z) = T = (tij)
tako da su elementi tij matrice T definisani ishodom operacija
m1

tij = (aj +

m 1

sjzis)(zij

cj) + (bj +

y z )(z > c ) + e e
sj is

ij

ij

2
ij

= minimum,

s = 1,..., m1s j,
355

Konstantin Momirovi u statistici

dakle ishodom m diskretnih linearnih regresijskih analiza u kojima su cj neke nepoznate prekidne take, aj i bj
konstante, a xsj i ysj, j = 1,..., m; s = 1,..., m1 parcijalni regresijski koeficijenti. Tada e varijable iz T biti slike u
slomljenom ogledalu varijabli iz Z i imae, ako prekidne take cj postoje, bimodalne marginalne distribucije, tako da
e, u tom sluaju, bivarijantne distribucije tih varijabli imati, u pravilu, tetramodalni oblik, pa e multivarijantna
distribucija ovih varijabli biti neka multimodalna distribucija. Naravno, vektor aritmetikih sredina varijabli iz T bie
i dalje 0, pa e matrica njihovih kovarijansi biti
C = TtT;
matrica
G = ZtT
bie matrica kovarijansi varijabli i njihovih slika u slomljenom ogledalu, pa e dijagonalni elementi matrice G biti, u
stvari, multiple korelacije svake takve slike sa preostalim normalno distribuiranim varijablama iz Z.
Naravno, transformacija T(Z) nema algebarsko reenje u zatvorenoj formi, i mora se izvesti nekim
numerikim algoritmom. Intenzivni eksperimenti sa razliitim numerikim algoritmima pokazali su da, u
najveem broju sluajeva, sukcesivna primena Rosenbrockove metode za traenje optimalnog sklopa i
Newton-Raphsonovog algoritma daje sasvim zadovoljavajua reenja u relativno malom broju iteracija.
Sada, naravno, ima smisla neka taksonomska operacija

C(T) S(T,S);
a kako transformacija T(Z) minimizira, u stvari, intrataksonske varijanse u svakom od dva taksona generirana na
svakoj varijabli iz T, verovatno je da je taksonomsku operaciju C(T) S najpogodije izvesti Wardovim algoritmom,
a taksone identifikovati na osnovu njihovih centroida na varijablama iz T i njihovih centroida na diskriminativnim
funkcijama definisanim ishodom kanonike diskriminativne analize, jer e u tom sluaju kanoniki koeficijenti
korelacije biti parcijalne mere slinosti izmeu matrica T i S.
3. Numeriki primer

Analizirani su podaci dobijeni na jednom uzorku od 257 ispitanika mukog pola, starih od 15 do 20
godina, koji je izvuen kao dvoetapni grupni uzorak iz populacije uenika srednjih kola u Srbiji. Na osnovu
relacija pretpostavljenih kibernetikim modelom regulativnih funkcija (Momirovi, Horga i Bosnar, 1982;
Horga, Ignjatovi, Momirovi i Gredelj, 1982; Momirovi, Wolf i Damonja, 1992) procenjeni su modaliteti
agresivnosti navedeni u tabeli 0. U toj su tabeli i formule kojima su, iz standardizovanih i normalizovanih
rezultata u testovima IT1, AL4 i S1 iz baterije KOG 3 (Wolf, Momirovi i Damonja, 1992), testovima
EPSILON, HI, ALPHA, SIGMA i DELTA iz baterije KON 6 (Momirovi, Wolf i Damonja, 1992) i
testovima SIGMA1, SIGMA2 i SIGMA3 koji su primenjeni u verzijama koje su definisali Wolf, Momirovi,
Radovanovi i Damonja, procenjeni modaliteti agresivnosti analizirani u ovom primeru.
Tabela 0. Modaliteti agresivnosti
oznaka

modalitet agresivnosti

nain procene

ag

bazina agresivnost

sigma

ag1

primarna agresivnost

ag1 = sigma - alpha

ag2

sekundarna agresivnost

Ag2 = sigma * alpha

primag

primitivna agresivnost

primag = sigma - (it1 + al4 + s1)/3

histag

histerina agresivnost

histag = sigma * hi

disag

disocirana agresivnost

disag = sigma * delta

impag

impulzivna agresivnost

impag = sigma * epsilon

patag

psihopatska agresivnost

patag = sigma1

orag

oralna agresivnost

orag = sigma3

anag

analna agresivnost

anag = sigma2

Rezultati dobijeni ovim transformacijama ponovo su normalizovani, Bloomovim postupkom, i


standardizovani tako da su im prva dva momenta 0.0 i 1.0. Tako dobijeni rezultati oznaeni su prefiksom z
356

Objavljeni radovi

ispred kodnog naziva faktora.


Transformacija rezultata u slike u slomljenom ogledalu izvedena je pod diskretnim linearnim
modelom regresijske analize. Prekidna taka, obe konstante, i oba skupa standardizovanih regresijskih
koeficijenata odreeni su sukcesivnom primenom Rosenbrockovog i Newton-Raphsonovog algoritma.
Kroskorelacije normalizovanih faktora agresivnosti i njihovih slika u slomljenom ogledalu prikazane su u
tabeli 1. Dijagonalni elementi u toj tabeli, oznaeni masnim slovima, su, naravno, multiple korelacije,
dobijene pod diskretnim linearnim modelom regresijske analize, izmeu slika u slomljenom ogledalu
pojedinih faktora agresivnosti i skupa preostalih, normalizovanih faktora agresivnosti. Inspekcijom tih
elemenata lako se moe videti da je na osnovu preostalih normalizovanih faktora agresivnosti mogue veoma
dobro, ali ipak nejednako, proceniti sliku u slomljenom ogledalu svakog pojedinog faktora. Zbog toga se
konfiguracija ovih slika ne razlikuje mnogo od konfiguracije originalnih, normaliziranih faktora agresivnosti.
Tabela 1. Kroskorelacije normalizovanih faktora agresivnosti i njihovih slika u slomljenom ogledalu
variable
zag
zag1
zag2
zprimag

ag
.96
.60
-.23
.41

ag1
.64
.90
-.19
.10

ag2
-.25
-.19
.90
.01

primag histag
.47
-.10
.11
-.03
.01
.78
.06
.84

disag
-.13
-.00
.70
-.01

impag
.15
.06
-.34
.19

patag
.70
.39
-.28
.28

orag
.74
.41
-.27
.23

anag
.40
.04
-.07
.23

Tabela 1. Kroskorelacije normalizovanih faktora agresivnosti i njihovih slika u slomljenom ogledalu


(nastavak)
variable
zhistag
zdisag
zimpag
zpatag
zorag
zanag

ag
-.09
-.12
.13
.64
.68
.36

ag1
-.03
-.00
.06
.37
.40
.04

ag2
.79
.68
-.32
-.27
-.26
-.06

primag histag
.06
.91
-.01
.78
.19
-.23
.29
-.10
.24
-.06
.23
-.03

disag
.81
.89
-.24
-.09
-.11
.00

impag
-.25
-.26
.85
-.01
.12
-.05

patag
-.11
-.09
-.01
.87
.72
.43

orag
-.06
-.10
.11
.71
.89
.60

anag
-.04
.00
-.05
.44
.63
.85

Interkorelacije faktora agresivnosti transformisanih u slike u slomljenom ogledalu navedene su u tabeli 2.


Klasifikacija entiteta, opisanih tako transformisanim faktorima agresivnosti, izvedena je Wardovom
metodom hijerarhijskog grupisanja, jer je kriterijska funkcija koja se optimizira ovom metodom najslinija
kriterijskoj funkciji pod kojom su dobijene transformisane varijable. Poredbena analiza rezultata dobijenih
ovom metodom i drugim metodama taksonomske analize, ukljuujui i metode lokalne optimizacije,
pokazala je da na ovom, i ne samo na ovom, tipu podataka Wardova metoda daje neuporedivo bolje rezultate
od ostalih uobiajenih taksonomskih postupaka.
Tabela 2. Interkorelacije slika u slomljenom ogledalu faktora agresivnosti
varijabla

ag

ag1

ag2

ag

1.00

.66

-.25

ag1

.66

1.00

ag2

-.25

-.19

primag

.46

.15

histag

-.10

disag

-.13

impag
patag

primag histag

disag

impag

patag

orag

anag

.46

-.10

-.13

.15

.72

.77

.43

-.19

.15

-.04

-.02

.07

.43

.49

.08

1.00

.01

.85

.76

-.34

-.30

-.27

-.09

.01

1.00

.06

.01

.20

.33

.30

.26

-.04

.85

.06

1.00

.86

-.26

-.12

-.09

-.03

-.02

.76

.01

.86

1.00

-.31

-.12

-.11

-.00

.15

.07

-.34

.20

-.26

-.31

1.00

.02

.13

-.06

.72

.43

-.30

.33

-.12

-.12

.02

1.00

.77

.49

orag

.77

.49

-.27

.30

-.09

-.11

.13

.77

1.00

.65

anag

.43

.08

-.09

.26

-.03

-.00

-.06

.49

.65

1.00

Stablo dobijeno Wardovom metodom, na osnovu Euklidskih udaljenosti entiteta u prostoru


definisanom slikama u slomljenom ogledalu faktora agresivnosti, prikazano je na grafikonu 1. Algoritam je,
oigledno, formirao etiri dobro definisana distinktna taksona, dakle upravo onoliko koliko se i moglo
oekivati na osnovu multivarijantne distribucije varijabli definisanih tim slikama.

357

Konstantin Momirovi u statistici

140
120
100
80
60
40
20
0

Grafikon 1. Wardovo stablo na osnovu euklidskih udaljenosti entiteta


Identifikacija tih taksona izvedena je na osnovu njihovog poloaja u prostoru transformisanih faktora
agresivnosti i na osnovu rezultata nelinearne kanonike diskriminativne analize taksona izvedenih u tom
prostoru.
Rezultati dobijeni u prostoru taransformisanih faktora agresivnosti prikazani su u tabelama 3. i 4, u
kojima su aritmetike sredine i standardne devijacije taksona, i tabeli 5, u kojoj su rezultati serije
univarijantnih analiza varijanse; sa f je oznaen ishod Fisher-Snedecorovog F testa, sa p verovatnoa
pogreke pri odbacivanju hipoteze da se, na nekom transformisanom faktoru agresivnosti, taksoni ne
razlikuju, a sa Fisherov intergrupni koeficijent korelacije.
Tabela 3. Aritmetike sredine taksona
takson
g1
g2
g3
g4

ag
-.38
-1.0
.89
.88

ag1
-.64
-.35
1.18
.19

ag
.49
.68
.41
.53

ag1
.78
.67
.41
.56

ag2
-.48
.71
-.85
.66

primag histag
-.12
-.71
-.51
.78
.09
-.60
.67
.66

disag
-.73
.79
-.55
.63

impag
.11
-.29
.45
-.24

patag
-.22
-.80
.72
.55

orag
-.26
-.90
.81
.64

anag
-.01
-.69
.14
.68

patag
.76
.53
.73
.64

orag
.74
.62
.52
.49

anag
.88
.68
.74
.63

Tabela 4. Standardne devijacije taksona


takson
g1
g2
g3
g4

ag2
.47
.77
.63
.63

primag histag
.85
.48
.90
.65
.66
.77
.65
.54

disag
.47
.60
.73
.49

impag
.75
1.06
.75
.79

Tabela 5. Rezultati univarijantne analize varijanse i intergrupni koeficijenti korelacije


varijabla
ag
ag1
ag2
primag
histag
disag
impag
patag
orag
anag

f
34.8
45.2
14.4
3.4
9.6
12.5
3.1
1.5
5.0
4.4

p
.00
.00
.00
.02
.00
.00
.03
.22
.00
.00

.66
.55
.78
.36
.82
.69
.41
.06
.72
.59

Rezultati diskriminativne analize prikazani su u tabeli 6, u kojoj su sa oznaene kanonike


korelacije, sa relativna vrednost intrataksonskog varijabiliteta na diskriminativnim funkcijama, a sa 2, i
p ishodi Bartlettovih testova znaajnosti kanonikih korelacija; u tabeli 7, u kojoj su standardizovani
diskriminativni koeficijenti i normirane varijanse diskriminativnih funkcija, u tabeli 8, u kojoj su efektivi i
centroidi taksona na diskriminativnim funkcijama, i tabeli 9, u kojoj je stvarna struktura diskriminativnih
358

Objavljeni radovi

faktora. Na grafikonima 2, 3. i 4. prikazan je poloaj entiteta u dvodimenzionalnim sekcijama


diskriminativnog prostora.
Tabela 6. Kanonike korelacije i testovi njihove znaajnosti
funkcija
d1
d2
d3

.90
.81
.71

2
843.19
440.46
174.68

.03
.17
.50

p
.00
.00
.00

30
18
8

Tabela 7. Standardizovani diskriminativni koeficijenti i normirane varijanse diskriminativnih funkcija


varijabla
ag
ag1
ag2
primag
histag
disag
impag
patag
orag
anag
2
c

d1
.53
.24
.33
.16
-.53
-.15
.13
.16
.37
.20
4.04
.58

d2
-.50
.17
-.48
-.15
-.02
-.57
.12
.06
.06
-.11
1.91
.85

d3
-.52
.94
-.48
-.15
.45
.21
.21
.11
.11
-.27
1.02
1.00

Tabela 8. Efektivi i centroidi taksona na diskriminativnim funkcijama


takson
g1
g2
g3
g4

n
80
66
54
57

d1
-.32
-2.91
2.49
1.46

d2
1.35
-.49
.91
-2.20

d3
-1.10
.80
1.32
-.64

Tabela 9. Struktura diskriminativnih faktora


variable
ag
ag1
ag2
primag
histag
disag
impag
patag
orag
anag

d1
.91
.63
-.45
.44
-.38
-.38
.24
.76
.85
.54

d2
-.27
-.10
-.78
-.32
-.83
-.84
.31
-.13
-.16
-.24

d3
.06
.71
-.03
-.22
.22
.27
.10
.05
.06
-.33

Kako se vidi iz ovih rezultata, algoritam je uspeo da prepozna etiri dobro izdiferencirana taksona, koji
su se znaajno i znatno razlikovali i u prostoru slika u slomljenom ogledalu faktora agresivnosti, i u prostoru
iz njih izvedenih diskriminativnih funkcija. Te je funkcije bilo mogue vrlo jednostavno identifikovati, jer su
diskriminativni faktori bili vrlo slini latentnim dimenzijama agresivnosti i mogli su se oekivati na osnovu
kibernetikog modela regulativnih funkcija. Prvi diskriminativni faktor, definisan bazinom, primarnom,
psihopatskom, oralnom i analnom agresivnou bio je oigledno mera poremeaja funkcionisanja sistema za
regulaciju i kontrolu reakcija napada, poznatog u kibernetikoj teoriji Momirovia i saradnika kao sistem.
Drugi diskriminativni faktor, definisan, inverzno, sekundarnom, histerinom i disociranom agresivnou,
mogao se identifikovati kao inverzno skalirani faktor sekundarne agresivnosti, izazvane poremeajima svih
sistema za konativnu regulaciju i kontrolu. Trei diskriminativni faktor, definisan gotovo iskljuivo
primarnom agresivnou, bio je, naravno, mera primarne, norepinefrinske agresivnosti.

359

Konstantin Momirovi u statistici


d1 : d2
6
5
4
3
2
1
0
-1
-2

d2

-3
-4

G1
G2
G3
G4

-5
-6
-7
-8

-6

-4

-2

d1

Grafikon 2. Poloaj entiteta na prvoj i drugoj diskriminativnoj funkciji


d1 : d3
6
5
4
3
2
1

d3

0
-1
-2

G1
G2
G3
G4

-3
-4
-8

-6

-4

-2

d1

Grafikon 3. Poloaj entiteta na prvoj i treoj diskriminativnoj funkciji


d2 : d3
6
5
4
3
2
1

d3

0
-1
-2
-3
-4
-8

-6

-4

-2

G1
G2
G3
G4

d2

Grafikon 4. Poloaj entiteta na drugoj i treoj diskriminativnoj funkciji

360

Objavljeni radovi

U prvom taksonu bilo je 80 (31,1%) normalnih ispitanika, sa uglavnom prosenim rezultatima na svim
merama agresivnosti. Algoritam je, kao to se i moglo oekivati, uspeo da prepozna jedan takson sekundarno
agresivnih ispitanika; u drugom je taksonu bilo, naime, 66 (26,7%) ispitanika sa snienom primarnom, ali
povienom sekundarnom agresivnou, povezanom sa globalnim poremeajima sistema za regulaciju i
kontrolu konativnih funkcija. Primarno agresivni i zbog toga impulzivni ispitanici, ija je agresivnost, kao
to najee biva, bila modulirana fiksacijom na oralnu fazu libidinoznog razvoja, nali su se u treem
taksonu, u kome je bilo 54 (21,0%) ispitanika. Preostalih 57 (22,2%) ispitanika algoritam je uvrstio u etvrti
takson; u njemu su se nali ispitanici s teim poremeajima regulacije i kontrole reakcija napada izazvanim,
istovremeno, poremeajima i kognitvne i konativne kontrole ponaanja, povezanim s poremeajima procesa
socijalizacije, delimino i usled fiksacije na prve dve faze libidinoznog razvoja.
Izgleda, prema tome, da je transformacija varijabli u slike u slomljenom ogledalu korisna operacija, sa
taksonomske take gledita, uvek kada ima razloga za pretpostavku da se iza kontinuiranih, normalno
distribuiranih varijabli krije neka latentna taksonomija koja je posledica postojanja neke kritine take u
razvoju onih karakteristika na osnovu kojih se oekuje da je entitete mogue klasifikovati u distinktne
skupove sa razliitim profilom tih karakteristika.
Literatura
Anderberg, M. R. (1973): Custer analysis for application. New York: Academic Press.
Bates, D. M.; Watts, D. G. (1988): Nonlinerar regression analysis & its applications. New York: Wiley.
Bock, H. H. (1996): Probabilistic models in partitional cluster analysis. In A. Ferligoj and A. Kramberger,
Developments in data analysis, 3-25. Ljubljana: Fakulteta za drubene vede, Metodoloki zvezki, 12.
Draper, N. R.; Smith, H. (1981): Applied regression analysis (2nd edition). New York: Wiley.
Ferligoj, A. (1989): Razvranje v skupine.Ljubljana: Jugoslovansko udruenje za sociologijo, Metodoloki
zvezki, 4.
Hartigan, J. A. (1975): Clustering algorithms. New York: Wiley.
Horga, S.; Ignjatovi, I.; Momirovi, K.; Gredelj, M. (1982): Prilog poznavanju strukture konativnih
karakteristika. Psihologija, 15, 3: 3-21 i 4: 17-34
Hoek, A. (1980): The determination of morphological types by a set of polar taxonomic dimensions.
Collegium Antropologicum, 11, 4: 45 - 58.
Hoek, A. (1981): Povezanost morfolokih taksona sa manifestnim i latentnim dimenzijama koordinacije.
Kineziologija, 11, 4: 5 - 108.
Jambu, M. (1991): Exploratory and multivariate data analysis. New York: Academic Press.
Momirovi, K. (1981): A class of algorithms for the determination of polar taxons. In Multidimensional data
analysis, 475-491. Le Chesney: SRCE, INRIA and ISDUN.
Momirovi, K.; Horga, S.; Bosnar, K. (1982): Kibernetiki model kognitivnog funkcionisanja: Pokuaj
sinteze nekih teorija o strukturi kognitivnih sposobnosti. Kineziologija, 14, 5: 63-82.
Momirovi, K.; Horga, S.; Bosnar, K. (1982): Prilog formiranju jednog kibernetikog modela strukture
konativnih faktora. Kineziologija, 14, 5: 83-108.
Momirovi, K.; Wolf, B.; Damonja, Z. (1992): KON 6. Kibernetika baterija konativnih testova. Beograd:
Centar za primenjenu psihologiju.
Rapoport, A. (1983): Mathematical models in the social and behavioral sciences. New York: Wiley.
Seber, G. A. F. (1977): Linear regression analysis. New York: Wiley.
Wolf, B.; Momirovi, K.; Damonja, Z. (1992): KOG 3. Baterija testova inteligencije. Beograd: Centar za
primenjenu psihologiju.

SOLVING OF TAXONOMIC PROBLEMS BY APPLICATION OF TRANSFORMATION INTO


IMAGES IN THE BROKEN MIRROR
SUMMARY
In case when a set of objects is delineated above a set of multivariate normally distributed variables, it is
possible, using transformation of these variables by discrete regression analysis in the space of remaining
variables, which implements one simple model from the Theory of Catastrophes, to form a set of variables with
some multi-modal distribution, and then classify the entities using some adequate taxonomic algorithm. On one
numerical example where 257 entities delineated with 10 multivariate normally distributed modalities of
aggressiveness were classified by Ward's algorithm, after such transformation of variables it was shown that
such form of image transformation, for which we propose the term transformation into images in the broken
mirror, made possible detection of well defined taxons in the space of finite variables, which could be expected
on the basis of previous studies of the structure of aggressiveness.
361

Konstantin Momirovi u statistici

(31) STATISTIKA REVIJA 2000 I (1)

IZVORNI NAUNI LANCI

Konstantin Momirovi i Ankica Hoek


Institut za kriminoloka i socioloka istraivanja, Beograd
Dragan A. Popovi, Beograd - Univerzitet u Pritini
JEDNA MERA UDALJENOSTI UZORKA OD POPULACIJE:
UNISERIJALNI KOEFICIJENT KORELACIJE

REZIME
Predloena je jedna standardizovana mera udaljenosti nekog uzorka od populacije,
definisana kao

= (I-s2-d2)1/2
gde je s2 procena varijanse neke varijable V u konanom uzorku, a d2 drugi moment
varijable v obraunat od oekivane vrednosti te varijable. Pokazano je da je 0
1, da je = f(m-), gde je m procena prvog momenta te varijable u uzorku, i gde je
oekivana vrednost tog momenta. Pokazano je, takoe, da je hipoteza
H0: = 0 H0:m = .
KLJUNE REI: korelacija i udaljenost
1. Uvod

U nekim, a naroito u psiholokim, kriminolokim i kineziolokim istraivanjima esto je neophodno


raspolagati nekom standardizovanom merom, koja je analogna biserijalnom koeficijentu korelacije,
udaljenosti izmeu nekog specificiranog uzorka od opte populacije na nekoj kvantitativnoj varijabli. Cilj
ovog rada je da predloi jednu takvu meru, da opie njena svojstva, i da prikae njeno ponaanje na jednom
jednostavnom primeru.
2. Definicije

Neka je U = {ui; i = 1,..., n} uzorak objekata, neka je v neka kvantitativna varijabla s nekom
simetrinom funkcijom distribucije, i neka je xi = ui V opis bilo kog objekta ui na varijabli v. Neka je P =
{ui; i = 1,..., N} populacija objekata takva da je U P. Neka je = (x) i 2 = (x-(x))2 > 0 u P, neka je

m = i xi n 1 procena aritmetike sredine varijable v i neka je


n

s 2 = i ( xi m) 2 n 1
n

procena varijanse varijable v na osnovu uzorka U.


3. Jedna mera udaljenosti izmeu uzorka i populacije

Definiimo

d 2 = i ( xi ) 2 n 1
n

kao drugi moment varijable v u uzorku U obraunat od oekivane vrednosti te varijable u populaciji P. Tada je

= (1 s 2 d 2 )1/ 2
standardizovana mera udaljenosti izmeu U i P na varijabli v koja ima ova svojstva:
362

Objavljeni radovi

Svojstvo 1.
0 1.
Dokaz:
Oigledno, ako je m = , = 0. Kako je s 2 < sa2 =

( x a)
n

n 1 za bilo koju vrednost a m, < 1.

Naravno, = 1 onda i samo onda kada je s2 = 0, pod uslovom da je v stvarno varijabla, to jest pod uslovom
je 2 > 0.
Svojstvo 2.
= f (m-)
Dokaz:
Kako je s 2 < sa2 =

( x a)
n

n 1 za bilo koji a m, d2 s2, pa je monotona rastua funkcija razlike m-.

Svojstvo 3.
H0: = 0 H0:m = .
Dokaz:
Kao to je dobro poznato, funkcija
z = n1/2 (m-)-1
ima normalnu distribuciju s parametrima 0.0 i 1.0, tako da funkcija
t = n1/2 (m-)s-1
ima t distribuciju sa n - 1 stepeni slobode.
4. Program UNISER

Jedan mali program pod imenom UNISER, koji izraunava ovu meru za proizvoljni broj varijabli,
napisan je u Matrix jeziku, tako da se moe izvesti u standardnom SPSS okruenju. Simboliki kod ovog
programa moe se dobiti od bilo kog autora ovog rada.
5. Numeriki primer

Uzorak od 151 kriminalca, pravomono osuenih za teka dela protiv imovine, preteno za teke
krae, razbojnitva i provale, ispitan je testovima za procenu efikasnosti perceptivnog (per), serijalnog (ser) i
paralelnog (par) procesora, i testovima ekstraverzije (eps), psihosomatskih poremeaja (hi), anksioznosti
(alpha), agresivnosti (sigma), disocijacije (delta) i dezintegracije (eta) konativnih funkcija. Populacijske
vrednosti za kognitivne testove uzete su iz istraivanja koje su proveli Wolf, Momirovi i Damonja (1992),
a populacijske vrednosti za konativne testove iz istraivanja koje su proveli Momirovi, Wolf i Damonja
(1992). Dobijeni rezultati prikazani su u sledeoj tabeli.
Varijable
per
ser
par
eps
hi
alpha
sigma
delta
eta

m
16.56
25.87
14.77
112.66
65.40
83.66
100.40
74.89
68.03

s2

s
9.51
12.17
S.77
18.16
26.31
24.32
18.16
26.01
24.72

90.39
148.01
76.91
329.68
692.36
591.45
329.76
676.35
611.07

m
20.70
25.71
18.03
102.30
52.50
76.70
82.50
50.00
54.40

T
-5.347
.159
-.4.570
7.008
6.026
3.518
12.115
11.759
6.774

p
<001
.834
<001
<.OO1
<001
.001
<.001
<001
<001

h2
.154
.000
.116
.242
.190
.070
.491
.476
.229

h
.392
.000
.341
.492
.436
.265
.700
.690
.479

Kako se vidi, predloena metoda proizvodi rezultate koje je vrlo lako interpretirati. Kriminalci koji su
poinili teka dela protiv imovine, dakle lopovi, imaju inferiorne funkcije perceptivnog i paralelnog
procesora, ali normalne funkcije serijalnog procesora. Vrlo su agresivni i imaju poremeene funkcije
koordinacije, kontrole i integracije regulativnih funkcija. Osim toga, nadproseno su ekstravertirani, imaju
izraenije psihosomatske poremeaje, a znaajno su i anksiozniji od normalne populacije.
Literatura

Momirovi, K.; Wolf, B.; Damonja, Z. (1992): KON 6. Kibernetika baterija konativnih testova. Beograd:
Centar za primenjenu psihologiju.
Wolf, B.; Momirovi, K.; Damonja, Z. (1992): KOG 3. Baterija testova inteligencije. Beograd: Centar za
primenjenu psihologiju.

363

Konstantin Momirovi u statistici

(32) STATISTIKA REVIJA 2000 I (2)

Konstantin Momirovi - Institut za kriminoloka i socioloka istraivanja, Beograd


O JEDNOJ ALTERNATIVNOJ METODI ZA PARSIMONIJSKU TRANSFORMACIJU
GLAVNIH KOMPONENATA
ZNAAJNIH NA OSNOVU PB KRITERIJUMA

REZIME
Predloena je metoda, definisan algoritam i napisan program za komponentnu
analizu nekog skupa kvantitativnih varijabli izvedenu ortonormalnom
transformacijom glavnih komponenata iji je broj odreen na osnovu PB
kriterijuma taleca i Momirovia (talec i Momirovi, 1971). Regresijska matrica
za izraunavanje latentnih dimenzija definisana je transformacijom neke matrice,
dobijene bilo kojom ortonormalnom transformacijom glavnih komponenata koja
ekstremizira neku parsimonijsku funkciju, u Mahalanobisov oblik. Izvedene su
formalne relacije izmeu predloene metode i Varimax (Kaiser, 1958), Orthoblique
(Harris i Kaiser, 1964) i Oblimin (Jenrich i Sampson, 1966) transformacije glavnih
komponenata i deftnisane mere donje granice i apsolutne donje granice pouzdanosti
latentnih dimenzija analogne merama koje je predloio Momirovi (1996).
KLJUNE REI: faktorska analiza / semiortogonalne transformacije / raunarski
programi
1. Uvod

U jednom, nedavno zavrenom radu (Momirovi, Kneevi i Fajgelj, 1997) definisan je algoritam i
napisan program za komponentnu analizu nekog skupa kvantitativnih varijabli, izvedenu orthoblique
transformacijom tipa glavnih komponenata II (Harris & Kaiser, I964), iji je broj odreen na osnovu PB
kriterijuma taleca i Momirovia (talec & Momirovi, 1971). U algoritam i program ugraeni su postupci
za analizu strukture varijansi varijabli i latentnih dimenzija i procene Momirovievih mera (Momirovi,
1996) donje granice i apsolutne donje granice pouzdanosti latentnih dimenzija.
Meutim, orthoblique transformacija bilo kog tipa samo je jedan od moguih postupaka za kosu
parsimonijsku transformaciju glavnih komponenata, izvedenu ortonormalnim transformacijskim matricama.
Jedna klasa takvih postupaka moe se formirati transformacijama strukturalnih matrica u Mahalanobisov
oblik, dobijenih ortonormalnim transformacijama koje ekstremiziraju neku parsimonijsku funkciju
(Hadigali, Bogdanovi, Tenjovi i Wolf, 1994). U ovom radu predloena je jedna takva metoda, definisan
algoritam i napisan program za komponentnu analizu nekog skupa kvantitativnih varijabli, izvedenu
ortonormalnom transformacijom glavnih komponenata iji je broj odreen na osnovu PB kriterijuma taleca
i Momirovia (talec i Momirovi, 1971). Regresijska matrica za izraunavanje latentnih dimenzija
definisana je transformacijom neke matrice u Mahalanobisov oblik, dobijene bilo kojom ortonormalnom
transformacijom glavnih komponenata koja ekstremizira neku parsimonijsku funkciju. Izvedene su formalne
relacije izmeu predloene metode i Varimax (Kaiser, 1958), Orthoblique (Harris i Kaiser, 1964) i Oblimin
(Jenrich i Sampson, 1966) transformacije glavnih komponenata i definisane mere donje granice i apsolutne
donje granice pouzdanosti latentnih dimenzija, analogne merama koje je predloio Momirovi (1996).
2. Definicije

Neka je Z matrica standardizovanih podataka dobijena opisom nekog skupa E od n entiteta na nekom
skupu V od m kvantitativnih, normalno ili barem eliptino distribuiranih varijabli. Neka je
R = ZZn-1
matrica interkorelacija tih varijabli. Pretpostavimo da je R sigurno regularna matrica, i da se sa sigurnou moe
364

Objavljeni radovi

odbaciti hipoteza da varijable iz V imaju sferinu distribuciju, dakle da su sve svojstvene vrednosti matrice korelacija
u populaciji P iz koje je izvuen uzorak E jednake.
Neka je
UZ = (diag R-1)-1
Guttmanova procena uniknih varijansi varijabli iz V,
Neka je p, p = 1,..., m

neka

su svojstvene vrednosti matrice R.

c = trag(I-U2).
Definiimo skalar k takav da je

c, n n < c.
k 1

k je sada broj glavnih komponenata matrice Z, odreenih na osnovu PB kriterijuma taleca i Momirovia (talec i
Momirovi, 1971).
Neka je = (p); p = 1,..., k dijagonalna matrica prvih k svojstvenih vrednosti matrice R i neka je X =
(xp); p = 1,..., k matrica njima pridruenih svojstvenih vektora skaliranih tako da je X'X = I. Glavne
komponente analiziranog skupa varijabli bie vektori matrice
K = ZX
s matricom kovarijansi:
KtKn-1 = ;
ako se tako definisane latentne dimenzije standardizuju operacijom
B = K-1/2,
elementi matrice
H = ZtBn-1 = X-1/2,
dakle korelacije izmeu varijabli i glavnih komponenata bie, istovremeno, i koordinate vektora varijabli u prostoru
koji razapinju standardizovani vektori glavnih komponenata. Varijanse standardizovanih varijabli, projiciranih u kdimenzionalni prostor glavnih komponenata, bie stoga elementi vektora
h2 = vec diag(HHt) = vec diag(XXt);
i kako je, oigledno,
HHt = ,
analiza glavnih komponenata ne maksimizira samo varijanse tako definisanih latentnih dimenzija, ve i korelacije
izmeu tih dimenzija i analiziranih varijabli.
Glavne komponente imaju, oigledno, jednostavan i jasan matematiki smisao, ali njihova je
interpretacija esto vrlo sloena, pogotovo kada vektori varijabli tvore grozdove u komponentnom prostoru.
Zbog toga se, gotovo uvek, koordinantni sistem koji tvore vektori glavnih komponenata podvrgava nekoj
parsimonijskoj transformaciji, pri emu je osnovni cilj svih takvih transformacija da nove koordinatne
osovine prolaze kroz grozdove vektora varijabli. U tu je svrhu predloeno mnotvo metoda; od njih je,
verovatno, Orthoblique transformacija tipa II, koju su predloili Chester Harris i Henry Kaiser (Harris &
Kaiser, 1964), najblia osnovnoj ideji parsimonijskih transformacija. Meutim, i za klasifikaciju varijabli, a,
naalost, i za identifikaciju latentnih struktura, najee se primenjuje Kaiserova Varimax transformacija
(Kaiser, 1958), zbog toga to vrlo efikasno klasifikuje varijable i to je rezistentnija na promene u uzorku
entiteta, pa i na promene u uzorku varijabli, od svih ortogonalnih transformacija121.
Neka je T neka ortonormalna matrica, takva da optimizira funkciju
HT = V = (vn) p(V) = extremum, TtT = I,
gde je p (V) neka parsimonijska funkcija, na primer, obina Varimax funkcija
121

Termin ortogonalne transformacije je, u stvari, pogrean, ili bar neprecizan. Taj termin zapravo znai da je transformacijska matrica ortogonalna,
ali ne nuno da je ortogonalna i strukturalna matrica dobijena tom transformacijskom matricom.

365

Konstantin Momirovi u statistici

v n (i vin2 ) 2 = max imum

4
n in

gde su koeficijenti vjp elementi matrice V (Kaiser, 1958).


Sada je transformacija standardizovanih glavnih komponenata, definisanih vektorima u matrici
B = ZXL-1/2
u latentne dimenzije, ortogonalne u prostoru entiteta, koje su odreene ovom transformacijom, definisana
operacijom
L = BT = ZXL-1/2 T.
Matrica kovarijansi tih dimenzija je, naravno,
LtLn-1 = I,
ali su te dimenzije ortogonalne samo u prostoru entiteta, ali ne i u prostoru varijabli, jer su skalarni produkti vektora
strukturalne matrice
V = ZtLn-1 = XL-1/2T
elementi matrice
C = VtV = TtT
koja ne moe biti dijagonalna matrica, osim u degenerativnom sluaju R=I =I .
Uoimo, meutim, da se matrica C dijagonalizuje u bazi koju tvore vektori iz Tt jer je
TCTt = ,
otuda
C-1 = Tt-1T,
C1/2 = Tt1/2T,
i
C-1/2 = Tt-1/2T.
Prema tome, Varimax, ili bilo koja druga orthomax transformacija matrice strukture glavnih
komponenata, generira latentne dimenzije koje su ortogonalne u prostoru entiteta iz E, ali nisu, i ne mogu
biti, ortogonalne u prostoru varijabli iz V. Kako je ortogonalnost latentnih dimenzija u prostoru entiteta vrlo
redak dogaaj ako je re o dimenzijama koje imaju realnu fizikalnu, fizioloku ili psiholoku egzistenciju, a
transformacija kojom se ekstremizira Varimax funkcija ima mnoga pogodna svojstva sa taksonomske take
gledita, razumno jc razmotriti neku transformaciju glavnih komponenata koja zadrava taksonomska
svojstva latentnih dimenzija dobijenih Varimax transformacijom, ali doputa da te dimenzije ne budu
ortogonalne u prostoru entiteta, uz uslov da, slino glavnim komponentama, budu ortogonalne u prostoru
varijabli. Jednu takvu soluciju predloili su Harris i Kaiser (1964) pod imenom Orthoblique solucija tipa II.
Iako ovaj model Orthoblique transformacije obino generira vrlo jednostavan sklop latentnih dimenzija ije
su korelacije bliske njihovim stvarnim korelacijama (Momirovi, Erjavec i Radakovi, 1988; Momirovi,
1997; Kneevi, Momirovi i Fajgelj, 1997), taj sklop ne mora, sa taksonomske take gledita, biti slian
sklopu koji generira Varimax transformacija, bez obzira na to koja je parsimonijska funkcija ekstremizirana
da bi se dobila Orthoblique solucija. Zbog toga e u sledeoj sekciji biti definisana metoda za kosu
parsimonijsku transformaciju glavnih komponenata, izvedena transformacijom matrice V u Mahalanobisov
oblik, koja generira sklop koji je, pod kriterijumom najmanjih kvadrata, najsliniji sklopu koji generira
Varimax, ili bilo koja druga Orthomax transformacija.
3. Alternativna metoda za kosu parsimonijsku transformaciju

Transformacija bilo koje matrice koja ima puni kolonski rang, pa zbog toga i matrice V, u
Mahalanobisov oblik, definisana je operacijom

= V(VtV)-1/2 (Hadigali, Bogdanovi, Tenjovi i Wolf, 1994).


Ali kako je TtT = TTt = I,
366

Objavljeni radovi

= X1/2T(TtT)-1/2 = XT.
Propozicija 1.
Matrica je, pod kriterijumom najmanjih kvadrata, najslinija matrici V od svih matrica takvih da
je = I. Dokaz:
-1

Neka je

= trag ((V )t (V )).


Kako je

(V ) t (V ) = ( X1/ 2T XT ) t ( X1/ 2T XT ) =
T ' ( I 1/ 2 ) 2 T

to je

= trag ( I 1/ 2 ) 2
a kako je trag = maximum, to je = minimum, to je i trebalo dokazati.
Budui da je, oigledno, (1)-1 = , ovako definisana matrica sklopa jednaka je regresijskoj matrici
za izraunavanje glavnih komponenata transformisanih matricom T. Takve e komponente biti vektori
matrice

= Z = ZXT
s matricom kovarijansi

'n-1 = T'X'RXT = T''T = C.


Struktura tih komponenata, definisana njihovim kovarijansama s varijablama iz Z, bie
S = Z' n-1 = RXT = XT,
a njihov sklop
P = SC-1 = XT (T''T) = XT = .
Propozija 2.
Matrice P i S su faktorske matrice korelacijske matrice R. Dokaz:
Dokaz je trivijalan, jer je oigledno da je
PS' = PCP' = SC'S' = XT'.
Neka je
D2 = diag C
dijagonalna matrica varijansi varijabli iz . Ako ovako definisane latentne dimenzije standardizujemo operacijom

= D-1,
u matrici
M = ' n-1 = S-1T'TS-1
e biti njihove interkorelacije; uoimo da C, pa stoga ni M, ne mogu biti dijagonalne matrice, pa ovako dobijene
latentne dimenzije nisu ortogonalne u prostoru entiteta iz E.
Matrica korelacija izmeu varijabli iz V
strukture, bie

latentnih

varijabli iz , koja se obino naziva matrica faktorske

F = Z' n-1 = RXTD-1 = XTD-1;


i kako su elementi matrice F ortogonalne projekcije vektora iz Z na vektore iz , koordinate tih vektora u prostoru
koji razapinju vektori iz jesu elementi matrice
A = FM-1 = XTD.
367

Konstantin Momirovi u statistici

No, kako je
A'A = D2,
to su latentne dimenzije dobijene ovim postupkom kose u prostoru koji razapinju vektori entiteta, ali ortogonalne u
prostoru koji razapinju vektori varijabli iz Z; kvadrirane norme vektora tih dimenzija u prostoru varijabli jednake su
varijansama tih dimenzija.
Naravno, matrice A i F jesu faktorske matrice matrice R jer je
AF' = AMA' = FM-1Ft = HHt = XXt;
zbog toga operacija
W = (wjp) = A~ F,
gde je ~ oznaka Hadamardovog mnoenja, formira matricu iji redovi sadre komponente varijansi varijabli koje se
mogu pripisati latentnim dimenzijama, a kolone komponente varijansi latentnih dimenzija koje se mogu pripisati
varijablama.
Po svojoj jednostavnosti i jasnom algebarskom i geometrijskom znaenju i latentnih dimenzija, i
identifikacijskih struktura pridruenih tim dimenzijama, ova je solucija veoma slina Orthoblique soluciji
tipa II. Zbog toga se pouzdanost latentnih dimenzija dobijenih ovom metodom moe odrediti na nain
analogan nainu kojim se moe odrediti pouzdanost latentnih dimenzija dobijenih Orthoblique
transformacijom (Momirovi, 1996).
Neka je G = (gij); i = 1,..., n; j = 1,..., m neka, dopustimo nepoznata, matrica pogreaka merenja pri
opisu skupa E na skupu V. Tada e matrica pravih rezultata entiteta iz E na varijablama iz V biti
Y = Z-G.
Ako, u skladu sa klasinom teorijom merenja, pretpostavimo da je matrica G takva da je
YtG = 0
i
GtGn-1 = E2
gde je E2 dijagonalna matrica, matrica kovarijansi pravih rezultata bie
YtYn-1 = R-E2.
Pretpostavimo da su koeficijenti pouzdanosti varijabli iz V poznati; neka je R dijagonalna matrica iji
su elementi j ti koeficijenti pouzdanosti. Tada e varijanse pogreaka merenja za standardizovane rezultate
na varijablama iz V biti ba elementi matrice
E2 = I-P.
Sada e prave vrednosti na nestandardizovanim latentnim dimenzijama

biti elementi matrice

= (Z-G)
s matricom kovarijansi

= tn-1 = t R - t E2.
Prema tome, prave varijanse latentnih dimenzija
formalne definicije bilo kog koeficijenta pouzdanosti

bie

dijagonalni elementi matrice . Na osnovu

= 21 / 2,
gde je 21 prava varijansa neke varijable, a 2 ukupna varijansa te varijable, dakle varijansa koja ukljuuje i
varijansu pogreke, koeficijenti pouzdanosti latentnih dimenzija, ako su poznati koeficijenti pouzdanosti
varijabli iz kojih su te dimenzije izvedene, bie dijagonalni elementi matrice
A = diag((t R - t E2)D-2).
Koeficijenti pouzdanosti definisani na ovaj nain variraju u rasponu (0, 1) i mogu poprimiti vrednost 1
samo onda kada je P = I, dakle ako su sve varijable izmerene bez pogreke, to je naravno i teorijski
nemogue, a vrednost 0 onda i samo onda kada je i P = 0 i R = I, dakle ako se cela varijansa svih varijabli
368

Objavljeni radovi

sastoji samo od varijanse pogreke merenja, a varijable iz V imaju sferinu normalnu distribuciju. Jer, ako se
cela varijansa svake varijable iz nekog skupa varijabli sastoji samo od varijanse pogreke merenja, onda je
nuno E2 = I i R = I, pa su koeficijenti pouzdanosti svih latentnih dimenzija jednaki nuli.
Meutim, matrica koeficijenata pouzdanosti P = (j) esto je nepoznata, pa je nepoznata i matrica
varijansi pogreke merenja E. Ali, ako su varijable iz V izabrane tako da reprezentiraju neki univerzum
varijabli U sa istim poljem znaenja, gornja granica varijansi pogreke merenja definirana je elementima
matrice XJ2 (Guttman, 1945), dakle uniknim varijansama tih varijabli. Zbog toga se, u ovom sluaju, donja
granica pouzdanosti latentnih dimenzija moe proceniti koeficijentima
B = diag((t R - t U2 )D-2),
koji su izvedeni postupkom koji je identian postupku kojim su izvedeni i koeficijenti iz matrice A uz definiciju E2 =
U2, dakle na isti nain na koji je Guttman izveo svoju meru 6.
Naravno, koeficijenti iz matrice B variraju u rasponu (0, 1), ali ne mogu dostii vrednost 1. Jer, ako je
R = I, onda je i U2 = I, pa su svi koeficijenti ovog tipa jednaki nuli. Ali, kako U2 = 0 nije mogue ako je
matrica R regularna, svi koeficijenti definisani na ovaj nain nuno su manji od 1 i tendiraju prema 1 kada
unikna varijansa varijabli iz kojih su izvedene latentne dimenzije tendira prema nuli.
Na isti nain lako je izvesti i mere apsolutne donje granice pouzdanosti latentnih dimenzija definisanih
orthoblique faktorima. U tu svrhu, postavimo E2=I. Tada e dijagonalni elementi matrice
M = I-D-2
biti mere apsolutne donje granice pouzdanosti latentnih dimenzija.
Oigledno je da su nuno svi koeficijenti iz matrice M manji od 1, i da tendiraju prema 1 kada m, broj
varijabli u skupu V, tendira prema beskonanom, jer tada svaka kvadratna forma matrice R tendira prema
beskonanom. Ako je R = I, onda su, naravno, svi ovi koeficijenti jednaki nuli. Meutim, donja vrednost tih
koeficijenata ne mora bili nula, jer je mogue, ali ne za sve koeficijente, da varijansa d2p neke latentne
dimenzije bude manja od 1. Naravno da latentna dimenzija koja emitira manje informacija od bilo koje
varijable iz koje je izvedena nema nikakvog smisla, to je i bio jedan od razloga to je za odreivanje broja
tih dimenzija izabran PB kriterijum taleca i Momirovia jer, ako je n >> m, pod tim kriterijumom je
verovatnoa da se dobiju nekom parsimonijskom transformacijom latentne dimenzije s negativnim
apsolutnim donjim granicama pouzdanosti osetno manja nego ako se broj latentnih dimenzija odredi na
osnovu Guttman-Kaiserovog kriterijuma.
Jednostavnosti radi, nazovimo predloenu metodu za kosu parsimonijsku transformaciju glavnih
komponenata Oblivax transformacijom.
4. Relacije latentnih dimenzija dobijenih oblivax transformacijom sa dimenzijama dobijenim varimax,
orthoblique i oblimin transformacijom

Kako je

tLn-1 = D-1C1/2
a
(diag(AtA)-1/2AtV(diag(VtV)-1/2 = C1/2D-1,
to je matrica korelacija latentnih dimenzija dobijenih Oblivax i Varimax transformacijom jednaka transpoziciji
matrice Burlovih koeficijenata kongruencije izmeu matrica sklopa dobijenih tim transformacijama.
Jo su jednostavnije relacije izmeu rezultata dobijenih Oblivax i Orthoblique transformacijom. Orthoblique
transformacija je, u stvari, reenje problema
XQ = W p(W) = ekstremum, Q'Q = I,
gde je p(W) neka parsimonijska funkcija, najee obina Varimax funkcija. Kao to je dobro poznato (Harris i
Kaiser, 1964; Mulaik, 1972; Momirovi, 1996), standardizovane latentne dimenzije dobijene tom transformacijom
jesu vektori matrice
LO = ZXQ-1,
369

Konstantin Momirovi u statistici

gde je

2 = diag(QtQ)
matrica varijansi nestandardizovanih latentnih dimenzija, a matrica sklopa Orthoblique faktora

0 = XQ.
Stoga je matrica korelacija latentnih dimenzija dobijenih Oblimax i Orthoblique transformacijom

L0n-1 = D-1T'Q-1,
a matrica Burtovih koeficijenata kongruencije izmeu vektora matrica sklopa dobijenih tim transformacijama prosto
(diag(A'A)-1/2A'A0(diag(A'0A0)-1/2 = T'Q.
Neto su sloenije relacije izmeu rezultata dobijenih Oblivax i Oblimin transformacijom. Oblimin
transformacija (Jenrich i Sampson, 1966; Mulaik, 1972) je reenje problema
HU = P p(P) = extremum, diag(UtU)-1 = I,
gde je, obino,

p( P) = j

p 2jp p 2jq ,

dakle quartimin funkcija.


Kako je matrica sklopa Oblimin faktora
P = X1/2U,
to je regresijska matrica za izraunavanje latentnih dimenzija dobijenih ovom transformacijom
P(PtP)-1 = X1/2U-1,
pa su latentne dimenzije dobijene Oblimin transformacijom vektori matrice
Lj = ZX-1/2U-1.
Prema tome, matrica korelacija latentnih dimenzija dobijenih Oblivax i Oblimin transformacijom je

'Ljn-1 = D-1T'1/2U-t,
a matrica Burtovih koeficijenata kongruencije izmeu vektora matrica sklopa dobijenih tim transformacijama
(diag(AtA)-1/2AtP(diag(P'P)-1/2 = T'1/2U(diag(U'U))-1/2.
Na slian nain lako se mogu izvesti relacije izmeu reenja dobijenog Oblivax transformacijom i
reenja dobijenih drugim parsimonijskim transformacijama glavnih komponenata.
5. Program TIKVAN

Program TIKVAN napisan je u Matrix jeziku za SPSS koji radi u Windows okruenju. Aktivira se
tako da korisnik prvo otvori fajl u kome je matrica podataka, pa zatim napie ove dve naredbe:
include 'tikvan.sps'.
tikvan vars = <imena varijabli>/.

U stvari, TIKVAN je modifikacija programa HKPBC koji su napisali Kneevi, Momirovi i Fajgelj
(1997). Za korisnike koji ele da implementiraju program TIKVAN na svom raunaru, naveden je potpuni
simboliki kod verzije 1.0 ovog programa.
preserve
*

TIKVAN

*Sekcija 0. Preliminarne operacije.


define tikvan (vars=!charend('/'))
370

Objavljeni radovi

set printback=of mxloop=999 mprint off


save outfile='tk_tmpl.sav'
set results off
corr variables=!vars/missing=listwise/matrix=out(temp.sav)
set results listing printback off mprint off.
matrix
get r/names=varname/variables=!vars/file=temp.sav
mget/file=temp.3av/type=corr
release r
compute ime=varname(1,:)

*Sekcija 1.

Interkorelacije varijabli

print cr/format "f8.4"/title 'Interkorelacije varijabli'


/rname=ime/cname=irae
*Sekcija 2. Procena uniknih varijansi
compute rinv=inv{cr) compute u2=diag (rinv) compute
u2=mdiag(u2) compute u2=inv(u2) compute m=nrow(cr)
compute c=trace{u2) compute =m~c
*Sekcija 3. Reprezentativnost uzorka varijabli
compute w=u2*rinv*u2
compute w=w&*w compute ww=msum(w) compute rr=crs*cr
compute rrr=msum(rr) compute rep=l-ww/rrr
print rep/format "f8.4" /ti tie 'Reprezentativnost uzorka
varijabli'
*Sekcija 4. Bazina solucija
call eigen(cr,xr,lr) compute suma=make(l,1,0) compute
bruto=make(m,1,0) loop k=l to m
+ compute suma=suma+lr(k,1) o if suma < c
compute suma=suma+lr(k+1,])
compute bruto(k,l)-l end if end loop
compute k-csum(bruto) compute k=k+l
do if k > 1
compute x=xr(:,l:k)
compute lr=lr(l:k)
compute l=mdiag(lr)
compute ll=sqrt(l)
compute x3=xS**3
compute Ia=csum(x3}
compute lala=rsum(la)
compute ide=ident(k,k)
do if lala < 0
. compute trala^idefi*(-1)
. compute y=x*trala
. compute x=y
end if
compute h=x*ll
compute hh=h&**2
compute h2=rsum{hh)
compute lav={h, h2}
compute num={"l","2","3","4","5","6","7","8","9","10","11",
"12", "13","14", "15", "16","17","18","19","20","21","22","23","24","25",
"25","27","28",
"29","30","31","32","33","34","35","36","37","38","39",
"40","41","42","43",
"44","45","46","47","4
8","49","50","51","52","53",
"54","55","56","57","58","59","60","61","62","63","64","65","66","67",
371

Konstantin Momirovi u statistici

"68","69","70","71","72","73","74","75","76","77","78","79","80","81",
"82","83","84","85","86","87","88","89","9
0","91","92","93","94","95",
"96","97","98","99","100"j
compute num-num(1:k)
Print lav/format "f8.3"
/title 'Glavne osovine i komunaliteti'/space=2
/rnames=ime/cnames=num
release xr, Ir, suma, bruto, 11, hh
*
Sekcija 5. Tikvan transformacija
compute nak=k compute nkat2=m compute

f=h

compute tv=0 compute nc=0 compute stabilni


compute trans=ient(nak,nfak)
loop if (stabil = 1 and ne le 50)
+ compute sv=0
+ loop 5*1 to nak
+ compute sa=0
+ compute sb=0
+ loop i = l to nkat2
+ compute v2=f (i,j)*(2
+ compute sa=sa + v2
+ compute sb=sb + v2 * v2
+ end loop
+ end loop
+
+
+
+
+
+
+

compute nc=nc + 1
do if (abs(sv-tv) le le-7)
compute stabil=stabilH
else
compute stabil=l
end i t
compute tv=sv

+
+
+
+
+
+
+
+
+
+
+
+
+
+
+

loop j=l to nfak-1


loop k=j-*-l to nfak
compute as=0
compute bs=0
compute cs=0
compute ds=0
loop i^l to nkat2
compute xa=((i,j) **2 - f{i,k) **?,)
compute ys=f{i,j) * f(i,k) * 2
compute as=as+xs
compute bs=bs+ys
compute cs=cs + (xs * xs - ys * ys)
compute ds=ds + xs * ys
end loop
compute ds=ds * 2

+ compute xs=d.s - { (2 * as * bs) / nkat2)


+ compute ya-cs - ((as * as - bs * bs) / nkat2)
+
+
+
+
+
+
+
+
+
+
+

do if xs>0
do if ys>0
compute p={artan(xs/ys))
else if ys<0
compute p=(artan(xs/ys)+ 314159265359e-ll)
end if
else if xs<0
do if ys>0
compute p-(artan(xs/yst)
else if ys<0
compute p-(artan(xs/yst- 314159265359e-11)

372

Objavljeni radovi

+ end i
+ else if xs=0
+ do if ys>Q
+ compute p~0
+ else if ys<0
+ end if + else
+ compute p= 314159265359e-ll / 2
+ end if
+ compute p = p / 4
+ compute sinp=sin(p)
+ compute cosp=cos(p)
+ do if abs(sinp) gt le-30
+ loop i = l to nkat2
+ compute xs=f(i,j) * cosp + (i,k> * sinp
+ compute ys=E(i,k) * cosp - {i,j> * sinp
+ compute {i,j)=xs
+ compute f(i,k)=ys
+ end loop
+ loop i=l to nfak
+ compute xs=trans(i,j) * cosp + trans(i,k) * sinp
+ compute ys=trans(i,k) * cosp - trans(i,j) * sinp
+ compute transfi,j}-xs
+ compute trans(i,k)-ys
+ end loop
+ end if
+ end loop
end loop
end loop

Sekcija 6. Finalna solucija

compute cov=t(tr^ns)*l*tfans compute d2=diag(cov)


compute d2=mdiag(d2) compute d22=inv(d2) compute
dl=sqrt{d2) compute dll^inv(dl) compute a=x*trans*dl
compute kor=dll*cov*dll compute f=a*kor
print trans/format "8.3"
/title 'Transformacijska matrica'/space=2 /rnamesnum/cnames=num
print a/format "8.3"
/title 'Sklop tikvan faktora'/space=2
/rnames=ime/cnaines=num
print kor/format "f8.3"
/title 'Korelacije tikvan faktora'/space=2
/rnames=nu[T\/cnames^num
tprint f/format "f8.3"
/title 'Struktura tikvan faktora'/space=2
/rnames=ime/cnames=num
* Sekcija 7. Dekompozicija varijanse i procena pouzdanosti
compute v=a*f compute y=x*trans compute k=ncol(x)
compute jedan=make(k,l,D compute majmunl=t(y)*u2"y
compute
compute
compute
compute
compute

majmun2=diag(majmuni)
d22=inv(d22)
d22=diag (d22)
alfa=jedan-majmun2s/d22
beta=jedan-jedan&/d22

print v/ormat "f8.3"


/title 'Komponente varijansi varijabli i faktora'/space=2
/rnames=ime/cnames=num
373

Konstantin Momirovi u statistici

print alfa/format "f8.3"


/title 'Pouzdanosti tikvan faktora' /rnames=num
print beta/format "8.3"
/title 'Donje granice pouzdanosti tikvan faktora' /rnames-num

Sekcija 8. Izraunavanje faktorskih skorova

get nj/variables=!vars compute skor=nj*x*trans*ll save


skor /outfile='skor.sav'
else
*

Sekcija 9. Sluaj kada je k=l

compute x=xr(:,1:k) compute lr=lr(l:l) compute


ll=sqrt(lr) compute x3=x&**3 compute Ia=csum(x3) do
if la < 0 . compute y=x*(-l) . compute x=y end i
compute h=x*ll compute h2=h&**2
compute Iav={h,h2)

compute num=f"l","2","3","4",5","6'',"7","8","9","10'',"ll",
"12","13","14","15","16","17","18","19","20","21","22","23","24","25", "26",
"27","28","29","30","31","32","33","34","35","36","37","38","39",
"40","41","42","43","44","45","46","47","48","49","50",
"51",
"52","53",
"54","55","56","57","58","59","60","61","62","63","64", "65", "66", "67",
"68","69","70","71","72","73","74","75","76","77","78","79","80","81",
"82","83","84","85","86","87","88","89","90","91","92","93",
"94",
"95",
"96","97","98","99","100"}
compute num=num(l:k)
print lav/format "f8.3"
/title 'Glavna osovina i komunaliteti'/space=2
/rnames=ime/cnames=num
compute alfa=t(x)*u2*x
compute ala=l-alfa/lr compute beta=l-l/lr
print alEa/format "f8.3"
/title 'Pouzdanost prve glavne komponente'
/rnames-num
print beba/format "E8.3"
/title 'Donja granica pouzdanosti prve glavne komponente' /rnames=num
get nj/variables-!vars compute skor=nj*x*ll
save skor /outfile='skor.sav
end if
display end matrix
* sekcija

10.

Zavrne operacije

get file='tk_tmpl.saV
match files
file=tk_tmpl.sav
/file='skor.sav'
!enddefine restore

Ova verzija programa pretpostavlja da su varijable prethodno standardizovane. Postoji i verzija 1.1,
koja pre raunanja faktorskih skorova standardizuje varijable. Operacija prethodne standardizacije vana je,
meutim, samo za raunanje faktorskih skorova; ostale operacije nisu na to osetljive, jer algoritam implicitno
standardizuje varijable.

374

Objavljeni radovi

6. NUMERIKI PRIMER

Jedan uzorak od 441 ispitanika oba pola, starih od 15 do 19 godina, ispitan je testovima iz baterija
KOG 3 (Wolf, Momirovi i Damonja, 1992) i KON 6 (Momirovi, Wolf i Damonja, 1992), kojima su
procenjeni ovi kognitivni i konativni faktori:
I, faktor perceptivnog procesovanja; rezultati su skalirani tako da vei rezultat znai bolju efikasnost perceptivnog
procesora;
S, faktor serijskog procesiranja; rezultati su skalirani tako da vei rezultat znai bolju efikasnost procesora za
sekvencijalnu obradu informacija;
P, faktor paralelnog procesiranja; rezultati su skalirani tako da vei rezultat znai bolju efikasnost procesora za
simultanu obradu informacija.
EPS, faktor regulacije aktiviteta; rezultati su skalirani tako da vea vrednost znai slabiju kortikalnu kontrolu
aktivirajue funkcije retikulatne formacije,
HI, faktor regulacije i kontrole organskih funkcija; rezultati su skalirani tako da vea vrednost znai vei stepen
poremeaja sistema za regulaciju i kontrolu organskih funkcija, dakle vei stepen funkcionalnih poremeaja
senzornih i motornih funkcija, i funkcija kardiovaskularnog i respiratornog sistema i gastrointestinalnog i
uropoetskog trakta,
ALF, faktor regulacije i kontrole reakcija odbrane; rezultati su skalirani tako da vea vrednost znai
vei stepen poremeaja sistema za regulaciju i kontrolu reakcija odbrane, dakle povienu anksioznost,
fobinost, opsesivnost, kompulsivnost i hipersenzitivnost;
SIG, faktor regulacije i kontrole reakcija napada; rezultati su skalirani tako da vea vrednost znai vei
stepen poremeaja sistema za regulaciju i kontrolu reakcija napada, dakle vei stepen primarne i sekundarne
agresivnosti;
DEL, faktor koordinacije i kontrole regulativnih funkcija; rezultati su skalirani tako da vea vrednost
znai vei poremeaj funkcionisanja sistema za koordinaciju i kontrolu regulativnih funkcija, dakle vei
stepen kognitivne, motorike i emocionalne disocijacije, praene depresivnim i paranoidnim simptomima;
ETA, faktor integracije i evaluacije konativnih funkcija; rezultati su skalirani tako da vea vrednost
znai vei poremeaj hipotetskog sistema za integraciju i evaluaciju konativnih funkcija, dakle slabiju
integraciju u socijalno polje i vei poremeaj evaluativnih funkcija.
Dobijeni rezultati analizirani su pod komponentnim modelom s ciljem da se dobiju kognitivni i
konativni faktori drugog reda. Primenjene su ove metode za parsimonijsku transformaciju glavnih
komponenata znaajnih po PB kriterijumu:
(1) Varimax transformacija; ekstremizirana je brutto Varimax funkcija (Kaiser, 1958);
(2) Oblivax transformacija; i ovde je ekstremizirana brutto Varimax funkcija (Momirovi, 1997);
(3) Orthoblique transformacija, ponovo tako da je ekstremizirana bruto Varimax funkcija (Harris i Kaiser,
1964);
(4) Oblimin transformacija; ekstremizirana je normalizovana quartimin funkcija (Jenrich i Sampson,
1966);
(5) Promax transformacija; ciljna matrica bila je matrica strukture normalizovanih Varimax faktora
(Hendrickson i White, 1965).
Dobijeni rezultati prikazani su u sledeim tabelama:
* U tabeli 1. je struktura Varimax faktora
* U tabelama 2, 3, 4. i 5. su sklop, interkorelacije, struktura i koeficijenti pouzdanosti Oblivax faktora;
* U tabelama 6, 7, 8. i 9. su sklop, interkorelacije, struktura i koeficijenti pouzdanosti Orthoblique faktora;
* U tabelama 10, 11. i 12. su sklop, interkorelacije i struktura Oblimin faktora;
* U tabelama 13, 14. i 15. su sklop, interkorelacije i struktura Promax faktora.
Kako je Oblivax, u stvari, kosa aproksimacija Varimax faktora, od primarnog je interesa poreenje
sklopa latentnih dimenzija dobijenih Varimax i sklopa latentnih dimenzija dobijenih Oblivax postupkom i,
naravno, poreenje korelacija latentnih dimenzija dobijenih Oblivax postupkom s nultim korelacijama. Kako
se vidi iz tabela 1, 2. i 3, Oblivax reprodukuje taksonomiju koju je proizvela Varimax transformacija, ali na
mnogo jasniji nain, jer je matrica sklopa dobijena Oblivax transformacijom mnogo jednostavnija od matrice
sklopa dobijene Varimax transformacijom.

375

Konstantin Momirovi u statistici

Tabela 1. Struktura VARIMAX faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

VRX1
-.061
-.033
-.187
-.119
.878
.863
.583
.828
.875

VRX2
.756
.766
.682
.340
-.071
-.253
.325
-.025
-072

Tabela 2. Sklop OBLIVAX faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

OVX1
.000
.030
-.132
-.172
.878
.856
.614
.832
.875

OVX2
.759
.771
.676
.331
-019
-101
.364
.025
-.019

Tabela 3. Korelacije OBLIVAX faktora


faktor
1.000

OVX1
-.141

OVX2
-141

0VX1
1.000

Tabela 4. Struktura OBLIVAX faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

OVX1
-.107
-.079
-.227
-219
.880
.870
.563
.828
.878

OVX2
.759
.766
.695
.355
-.142
-.222
.277
-.092
-.142

Tabela 5. Pouzdanost OBLIVAX faktora


6
.880
.613

faktor
OVX1
OVX2

Tabela 6. Sklop ORTHOBLIQUE faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

OBQ1
.004
.034
-.128
-170
.877
.855
.616
.832
.875

OBQ2
.759
.771
.677
.332
-.022
-.UM
.362
.022
-.022

Tabela 7. Korelacije ORTHOBLIQUE faktora


faktor
OBQ1
OBQ2

OBQ1
1.000
-143

OBQ2
-.143
1.000

Tabela 8. Struktura ORTHOBL1QUE faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

376

OBQ1
-104
-.076
-.225
-218
.880
.870
.564
.828
.878

OBQ2
.759
.766
.696
.356
-148
-.227
.274
-.097
-.147

Tabela 9. Pouzdanost ORTHOBLIQUE faktora


6
.880
.613

faktor
OBQ1
OBQ2

Tabela 10. Sklop OBL1MIN faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

OBLI
.061
.091
-.076
-.143
.863
.835
.634
.821
.861

OBL2
.765
.774
.693
.348
-.092
-.173
.316
-.043
-.091

Tabela 11. Korelacija OBLIMIN faktora


faktor
OBLI
OBL2

OBLI
1.000
-.139

OBL2
-.139
1.000

Tabela 12. Struktura OBLIMIN faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
RTA

OBLI
-.045
-.016
-.172
-.191
.876
.859
.590
.827
.873

OBL2
.756
.762
.703
.368
-.211
-.289
.228
-.157
-.211

Tabela 13. Sklop PROMAX faktora


faktor
1
S
P
EPS
HI
ALF
SIG
DGL
ETA

PMX1
0.054
0.084
-0.083
-0.147
0.868
0.841
0.634
0.826
0.866

PMX2
0.765
0.776
0.689
0.342
-0.062
-0.144
0.337
-0.015
-0.062

Tabela 14. Korelacije PR0MAX faktora


faktor
PMX1
PMX2

PMX1
1.000
-0.162

PMX2
-0.162
1.000

Tabela 15. Struktura PROMAX faktora


faktor
I
S
P
EPS
HI
ALF
SIG
DEL
ETA

PMX1
-0.070
-0.042
-0.195
-0.203
0.878
0.864
0.579
0.828
0.876

PMX2
0.757
0.763
0.703
0.366
-0.203
-0.281
0.234
-0.149
-0.202

Objavljeni radovi

Poreenjem rezultata dobijenih Oblivax transformacijom s rezultatima koji su dobijcni najee


primenjivanim postupcima za kosu parsimonijsku transformaciju glavnih komponenata lako se moe utvrditi
da ni u jednom sluaju Oblivax ne proizvodi slabije reenje, sa parsimonijske take gledita, od reenja
dobijenih Orthoblique, Oblimin ili Promax transformacijama. Iako su, i sa taksonomske i sa parsimonijske
take gledita, reenja dobijena sa sve etiri metode za kosu parsimonijsku transformaciju vrlo slina,
paljivija inspekcija pojedinosti u matricama sklopa i strukture pokazuje da Oblivax proizvodi neto
jednostavniju strukturu od Promax i Oblimin transformacije, i priblino jednako jednostavnu strukturu kao
to je proizvodi Orthoblique transformacija. Izgleda, prema tome, da je Oblivax dovoljno korektna metoda za
kosu parsimonijsku transformaciju glavnih komponenata i da je, stoga, ima smisla primenjivati.
Literaturne beleke

Kneevi, G.; Momirovi, K.; Fajgelj, S. (1997): Algoritam i program za orthoblique transformaciju glavnih
komponenata znaajnih na osnovu PB kriterija. Tehniki izvetaj. Institut za kriminoloka i socioloka
istraivanja, Beograd.
Momirovi, K. (1997): O ponaanju nekih algoritama za kosu parsimonijsku transformaciju glavnih
komponenata. Tehniki izvetaj, Institut za kriminoloka i socioloka istraivanja, Beograd.
Literatura

Guttman, L. (1945): A basis for analysis test-retest reliability. Psychometrika, 10:255-282.


Hadigali, S.; Bogdanovi, M.; Tenjovi. L.; Wolf, B. (1994): O nekim svojstvima Mahalanobisovih prostora.
Zbornik radova 8. sekcije za klasifikacije Saveza statistikih drutava Jugoslavije, 99-132. Beograd: Savezni
zavod za statistiku.
Harris, C. W.; Kaiser, H. F. (1964): Oblique factor analytic solutions by orthogonal transformations.
Psychometrika, 29:347-362.
Hendrickson, A. E.; White, P. O. (1964): PROMAX: A quick method for rotation to oblique simple structure.
British Journal of Statistical Psychology. 17: 65-70.
Jenrich, R. I.; Sampson, P. F. (1966): Rotation for simple loadings. Psychometrika, 31: 313-323.
Kaiser, H. F. (1958): The varimax criterion for analytic rotation in factor analysis. Psychometrika, 23: 187-200.
Momirovi, K.; Erjavec, N.; Radakovi, J. (1988): Metoda, algoritam i program za konkurentnu validaciju
mjernih instrumenata pod konfirmativnim i eksplorativnim modelom komponentne analize. Primijenjena
psihologija, 9: 157-162.
Momirovi, K.; Wolf, B.; Damonja. Z. (1992): KON 6. Kibernetika baterija konativnih testova, Beograd: Centar
za primenjenu psihologiju.
Momirovi. K. (1996): O
merama
pouzdanosti
latentnih
dimenzija odreenih
semiortogonalnim
transformacijama glavnih komponenata. U S.
Bogosavljevi i M. Kovaevi, Analiza grupisanja, 2, 57-62. Beograd: Savezni zavod za statistiku.
Mulaik, S. A. (1972): The foundations of factor analysis. New York: McGraw-Hill.
talec, J.; Momirovi. K. (1971): Ukupna koliina valjane varijance kao osnov kriterija za odreivanje
broja znaajnih glavnih komponenata. Kineziologija, 1,1:83-90.
Wolf, B.; Momirovi, K.; Damonja, Z. (1992): KOG 3. Baterija testova inteligencije. Beograd: Centar za
primenjenu psihologiju.

ABOUT ONE ALTERNATIVE METHOD FOR PARSIMONIC TRANSFORMATION OF


THE MAIN COMPONENTS SIGNIFICANT ON THE BASIS OF PB CRITERION
ABSTRACT
In the paper a method is proposed, an algorithm defined and (he program is written for component
analysis of some set of quantitative variables obtained from onhonormal transformation of the main components
the number of which is determined on the basis of PR criterion of Stalcc and Momirovic (Stalcc and Momirovic,
1971). Regression matrix for calculation of the latent dimensions is defined by transformation of some matrix,
obtained from any orihonormal transformation of the main components which extremes some parsimonic
function into a Mahalanobis form. Formal relations were made between the proposed method and Varimax
(Kaiser, 1958). Orthoblique (Harris and Kaiser, 1964) and Obtimbi (Jenrich and Sampson, 1966)
transformations of the main components and defined the measures of the bottom threshold and absolute bottom
threshold of reliability of the latent dimensions analogue to the measures proposed by Momirovic (1996).
KEY WORDS: factor analysis, semi-orthogonal transformations, computer programs.

377

Literatura

LITERATURA
1. ZBORNIK RADOVA Majski skupovi statistiara (1988, 1989, 1991, 1992, 1993, 1994),
Savezni zavod za statistiku i Institut za statistiku SZS, Beograd
2. Statistika revija, Savezni zavod za statistiku Savez statistikih drutava Jugoslavije,
Statistiko drutvo Srbije, , :
1958 - I, II; 1960 - I; 1988 - I; 1989 - I, II; 1995 - I, II; 1996 - II; 1997 - I, II;
1998 - I; 1999 - I; 2000 - I;
3. www.srce.hr
4. www.isi-web.org
5. www.kinezis.co.rs
6. www.crosbi.znanstvenici.hr

379

Sadraj

SADRAJ
Predgovor ....................................................................................................................................................................5
Biografija .....................................................................................................................................................................9
Seanja .......................................................................................................................................................................11
I DEO - UVOD U ANALIZU NOMINALNIH VARIJABLI REPRINT..............................................................17
0. Predgovor .............................................................................................................................................................21
1. Uvod .....................................................................................................................................................................20
2. Skale mjerenja ........................................................................................................................................................26
2.1 Kvantitativne varijable .....................................................................................................................................28
2.2 Nominalne varijable .........................................................................................................................................29
2.3 Kvantitativna reprezentacija nominalnih varijabli ...........................................................................................30
2.4 Neke funkcije vjerojatnosti vane za analizu nominalnih varijabli ..................................................................31
3. Deskriptivna analiza nominalnih varijabli ..............................................................................................................34
3.1 Frekvencije i procjene vjerojatnosti .................................................................................................................34
3.2 Mjere koliine informacija ...............................................................................................................................35
3.3 Testiranje hipoteza o distribuciji vjerojatnosti .................................................................................................35
4. Tabele kontingencije ..............................................................................................................................................36
4.1 Formiranje tabela kontingencije .......................................................................................................................37
4.2 Frekvencije i procjene vjerojatnosti .................................................................................................................38
4.3 Uvjetne frekvencije i uvjetne vjerojatnosti ......................................................................................................39
4.4 Mjere koliine informacija ...............................................................................................................................40
4.5 Uvjetne mjere koliine informacija ..................................................................................................................40
4.6 Testiranje hipoteza o distribuciji vjerojatnosti .................................................................................................41
4.7 Testiranje hipoteze o nezavisnosti ....................................................................................................................41
5. Poseban sluaj dviju binarnih varijabli i lokalne mjere asocijacije ........................................................................43
5.1 Kontingencijske tabele reda (2,2) .....................................................................................................................43
5.2 Testiranje hipoteze o nezavisnosti fisherov egzaktni test .................................................................................44
5.3 Mjere povezanosti dviju binarnih varijabli ......................................................................................................45
5.4 Lokalne i segmentalne mjere asocijacije ..........................................................................................................47
6. Mjere asocijacije .....................................................................................................................................................49
6.1 Mjere asocijacije u 2 metrici ..........................................................................................................................50
6.2 Mjere izvedene iz redukcije pogreke prognoze ..............................................................................................52
6.3 Entropijske mjere asocijacije ...........................................................................................................................55
7. Kanonika dekompozicija kontingencijskih tabela .................................................................................................57
7.1 Kanoniki model ..............................................................................................................................................59
7.2 Kanoniki koeficijenti asocijacije ....................................................................................................................61
7.3 Kvantifikacija nominalnih varijabli .................................................................................................................62
7.4 Testovi znaajnosti kanonikih koeficijenata asocijacije .................................................................................63
7.5 Generalizirani kanoniki indeks i cramerov koeficijent asocijacije .................................................................64
8. Loglinearni modeli .................................................................................................................................................65
8.1 Model analize varijance ...................................................................................................................................66
8.2 Glavni efekti .....................................................................................................................................................68
8.3 Interakcija ........................................................................................................................................................68
8.4 Postupci za procjenu parametara modela .........................................................................................................69
8.5 Testovi znaajnosti ...........................................................................................................................................69
9. Pregled metoda za multivarijantnu analizu nominalnih varijabli ...........................................................................71
9.1 M-dimenzionalne kontingencijske strukture ..................................................................................................73
9.2 Komponentna analiza nominalnih varijabli .....................................................................................................76
9.3 Faktorska analiza nominalnih varijabli ............................................................................................................80
9.4 Kanonika analiza nominalnih varijabli ..........................................................................................................82
9.5 Diskriminativna i regresijska analiza nominalnih varijabli .............................................................................84
9.6 Taksonomske metode ......................................................................................................................................84
10. Programi ...............................................................................................................................................................88
11. Numeriki primjeri .............................................................................................................................................105
Literatura ..................................................................................................................................................................138
381

Konstantin Momirovi u statistici

II DEO - OBJAVLJENI RADOVI, STATISTIKE REVIJE,


MAJSKI SKUP (ZBORNICI RADOVA), 1958. DO 2000. ..................................................................141
1. STATISTIKA REVIJA 1958 I
Korelacija vitaminskog deficita u hrani uea deficitarnih simptoma ...............................................................143
2. STATISTIKA REVIJA 1958 II
Primjena metode usporedbe po parovima za odreivanje stanja uhranjenosti ....................................................149
3. STATISTIKA REVIJA 1960 I
Prilog poznavanju vrijednosti ispitivanja potkonog masnog tkiva ................................................................159
4. STATISTIKA REVIJA 1986 I
Comtax algoritam i program za detekciju i komparaciju polarnih i distinktnih taksona...................................166
5. ZBORNICI RADOVA 1988 I
Taksonomska analiza objekata opisanih asimetrinom relacionom matricom ...................................................173
6. STATISTIKA REVIJA 1989 I
O mjerama udaljenosti i slinosti objekata u mirror image i antimirror image prostoru .....................................176
7. STATISTIKA REVIJA 1989 II
Taksonomska analiza kognitivnih i konativnih karakteristika u djece od 11 godina ..........................................179
8. ZBORNICI RADOVA 1989 II
O .................................................................................................183
9. ZBORNICI RADOVA 1989 III (1)
Taksonomska analiza kvalitativnih promjena strukture kriminaliteta .................................................................186
10. ZBORNICI RADOVA 1989 III (2)
Kvazikanonika diskriminativna analiza u Pearsonovoj diskriminativnoj metrici .............................................196
11. ZBORNICI RADOVA 1991 IV
O mjerama udaljenosti i slinosti u antiimage metrici ........................................................................................201
12. ZBORNICI RADOVA 1992 V
O nekim postupcima za kvantifikaciju nominalnih varijabli ..............................................................................203
13. ZBORNICI RADOVA 1993 VI i VII (1)
Algoritam za odreivanje polarnih taksona u prostoru drugog reda ...................................................................206
14. ZBORNICI RADOVA 1993 VI i VII (2)
Primena taksonomske analize u odreivanju socijalne stratifikacije ..................................................................212
15. ZBORNICI RADOVA 1993 VI i VII (3)
Neke varijacije na Cramer-Hotellingovu temu ...................................................................................................216
16. ZBORNICI RADOVA 1994 VI i VII
O jednom taksonomskom algoritmu u parcijalnom image prostoru ...................................................................226
17. ZBORNICI RADOVA 1994 VIII (1)
Jedna primitivna mera slinosti izmeu dve otvorene razlivene klasifikacije ....................................................229
18. ZBORNICI RADOVA 1994 VIII (2)
O nekim merama slinosti izmeu klasifikacija koje formiraju otvorene razlivene skupove .............................235
19. ZBORNICI RADOVA 1994 VIII (3)
Mere asocijacije izmeu jedne nominalne i jednog skupa kvantitativnih varijabli .............................................253

382

Sadraj

20. ZBORNICI RADOVA 1994 VIII (4)


Optimalna eksploatacija informacija koje sadre sociometrijski podaci .............................................................265
21. ZBORNICI RADOVA 1994 VIII (5)
Klasifikacija primarnih faktora agresivnosti .......................................................................................................270
22. STATISTIKA REVIJA 1995 I
Relacije izmeu jednog modela komponentne i jednog modela taksonomske analize .......................................280
23. STATISTIKA REVIJA 1995 II
O jo nekim skalarnim merama asocijacije izmedju dve nominalne varijable ....................................................286
24. STATISTIKA REVIJA 1996 II
Reinterpretacija point-biserijalnog koeficijenta korelacije .................................................................................296
25. STATISTIKA REVIJA 1997 I (1)
Reinterpretacija intergrupnog koeficijenta korelacije .........................................................................................304
26. STATISTIKA REVIJA 1997 I (2)
O diskriminativnim funkcijama, diskriminativnim faktorima i nekim oiglednim glupostima ..........................314
27. STATISTIKA REVIJA 1997 II
Kanonika analiza kovarijansi u generaliziranom image prostoru ......................................................................329
28. STATISTIKA REVIJA 1998 I
Metod multivarijantne regresijske analize s konzistentnim linearnim ogranienjem .........................................333
29. STATISTIKA REVIJA 1999 I (1)
Univarijantna analiza varijanse pod modelom kanonike analize kovarijansi ....................................................348
30. STATISTIKA REVIJA 1999 I (2)
Primena transformacija u slike u slomljenom ogledalu u reavanju taksonomskih problema ............................354
31. STATISTIKA REVIJA 2000 I (1)
Jedna mera udaljenosti uzorka od populacije: uniserijalni koeficijent korelacije ...............................................362
32. STATISTIKA REVIJA 2000 I (2)
O jednoj alternativnoj metodi za parsimonijsku transformaciju glavnih komponenata znaajnih na
osnovu PB kriterijuma ........................................................................................................................................364
Literatura ................................................................................................................................................................379
Sadraj .....................................................................................................................................................................381

383

Konstantin Momirovi u statistici

CIP -
,
311(081)
311:929 .
, , 1932-2004
Konstantin Momirovi u statistici /
priredili Sran Bogosavljevi, Miladin
Kovaevi. - Beograd : Republiki zavod za
statistiku : Statistiko drutvo Srbije, 2010
(Beograd : Republiki zavod za statistiku). 383 str. : tabele ; 30 cm
Tira 350. - Napomene uz tekst. Bibligrafija: str. 379. - Iz sadraja: Uvod u
analizu nominalnih varijabli / Konstantin
Momirovi, reprint, 1988.
ISBN 978-86-6161-002-8 (RZZ)
a) , (1932-2004) b)
COBISS.SR-ID 180163340

384

You might also like