You are on page 1of 23

VALJANOST PSIHOLOGIJSKIH MJERNIH

INSTRUMENATA

A. RAZVOJ KONCEPTA VALJANOSTI

Valjanost mjerenja u području društvenih znanosti predstavlja jedan od najvažnijih


teorijskih i praktičnih problema. Važnost potrebe dokazivanja valjanosti najvećim dijelom
proizlazi iz dominacije indirektnih mjerenja s kojima se povezuju specifične poteškoće. U
prvom redu predmet mjerenja najčešće ima status hipotetskog konstrukta i nije dostupan
direktnom opažanju kao što je npr. slučaj s mjerenjem inteligencije. U tom slučaju nastoji se
na osnovi promjena u indikatorima (pokazateljima) konstrukta posredno zaključivati o
razvijenosti samoga konstrukta. Indirektna mjerenja nisu rijetkost niti u prirodnim znanostima
ali je u većini slučajeva valjanost korištenih indikatora očigledna ili je povezanost s
promjenama konstrukta izrazito visoka. Pored toga pri mjerenju temperature, mase ili brzine
koristi se jedno mjerenje dok u psihologiji dominiraju kompozitna mjerenja (tj. mjerni
instrumenti sačinjeni od više dijelova).

Određenje valjanosti, postupci provjere i podjela valjanosti mijenjali su se i razvijali


tijekom posljednjih stotinjak godina razvoja teorije mjerenja u psihologiji. Važno je
razumjeti recentne smjernice i preporuke za validaciju rezultata psihologijskih mjerenja, ali je
važno imati uvid u razvoj i određenje koncepta valjanosti kroz protekla desetljeća, razumjeti
značenje različitih vrsta ili aspekata valjanosti koji se mogu pronaći u različitoj literaturi i
validacijskim tekstovima poput znanstvenih članaka, priručnika ili udžbenika.

Na osnovi pregleda literature koja se odnosi na problem razvoja koncepta, pojedini autori
okvirno razlikuju tri razdoblja. Prvo razdoblje približno obuhvaća prvu polovicu dvadesetog
stoljeća, a obilježava ga početni izostanak interesa za valjanost te uvođenje različitih termina
koji se odnose na valjanost pri čemu ipak dominira određenje valjanosti testa na osnovi
korelacije s nekim vanjskim kriterijskim mjerama. Drugo razdoblje započinje 1954. objavom
Tehničkih preporuka za psihološke testove (kasnije Standarda za pedagoško i psihološko
testiranje) u kojima se predlaže kategorizacija valjanosti najprije u četiri, a kasnije tri
kategorije koja je dugo dominirala u teoriji testova. Trećim razdobljem možemo označiti
objavu Standarda za pedagoško i psihološko testiranje 1999. u kojemu se napušta
tradicionalni koncept tri vrste valjanosti a predlaže usmjeravanje na različite vrste izvora
validacijskih podataka, a valjanost se shvaća kao jedinstven koncept.

Po uzoru na mjerenja u tehničkim znanostima u prvom razdoblju razvoja teorije mjerenja


primarna pažnja posvećena je problemu preciznosti mjerenja, odnosno razvoju modela za
analizu pouzdanosti. Valjanost tek kasnije dolazi u središte interesa. Tako npr. u knjizi iz
1916. Mental and Social Measurement E.L. Thorndike uopće ne spominje pojam valjanosti,
ali razmatra problem pouzdanosti, odnosno pogreške mjerenja. U prvom razdoblju razvoja
klasične teorije testova interes je usmjeren na problem pouzdanosti dok je valjanost tek
usputni predmet interesa. U središtu klasičnog modela mjerenja jest bruto rezultat koji
predstavlja kompozit sačinjen od pravog rezultata i komponente pogreške. U osnovi,
smanjenjem i konačnom eliminacijom pogreške iz bruto rezultata ono što ostaje, po definiciji,
jest pravi rezultat. McDonald (1999) u knjizi Test Theory – Unified Treatment navodi da se rana

1
faza razmatranja valjanosti može pratiti od kasnih 1930-ih godina dvadesetog stoljeća, a
karakterizira ju bihevioristička tradicija u psihologiji kao i filozofski okvir logičkog pozitivizma.
U tom kontekstu „značenje“ sadržaja testovnih čestica, kao i s njima povezani „konstrukti“,
nedostupni opažanju, smatraju se previše subjektivnim i time neprikladnim za biheviorističku
znanost. U ovom kontekstu valjanost testovnih rezultata nastoji se odrediti kao njihova efikasnost
pri predviđanju nekih objektivnih kriterijskih aktivnosti. U prvom razdoblju razvoja testova
primarni interes autora usmjeren je na mjerenje intelektualnih sposobnosti, a masovna
primjena armijskih testova tijekom prvog svjetskog rata dovodi do niza kontroverznih
rezultata i otvara pitanje prirode inteligencije. U tom kontekstu Edwin Boring u članku
Intelligence as the Tests Test It (1923) predlaže da se u početnoj fazi pojam inteligencije
ograniči na sposobnost da se uspješno rješavaju testovi inteligencije, tj. da se u užem smislu
inteligencija tehnički odredi kao ono što mjere testovi inteligencije. Boring naglašava da su
stvarno značenje i priroda inteligencije znatno širi ali da je određenje koje on predlaže dobar
temelj za ozbiljnu raspravu. U nastavku teksta Boring navodi da je objektivna metoda za
analizu ovako mjerene inteligencije koeficijent korelacije. Korelacija pruža uvid u prirodu
inteligencije mjerene testovima, a niti jedan test ne može mjeriti inteligenciju na
zadovoljavajući način ukoliko uključuje samo jednu vrstu mentalnih operacija.

Thomas (1997) navodi da se do početka pedesetih godina 20. stoljeća u literaturi, na


uglavnom nesustavan, način koristi veći broj različitih termina koji se odnose na valjanost
mjerenja (npr. faktorska, intrinzična, empirijska, logička i dr.). L.L. Thurstone 1931.
objavljuje knjigu The Reliability and Validity of Tests. Pod njegovim utjecajem Harold
Gulliksen 1950. objavljuje klasični tekst The Theory of Mental Tests. Gulliksen zaključuje da,
kao što se pouzdanost testa može razmatrati kao korelacija između dva paralelna testa,
valjanost je korelacija između testa i nekog kriterija. To znači da test može imati veliki
broj različitih valjanosti. Guilford u knjizi Psychometric Methods (1954, prvo izdanje 1936)
također navodi da na općoj razini valjanost ukazuje na stupanj u kojemu testovni rezultati
omogućuju predviđanje rezultata u nekom praktičnom kriteriju. Ipak, Guilford navodi da
se u širem smislu valjanost odnosi na dva pitanja: Što testovni rezultati mjere? i Što se na
osnovi njih može predviđati? Guilford ukazuje na korist od uporabe faktorske analize pri
analizi valjanosti. Tako npr. korelacija testa s nekim zajedničkim faktorom predstavlja njegov
koeficijent valjanosti za mjerenje tog faktora.

1954. objavljene su Tehničke preporuke za psihološke testove i dijagnostičke tehnike


(Technical Recommendations for Psychological Tests and Diagnostic Techniques) koje je
priredilo povjerenstvo Američkog udruženja psihologa (American Psychological Association
– APA). U ovom prvom izdanju opisane su četiri vrste valjanosti: konstruktna, konkurentna,
prediktivna, sadržajna. U izdanju 1966. prediktivna i konkurentna valjanost objedinjene su u
kriterijsku valjanost. Ova podjela nije bitno mijenjana sve do izdanja iz 1999. godine i navodi
se u brojnim tekstovima i udžbenicima kao tradicionalna trodioba valjanosti.

Kategorije valjanosti i izvori validacijskih podataka u različitim izdanjima Standarda

1954. Technical Recommendations for Psychological Vrste: konstruktna,


Tests and Diagnostic Techniques (APA) konkurentna, prediktivna,
sadržajna
1966. Standards for Educational and Psychological Tests Vrste: kriterijska,
and Manuals (APA) konstruktna, sadržajna
1974. Standards for Educational and Psychological Tests Aspekti: kriterijska,
and Manuals (APA) konstruktna, sadržajna

2
1985. Standards for Educational and Psychological Kategorije: kriterijska,
Testing (AERA, APA, & NCME) konstruktna, sadržajna
1999. Standards for Educational and Psychological Izvori podataka: sadržaj testa,
Testing (AERA, APA, & NCME) proces odgovaranja,
unutrašnja struktura, odnosi s
drugim varijablama,
posljedice testiranja
2014. Standards for Educational and Psychological Izvori podataka: sadržaj testa,
Testing (AERA, APA, & NCME) proces odgovaranja,
unutrašnja struktura, odnosi s
drugim varijablama,
posljedice testiranja

U Standardima objavljenim 1985. pojam valjanosti određuje se kao prikladnost,


smislenost i korisnost zaključaka izvedenih iz testovnih rezultata. „Validacija testa je
proces prikupljanja podataka koji opravdavaju takve zaključke. Iz rezultata dobivenih
primjenom testa mogu se izvoditi različiti zaključci, a podaci koji ih opravdavaju prikupljaju
se na više načina. Međutim, valjanost je jedinstven pojam“. Različiti vidovi validacije
tradicionalno se dijele u tri kategorije koje se odnose na pokazatelje konstruktne, kriterijske i
sadržajne valjanosti. Naglašava se da uporaba ovakvih kategorijalnih oznaka i shema ne
podrazumijeva postojanje odijeljenih tipova valjanosti niti da je specifična validacijska
strategija najbolja za svaki zaključak ili uporabu testa. Strogo odijeljivanje kategorija
nije moguće (APA, 1985). Stoga je u ovom izdanju Standarda učinjen pomak ka shvaćanju
valjanosti kao jedinstvenog pojma, ali se ipak zadržava tradicionalna podjela pristupa
validaciji.

Pored Standarda važnu ulogu u konceptualizaciji pojma valjanosti odigrao je L. Cronbach koji
1955. objavljuje članak Construct validity in psychological tests zajedno s Meehlom. U ovom
članku autori su dali značajan doprinos određenju i definiranju koncepta konstruktne
valjanosti. Drugi važan doprinos pružili su Campbell i Fiske 1959. godine u članku
Convergent and discriminant validation by the multitrait–multimethod matrix u kojemu uvode
koncepte konvergentne i diskriminantne valjanosti te naglašavaju važnost korištenja
metodologije pri provjeri valjanosti testova. Veliki doprinos konceptualizaciji valjanosti u
Standardima 1999. dao je S. Messick svojim radovima objavljenim krajem osamdesetih i
početkom devedesetih godina 20. stoljeća.

U izdanju Standarda za pedagoško i psihološko testiranje objavljenim 1999. došlo je do


značajnog pomaka u određenju i razumijevanju valjanosti. Valjanost se određuje kao
jedinstven koncept, kao stupanj u kojem empirijski podaci i teorijski argumenti
opravdavaju interpretacije testovnih rezultata koje proizlaze iz predloženih upotreba
testova. Drugim riječima, ono što se validira nije sam test već svaka interpretacija njegovih
rezultata. Ranija podjela vrsta valjanosti (sadržajna, kriterijska i konstruktna) je, sukladno
novom shvaćanju, dokinuta i predlaže se klasifikacija izvora validacijskih podataka od kojih
svaki, u manjem ili većem stupnju, može poslužiti kao argument za ocjenu ispravnosti neke
interpretacije testovnih rezultata. Ove i neke druge konceptualne promjene predstavljaju izraz
profesionalnog konsenzusa u znanstvenim i stručnim pitanjima, a opširno su elaborirane u
uvodnim poglavljima Standarda „što dokumentu daje i nemalu edukativnu vrijednost“.
Izdanje Standarda iz 2014. nije donijelo značajnije promjene vezane uz određenje valjanosti.

3
B. AKTUALNI PRISTUP KONCEPTU VALJANOSTI

Standardi za psihološko i pedagoško testiranje objavljeni 1999. unose promjene u određenje


valjanosti i trenutno predstavljaju najšire prihvaćen okvir za pristup validaciji psihologijskih
mjernih postupaka. Valjanost se određuje kao stupanj u kojem podaci i teorija
podržavaju interpretacije testovnih rezultata koje proizlaze iz predloženih upotreba
testova. Naglašava se da je problem valjanosti najvažnije pitanje u procesu razvoja i
evaluacije testa. Napušta se tradicionalna podjela valjanosti na različite tipove i
kategorije i valjanost se promišlja kao jedinstven koncept. Valjanost se ne odnosi na test
kao statičan pojam već na rezultate dobivene primjenom testa pri čemu se isti
validacijski podaci mogu odnositi na različite interpretacije ili predložene upotrebe
testovnih rezultata. Naglasak se stavlja na različite vrste izvora validacijskih podataka
koji predstavljaju dokaze predloženim interpretacijama testovnih rezultata. Shvaćanje
valjanosti kao jedinstvenog koncepta ne znači da postoji jedna vrsta valjanosti vezana uz
rezultate nekog testa već da se različiti izvori validacijskih podataka međusobno prožimaju i
zahtijevaju integraciju pri prosudbi neke predložene interpretacije testovnih rezultata. Npr.
ukoliko je svrha mjerenja dokazati da testovni rezultati opravdavaju interpretaciju razvijenosti
nekog psihološkog konstrukta kod ispitanika (npr. ispitnu anksioznost) o tome možemo suditi
na osnovi analize sadržaja testa, unutrašnje strukture testa, povezanosti testovnih rezultata s
drugim varijablama ili procesa odgovaranja. Proces validacije uključuje prikupljanje podataka
koji pružaju čvrstu znanstvenu osnovicu zamišljenih interpretacija testovnih rezultata. (APA,
1999).

U nastavku su opisani primjeri različitih vrsta izvora validacijskih podataka. U pojedinim


slučajevima vrlo je korisno kombinirati različite izvore pri izvoženju zaključaka o prikladnosti
neke planirane upotrebe testa. Pored toga neke izvore validacijskih podataka nije moguće u
potpunosti odijeliti u zasebnu kategoriju.

Proces validacije
Proces validacije u osnovi započinje određenjem interpretacije testovnih rezultata za koju se
nastoji ispitati valjanost odnosno opravdanost. U slučaju kada se testovni rezultati
namjeravaju koristiti ili interpretirati na više načina, svaka od tih namjena mora se zasebno
validirati. U najvećem broju slučajeva planirana interpretacija uključuje određenje konstrukta
koji se mjernim postupkom želi zahvatiti iako postoje i specifične situacije u kojima primarna
namjena testa nije mjerenje nekog zadanog konstrukta.

Npr. test divergentnog mišljenja može se koristiti s ciljem ispitivanja individualnih razlika u
razvijenosti tog konstrukta kod učenika osnovne škole ili kod studenata likovne akademije,
može se koristiti kao mjera u istraživanju kojim se ispituju korelati kreativnosti, kao prediktor
pri izboru darovitih učenika srednje škole, kao prediktor akademskog uspjeha u umjetničkoj
gimnaziji ili kao jedan od testova u okviru profesionalne orijentacije kod učenika osmih
razreda osnovne škole. Svaka od ovih različitih namjena testovnih rezultata implicira manje ili
više različito razumijevanje i interpretaciju rezultata kao i uključivanje ponešto različitih
izvora validacijskih podataka. Ukoliko je npr. namjena testa predviđanje akademskog uspjeha,
korelacije testa s odabranim kriterijima opravdavaju takvu vrstu uporabe, pri čemu mogući
nedostaci koji proizlaze iz sadržaja ne moraju biti od primarnog značaja. Međutim ukoliko
4
korelacije s kriterijem nisu zadovoljavajuće, analiza sadržaja može ponuditi moguće odgovore
za nisku valjanost testa za takvu namjenu. S druge strane ukoliko je primarna namjena testa
mjerenje razvijenosti konstrukta divergentnog mišljenja, sadržajna valjanost može imati veći
značaj u dokazivanju konstruktne valjanosti testa te se može kombinirati s drugim izvorima
validacijskih podataka. Validacija se može promatrati kao prikupljanje uvjerljive
znanstvene argumentacije koja opravdava planiranu interpretaciju testovnih rezultata i
njihovu relevantnost za predviđene svrhe (APA, 1999). Odluka o tome koji su tipovi
podataka važni za neku validaciju može se pojasniti razvojem skupa pretpostavki koje
opravdavaju predloženu interpretaciju za određenu svrhu testiranja (APA, 1999). Pojedini
testovi i mjerni instrumenti od početka se razvijaju za jasnu namjenu (npr. predikciju uspjeha
u zadanom poslu) što posao validacije može učiniti lakšim jer je moguće da sam autor testa
nudi detaljan konceptualni okvir razvoja testa za pretpostavljenu namjenu. Kvalitetan proces
validacije podrazumijeva dobru pripremu i planiranje prikupljanja validacijskih podataka,
odnosno pravovremeno uključivanje svih dodatnih relevantnih varijabli i kriterija koji mogu
poslužiti kao dokazi valjanosti. U određenim slučajevima naknadno prikupljanje ili nije
moguće ili zahtijeva značajne logističke resurse (npr. novi ciklus prijemnih ispita, novu
generaciju kandidata na državnoj maturi i sl.). Pored toga provedba prikupljanja validacijskih
podataka podrazumijeva analizu različitih metodoloških aspekata i uvjeta u kojima se
prikupljaju podaci, a koji mogu otežati integraciju i usporedbu validacijskih podataka i
mogućnost njihove generalizacije. Primjeri nekih od takvih uvjeta mogu biti: a) jesu li podaci
prikupljeni u situaciji selekcije ili istraživanja, tj. jesu li ispitanici odgovarali anonimno ili su
se identificirali imenom i prezimenom; b) radi li se o testiranjima visokog ili niskog uloga, te
kakva je bila motivacija ispitanika; c) postoji li neka sustavna selekcija ispitanika koja je
mogla utjecati na homogenost/heterogenost korištenih uzorka; d) postoje li razlike u
standardizaciji uvjeta između različitih primjena i sl.

U slučaju kada prikupljeni podaci ne potvrđuju opravdanost predviđenih namjena testa važno
je pokušati detektirati razloge za nisku valjanost testovnih rezultata. Messick (1994) i
Standardi (1999) upućuju na razmatranje barem dva moguća izvora problema:

a) Problem podzastupljenosti konstrukta koji se odnosi na stupanj u kojem testom nisu


obuhvaćeni njegovi važni aspekti što za posljedicu ima sužavanje mogućnosti interpretacije
testovnih rezultata i predstavlja potencijalni izvor pristranosti rezultata. Npr. u upitniku
posttraumatskih stresnih simptoma mogu biti izostavljene neke relevantne kategorije
simptoma što može umanjiti mogućnost razlikovanja ispitanika prema konstruktu. U
testovima znanja moguće je da neki dijelovi očekivanih ishoda budu izostavljeni, a neki
zastupljeni u prevelikoj mjeri. U testu općeg obrazovanja mogu dominirati sadržaji vezani uz
povijest i umjetnost, dok je neproporcionalno manje sadržaja iz područja tehničkog područja.
To npr. može dovesti do pristranosti u korist osoba specifične naobrazbe društveno-
humanističkog područja.

b) Problem konstruktno irelevantne varijance odnosi se na prisutnost sustavne varijance u


testovnim rezultatima koja nije pod utjecajem mjerenog konstrukta već se odnosi na neke
procese koji su irelevantni za konstrukt ili su samo manjim dijelom vezani uz njega.
Određenje irelevantnosti nije uvijek jednoznačno i zahtjeva temeljite studije kojima bi se
utvrdila veličina utjecaja irelevantnih faktora te odredilo postoje li značajne interindividualne
razlike u stupnju djelovanja ovih faktora. Izvori ovih faktora mogu biti povezani sa sadržajem
i karakteristikama testa (složenost rječnika korištenog u testu, format zadataka, mogućnost
slučajnog pogađanja i dr.), kvalitetom i ujednačenošću uvjeta pripreme za test (raspoloživo
vrijeme i uvjeti pripreme, ranije iskustvo sa sličnim testovima i dr.), individualnim

5
karakteristikama ispitanika (stupanj motivacije, brzina rada, anksioznost, impulzivnost i dr.),
te nekim uvjetima primjene testa (mogućnosti za prepisivanje, uvjeti rada i sl.)

Proces validacije zasniva se na prikupljanju i kombiniranju različitih vrsta podataka


koji su u Standardima podijeljeni u pet širih kategorija. U ovom kontekstu naglasak je na
vrsti i karakteristikama podataka koji se koriste za evaluaciju i dokazivanje različitih aspekata
valjanosti, a ne na zasebnim i međusobno odvojenim vrstama valjanosti kao što je to bilo u
ranijem razdoblju. Izvori validacijskih podataka podijeljeni su u sljedećih pet kategorija:

1. Podaci utemeljeni na sadržaju testa


2. Podaci utemeljeni na procesu odgovaranja
3. Podaci utemeljeni na unutrašnjoj strukturi
4. Podaci utemeljeni na odnosima s drugim varijablama
5. Podaci utemeljeni na posljedicama testiranja

U nastavku su navedeni neki primjeri validacijskih podataka za svaku od kategorija izvora


validacijskih podataka.

1. Podaci utemeljeni na sadržaju testa


Svaka analiza valjanosti ili odluka o izboru nekog mjernog instrumenta treba započeti
analizom testovnog sadržaja. Različiti aspekti sadržaja mogu biti korišteni kao argumenti za
(ne)opravdanost upotrebe konkretnog testa za neku planiranu svrhu. Jedan dio informacija
može se odnositi na stupanj u kojemu dijelovi testa (npr. čestice, subskale i sl.) predstavljaju
indikatore mjerenog konstrukta, tj. spadaju li u područje sadržaja konstrukta. Drugi aspekt
analize može biti usmjeren na reprezentativnost uzorka sadržaja uključenog u test u odnosu na
hipotetsku populaciju svih mogućih indikatora mjerenog konstrukta. Treći aspekt analize
može uključiti provjeru nekih formalnih aspekata sadržaja ili čestica kao što su razumljivost i
jasnoća pitanja, jasnoća upute, kulturalna prikladnost i relevantnost sadržaja i sl. Podaci
vezani uz sadržaj mogu se kombinirati sa ostalim izvorima validacijskih podataka poput
procesa odgovaranja ili unutrašnje strukture te mogu pojasniti neke opažene razlike između
podskupina ispitanika (muškarci-žene; mlađi-stariji).

Primjeri:

Pr 1. U testu znanja čija je namjena ispitivanje stupnja usvojenosti obrazovnih ishoda iz


predmeta Psihologija na Državnoj maturi potrebno je provjeriti postoje li pitanja koja nisu
povezana niti s jednim ishodom opisanim u programu nastave psihologije za srednju
školu. Ako postoje takva pitanja moraju se isključiti iz sadržaja testa. Ovdje nije relevantno
mogu li takva pitanja biti prihvatljiva jer su prediktivna za studij psihologije ili dobro
diskriminiraju ispitanike po općem poznavanju psihologije. U ovom slučaju domena koja se
ispituje testom jasno je definirana postojećim programom ili nekim drugim službenim
dokumentom.

6
Pr. 2. Upitnik čija je namjena dijagnostika posttraumatskog stresnog poremećaja kod ratnih
veterana može biti sačinjen na osnovi popisa simptoma za taj poremećaj navedenih u
priručniku DSM-IV iz 1994. godine (Dijagnostički i statistički priručnik za duševne
poremećaje). U novom izdanju DSM-V iz 2013. kriteriji dijagnoze i kategorije simptoma su
izmijenjeni stoga uporaba upitnika čiji je sadržaj sačinjen na osnovi ranijeg određenja
poremećaja može biti smanjene valjanosti za svrhu dijagnoze ovog poremećaja. DSM-V npr.
uvodi novu skupinu simptoma koje u ranijem izdanju nema: negativne kognitivne promjene i
promjene raspoloženja. U ovom slučaju sadržaj upitnika konceptualno ne odgovara
novom određenju konstrukta posttraumatskog stresnog poremećaja te se time dovodi u
pitanje valjanost dijagnoze učinjene na osnovi stare verzije upitnika.

Pr. 3. U jednom upitniku impulzivnog ponašanja konstruiranom u SAD-u koji se sastoji od 30


pitanja nalaze se i sljedeća tri pitanja koje prema teorijskoj konceptualizaciji predstavljaju
indikatore impulzivnosti:

Redovito uplaćujem štednju/životno osiguranje.


Često mijenjam posao (zaposlenje).
Često mijenjam mjesto stanovanja.

Upitnik je preveden i primijenjen kao mjera impulzivnosti na uzorku hrvatskih studenata.


Standardna analiza zadataka pokazala je da ova pitanja imaju nisku ili nultu diskriminativnu
valjanost. Analiza sadržaja ukazala je na kulturalnu neprikladnost ovih čestica na
populaciji ispitanika u Hrvatskoj kao i potencijalnu neprimjerenost na uzorku
studenata.

Pr 4. U pojedinim testovima područje sadržaja nije jasno definirano već u značajnoj mjeri
proizlazi iz šireg određenja konstrukta te se pojedini istraživači ili korisnici testova ne slažu u
potpunosti oko svih domena ili sadržaja koje treba uključiti u test. Tako se npr. u Testu opće
kulture mogu pojaviti vrlo specifična pitanja poput „Navedite pobjednika Svjetskog
prvenstva u nogometu 1974. godine“. Ovakva pitanja mogu favorizirati pripadnike pojedinih
skupina kao što su muškarci ili osobe s posebnim interesom za sport. Iako podaci o korelaciji
ovoga testa s uspjehom u nekom vanjskom kriteriju mogu ukazivati na prihvatljivu
prediktivnu valjanost prisutnost ovakvih pitanja može dovesti u pitanje valjanost testa za
ispitivanje razlika na konstruktu poznavanja opće kulture. U ovakvim slučajevima sadržaj
može umanjiti i tzv. pojavnu valjanost testa kod ispitanika ali je za konačnu odluku potrebno
prikupiti i dodatne vrste validacijskih podataka.

Pr. 5. U nekom testu inteligencije verbalnog sadržaja koji je dugo u upotrebi mogu se nalaziti
termini i pojmovi koji su tijekom vremena izašli iz svakodnevne uporabe (npr. izraz
busola za kompas) čime sadržaj pojedinih pitanja može nekim skupinama ispitanika postati
manje razumljiv. Ovakav problem može dovesti do problema pristranosti (bolji uradak starijih
ispitanika) ili konstruktno irelevantne varijance (bolje poznavanje rječnika bit će uključeno u
ukupni rezultat).

7
Pr. 6. U pojedinim slučajevima čestice upitnika ili testa mogu biti teorijski relevantne ali
njihova formulacija nije jednoznačna ili je različite kategorije ispitanika mogu razumjeti
na različite načine. Tako npr. u Upitniku religioznosti možemo pronaći pitanje:

Molim se zbog toga jer su me roditelji tako odgojili


1=u potpunosti se slažem, 2=uglavnom se slažem; 3=uglavnom se ne slažem 4=uopće se ne slažem

U ovom slučaju odgovor 4, na osnovi očekivanja autora, ukazuje na izraženiju intrinzičnu


religioznost, jer se osoba moli zbog unutarnje potrebe, a ne zbog tradicije ili odgoja.
Međutim ispitanik koji nije uopće religiozan također će birati odgovor 4 jer se on uopće ne
moli pa je to jedini logičan odgovor u ovom slučaju. Ovakvo pitanje zbog loše formulacije ne
omogućuje valjano diskriminiranje ispitanika na konstruktu intrinzične-ekstrinzične
religioznosti. Ovaj upitnik, s obzirom na sadržaj, nije prikladan za primjenu na ispitanicima
koji nisu religiozni.

Pr. 7. U pojedinim slučajevima područje konstrukta može biti teorijski podijeljeno na dvije ili
više faceta ili kategorija. U tom slučaju važno je provjeriti jesu li pojedine poddomene
područja konstrukta zastupljene dovoljnim brojem pitanja. U slučaju provjere faktorske
strukture poželjno je da je svaki očekivani faktor opisan s dovoljnim brojem pitanja. Primjeri
nekih konstrukata za koje se u okviru zadanog teorijskog polazišta pretpostavlja da se sastoje
od više poddomena ili faceta:

a) agresivnost (latentna, manifestna)


b) doživljaj socijalne nepravde (u obitelji, od strane nastavnika, od strane vršnjaka)
c) usamljenost (emocionalna, fizička)
d) emocionalna inteligencija (sposobnost uočavanja i razumijevanja emocija, sposobnost
izražavanja i imenovanja emocija, sposobnost upravljanja emocijama)
e) religioznost (obredna ili crkvena, intrinzična ili unutarnja)

Pr. 8. U slučaju testova znanja čiji je cilj provjera stupnja usvojenosti nekog zadanog
programa analiza sadržaja može biti usmjerena na reprezentativnost sadržaja uključenog u
test u odnosu na zadani program. U tom slučaju recenzent testa polazi od zadanog
programa i tablice strukture testovnog sadržaja. U slučaju da je programom nastave u srednjoj
školi područje psihologije podijeljeno u devet cjelina, sadržaj testa također treba reprezentirati
takvu podjelu. Potrebno je provjeriti jesu li sva područja zastupljena u testu, je li broj zadataka
proporcionalan opsegu i važnosti pojedine cjeline, jesu li u svaku sadržajnu cjelinu uključene
različite vrste zadataka te je li svaka cjelina u testu reprezentirana proporcionalnim brojem
bodova (u slučaju da svi zadaci ne donose jednak broj bodova). Naime ukoliko autori ne vode
računa o broju bodova koje može donositi svako područje, reprezentativnost testa može biti
narušena unatoč činjenici da je iz svakog područja odabran razmjeran broj zadataka.
U slučaju da ne postoji jasno definiran program poželjno je da autor ovakvog testa na početku
nekog nastavnog procesa ima ideju o tome što očekuje da njegovi polaznici znaju i mogu
nakon završetka nastave.

8
Primjer strukture Testa znanja iz psihologije

Zadaci Zadaci Zadaci Ukupno Maksimalni


višestrukoga kratkoga produženoga zadataka broj bodova
izbora odgovora odgovora po cjelini po cjelini
(0 ili 1 bod) (0,1 ili 2 (0,1,2 ili 3
boda) boda)
1. Psihologija kao teorijska 1 zadatak 1 1 3 (9,4%) 6 (9,8%)
i primijenjena znanost
2. Biološke osnove ponašanja 1 2 0 3 (9,4%) 5 (8,2%)
3. Osjeti i percepcija, 1 2 1 4 (12,5%) 8 (13,1%)
4. Emocije i motivacija 1 2 1 4 (12,5%) 8 (13,1%)
5. Pamćenje i učenje 1 2 0 3 (9,4%) 5 (8,2%)
6. Inteligencija i stvaralaštvo 1 2 1 4 (12,5%) 8 (13,1%)
7. Razvojna psihologija 1 2 0 3 (9,4%) 5 (8,2%)
8. Ličnost i psihički 1 2 1 4 (12,5%) 8 (13,1%)
poremećaji
9. Socijalna psihologija 1 2 1 4 (12,5%) 8 (13,1%)
Ukupno zadataka 9 (28,5%) 17 (53%) 6 (18,5%) 32 (100%) -
Maksimalni broj bodova 9 bodova 34 boda 18 bodova 61 bod (100%) 61 bod (100%)
(15%) (55%) (30%)

U prethodnoj tablici autor određuje broj i vrstu zadataka koje će test sadržavati. Na ovaj način
se osigurava sadržajna reprezentativnost kao i zastupljenost određenih vrsta zadataka te
procesa koji se žele mjeriti. Tijekom konceptualizacije strukture testa predviđeno je da se test
sastoji od tri vrste zadataka, te da se oni boduju na sljedeći način: odgovori u zadacima
višestrukoga izbora boduju se s 0 ili 1 bod, odgovori u zadacima kratkoga odgovora s 0,1 i 2
boda, a zadaci produženoga odgovora s 0,1,2, i 3 boda ovisno o odgovoru.

Pr. 9. Test aktualne informiranosti konstruiran je sa svrhom ispitivanja individualnih razlika


na konstruktu aktualne informiranosti. Aktualna informiranost definirana je kao poznavanje
relevantnih informacija objavljenih u medijima u posljednjih 12 mjeseci. Razvijenost ovog
konstrukta može biti poželjna pri izboru za poslove novinara ili osoba koje se bave odnosima
s javnošću. U ovom slučaju područje sadržaja nije strogo definirano te analiza sadržaja može
uključiti analizu strukture sadržaja, relevantnosti pitanja te subjektivne procjene težine
pitanja. Relevantnost pojedinog pitanja može se prosuđivati na osnovi konsenzusa eksperata
u području medijske pismenosti. Tako npr. pitanje o osvajaču trećeg mjesta na spustu na
Zimskim olimpijskim igrama ove godine može biti prosuđeno kao suviše specifično, a pitanje
o aktualnom ministru financija u Vladi RH kao relevantno. Drugi aspekt analize uključuje
starost informacije koja prema testovnim specifikacijama ne bi smjela biti starija od 12
mjeseci. To znači da je sadržaj testa potrebno kontinuirano osvježavati. Tako npr. pitanje o
dobitniku Nobelove nagrade za mir za ovu godinu jest relevantno, ali isto pitanje o dobitniku
od prije tri godine ne odgovara definiciji konstrukta. Kako bi sadržaj reprezentirao različita
područja sadržaja moguće je analizirati zastupljenost pojedinih područja uključenih u test. U
donjoj tablici navedena je raspodjela pitanja Testa aktualne informiranosti u kategorije.

1 Domaća politika 9 zadataka


2 Međunarodna politika 13 zadataka
3 Kultura i umjetnost 12 zadataka
4 Obrazovanje, znanost i tehnologija 4 zadatka
5 Sport 4 zadatka

9
6 Gospodarstvo i ekonomija 2 zadatka
7 Estrada i zabava 5 zadataka
8 Osobe 2 zadatka
9 Graditeljstvo 2 zadatka
10 Medicina i zdravlje 1 zadatak
11 Crna kronika 2 zadatka
12 Važni događaji 6 zadataka
Ukupno: 62 zadatka

Analiza ove vrste može ukazivati na zadovoljavajuću strukturu sadržaja ili na


podzastupljenost ili preveliku zastupljenost pojedinih cjelina (npr. prevelik broj pitanja
vezanih uz politiku).
Dodatna informacija vezana uz sadržaj može biti vezana uz subjektivnu procjenu težine
pitanja koju mogu provesti stručnjaci (npr. kategorizacija u lake, srednje teške i teške
zadatke). Ova apriorna procjena težine može se usporediti sa kasnijim, empirijski dobivenim
indikatorima težine (npr. indeksima težine i lakoće).

2. Podaci utemeljeni na procesu odgovaranja

Valjanost može biti ugrožena ili narušena u slučajevima kada pretpostavljeni procesi koje se
nastojalo izazvati testovnim sadržajem nisu u skladu sa stvarno izazvanim procesima ili kada
su odgovori ispitanika pod značajnim utjecajem strategija rješavanja testa i nekih osobina
ispitanika.

Pr. 1. Test problemskih zadataka predstavlja jedan od subtestova Baterije za ispitivanje


inteligencije. U tom subtestu nalazi se sljedeće pitanje:

Počevši od 7 sati ujutro, s neke autobusne stanice svakih 40 minuta kreće autobus prema
Grabovcu, a svakih 25 minuta autobus prema Dubovcu. Koliko puta će ova dva autobusa
krenuti istovremeno s polazne stanice u intervalu od 5 sati?

Ovaj zadatak kod ispitanika može potaknuti različite procese ili pristupe kojima će
pokušati pronaći rješenje. Dio ispitanika će do rješenja pokušati doći logičkom analizom, a
dio pokušajima i pogreškama. Preostali dio ispitanika će prepoznati da se rješenje problema
krije u određivanju najmanjeg zajedničkog višekratnika brojeva 25 i 40 (što u ovom slučaju
iznosi 200) što znači da će autobusi ponovno krenuti sa polazne stanice nakon 200 minuta.
To u ovom slučaju može dovesti do individualnih razlika zasnovanih na različitim procesima
koje autor nije predvidio pri izradi zadataka. Analiza procesa kojim ispitanici dolaze do
točnog odgovora može biti vrlo korisna pri objašnjavanju pojedinih korelacija ovakvog testa s
mjerama znanja (npr. matematike) i ovisno o namjeni testa može biti argument za
isključivanje ili zadržavanje pojedinih zadataka.

10
Pr. 2. U pojedinim testovima format zadatka može u značajnoj mjeri utjecati na procese i
strategije ispitanika tijekom rješavanja zadataka. Tako uputa u kojoj nije specificiran
tretman slučajnog pogađanja kod dijela ispitanika može potaknuti strategiju slučajnog odabira
odgovora, dok kod drugih ispitanika može dovesti do izostavljanja bilo kakvog odgovora.
Slučajno pogađanje predstavlja faktor koji unosi irelevantnu varijancu u testovne rezultate
tako da je detekcija udjela slučajnog pogađanja u rezultatima važan dio procesa validacije.
Jedan mogući način jest da se u test uvrsti dio zadataka uz koji niti jedan odgovor nije točan te
se analizira koliki broj ispitanika bira odgovore i u tim zadacima. Drugi pristup može biti
analiza vremena koje je ispitaniku bilo potrebno da odabere odgovor što je moguće pri
računalnoj primjeni testa. Ukoliko je ispitanik u teškom zadatku (u kojemu je prosječno
vrijeme rješavanja npr. 45 sekundi) odabrao odgovor nakon svega 9 sekundi to može
ukazivati na slučajni odabir odgovora.

Pr. 3. Jednim testom rezoniranja nastoji se ispitati uspješnost u rješavanju zadataka na način
da se minimalizira utjecaj ranijeg znanja. S ciljem provjere procesa koji ispitanici koriste
pri rješavanju zadataka test je primijenjen individualno na 15 ispitanika iz ciljane
populacije primjenom tzv. tehnike razmišljanja naglas (engl. think aloud protocol).
Ispitanik rješava zadatke uz prisutnost ispitivača pri čemu za vrijeme rješavanja glasno
verbalizira ideje i procese tijekom rješavanja. Ispitivač reakcije ispitanika registrira u
pripremljene protokole te se kasnije analiziraju procesi koje ispitanici koriste pri rješavanju
pojedinih zadataka i uspoređuju s teorijski očekivanim procesima.

Pr. 4. U jednom testu znanja uz svako pitanje ponuđena su četiri odgovora. Pored analize
indeksa lakoće i težine, tj. frekvencije točnih odgovora na pojedino pitanje provedena je
analiza karakterističnih krivulja za netočne odgovore i frekvencija čestine odabira
netočnih odgovora uz svaki zadatak. Ova vrsta analize može ukazati na lošu kvalitetu
pojedinih „distraktora“, tj. netočnih ponuđenih odgovora jer ih ponekad značajan dio
ispitanika bira kao točne. Ukoliko je to slučaj sa ispitanicima koji su visoko na konstruktu
potrebno je utvrditi razloge odnosno procese i logiku odabira tih odgovora. Moguće je da se
radi o odgovorima koji se mogu smatrati točnim ali ih autor testa nije predvidio.
Dodatna mogućnost jest da ponuđeni odgovori nisu dovoljno atraktivni tako da dio ispitanika
koji ne znaju točan odgovor do točnog odgovora dolazi eliminacijom odgovora koji nisu
prihvatljivi.

Npr. u zadatku: Navedite koji je od navedenih gradova glavni grad Nigerije?


a) Nabuja
b) Kairo
c) Rabat
d) Tripoli

U navedenom primjeru dio ispitanika može eliminirati odgovore b), c) i d) jer im je poznato
da nisu u Nigeriji i odabrati odgovor a), iako nikada nisu čuli za taj grad. U ovom slučaju se u
većoj mjeri ispituje testna bistrina i rezoniranje nego znanje geografije.

11
Pr. 5. U testu znanja autor, na osnovi polazne taksonomije, nastoji ispitati očekivane ishode u
području statistike na tri razine:

a) Razina pamćenja ili reprodukcije: ispitanik treba reproducirati određene informacije u


obliku u kojemu su navedene u literaturi ili drugim izvorima. (Npr. Navesti autora
koeficijenta rang korelacije)

b) Razina razumijevanja ili interpretacije: Ispitanik treba razumjeti bitne elemente nekog
pojma, te njegov odnos s drugim relevantnim pojmovima (Npr. Koje su pretpostavke za
izračunavanje koeficijenta rang korelacije?)

c) Razina primjene, vrednovanja ili analize. Potrebno je razviti vještinu primjene


određenog znanja u novoj situaciji ili vrednovanja nekog pojma.
(Npr. Izračunati korelaciju između dvije varijable; Odrediti najprikladniju mjeru povezanosti
za neku zadanu situaciju; pronaći pogrešku u zadanom algoritmu)

Temeljna je pretpostavka da su različite vrste zadataka uključenih u test omogućile ispitivanje


različitih razina znanja. Analiza riješenosti skupova zadataka predviđenih za ispitivanje
različitih razina znanja može pružiti dokaze o razvijenosti različitih razina znanja. Pored toga
moguće je da je uspješnost rješavanja zadataka primjene i vrednovanja povezana u većoj
mjeri sa znanjem matematike ili faktorom rezoniranja što može biti dodatni argument koji se
može uključiti u interpretaciju i tumačenje ukupnih rezultata u testu.

Pr. 6. Analiza odgovora u različitim vrstama upitnika u kojima se traži opis vlastitog
ponašanja, doživljavanja ili stavova može biti pod utjecajem različitih faktora kao što su
davanje socijalno poželjnih odgovora, simulacija, disimulacija i sl. Kao neka vrsta kontrole
odgovora moguće je uključiti tzv. skale laganje ili slične postupke koji mogu pružiti dodatni
uvid u proces odgovaranja. Pored toga odgovori se mogu povezati s nekim karakteristikama
ispitanika kao što su ugodnost, iskrenost i dr.

Pr. 7. Jedan test namijenjen ispitivanju faktora rezoniranja sastoji se od 40 zadataka i


standardno se primjenjuje u vremenu od 30 minuta iako je teorijski konceptualiziran kao test
snage. Provedena je analiza s ciljem ispitivanja koliko primjena ovoga testa bez vremenskog
ograničenja utječe na promjene bruto rezultata ispitanika. Cilj ove analize jest utvrđivanje
udjela brzine rada na rezultat u testu. U slučaju da se pokaže da vremensko ograničenje
značajno mijenja rang poredak ispitanika s obzirom na ostvareni rezultata to ukazuje na
činjenicu da je ukupni rezultat pod utjecajem i faktora rezoniranja i brzine rada. Autor testa i
korisnici rezultata trebaju razmotriti status brzine rada u određenju mjerenog konstrukta. Za
određene namjene (npr. pri predikciji uspjeha u određenim poslovima) brzina rada može se
smatrati irelevantnom za konstrukt te vrijedi razmotriti opravdanost vremenskog ograničenja.
Za neke duge namjene brzina testa može biti razmotrena kao relevantan dio konstrukta i
uključena u ukupni rezultat i interpretaciju individualnih razlika.

12
Pr. 8. U pojedinim slučajevima pitanjem se nastoji izazvati neki ciljani proces. Formulacija
pitanja ili neki drugi aspekt mogu aktivirati neki drugi proces različit od željenog. U tom
slučaju analiza procesa izazvanog pojedinim pitanjem može pružiti argumentaciju za nisku
valjanost pitanja. Kao primjer mogu poslužiti dva pitanja iz klasičnog upitnika za mjerenje
lokusa kontrole J. Rottera:

Ispitanik treba odabrati tvrdnju s kojom se osobno više slaže:

Pitanje 1:
a) Jedan od najvažnijih razloga postojanja ratova je u tome što ljudi nemaju dovoljno
interesa za politiku.
b) Uvijek će biti ratova, bez obzira na to koliko uporno ljudi pokušavali da ih spriječe.

Pitanje 2:
a) Često sam se sam(a) uvjerio(la) u to da će se doista dogoditi ono što se “mora” dogoditi.
b) Za mene se pouzdavanje u sudbinu nikad nije pokazalo tako uspješnim kao odluka da
sam(a) poduzmem neku akciju.

Osnovna ideja autora jest da odabir tvrdnje b) u prvom pitanju i tvrdnje a) u drugom pitanju
ukazuje na eksternalni lokus kontrole. Analiza odgovora može biti usmjerena na procese
izazvane s ova dva pitanja. U drugom pitanju zadatak ispitanika jest da procijeni osobno
uvjerenje o uzrocima događaja koje je sam iskusio. Prvo pitanje može u većoj mjeri ispitivati
opći stav ispitanika pri čemu ne mora biti usko povezano s osobnim lokusom kontrole.
Analiza procesa koje izazivaju ovako formulirana pitanja može biti dodatni pokazatelj njihove
valjanosti za mjerenje lokusa kontrole.

3. Podaci utemeljeni na unutrašnjoj strukturi

Analiza unutrašnje strukture kompozitnih testova najčešće uključuje kvantitativne analize kao
što su faktorska analiza, izračunavanje različitih koeficijenata zasnovanih na međusobnim
korelacijama dijelova testa, analiza strukture varijance dijelova ili ukupnih rezultata,
povezanost pojedinog zadatka s ukupnim rezultatom i sl. Prema Standardima (1999) analize
unutrašnje strukture testa mogu pokazati koliko odnosi između testovnih zadataka i
komponenata testa odgovaraju konstruktu na kojem je utemeljena interpretacija
testovnih rezultata. Autor pri konstrukciji testa najčešće postavlja određenu pretpostavku o
složenosti i dimenzionalnosti konstrukta koji se želi ispitati testom. U skladu s tim biraju se
zadaci ili pitanja tako da reprezentiraju područje sadržaja konstrukta odnosno eventualne
poddomene. Očekivanje autora može biti da unatoč sadržajnoj heterogenosti sadržaja pojedini
zadaci budu visoko povezani, tj. zasićeni jednim faktorom ili jednom latentnom dimenzijom.
Druga vrsta očekivanja može ići u smjeru kreiranja dvije ili više subskala koje zahtijevaju
različitu interpretaciju što uključuje i očekivanje o veličini povezanosti među subskalama ili
dimenzijama.

13
Među glavne prijetnje valjanosti u ovom kontekstu spada loše konceptualizirana
dimenzionalnost, odnosno pretpostavka o latentnoj strukturi testa. S druge strane unutrašnju
strukturu narušavaju zadaci s lošim psihometrijskim karakteristikama.

Pr. 1. Provjera latentne strukture Upitnika samopoštovanja

Rosenbergov upitnik samopoštovanja sastoji se od 10 pitanja, a zadatak ispitanika je da uz


svaku tvrdnju navede stupanj slaganja sa sadržajem tvrdnje na ljestvici od 5 stupnjeva.
Upitnik je primijenjen na uzorku od 160 adolescenata. Korisnik upitnika nastoji provjeriti da
li faktorska struktura opravdava izražavanje ukupnog rezultata jednom vrijednošću.
Provedena je faktorska analiza pri čemu je korištena metoda zajedničkih faktora. Rezultati
ukazuju na jedan značajan faktor koji objašnjava 39,2% ukupne varijance. U sljedećoj tablici
navedeni su podaci koji ukazuju na stupanj u kojemu pojedini dijelovi upitnika mjere glavni
predmet mjerenja.

PITANJA A B
1. Općenito govoreći zadovoljan/zadovoljna
sam sobom. ,561 ,315
2. Želio/željela bih da imam više poštovanja
prema samom/samoj sebi ,386 ,149
3. Osjećam da nema puno toga čime bih se
mogao/mogla ponositi. ,769 ,591
4. Ponekad se osjećam potpuno
beskorisnim/beskorisnom. ,759 ,576
5. Sposoban/sposobna sam raditi i izvršavati
zadatke podjednako uspješno kao i većina ,463 ,214
drugih ljudi.
6. S vremena na vrijeme osjećam da ništa
ne vrijedim. ,684 ,468
7. Osjećam da sam isto toliko sposoban/sposobna
koliko i drugi ljudi. ,390 ,152
8. Osjećam da posjedujem niz vrijednih osobina. ,487 ,237
9. Sve više dolazim do saznanja da jako malo vrijedim. ,676 ,457
10. Mislim da vrijedim barem koliko i drugi ljudi. ,413 ,171

A – Stupac sadrži korelacije pitanja (manifestnih varijabli) s prvim zajedničkim faktorom


B – Komunaliteti pojedinih pitanja (manifestnih varijabli) objašnjeni na osnovi jednog
zadržanog faktora

Ova vrsta analize pruža argumente za korištenje ukupnog rezultata kao mjere razvijenosti
konstrukta samopoštovanja. Iz gornje tablice može se uočiti da pojedina pitanja imaju
razmjerno niske komunalitete (npr. pitanja 2, 7 i 10). U nastavku validacije bilo bi korisno
provjeriti moguće razloge analizom sadržaja ovih pitanja, procesa koji izazivaju kod
ispitanika, i dr.

14
Pr. 2. Za iste podatke izračunata je prosječna korelacija među česticama upitnika. Prosječna
korelacija izračunata na 45 različitih korelacija iznosi 0,312 i predstavlja pokazatelj
homogenosti upitnika. Visoka korelacija među dijelovima kompozita ukazuje na homogenost
sadržaja. Posredno nam može ukazivati na vjerojatno visoku pouzdanost tipa unutrašnje
konzistencije, te vjerojatno postojanje jednog faktora u osnovi kovariranja dijelova
kompozita.
Pr. 3. Za iste podatke moguće je analizirati i stupanj u kojemu je svaki pojedini zadatak
povezan s ukupnim rezultatom, te koliko je varijanca u pojedinom zadatku objašnjiva na
osnovi preostalih zadataka u kompozitu.

A B
1. Općenito govoreći zadovoljan/zadovoljna
sam sobom. ,507 ,292
2. Želio/željela bih da imam više poštovanja
prema samom/samoj sebi ,344 ,181
3. Osjećam da nema puno toga čime bih se
mogao/mogla ponositi. ,681 ,514
4. Ponekad se osjećam potpuno
beskorisnim/beskorisnom. ,667 ,562
5. Sposoban/sposobna sam raditi i izvršavati
zadatke podjednako uspješno kao i većina ,434 ,261
drugih ljudi.
6. S vremena na vrijeme osjećam da ništa
ne vrijedim. ,608 ,550
7. Osjećam da sam isto toliko sposoban/sposobna
koliko i drugi ljudi. ,366 ,332
8. Osjećam da posjedujem niz vrijednih osobina. ,449 ,258
9. Sve više dolazim do saznanja da jako malo vrijedim. ,600 ,450
10. Mislim da vrijedim barem koliko i drugi ljudi. ,390 ,289

A – nespuriozna korelacija između pojedinog zadatka i ukupnog uratka u upitniku, odnosno


koeficijent diskriminativne valjanosti pojedinog zadatka
B – Koeficijent multiple determinacije (R2) izračunat za slučaj kada je pojedini zadatak
korišten kao kriterij, a svi preostali zadaci korišteni kao prediktori.

Podaci iz ove analize u značajnoj mjeri korespondiraju s rezultatima dobivenim faktorskom


analizom, ali mogu pružiti i neke nove informacije. Podaci o diskriminativnoj valjanosti
pojedinih pitanja mogu poslužiti za eventualno isključivanje ili zadržavanje pojedinih pitanja
tijekom konstrukcije i razvoja testa. U opisanom slučaju radi se o instrumentu koji je dugo u
uporabi a ova vrsta podataka može ukazivati na potencijalne probleme s valjanošću pojedinih
pitanja u konkretnoj primjeni ili na konkretnom uzorku.

U ovom kontekstu mogu se provesti i druge različite analize koje ukazuju na stupanj u kojemu
se pojedini zadatak uklapa u strukturu testa. S tim ciljem mogu se nacrtati ili procijeniti
karakteristične krivulje zadataka, izračunati prosječne korelacije jednog zadatka s preostalim
zadacima ili procijeniti različiti koeficijenti koji ukazuju na stupanj u kojemu pojedini zadatak

15
mjeri generalni predmet mjerenja ili neki specifični faktor ukoliko analiza ukazuje na veći
broj faktora.

Pr. 4. Upitnik percepcije socijalne nepravde sastoji se od 8 pitanja, a očekivanje autora jest da
zahvaća dva izvora socijalne nepravde: obitelj i školu. Faktorska analiza ukazala je na dva
značajna faktora prema KG kriteriju. Nakon provedene varimax rotacije prvi faktor ima
karakteristični korijen 1 = 1,9 i objašnjava 23,8% ukupne varijance. Drugi faktor ima
karakteristični korijen 2 = 1.8 i objašnjava 22,40% ukupne varijance. Ukupno je s ova dva
faktora objašnjeno 46,2% varijance.

Rotirana matrica faktorske strukture nakon varimax rotacije:

F1 F2
1. Moji roditelji su ponekad nepravedni prema meni. ,595 ,172
2. Ne osjećam da sam ravnopravni član moje obitelji. ,645 ,085
3. Moji roditelji kod mene primjećuju samo loše strane. ,776 ,078
4. Roditelji me kažnjavaju i kad nisam kriv/a. ,691 ,125
5. U mojoj školi nastavnici se ne odnose jednako prema svim učenicima. ,056 ,787
6. Nastavnici nemaju jednake kriterije za sve učenike pri
ocjenjivanju. ,017 ,823
7. Prema meni su u školi ponekad nepravedni. ,188 ,550
8. Osjećam da sam u jednakom položaju kao i drugi učenici. ,134 ,362

Komunaliteti svih 8 pitanja objašnjeni na osnovi dva zadržana faktora prikazani su u donjoj
tablici.

komunalitet
1. Moji roditelji su ponekad nepravedni prema meni. ,383
2. Ne osjećam da sam ravnopravni član moje obitelji. ,423
3. Moji roditelji kod mene primjećuju samo loše strane. ,608
4. Roditelji me kažnjavaju i kad nisam kriv/a. ,492
5. U mojoj školi nastavnici se ne odnose jednako prema svim učenicima. ,622
6. Nastavnici nemaju jednake kriterije za sve učenike pri
ocjenjivanju. ,678
7. Prema meni su u školi ponekad nepravedni. ,338
8. Osjećam da sam u jednakom položaju kao i drugi učenici. ,149

Rezultati ukazuju na razmjerno nizak komunalitet osmog pitanja.

Ukoliko se na osnovi faktorske strukture kreiraju dvije subskale nepravde u obitelji i nepravde
u školi korelacija među njima iznosi r = 0,244. (p<0,01) što nudi dodatni argument za zasebnu
interpretaciju rezultata ispitanika na ove dvije dimenzije.

16
4. Podaci utemeljeni na odnosima s drugim varijablama
Analize povezanosti testovnih rezultata s vanjskim varijablama tradicionalno predstavljaju
važan izvor validacijskih podataka. S obzirom na sadržaj i značenje vanjskih varijabli
Standardi (1999) razlikuju tri slučaja:

a) Vanjske varijable mogu biti mjere nekih neovisnih kriterija za koje se očekuje da bi ih
promatrani test mogao predviđati,
b) Vanjske varijable mogu predstavljati druge testove za koje se pretpostavlja da mjere iste
konstrukte kao i promatrani test
c) Vanjske varijable mogu predstavljati testove koji mjere povezane ili sasvim različite
konstrukte u odnosu na promatrani test.

Korisnik teksta u svakom slučaju treba razmotriti značenje uporabe termina kriterij u svakom
pojedinom slučaju.

Opažene korelacije interpretiraju se i koriste u funkciji teorijskog i praktičnog značenja


vanjskih varijabli uključenih u proces validacije. Podaci o odnosima s drugim varijablama
mogu potjecati iz eksperimentalnih kao i iz korelacijskih proučavanja.

Analiza povezanosti testa i kriterija. Vrlo često se testovi u praksi koriste s ciljem da
omoguće predviđanje rezultata u nekoj vanjskoj neovisnoj mjeri ili kriteriju. Kriterij može
predstavljati mjeru uspješnosti ili učinka u različitim vrstama aktivnosti (uspjeh u određenoj
vrsti posla, uspjeh u zadanom studiju i sl.).

Za evaluaciju test-kriterij povezanosti tradicionalno se razlikuju dva nacrta:

a) prognostički (prediktivni) - prognostičko istraživanje pokazuje s kojom se preciznošću


na temelju testa mogu predviđati kasnije dobiveni kriterijski rezultati
b) konkurentni (dijagnostički, istodobni) - u dijagnostičkim istraživanjima prediktorski i
kriterijski podaci dobivaju se u približno isto vrijeme.

Sljedeća dva primjera odnose se na primjenu prognostičkog nacrta:

Pr. 1. U postupku izbora kandidata za posao voditelja poslovnice u jednoj banci korišten je
test APM (Ravenove progresivne matrice za napredne). Izračunata je korelacija između
rezultata u testu koji su kandidati ostvarili na postupku selekcije i uspješnosti u poslu.
Uspješnost u poslu procijenjena je od strane nadređenih nakon 12 mjeseci radnog staža.
Također su kao mjera uspješnosti u kriteriju prikupljeni podaci o poslovanju poslovnice u
protekloj godini te procjene zaposlenika vezane uz zadovoljstvo radom voditelja poslovnice.
Kriterijski rezultati kandidata primljenih uz primjenu testa APM uspoređeni su s uzorkom
voditelja poslovnica za čiji prijem nije korištena mjera inteligencije.

Pr. 2. Test apstraktnog rezoniranja korišten je u okviru prijemnog ispita za studij psihologije.
Na uzorku primljenih studenata izračunata je korelacija između rezultata u testu apstraktnog
rezoniranja i prosječne ocjene u preddiplomskom studiju. Opažena korelacija dodatno je
korigirana zbog redukcije varijabiliteta uzrokovanog selekcijom ispitanika.

17
Konvergentni podaci ili dokazi konvergentnosti zasnivaju se na povezanosti testovnih
rezultata i drugih mjera namijenjenih procjeni sličnih konstrukata. U ovom slučaju
postoje teorijski ili empirijski argumenti za očekivanje povezanosti između rezultata u
promatranom testu i vanjskoj varijabli.

Pr. 3. Autori su razvili novi upitnik za mjerenje lokusa kontrole. Rezultati dobiveni
primjenom novog upitnika korelirani su s rezultatima istih ispitanika u upitniku za mjerenje
lokusa kontrole J. Rottera koji je već dugo u uporabi i o kojemu postoji značajan broj
validacijskih podataka. Opažena korelacija iznosila je 0,54. Ova vrsta dokaza tradicionalno se
u literaturi opisivala kao dokaz kongruentne valjanosti, tj. povezivanje testa s nekom drugom
mjerom istog konstrukta.

Diskriminantni podaci ili dokazi diskriminantnosti zasnivaju se na povezanosti testovnih


rezultata s mjerama različitih konstrukata. U ovom slučaju se očekuje da promatrani test i
vanjska varijabla nisu povezani ili da je ta povezanost razmjeno niska budući da zahvaćaju
različite konstrukte.

Pr. 4. Autori su razvili novi instrument za mjerenje konstrukta potrebe za kontrolom. Ovaj
konstrukt definiran je kao relativno stabilna osobina ličnosti koja ukazuje na stupanj
motivacije pojedinca da kontrolira događaje u svom životu. Autori u teorijskoj
konceptualizaciji smatraju da je ovaj konstrukt različit od konstrukta lokusa kontrole. S ciljem
prikupljanja podataka o diskriminantnosti odnosno razlikovanju ova dva konstrukta rezultat u
novom upitniku koreliran je s Rotterovim upitnikom lokusa kontrole. Opažena korelacija od
0,14 potvrđuje različitost ova dva konstrukta.

Generalizacija valjanosti. Kako se informacije o povezanosti testa s vanjskim varijablama


redovito dobivaju u nekim konkretnim uvjetima (uzorak, vrijeme primjene, uvjeti primjene)
postavlja se pitanje mogućnosti generalizacije ili poopćavanja validacijskih podataka na neke
drugačije situacije i uvjete. U ovom slučaju mogu biti korisne meta-analitičke studije.
U provedbi ispitivanja mogućnosti generalizacije validacijskih podataka, uključena
istraživanja mogu varirati prema nekoliko situacijskih obilježja:

(a) razlike u načinu mjerenja prediktorskog konstrukta,


(b) vrsta posla ili programa,
(c) vrsta korištene kriterijske mjere,
(d) vrsta ispitanika i
(e) vrijeme u kojem je istraživanje provedeno.

Stupanj u kojem se prognostički ili dijagnostički podaci o generalizaciji valjanosti mogu


upotrijebiti u novim situacijama velikim dijelom je funkcija prikupljenih istraživanja
(Standardi, 1999). Važno pitanje u obrazovanju i zapošljavanju odnosi se na mogućnost
poopćavanja validacijskih podataka, utemeljenih na odnosu test-kriterij, na nove prilike bez
dodatnih istraživanja valjanosti u tim novim situacijama.

18
5. Podaci utemeljeni na posljedicama testiranja
Iako se testovi u pravilu koriste s nekom zadanom namjenom u pojedinim slučajevima
posljedice testiranja mogu ukazivati na neočekivane ili neplanirane ishode. Ovaj aspekt
valjanosti privukao je značajnu pažnju istraživača i Standardi (1999) ih razmatraju kao
relevantan izvor informacija koji se može uključiti u analizu valjanosti testa.
Ovdje, međutim, treba razlikovati podatke koji su neposredno relevantni za valjanost od
onih koji mogu djelovati na odluke u socijalnoj politici, ali se ipak nalaze izvan okvira
valjanosti (Standardi, 1999). Primjene testova u postupcima selekcije ili izbora kandidata
mogu posljedično ukazati na razlike između različitih spolova, zanimanja, rasa, nacija, regija,
škola i sl. Autor, korisnici ili izdavači testova u takvim slučajevima trebaju prikupiti podatke
o potencijalnim razlozima i stabilnosti opaženih razlika. Jedna je mogućnost da validacijski
podaci ukazuju da se testom registriraju postojeće razlike između pripadnika definiranih
skupina a druga mogućnost jest da su razlike posljedica pristranosti testovnog sadržaja (npr.
uslijed podzastupljenosti nekih aspekata konstrukta) ili prisutnosti konstruktno irelevantne
varijance. U tom slučaju ove podatke i zaključke treba uključiti u osnovne interpretacije
testovnih rezultata. U situacijama selekcije kandidata za neki posao ove razlike mogu biti
prihvatljive u slučajevima kada postoje dokazi da pripadnici skupine koja ostvaruje bolje
rezultate u testu ujedno ostvaruju i bolje rezultate u kriteriju. U svakom slučaju ignoriranje
opaženih razlika može dovesti do smanjene valjanosti upotrebe testa kao i izvođenja netočnih
interpretacija i odluka zasnovanih na osnovi rezultata primjena testa.

Pr. 1. Tako npr. rezultati primjene M-serije te nekih sličnih verbalnih baterija za mjerenje
inteligencije ukazuju na sustavno postojanje razlike među spolovima iako u teoriji nema
konzistentnih dokaza o utemeljenosti ovakve razlike. Zadatak autora i korisnika testa jest da
pokušaju prikupiti dokaze iz kojih dijelova testovnog sadržaja (zadaci, subtestovi) proizlaze
ove razlike te koji su procesi u osnovi nastajanja razlika. Ponekad autori testa ovaj problem
rješavaju izradom zasebnih normi za muškarce i žene, ali ne ulaze u analizu razloga opaženih
razlika.
Ako se nekim testom registriraju razlike za koje ne postoje teorijski ili logički
argumenti preporučljivo je izbjegavati uporabu takvih testova kako bi se izbjegla potencijalna
pristranost.

Pr. 2. Većina testova kognitivnih sposobnosti ili općeg obrazovanja primarno je konstruirana
s ciljem ispitivanja individualnih razlika na zadanim konstruktima. Analiza rezultata u takvim
testovima često ukazuje na razlike između osoba iz mjesta različite veličine (gradovi, manja
mjesta, sela). Postojanje i veličina ovih razlika ne mora nužno biti sadržana u teorijskoj
konceptualizaciji testa već se javlja kao posljedica primjene testa. Interpretacija ovakvih
nalaza vrlo je osjetljiva i jedan smjer argumentacije može se zasnivati na nejednakom
iskustvu vezanom uz testove ili razlikama okolini u kojoj su se razvijali ispitanici koji potječu
iz mjesta različite veličine. U tom slučaju je opravdana izrada zasebnih testovnih normi za
mala i velika mjesta. Druga pretpostavka može biti da testovni rezultati ukazuju na stvarne
razlike u sposobnosti između osoba iz mjesta različite veličine a neki od argumenata mogu
biti migracije stanovništva koje dovode do negativne selekcije i sl. U svakom slučaju
interpretacija ovakvih razlika je vrlo osjetljiva i zahtjeva veliku količinu validacijskih
podataka. Posljedice površnih zaključaka na društvenoj razini mogu biti opasne i dalekosežne.

19
Pr. 3. U Hrvatskoj se posljednjih godina provodi Državna matura koja je zasnovana na
primjeni testova znanja. Valjanost i kvaliteta testova se kontinuirano provjerava od strane
stručnjaka a temeljna namjena testova jest ispitivanje razine u kojoj je pojedini učenik usvojio
programom predviđene obrazovne ishode iz pojedinog predmeta. Međutim rezultati u
testovima znanja na maturi koriste se i za neke druge namjene. Jedna namjena je da se
rezultati u testovima koriste kao elementi za predikciju uspjeha na pojedinim studijima. Za
ovu namjenu potrebno je prikupiti dodatne validacijske podatke. Na osnovi rezultata ponekad
se izrađuju rang liste škola ili županija prema uspjehu učenika u pojedinom predmetu.
Interpretacija ovakvih rang lista podrazumijeva prikupljanje dodatnih podataka jer u
suprotnom može dovesti do netočnih zaključaka. Jedna od posljedica uvođenja mature na
razini obrazovnog sustava jest da pojedini nastavnici ili škole izvođenje nastave prilagođavaju
načinima provjere obrazovnih ishoda putem testova na maturi jer se uspjeh na maturi
odražava na sudbine i učenika i škola (npr. analiziraju se sadržaji ranijih testova pa se nastava
prilagođava sadržaju testova) . To može utjecati na valjanost zaključaka izvedenih iz testovnih
rezultata. Zanimljiv slučaj dogodio se početnih godina uvođenja mature kada je jedan dio
učenika pristupio testu, ali su predali prazne listove za odgovore. Ovaj postupak imao je za
posljedicu snižavanje prosječnog rezultata svih učenika koji su izašli na maturu te posljedično
smanjenje praga prolaznosti. Autori i korisnici testova moraju analizirati uvjete i kontekst
primjene testova u širem opsegu nego što je to zadano osnovnom namjenom testa.

Pr. 4. PISA istraživanja ili PISA testiranja (Programme for International Student
Asessment) predstavljaju međunarodno istraživanje procjene znanja i vještina
petnaestogodišnjih učenika pod pokroviteljstvom OECD-a. Osnovana su s ciljem ocjenjivanja
razine obrazovanja među mladima u glavnim industrijskim zemljama i provode se svake tri
godine u više od 70 zemalja. Osnovni ciljevi PISA istraživanja usmjereni su na politiku
obrazovanja, a rezultati se objavljuju javno i omogućuju rangiranje zemalja u 3 područja:
matematika, prirodoslovlje i čitalačka pismenost. Rezultati omogućavaju zemljama
učesnicama praćenje promjena u postizanju ključnih obrazovnih ciljeva. Rezultati izazivaju
značajnu pozornost kreatora obrazovnih politika i uključuju analizu razloga i interpretacije za
visok ili nizak položaj pojedine zemlje na rang listi. Posljedice rezultata predstavljaju poticaj
za analizu metodoloških i psihometrijskih razloga (kvaliteta i komparabilnost uzoraka,
međukulturalna primjerenost testova) kao i analize faktora vezanih uz sustave obrazovanja
koji mogu dovoditi do razlika u položaju pojedine zemlje na rang listi.

20
C) PREGLED NEKIH STARIJIH TERMINA KOJI SU SE
TRADICIONALNO KORISTILI U LITERATURI ZA
OPISIVANJE RAZLIČITIH VRSTA ILI ASPEKATA
VALJANOSTI.

Iako nova izdanja Standarda (1999, 2014) namjerno izbjegavaju korištenje tradicionalnih
termina kojima se opisuju različite vrste ili aspekti valjanosti ovi termini mogu se pronaći u
literaturi, priručnicima za testove ili evaluacijskim tekstovima objavljenim u ranijem
razdoblju. Zbog toga je važno razumjeti temeljna značenja tih pojmova iako ponekad različiti
autori ne koriste iste termine u potpuno istom značenju ili opsegu. U nastavku su navedena
određenja pojedinih tradicionalnih vrsta ili aspekta valjanosti preuzeta iz stručnih rječnika i
literature.
Prilikom pisanja novih evaluacijskih tekstova važno je razumjeti kako ranije termine uklopiti
u nova značenja izvora validacijskih podataka.

Preporuka je prilikom proučavanja postojećih evaluacijskih i validacijskih tekstova uz svaki


korišteni termin i pojam valjanosti razmotriti stvarni postupak (statističku analizu, nacrt
istraživanja, mjeru kriterija, uzorak i dr.) koji autori koriste u istraživanju kako bi korisnik
preciznije mogao utvrditi prikladnost rezultata mjernog postupka za neku zadanu svrhu.

 Konstruktna valjanost (construct validity) – U Standardima konstruktna valjanost


upućuje na stupanj u kojemu se testovni rezultati mogu interpretirati kao položaj ispitanika na
psihološkom konstruktu mjerenom testom. U ranijim tumačenjima predstavlja skup svih
relevantnih informacija koje pridonose utvrđivanju da li, i u kojem stupnju, neki test mjeri
neku hipotetsku osobinu ili konstrukt (odatle i sinonim teorijska valjanost), odnosno
predstavljaju li odgovori i reakcije ispitanika zadovoljavajuće “simptome” (otuda i naziv
simptomatska valjanost) mjerene osobine. Kao rezultat teorijske validacije testu se obično
pridaje neki naziv kojim se deklarira što test mjeri (“inteligenciju”, ekstraverziju” ili dr.).
Teorijska valjanost testa može se analizirati na različite načine (sistematskom
logičkom analizom postupaka mjerenja i testovnog sadržaja; empirijskom analizom
povezanosti između testovnih rezultata i različitih drugih manfestacija mjerene osobine;
faktorskom analizom testovnih rezultata i dr.). Akumulacijom rezultata svih ovih analiza
osnažuje se spoznaja o tome što test mjeri. U pravilu teorijska valjanost testa nije izražena
jednim koeficijentom valjanosti, već složenim sudom utemeljenim na integraciji rezultata niza
analiza.
Krković (1978) navodi da se u okviru faktorske teorije simptomatske valjanosti
utvrđuje koliko se konstrukata ispituje pojedinom mjernim postupkom te u kojoj mjeri svaki
od njih utječe na varijabilitet dobivenih rezultata

 Sadržajna valjanost (content validity) – Procjena o valjanosti testa ili mjernog postupka
na temelju sistematske logičke analize njegova sadržaja. Pri toj analizi procjenjuje se a) da li
je svaka čestica testa u skladu s polaznom definicijom konstrukta (hipotetske osobine koju test
treba mjeriti); b) da li sve čestice testa uravnoteženo reprezentiraju sve aspekte ponašanja koji
su teorijski indikativni za predmet mjerenja. Sadržajna validacija je zapravo početna faza u
razvoju svakog instrumenta. Ona je implicitno uključena u sam proces izbora i formuliranja
mjernih čestica. No za neke testove može biti i glavni oblik validacije (npr. za testove znanja).

21
Budući da se sadržajna valjanost temelji na logičkoj analizi i procjenama ona je zapravo jedna
vrsta apriorne valjanosti.

 Kriterijska valjanost (criterion-related validity) – Svaki oblik valjanosti testa, odnosno


mjernog postupka, izveden koreliranjem rezultata u testu s nekim nezavisnim vanjskim
kriterijem ponašanja koje se testom mjeri ili predviđa. Budući da se praktična valjanost
testa u pravilu određuje kao kriterijska valjanost, ova dva termina se često koriste kao
sinonimi. Kriterijski podaci za validaciju mogu se prikupiti u isto vrijeme kada je izvršna
primjena testa (konkurentna ili dijagnostička valjanost) ili u nekom kasnijem razdoblju
(prognostička ili prediktivna valjanost).

 Prognostička (prediktivna) valjanost (predictive validity) - Vrsta kriterijske valjanosti,


koju dobijemo kada su kriterijski podaci za validaciju testa (kriterij) prikupljeni u vremenski
kasnijem razdoblju. Prema značenju ovaj termin suprotan je konkurentnoj/dijagnostičkoj
valjanosti.

 Dijagnostička valjanost – Vrsta kriterijske valjanosti, koju dobijemo kada su kriterijski


podaci za validaciju testa (kriterij) prikupljeni istovremeno s primjenom testa.
Dijagnostička valjanost nam govori o valjanosti testa za utvrđivanje nekog trenutnog stanja
(dijagnozu sadašnjeg stanja), ali ne i o njegovoj valjanosti za predviđanje budućeg stanja.
U nekim tekstovima se ovaj termin koristi u užem značenju kao stupanj u kojemu se na
osnovi testovnih rezultata mogu razlikovati osobe s određenom dijagnozom i osobe bez
dijagnoze nekog specifičnog poremećaja.

 Konkurentna valjanost (concurrent validity) – Oblik valjanosti testa koji se ispituje


korelacijom testa s drugom mjerom čiji su rezultati prikupljeni u isto vrijeme. Ovaj termin
koristio se u prvoj verziji Standarda (1954) kao suprotan prediktivnoj valjanosti. U sljedećem
izdanju Standarda (1966.) oba termina objedinjena su u koncept kriterijske valjanosti.
Konkurentna valjanost se, u pravilu, odnosi na mogućnost predviđanja nekog neovisnog
vanjskog kriterija. Prema značenju ovaj termin suprotan je prognostičkoj/prediktivnoj
valjanosti i odgovara značenju dijagnostičke valjanosti.

 Konvergentna i diskriminantna valjanost (convergent and discriminant validity) –


U širem kontekstu konvergentnom valjanošću se provjerava povezanost testa sa drugim
mjerama za koje autori očekuju da s njim budu povezane, dok se diskriminantnom valjanošću
provjerava povezanost testa s mjerama s kojima se povezanost ne očekuje ili ta povezanost
treba biti niska.
Termine originalno uvode Campbell i Fiske u članku objavljenom 1959. godine i u
njihovom modelu konvergentna i diskriminantna valjanost predstavljaju oblik teorijske
valjanosti koji se može analizirati kad postoje dvije ili više hipotetskih osobina koje su
predmet mjerenja, a svaka od njih je mjerena sa dvije ili više različitih metoda (najčešće
testova). Potrebno je pokazati da rezultati različitih metoda mjerenja iste osobine međusobno
koreliraju (konvergentna valjanost), a da između istih metoda kojima se mjere različite
osobine postoji slaba povezanost ili je uopće nema (diskriminantna valjanost). Neki autori

22
umjesto termina diskriminantna valjanost u srodnom značenju koriste termin divergentna
valjanost (npr. Nunnaly, Bernstein, 1994).

 Kongruentna valjanost (eng. congruent validity) – (lat. congruere – podudarati se) Oblik
valjanosti testa utvrđen koreliranjem njegovih rezultata s rezultatima nekog drugog testa
konstruiranog da mjeri isti konstrukt, a čije su metrijske karakteristike poznate od ranije.

 Pojavna (prividna, ponekad „facijalna“) valjanost (face validity) – Subjektivna


impresija o valjanosti testa na temelju prvog intuitivnog dojma o predmetu njegova mjerenja.
To dakako nije aspekt realne valjanosti testa, ali može biti korisna karakteristika za procjenu
reakcija testiranih osoba, čija spremnost na suradnju i motivacija pri testiranju mogu biti u
nekim situacijama ovisni o njihovoj impresiji o “valjanosti” testa.

 Praktična (pragmatička) valjanost (pragmatic validity) – Svojstvo mjernog postupka


općenito da diferencira uspješne od neuspješnih u nekom kriteriju praktične djelatnosti.
Najčešće se operacionalizira kao neka mjera povezanosti između testovnih i kriterijskih
rezultata. Praktična valjanost testa nam kazuje s koliko se uspješnosti može na temelju
testovnih rezultata predviđati položaj ispitanika u nekom kriteriju praktične djelatnosti. Zato
se još naziva prognostičkom valjanošću testa (premda upotrebu ovog pojma neki autori
ograničavaju samo na situaciju kada je valjanost određena u odnosu na kriterijske rezultate
koji nisu prikupljeni u vrijeme testiranja već u nekom kasnijem vremenskom razdoblju).
Praktična valjanost nekog testa zavisi o broju i stupnju zajedničkih faktora koji određuju
uspjeh u testu i u kriteriju praktične djelatnosti. Važno je razumjeti da praktična valjanost nije
inherentno svojstvo testa već je ona njegovo svojstvo u nekoj specifičnoj situaciji njegove
upotrebe. Isti test primijenjen u različitim situacijama imat će različite praktične valjanosti.
Termin se podudara s češće korištenim terminom kriterijske valjanosti.

 Faktorska valjanost (factorial validity) – Valjanost testa za mjerenje određenog faktora


utvrđenog faktorskom analizom testa u sklopu većeg broja testova namijenjenih mjerenju iste
ili slične hipotetske osobine. Faktorska valjanost jednaka je proporciji s kojom faktor
učestvuje u varijanci testovnih rezultata, odnosno jednaka je veličini faktorskog opterećenja
ili saturaciji testa izoliranim faktorom. Budući da se izolirani faktori interpretiraju kao
hipotetske osobine ili psihologijski konstrukti faktorska valjanost jedan je od oblika teorijske
ili konstruktne valjanosti.

 Apriorna valjanost (a priori validity) – Svaka procjena valjanosti mjernog postupka koja
nije utemeljena na empirijskim podacima i analizi rezultata mjerenja. Prema značenju ovaj
termin suprotan je empirijskoj valjanosti.

 Empirijska valjanost – Nejednoznačno upotrebljavan termin. Najčešće označava svaki


oblik valjanosti testa ili mjernog postupka uopće, koji je utvrđen bilo kojom vrstom
empirijske analize. Prema tome svaki empirijski prilog validaciji testa može se podvesti pod
empirijsku valjanost. Prema značenju ovaj termin suprotan je apriornoj valjanosti.

23

You might also like