You are on page 1of 71

CUPRINS

Capitolul I
EVOLUŢIA ISTORICĂ A EVALUĂRII PSIHOLOGICE
I.1. Introducere
I.2. Evaluarea psihologică în antichitate
I.3. Antecedentele ştiinţifice ale evaluării psihologice
I.4. Constituirea şi dezvoltarea evaluării psihologice
I.4.1. Contribuţia lui Galton
I.4.2. Contribuţia lui Cattel
I.4.3. Contribuţia lui Binet
I.4.4. Contribuţia altor autori
I.4.5. Repercusiunile celor două războaie mondiale
I.4.6. Perioada de criză a evaluării psihologice

Capitolul II
CÂTEVA CLARIFICĂRI CONCEPTUALE
II.1. Evaluarea şi măsurarea în psihologie
II.2. Noţiunea de psihodiagnoză
II.3. Test şi testare psihologică

Capitolul III
METODE DE BAZĂ ÎN EVALUAREA PSIHOLOGICĂ
III.1. Noţiunea de metodă în psihologie
III.2. Metode nepsihometrice
III.2.1. Observaţia
III.2.2. Convorbirea
III.2.3. Ancheta be bază de interviu
III.2.4. Anamneza (Metoda biografică)
III.3. Metode psihometrice
III.3.1. Concepte fundamentale în măsurarea psihologică
III.3.1.1. Variabile statistice
III.3.1.2. Scale de măsura
III.3.1.3. Indici statistici de start
III.3.2. Chestionarul psihologic
III.3.3. Testul psihologic
III.3.2.1. Definiţie
III.3.2.2. Caracteristici generale ale testului psihologic
III.3.2.3. Clasificarea testelor psihologice
III.3.2.4. Domenii de utilizare ale testelor psihologice
III.3.2.5. Surse de eroare în testarea psihologică

Capitolul IV
PRINCIPII PSIHOMETRICE ALE UTILIZĂRII TESTULUI PSIHOLOGIC
IV.1. Standardizarea şi obiectivitatea
IV.2. Fidelitatea
IV.2.1. Definiţie şi noţiuni de bază
IV.2.2. Metode de calcul a coeficientului de fidelitate
IV.2.2.1. Metoda analizei consistenţei interne
IV.2.2.2. Metoda test-retest
IV.2.2.3. Metoda formelor paralele
IV.2.2.4. Metoda analizei fidelităţii interevaluatori
IV.3. Validitatea
IV.3.1. Definiţie
IV.3.2. Tipuri de analiză a validităţii
IV.3.2.1. Validitatea de construct
IV.3.2.2. Validitatea de conţinut
IV.3.2.3. Validitatea de criteriu
IV.4. Dificultatea şi sensibilitatea unui test psihologic

Capitolul V
ETALONAREA UNEI PROBE PSIHOLOGICE
V.1. Definirea termenilor
V.2. Eşantionarea
V.3. Metode de obţinere a normelor unui test psihologic
V.3.1. Prin transformări în clase echivalente
V.3.2. Prin transformări în vârste echivalente
V.3.3. Prin transformări în norme de vârstă mintală
V.3.4. Prin transformări în cote standard şi cote standardizate
V.3.5. Prin transformări în ranguri centile, decile şi cuartile
V.3.6. Prin transformări în clasele scalei normalizate

Capitolul VI
CONSTRUIREA TESTELOR PSIHOLOGICE

Capitolul VII
ASPECTE ETICE ALE EVALUĂRII PSIHOLOGICE
Capitolul I
EVOLUŢIA ISTORICĂ A EVALUĂRII PSIHOLOGICE
I.1. INTRODUCERE
Starea actuală a evaluării psihologice este, fără îndoială, un produs al evoluţiei istorice a
disciplinei şi al interacţiunii sale cu dezvoltarea psihologiei înseşi şi cu alte ştiinţe similare. Astfel,
nu se poate să abordăm conceptul evaluării psihologice, fără să fi trecut înainte printr-o analiză
istorică. McReynolds (1986) justifică această analiză istorică aducând diverse argumente; în primul
rând, o cunoaştere a evoluţiei istorice a evaluării oferă o informaţie amplă şi o aplicare mai bună a
stării actuale a evaluării psihologice; în al doilea rând, trecutul este important prin el însuşi,
deoarece face parte din moştenirea omenirii; şi, în al treilea rând, face posibil ca anumite aproximări
sau directive folosite de strămoşii noştri, şi uitate de atunci, să fie redescoperite.

I.2. EVALUAREA PSIHOLOGICĂ ÎN ANTICHITATE


Analizând istoria omenirii, McReynolds (1986) încearcă să evidenţieze faptul că, încă din cele
mai vechi timpuri, în toate societăţile civilizate s-a utilizat un anumit procedeu de evaluare. Astfel,
într-o primă etapă, care ar putea fi numită magică sau mitică, apare în multe culturi ghicirea sau
prezicerea viitorului, aici putând fi inclusă astrologia. Aceasta este considerată ca fiind unul din
primele antecedente ale evaluării psihologice. Astrologii consideră că aşa cum astrele reglează
ritmicitatea ciclului zi-noapte, a mareelor, a recoltelor etc., ele determină şi o mare parte a
comportamentului uman – a se înţelege caracterul uman. Cu alte cuvinte, indivizii sunt deosebit de
sensibili la influenţa astrelor, această influenţă fiind determinată de poziţia relativă a planetelor în
momentul naşterii. La prima vedere, se pare că există condiţiile necesare pentru un proces de
diagnosticare, având în vedere că există un evaluator, un evaluat, instrumente, o intenţie pentru
explicaţie şi pronostic şi o teorie care să îl susţină. Cu toate acestea, o analiză mai detaliată ne face
să înţelegem astrologia ca pe ceva suficient de diferit de evaluarea psihologică pentru a putea fi
considerat un antecedent. În primul rând, astrologia este o practică ce ar putea fi inclusă în magie; în
al doilea rând, subiectul care face obiectul evaluării nu este individul în sine, şi nici mediul său
imediat, ci doar o dată, o oră şi un loc – de fapt se poate face o prezicere fără prezenţa persoanei
care se presupune că este evaluată; în al treilea rând, nu are nici un fel de utilitate socială, având în
vedere că se limitează să prezică destinul determinat de astre; şi în ultimul rând, astrologia a avut o
evoluţie minimă de la începuturile sale până în prezent, fără a avea nici un fel de interacţiune cu
evoluţia psihologiei, adică, psihologia s-a dezvoltat într-un mod complet independent de astrologie.
Acest lucru îl demonstrează faptul că nici un astrolog nu şi-a dezvoltat teoria într-atât încât să
ajungă să o convertească într-o şcoală sau într-un curent psihologic. Astfel, nu există aspecte din
astrologie care să se fi transformat atât de mult încât să ajungă să se convertească într-un construct
psihologic, deci astrologia nu a fost un antecedent al actualei evaluări psihologice.
DuBois (1970) situează apariţia evaluării psihologice în China antică, unde se realiza o
selecţie a copiilor care în viitor puteau să exercite funcţii în administraţia publică. Cei selecţionaţi
erau supuşi unui program intens de învăţare, la finalul căruia se evalua dacă acumulaseră pregătirea
necesară pentru a ocupa posturile care urmau să le fie atribuite. Astfel, acesta pare a fi un antecedent
clar al selectării de personal.
Un alt antecedent asupra căruia sunt de acord de obicei autorii care au studiat evoluţia istorică
a evaluării psihologice este fiziognomia (caracteristicile psihologice ale unui individ pot fi evaluate
prin trăsăturile sale fizice), care îşi are rădăcinile în gândirea filosofică greacă. Potrivit lui
Rubinstein (1981), istoria ştiinţei demonstrează cum s-au format vechile idei ale filosofilor greci, în
procesul cognitiv practic al omului, cu acumularea de cunoştinţe de la naturişti, medici şi filosofi.
Aceste idei s-au dezvoltat în opoziţie cu ideile mitologice privind lumea în general şi omul în
particular. Aristotel consideră că sufletul şi corpul sunt indivizibile. Astfel, fiecare dintre funcţiile
organice îşi are propriul suflet, corpul fiind considerat un organism compus din organe şi
instrumente ale sufletului. La Aristotel, psihicul se apropie de fizic, ceea ce implică o bază biologică
a caracterului. Ideile lui Aristotel şi-au găsit continuitatea la discipolul său, Teofrast. Acesta face o
sistematizare a principiilor fiziognomiei, care duce la crearea unor caractere diferite ce se stabilesc
prin intermediul observării comportamentului evident al indivizilor. Se stabileşte astfel o nozologie
a caracterelor, în care sunt incluse diferite adjective ce serveau la clasificarea indivizilor în funcţie
de obiceiurile lor. Ideea evaluării caracteristicilor psihologice prin intermediul caracteristicilor
somatice este prezentă mai recent în tipologiile lui Kretschmer şi Sheldon. Tot în acest context,
întâlnim şi teoria lui Hipocrate care promovează patru tipuri (sangvinic, flegmatic, coleric şi
melancolic) pornind de la patru clase de stări de spirit.

Această concepţie naturalistă manifestată printr-o evaluare psihologică pornind de la


caracteristici somatice (proprie fiziognomiei şi gândirii hipocratice) va fi întreruptă în Evul Mediu
de filozofia teologică, ce îşi va avea exponentul maxim în conceperea nebuniei ca pe o posedare
diabolică. Cu scopul de a diferenţia subiecţii posedaţi de cei neposedaţi se publică, în 1486, cartea
Malleus Malleficarum (Ciocanul ereticilor). În partea a doua a acesteia sunt descrise semnele care
permit identificarea vrăjitoarelor.

La graniţa dintre antecedentele filosofice şi cele biologice se află contribuţia importantă din
această perioadă la evaluarea psihologică, opera lui Juan Huarte din San Juan Examen de ingenios
para las ciencias, publicată în 1575 şi tradusă în engleză, în 1698, cu titlul The tryal of wits
(McReynolds, 1986). În Spania s-a reeditat de cinci ori până când a fost inclusă, în 1581, în
catalogul cărţilor interzise din Lisabona, iar doi ani mai târziu în cel din Madrid (Buela-Casaly;
Sierra, 1997). În această operă se abordează pentru întâia oară evaluarea într-o formă explicită. Se
consideră că oamenii diferă în ceea ce priveşte talentul lor şi că aceste diferenţe trebuie evaluate
pentru a se obţine o adaptare între abilităţi, ocupaţii diferite şi tipuri de educaţie. Astfel, se consideră
că mediul influenţează învăţarea, astfel încât se recomandă ca studiile să fie realizate într-un oraş
diferit de cel natal, deoarece influenţa familiei şi a prietenilor reprezintă o piedică pentru învăţare
(Pérez-Álvarez, 1991 apud. Buela-Casaly; Sierra, 1997). Este, prin urmare, precursorul cel mai clar
al selecţionării de personal. În cercurile universitare, evaluarea apare în paralel cu crearea primelor
universităţi europene, unde se realizau în mod regulat examene pentru obţinerea titlurilor şi a
distincţiilor (Anastasi, 1988).
În definitiv, probabil că antecedentul cel mai clar al evaluării psihologice este tendinţa
naturală a omului de a-i evalua pe ceilalţi. Am putea indica o infinitate de antecedente posibile ale
evaluării psihologice; cu toate acestea, pentru a contextualiza principalele evenimente care au dat
naştere actualelor instrumente de evaluare, nu trebuie să mergem mai departe de secolul al XVIII-
lea.

I.3. ANTECEDENTELE ŞTIINŢIFICE ALE EVALUĂRII PSIHOLOGICE


Importantele progrese ştiinţifice produse în secolul al XVIII-lea, şi mai ales în secolul al XIX-
lea, vor face ca psihologia să se separe de speculaţia filosofică şi să se apropie de metoda ştiinţifică.
Antecedentele ştiinţifice ale evaluării psihologice ar putea să se situeze în dezvoltarea disciplinelor
ca frenologia, matematica, psihofizica, psihiatria, psihologia educativă şi evoluţionismul.
Frenologia apare la sfârşitul secolului al XVIII-lea şi se bucură în curând de o mare
popularitate. Creatorul acesteia, Gall (1758-1828), proporţionează prima conceptualizare
sistematică a trăsăturilor, care se sprijină pe următoarele enunţuri:
a. Facultăţile mentale sunt înnăscute.
b. Creierul este organul minţii.
c. Forma şi dimensiunea creierului se pot cunoaşte în funcţie de forma şi măsura craniului.
d. Mintea posedă facultăţi separate, creierul este format din organe separate şi fiecare facultate
mentală se manifestă prin intermediul unui organ cerebral diferit.
e. Dimensiunea fiecărui organ poate fi estimată în timpul vieţii iar în cazul celorlalte condiţii egale,
dimeniunea este o măsură a capacităţii organului.
f. Orice organ, dacă este predominant activ, transmite corpului anumite atitudini şi mişcări, numite
„limbajul său natural”.
Deşi frenologia face deja parte din istorie, ea a ajutat la fixarea ideii conform căreia
comportamentul şi organismul nu sunt entităţi independente, ci sunt strâns legate între ele. Gall
practica un sistem de diagnostic bazat pe palparea craniului pentru a cunoaşte facultăţile dominante
ale fiecărui individ. Printre contribuţiile pe care, portivit lui McReynolds (1986), le aduce
frenologia la evaluarea psihologică se remarcă următoarele:

a. Se creează o taxonomie mentală, în funcţie de care se pot explica diferenţele individuale.


b. Se pune accentul pe diferenţele individuale.
c. Se promovează un aspect aplicat al psihologiei.
d. Se propune paradigma de evaluare, diferenţiind elementele incluse într-o sesiune de evaluare
(evaluator, subiect evaluat, profile...).
e. Se elaborează scale pentru evaluarea unor variabile de personalitate.
f. Se pune accentul pe obiectivitatea datelor.
Matematica a avut o influenţă în constituirea şi dezvoltarea ulterioară a evaluării psihologice.
Prima contribuţie este reprezentată de Quetelet, un matematician belgian, care astăzi e considerat a
fi unul dintre fondatorii aplicării statisticii la ştiinţele sociale (Silva, 1982). Quetelet a studiat
variabilele biologice şi sociologice, observând că ambele urmau o distribuire gaussiană, astfel că a
dezvoltat norme şi măsuri de tendinţă centrală. Influenţa sa asupra evaluării psihologice se
concentrează pe două aspecte importante: acela de a fi unul dintre autorii care s-au interesat în mod
sistematic de diferenţele individuale şi faptul că metodele sale au avut o mare influenţă asupra unor
autori importanţi precum Galton, Pearson şi Spearman.
Psihiatria a fost o altă disciplină care a contribuit în bună măsură la dezvoltarea evaluării
psihologice. Efortul de a diferenţia tulburările mentale se traduce prin nevoia unor tehnici de
evaluare pentru a stabili diagnostice diferenţiale. Astfel, Pinel (1745-1826) introduce o scurtă
clasificare a bolilor mentale, care făcea posibil un tratament mai diferenţiat. Pinel susţine valoarea
anamnezei pentru diagnostic. Însă, fără îndoială, contribuţia sa cea mai importantă a constituit-o
schimbarea atitudinii în ceea ce priveşte bolnavii mintal, ajungând să-i considere drept bolnavi cu
dreptul la tratament şi libertate şi nu drept subiecţi ce trebuie izolaţi şi închişi, cum erau consideraţi
până atunci. Ideile lui Pinel au ajuns în Italia, unde şi-au găsit un mare susţinător în persoana lui
Lombroso, care şi-a concentrat opera asupra relaţiei dintre aspectul penal şi cel psihiatric, punând
problema unei posibile scuze în delictele comise de bolnavii mintal. Studiul legăturii dintre
delincvenţă şi boală l-a determinat să-şi elaboreze celebra teorie referitoare la „delincvenţa
înnăscută”. Conform acestei teorii, comportamentul delincvent poate avea o origine degenerativă a
organismului, datorată efectului unor factori precum sifilisul, alcoolul, epilepsia, vârsta avansată a
părinţilor etc., care ar acţiona în timpul dezvoltării fetale producând o degenerare a centrilor nervoşi
superiori, care vor constitui ulterior cauza comportamentului delincvent. Opera lui Pinel îşi atinge
punctul culminant prin figura lui Kraepelin (1856-1926), care a fost interesat de problematica
clasificării tulburărilor mintale, considerând că pentru a putea face o bună evaluare şi intervenţie, e
nevoie întâi de o clasificare. Probabil că cea mai importantă contribuţie a sa a fost schimbarea de la
o concepţie simptomatică a bolii la o concepţie evolutivă, adică, manifestările externe ale bolii sunt
secundare în ceea ce priveşte originea şi evoluţia acesteia. Aportul său la evaluarea psihologică se
concentrează în mod concret asupra interesului său constant de a evalua în mod obiectiv
comportamentul pacienţilor săi. Astfel, el evalua funcţii sau aptitudini precum memoria, atenţia,
capacitatea de învăţare, timpul de reacţie, asocierile verbale etc. Paralel cu această etapă creşte
interesul faţă de retardaţii mintal, creându-se în Europa şi în America numeroase instituţii pentru
îngrijirea acestora. Interesul pentru un tratament adecvat pentru retardaţii mintal a scos în evidenţă
nevoia unor criterii de diagnosticare şi de clasificare, care să permită diferenţierea între subiecţii
normali, bolnavii mintal şi retardaţi. În acest context, trebuie să-l remarcăm pe Esquirol (1772-
1840), medic francez, care în 1838 a publicat o operă în două volume, în care a dedicat peste 100 de
pagini retardării mintale. O altă contribuţie importantă a lui Esquirol a fost concepţia sa privind
retardarea mintală. Pentru acest autor, retardarea varia de la normalitate până la retardarea cea mai
profundă. Pentru aceasta a realizat mai multe încercări de a evalua şi clasifica diferitele grade şi
tipuri de retardare mintală, ajungând la concluzia că cel mai bun criteriu de a evalua nivelul de
deteriorare intelectuală este utilizarea limbajului. Este important să se aibă în vedere că actualele
criterii privind retardarea mintală sunt în mare parte lingvistice şi că testele de inteligenţă sunt, de
obicei, destul de pline de conţinuturi verbale (Anastasi, 1988). Psihofizica poate fi considerată drept
o disciplină precursoare a psihologiei ştiinţifice. Metodele imaginate de Fechner permit relaţionarea
experienţelor subiective cu măsuri obiective. Astfel, consideră că experienţele psihologice se pot
verbaliza şi, în consecinţă, se pot clasifica pe scale de intensitate sau discriminare.

Psihofizica avea ca postulat iniţial descoperirea unor legi generale pentru descrierea relaţiilor
dintre minte şi corp. Contribuţia sa la evaluarea psihologică se poate observa în studiul concret al
fenomenelor psihice, făcându-se legătura dintre experienţa subiectivă şi măsurile obiective, crearea
unor noi metode de investigare a acestor elemente şi sistematizarea teoretică a acestora (Zabrodin,
1985, apud. Buela-Casaly; Sierra, 1997). Deşi autori precum Fechner şi Weber erau mai interesaţi
de legile generale decât de diferenţele individuale, odată cu ei apare situaţia de examen psihologic;
astfel, de exemplu, Fechner utilizează deja autoraportul subiectului ca instrument de evaluare.
Psihologia educativă atinge punctul culminant odată cu modurile de abordare inovatoare
produse în ceea ce priveşte interesul crescând faţă de educaţie, cu şcolarizarea obligatorie ulterioară,
apărând astfel nevoia de aplicare a principiilor psihologice în şcoli şi cererea unei evaluări a
randamentului academic. Acest interes pentru evaluarea în mediul şcolar şi-a găsit continuitatea la
autori precum Throndike, Hall şi Binet.
Evoluţionismul marchează un eveniment important în istoria ştiinţelor umane. Legătura dintre
Darwin şi Galton a favorizat şi mai mult influenţa teoriilor evoluţioniste în încercarea de a explica
diferenţele individuale şi, în cele din urmă, inteligenţa umană. Baza evoluţionismului constă în a
recunoaşte variabilitatea membrilor aceleiaşi specii, în care caracteristicile pot fi moştenite. Astfel,
în natură se produce o selecţie naturală prin intermediul supravieţuirii membrilor celor mai puternici
sau mai bine adaptaţi. La specia umană, capacitatea diferită de adaptare se numeşte inteligenţă.
Diferenţele de inteligenţă erau perfect acceptate în societatea secolului al XIX-lea. Astfel,
darwinismul social ajuta la justificarea ordinii sociale fixe.

Antecendentele cele mai ştiinţifice ale evaluării psihologice îşi au rădăcinile în primele
laboratoare de psihologie. În 1877 s-a produs prima încercare de înfiinţare a unui laborator de
psihofiziologie de către savanţii britanici Venn şi Ward. Cu toate acestea, Senatul din Cambridge a
respins această iniţiativă, calificându-i pe cei doi savanţi drept atei (Yakunin, 1985, apud. Buela-
Casaly; Sierra, 1997). Cu doi ani mai târziu, Wundt inaugura în Leipzig (1879) primul laborator de
psihologie, acest moment fiind considerat drept naşterea psihologiei ştiinţifice. Ideea lui Wundt de a
apropia psihologia de fiziologie, în ciuda faptului că întâlnise o opoziţie clară în cercurile filosofice,
a câştigat în curând adepţi. Cu toate acestea, această idee nu era nouă, deoarece Sechenov, un
cunoscut savant rus, încercase să interpreteze fenomenele psihice dintr-un punct de vedere
fiziologic. De fapt, cartea sa Reflejos del cerebro (Reflecţii ale creierului) a fost editată în 1863,
adică, cu 11 ani înainte ca Wundt să publice Bazele psihologiei fiziologice. Într-un articol scris în
1873, Sechenov, plecând de la tradiţia materialistă a gânditorilor ruşi, susţine teza referitoare la
determinarea obiectivă a intelectului. Ideile lui Sechenov au fost foarte bine primite în rândurile
psihiatrilor şi neurologilor ruşi, ceea ce a dus la o restructurare a psihologiei din punct de vedere
fiziologic. O dovadă a acestui fapt o constituie crearea primului laborator de psihologie din Rusia,
înfiinţat de Bejteriev, în 1886, în clinica de bolnavi alienaţi şi boli nervoase din oraşul Kazan. Cu
câţiva ani mai târziu, în 1891, se constituia Societatea Rusă de Psihologie Experimentală (Yakunin,
1985, apud. Buela-Casaly; Sierra, 1997). De la crearea sa şi până la începutul secolului al XX-lea,
laboratorul lui Wundt a fost considerat centrul psihologiei experimentale, fiind exemplul ce trebuia
urmat în crearea de noi laboratoare. Obiectul de studiu al noilor psihologi experimentali era acela de
a ajunge să abordeze descrieri generale ale comportamentului uman. Diferenţele individuale nu
numai că nu interesau pe nimeni, ci ajungeau să fie considerate drept „erori de măsurare”. În
alegerea temelor şi în anumite metode utilizate se observa influenţa medicinei şi a fiziologiei.
Pelechano (1988, apud. Buela-Casaly; Sierra, 1997), consideră că tipul de psihologie experimentală
practicată de Wundt şi de adepţii săi presupunea în realitate o limitare a dezvoltării evaluării
psihologice. Wundt nega importanţa psihologiei diferenţiale, nu autoriza utilizarea chestionarelor
pentru investigarea psihologică, nu accepta posibilitatea unei psihologii ştiinţifice în afara
laboratorului şi nici studiile filogenetice şi ontogenetice ale psihismului uman. Cu toate acestea, nu
totul a fost negativ, având în vedere că psihologia experimentală a secolului al XIX-lea a ajutat la
scoaterea în evidenţă a importanţei de a controla în mod riguros condiţiile în care se făceau
observaţiile. De exemplu, se controlau caracteristicile stimulului, contextul în care se prezenta
acesta, instrucţiunile pe care le primea subiectul etc. În definitiv, se încerca evaluarea tuturor
subiecţilor în aceleaşi condiţii standardizate. După cum bine se ştie, toate acestea au fost acceptate
în totalitate în procesul de construire şi în aplicarea testelor (Anastasi, 1988).

I.4. CONSTITUIREA ŞI DEZVOLTAREA EVALUĂRII PSIHOLOGICE


Există un anumit consens în ceea ce priveşte considerarea lui Galton, Cattell şi Binet drept
autorii care au configurat evaluarea psihologică ca disciplină ştiinţifică. În cele ce urmează se va
face referire la ei şi se va face o trecere în revistă a diferitelor evenimente care au presupus
dezvoltarea acestei discipline.
I.4.1. Contribuţia lui Galton
Galton (1822-1911) este considerat părintele psihometriei şi al psihologiei diferenţiale. În
ciuda faptului că era un om multilateral în ceea ce priveşte interesele sale ştiinţifice, el a ştiut să-şi
concentreze cercetările asupra moştenirii inteligenţei umane. Considera că aceasta este înnăscută şi,
astfel, prin intermediul caracterului ereditar se putea obţine o îmbunătăţire a indivizilor prin
intermediul eugeniei. Laboratorul său antropometric din Muzeul Kensington din Londra a devenit
celebru în toată lumea. În anul 1884, când a avut loc şi celebrarea unui congres internaţional de
igienă, înfiinţează un laborator antropometric şi propune vizitatorilor să afle, în schimbul a trei
penny, măsura câtorva trăsături fizice, ascuţimea vizuală şi auditivă, timpul de reacţie, forţa
musculară şi câteva funcţii senzoriale. Cu aceste informaţii a publicat primul tabel de baremuri, în
care îşi puteau compara rezultatele vizitatorii care aveau să treacă prin laborator (DuBois, 1970).
Majoritatea instrumentelor care se utilizau în laboratorul său antropometric au fost create de el
însuşi, iar unele încă se mai utilizează şi în prezent, cum este cazul barei lui Galton pentru
discriminarea vizuală a lungimii şi seria greutăţilor gradate pentru măsurarea discriminării
chinestezice. A acordat o importanţă specială discriminării senzoriale, deoarece considera că aceasta
ajută la evaluarea capacităţii intelectuale. Astfel, în numeroasele evaluări realizate a descoperit că
idioţii prezintă de obicei deficienţe în capacitatea de discriminare a temperaturii şi a durerii
(Anastasi, 1988).
Contribuţiile cele mai relevante ale lui Galton ar putea fi rezumate în punctele următoare
(Pelechano, 1988, apud. Buela-Casaly; Sierra, 1997):
a. Interesul de a face o analiză cantitativă a caracteristicilor şi diferenţelor umane. Sub acest
aspect se observa o influenţă a matematicianului Quetelet, care în anul 1846 demonstrase deja cum
anumiţi indicatori antropometrici urmau o distribuţie gaussiană. Astfel, Galton susţinea că
diferenţele individuale se puteau explica în mod adecvat dacă se concepeau sub formă de continuuri
cantitative care urmau distribuţia curbei lui Gauss.
b. Interesul pentru adunarea empirică şi sistematică de informaţii. Acesta se demonstrează prin
munca sa neobosită din laboratorul antropometric din South Kensington Museum din Londra, unde
a reuşit să adune date aparţinând unui număr de 9.377 de persoane, care erau evaluate într-un număr
considerabil de probe (timp de reacţie, măsurări fizice, răspunsuri la scale de calificare...).

c. Aplicarea statisticii pentru interpretarea informaţiilor. Pe lângă utilizarea anumitor măsuri


de tendinţă centrală, Galton a introdus indicele de corelare (de fapt, în anul 1888 a ajuns să publice
un articol despre „Corelations and their measurement, chiefly from antropometric data”) care mai
târziu avea să fie completat de Pearson, ducând la apariţia coeficientului de corelare şi pe baza
căruia avea să se stabilească modelul corelaţional.
d. Interesul pentru studiul diferenţelor individuale. Urmând teoria evoluţionistă, Galton
înţelegea diferenţele individuale ca pe un rezultat al unor mecanisme şi procese ereditare. Pentru a
demonstra acest lucru, a utilizat studiul arborilor genealogici şi corelaţionarea probelor psihologice
între părinţi şi copii. Prin intermediul acestei metodologii a reuşit să stabilească legea întoarcerii la
medie. Galton s-a văzut obligat să abordeze această lege pentru a putea explica anumite date
precum faptul că părinţii foarte inteligenţi tindeau să aibă fii mai puţin inteligenţi, în timp ce părinţii
mai puţin inteligenţi tindeau să aibă fii mai inteligenţi.
Gândirea lui Galton şi un bun rezumat al operei sale pot fi găsite în cartea Moştenire şi
eugenie, în care se află o compilaţie de texte provenind din diverse opere ale sale.
I.4.2. Contribuţia lui Cattell

James McKeen Cattell (1861-1934) a fost un psiholog american cu o educaţie solidă pe care a
primit-o în Europa. Teza lui de doctorat a tratat diferenţele individuale în cadrul timpului de reacţie
şi a fost realizată în laboratorul lui Wundt (Leipzig). Ulterior, a lucrat cu Galton în laboratorul
antropometric din South Kensington Museum din Londra. În 1888 a fost numit profesor de
psihologie la Universitatea din Pennsylvania. Doi ani mai târziu publică în revista Mind un articol
intitulat „Mental tests and measurements”, care marchează un eveniment important în istoria
evaluării psihologice, având în vedere că este pentru prima oară când se utilizează termenul „test” în
literatura psihologică (McReynolds, 1986), iar în el se descriau testele care se aplicau anual la
studenţii universitari cu intenţia de a evalua nivelul intelectual al acestora. Ulterior s-a mutat la
Universitatea din Columbia, unde a creat prima baterie de probe de evaluare psihologică. În scurt
timp, metodologia şi procedeul de elaborare a testelor au devenit foarte populare. În ultima decadă a
secolului al XIX-lea, testele se aplicau, în Statele Unite, la toate tipurile de subiecţi (şcolari, studenţi
universitari, adulţi...). Cu toate acestea, traiectoria strălucită a lui Cattell se opreşte, cel puţin parţial,
în faţa criticilor aduse de Wissler şi Sharp. Primul, care fusese discipolul lui Cattell, a prezentat un
studiu detaliat în care analiza rezultatele lui Cattell, demonstrând validitatea redusă atinsă de teste.
Concret, a demonstrat că coeficienţii de corelare dintre testele psihologice şi calificativele şcolare
erau relativ reduşi. Pe de altă parte, Sharp a demonstrat fidelitatea scăzută şi valoarea predictivă
redusă pe care o deţineau testele lui Cattell (Pelechano, 1988, apud. Buela-Casaly; Sierra, 1997).
I.4.3. Contribuţia lui Binet
Binet (1857-1911) era licenţiat în drept şi doctor în ştiinţe naturale şi a intrat în psihologia
„mâinii” lui Ribot, marele iniţiator al psihologiei experimentale din Franţa. Ribot înţelegea că
progresul psihologiei se află în metodele experimentale (deşi nu era cercetător), nu degeaba a fost
fondatorul primului laborator de psihologie de la Universitatea din Sorbona, în anul 1889. În anul
1895, Binet înfiinţează L’Année Psychologique, prima revistă franceză de psihologie. În această
revistă publică un articol, „La Psychologie individuelle”, în care prezintă bazele unei noi abordări a
evaluării inteligenţei. Binet manifesta acelaşi interes ca şi Galton pentru evaluarea diferenţelor
individuale, însă respingea ideea că inteligenţa umană se poate evalua prin intermediul proceselor
senzorio-motorii. În articolul lor, Binet şi Henri susţin că inteligenţa trebuie evaluată în funcţie de
preformanţele subiecţilor în diverse sarcini care implică o varietate de procese mentale complexe
(McReynolds, 1986). Binet şi Henri au început să evalueze procese ca memoria, atenţia, imaginaţia,
înţelegerea, sensibilitatea artistică şi morală, sugestibilitatea, puterea voinţei şi abilitatea motorie.
Binet include ca şi caracteristici ale comportamentului inteligent alegerea şi menţinerea unei direcţii
precise, adaptarea pentru atingerea unui scop şi autocritica (Cronbach, 1990).
Marea şansă a lui Binet soseşte atunci când este numit de către Ministerul francez al Educaţiei
membru în comisia care avea să se ocupe de căutarea unei soluţii pentru copiii cu deficienţe, care
intraseră în şcoala publică în urma punerii în vigoare a învăţământului obligatoriu în Franţa. Ca
răspuns la această cerere, Binet, în colaborare cu Simon, elaborează o scală care conţine 30 de
probleme cu grade de dificultate crescânde. Pentru a calcula nivelul de dificultate, această scală s-a
aplicat la 50 de copii normali, cu vârste cuprinse între 3 şi 11 ani şi la câţiva retardaţi mintal.
Conţinutul itemilor acoperea o mare varietate de funcţii, deşi predominau problemele legate de
înţelegere şi judecată. Proba rezultantă, care este cunoscută sub denumirea de scala 1905, a fost
considerată un instrument de evaluare provizorie (Anastasi, 1988). După cum semnalează Pichot
(1994, apud. Buela-Casaly; Sierra, 1997) „pentru prima oară se ieşise din epoca experienţelor de
laborator pentru a se intra în viaţa concretă”. Binet şi Simon continuă să lucreze la această scală, iar
în 1908 prezintă o a doua versiune la care se adaptaseră serii de itemi pentru grupe de vârstă. Vârsta
mintală se stabilea în funcţie de vârsta corespunzătoare seriei celei mai ridicate obţinută per total.
Având în vedere că fiecare serie, care corespunde cu o vârstă mintală determinată constă din cinci
probleme, se adăuga la vârsta de bază (aceea a seriei realizate în totalitate corect) 1/5 ani pentru
fiecare test realizat corect aparţinând unor serii superioare. Vârsta mintală obţinută era comparată cu
vârsta cronologică, văzându-se astfel dacă copilul urma o evoluţie normală, întârziată sau înaintată.
În 1911, se prezintă o a treia versiune a scalei, în care se mărise numărul de itemi la anumite
niveluri şi se extinsese vârsta adultă. Cu toate acestea, versiunea cea mai difuzată a fost realizată de
Terman de la Universitatea din Stanford, fiind cunoscută sub denumirea de Scala lui Stanford-Binet.
La aceasta se utilizează pentru prima oară termenul de „coeficient de inteligenţă” (CI), rezultat din
împărţirea vârstei mintale la vârsta cronologică. Ulterior au apărut şi alte versiuni, însă un interes
special îl prezintă versiunea realizată de Kuhlmann, în 1912 (Scala Kuhlmann-Binet), care a extins
scala în partea inferioară până la vârsta de trei luni, fiind revizuită ulterior în 1937 şi 1960. Terman
efectuează încă două revizuiri şi, în cele din urmă, Thorndike o realizează pe ultima de până acum,
în 1986 (Rogers, 1995).
Cu toate acestea, aceste scale nu erau lipsite de probleme. Astfel, în timp ce Galton avansa
măsurarea unei inteligenţe înnăscute sau biologice, Binet apără evaluarea unei inteligenţe de origine
socială. În curând mişcarea eugenică adoptă ca instrument testul lui Binet şi Simon, identificând
inteligenţa înnăscută cu cea socială. Pelechano (1988, apud. Buela-Casaly; Sierra, 1997) semnalează
faptul că logica utilizată de Binet în construirea şi interpretarea scalei era corectă, însă văzută dintr-
o perspectivă actuală avea câteva probleme importante:
a. Nu s-a demonstrat că comportamentele aplicate ar fi fost reprezentative pentru ceea ce se
dorea evaluat (capacitatea intelectuală).
b. Mostra utilizată pentru clasificarea punctuaţiilor nu era reprezentativă pentru populaţia la
care se aplica ulterior.
c. Utilizarea vârstei cronologice ca şi criteriu variabil pentru măsurarea vârstei mintale,
făcându-se astfel să se înţeleagă implicit că la fiecare două luni se produce o schimbare în
capacitatea intelectuală.
d. Modelul acumulativ conform căruia fiecare problemă rezolvată este echivalentă cu o
perioadă de vârstă mintală nu a fost demonstrat.
e. Presupunerea că distribuirea punctuaţiilor este egală în fiecare grupă de vârstă nu este
corectă.

f. Se presupune că toţi copiii au o dezvoltare normativă, adică egală cu cea a grupului de


referinţă.
Pe de altă parte, tipul de probleme abordate se afla în strânsă legătură cu conţinuturile
academice, astfel că scala prezicea foarte bine performanţa academică, care nu este aceeaşi cu
capacitatea intelectuală.
În ciuda problemelor metodologice care se evidenţiază în scalele lui Binet, acesta trebuie
considerat drept cel mai mare propulsor al evaluării psihologice. Activitatea sa a fost într-adevăr
aceea a unui evaluator, iar influenţa lui a fost simţită timp de mai multe decenii. O bună dovadă a
acestui fapt a fost numărul mare de cercetători care s-au interesat de evaluarea inteligenţei în
primele două decenii ale secolului al XX-lea. Producţia din acest domeniu era atât abundentă cât şi
diversificată. De aceea, în 1921, directorii revistei Journal of Educational Psychology au organizat
un congres intitulat Inteligenţa şi măsurarea acesteia la care au invitat personalităţi distinse în
materie (Terman, Thorndike, Peterson, Thurstone etc.) pentru a discuta despre natura inteligenţei
(Sternberg, 1986). Rezultatul a fost decepţionant; existau aproape tot atâtea concepţii de inteligenţă
cât şi experţi care îşi dădeau cu părerea în legătură cu această temă. Confuzia era atât de mare încât
Binet a ajuns să pronunţe celebra frază „inteligenţa este ceea ce măsoară testele”. Cu toate acestea,
congresul a servit la stabilirea unui anumit acord privind drumul ce trebuia urmat în viitor pentru
cercetarea inteligenţei. De atunci au trecut mai mult de şaptezeci de ani şi încă nu s-a ajuns la un
acord unanim referitor la ceea ce este inteligenţa şi la cum trebuie evaluată (Eysenck, 1991).
I.4.4. Contribuţii ale altor autori
Witmer, la fel ca şi precursorul său Cattell, era interesat de studiul diferenţelor individuale. Cu
toate acestea, interesul său principal se concentra asupra aplicaţiei practice a cunoştinţelor
psihologice. În anul 1896, Witmer fondează prima clinică psihologică (de fapt, această dată este
considerată de obicei drept începutul psihologiei clinice, deşi nu trebuie să se interepreteze că
Witmer ar fi fost primul psiholog clinician) (Buela-Casaly; Sierra, 1997). Tipul de muncă ce se
realizează în această clinică se regăseşte în primele numere ale revistei The Psychological Clinic,
fondată în 1906 şi condusă de Witmer. Majoritatea cazurilor care se tratau proveneau din mediul
şcolar. În primii ani, nu dispunea de proble specifice de evaluare, astfel că diagnosticul său se baza
în principal pe interviu. Ulterior, când apar testele, adoptă unul din ele şi creează Witmer formboard
şi Witmer cylinders, care au fost utilizate timp de mai mulţi ani în clinica lui. Se concentra asupra
evaluării comportamentelor specifice ale subiecţilor şi viza tratamentul acestor comportamente. De
aceea, a fost considerat drept un predecesor al evaluării comportamentale (McReynolds, 1986).
Witmer a fost un autor cu influenţă limitată în evaluarea psihologică. Cu toate acestea, marele lui
merit a fost încercarea de a aplica psihologia la problemele care apar în viaţa reală. Pe de altă parte,
clinica lui psihologică a servit ca model pentru multe altele care s-au înfiinţat mai târziu (Buela-
Casaly; Sierra, 1997).
Spearman (1863-1945) reprezintă un alt pas important în constituirea evaluării psihologice
pentru faptul de a fi aplicat metodele corelaţionale în cercetarea inteligenţei. În anul 1904 a publicat
un articol important intitulat „General intelligence, objectively determined and measured”, unde se
stabilesc bazele teoriei psihometrice. A fost primul autor interesat să caute o explicaţie pentru
corelarea redusă care se obţinea între diferite teste de inteligenţă şi să abordeze nevoia de a utiliza
probe paralele pentru evaluarea sa. Marea contribuţie a lui Spearman nu a fost numai una
metodologică, el fiind, de asemenea, autorul primei mari teorii a inteligenţei, numită teoria celor doi
factori (un factor general şi anumiţi factori specifici). Conform teoriei respective, capacitatea
reprezentată în factorul general (factorul g) este legată de toate sarcinile intelectuale, în timp ce
capacităţile reprezentate de factorii specifici sunt legate de sarcinile simple. Pentru a explica natura
factorului g, Spearman a propus două teorii. În prima, se spunea că factorul g este legat de nivelul
de energie cerebrală pe care o pot utiliza oamenii pentru a rezolva probleme intelectuale; a doua
consideră că diferenţele din factorul g se pot explica în funcţie de diferenţele individuale din
capacitatea oamenilor de a utiliza trei principii calitative de percepţie: acumularea experienţei,
deducţia relaţiilor şi deducţia corelărilor (Sternberg, 1986). În anii treizeci, această schemă
bifactorială va fi înlocuită cu un model multifactorial reprezentat de Thurstone.
În cele din urmă, Freud (1856-1939) vine cu o abordare a diagnosticării bazată pe tehnicile de
asociere şi pe utilizarea simbolismului. În 1909, conferinţele sale de la Clark University din New
York au favorizat difuzarea psihoanalizei în Statele Unite (Avila, 1992b, apud. Buela-Casaly;
Sierra, 1997), ceea ce a dus la diagnosticul dinamic ce se va dezvolta începând cu anii treizeci cu
ajutorul tehnicilor proiective.

I.4.5. Repercusiunile primului şi celui de-al doilea război mondial


Există un anumit acord între autori în considerarea celor două conflicte mondiale drept fapte
determinante pentru evoluţia evaluării psihologice, între aceste două momente istorice încadrându-
se ceea ce Silva (1982) numeşte „epoca clasică” a diagnosticului psihologic; astfel, potrivit acestui
autor, atât linia psihometrică cât şi cea proiectivă şi clinică a actualei evaluări psihologice încă mai
trăiesc din marile evenimente importante din această epocă: marile teste de inteligenţă, primele
chestionare de interese şi primele teste proiective.

O dată cu începerea primului război mondial, industria generată în jurul războiului afectează şi
psihologia, şi mai concret evaluarea psihologică. Astfel, American Psychological Association
(APA) a numit un comitet care avea să se ocupe de studierea posibilului ajutor pe care l-ar fi putut
oferi psihologia. A apărut nevoia de a se selecţiona peste un milion de soldaţi, pentru care era
esenţial să se dispună de probe colective care să permită clasificarea soldaţilor în funcţie de nivelul
lor intelectual şi de aptitudinile lor de a oferi un anumit tip de serviciu. Având în vedere că
majoritatea testelor existente erau de aplicare individuală, a fost necesar să se recurgă la toate
tipurile de teste care se puteau aplica în mod colectiv. Arthur Otis a pus la dispoziţia Armatei o serie
de teste pe care le elaborase, dar pe care nu apucase să le publice (Buela-Casaly; Sierra, 1997). Era
nevoie de probe de dificultate progresivă, cu răspunsuri scurte, o corectare rapidă şi obiectivă, cu
forme diferite (pentru a evita învăţarea) şi de aplicare colectivă. Probele construite pentru evaluarea
nivelului intelectual au fost cunoscute sub numele de Army alpha test şi Army beta test. Prima se
aplica la populaţia generală (instruită) şi consta din următoarele subprobe: îndeplinirea ordinelor,
probleme aritmetice, sinonime şi antonime, simţ practic, analogii, informaţii şi gramatică. Fiecare
subprobă avea o dificultate crescândă şi trebuia să se răspundă la ea într-un timp limitat. A doua
probă era gândită pentru persoane analfabete sau pentru persoane care nu vorbeau limba engleză;
astfel, în aceasta nu erau incluse conţinuturi verbale, ci consta din labirinturi, serii, cuburi, puzzle,
construcţii geometrice, cifre-simbol şi numere. Desigur, timpul de răspuns era, de asemenea, limitat.
Pentru a evalua simptomatologia neurotică s-a utilizat Woodworth personal data sheet, un inventar
de personalitate elaborat de Woodworth şi care a ajuns să fie aplicat la peste un milion şi jumătate
de persoane.
Influenţa acestui proces a avut o mare importanţă în dezvoltarea evaluării psihologice sub
diverse aspecte sintetizate în punctele următoare (Buela-Casaly; Sierra, 1997):
a. Primul, şi poate cel mai important, a fost considerarea figurii psihologului drept un
profesionist calificat, ce poate rezolva problemele vieţii reale.
b. Perfecţionarea metodologiei de construire a testelor şi formarea unei mari baze de date
(peste un milion şi jumătate de subiecţi) din populaţia generală.
c. Tipul de evaluare realizată în armată s-a adaptat la domenii precum cel industrial (selecţia şi
evaluarea personalului) şi cel clinic.
d. Consolidarea aplicării testelor cu conotaţia rezultantă a „psihologului care trece teste”.

Evaluarea de tip clinic nu apare la întâmplare după primul război mondial. Pe de o parte,
instrumentele de evaluare clinică nu aveau nici o utilitate în sarcinile de selectare şi plasare cerute
de armata americană, însă ele devin necesare după război pentru reintroducerea subiecţilor în
societate. Difuzarea tehnicilor proiective începe prin publicarea de către Rorschach, în 1921, a
lucrării Psychodiagnostik, deşi nu trebuie să uităm că Jung prezentase deja în 1904 proba asocierii
libere a cuvintelor (Buela-Casaly; Sierra, 1997).
Antecedentele testului lui Rorschach pot fi regăsite în vechea idee grecească, conform căreia
interacţiunea unei persoane cu o entitate ambiguă facilitează informaţii pentru cunoaşterea
persoanei respective. În Renaştere, Leonardo da Vinci îi sfătuia pe discipolii săi să-şi exerseze
imaginaţia contemplând formele sau figurile pe care le desena umezeala pe pereţi. Însă fără
îndoială, antecedentul cel mai clar este tehnica numită klebsografie (dezvoltată de Klebs), care
constă din aruncarea unor picături de vopsea pe o bucată de hârtie, care apoi se îndoaie pe la
jumătate, interpretându-se petele obţinute. La sfârşitul secolului al XIX-lea, Binet începe să
utilizeze petele de vopsea pentru a studia capacitatea imaginaţiei vizuale. Câţiva ani mai târziu,
Herman Rorschach utilizează această tehnică pentru diagnosticarea personalităţii şi tulburărilor
psihice. Din totalitatea de foi utilizate selecţionează zece cu scopul de a-şi publica metoda, ceea ce
nu a reuşit decât cu doi ani mai târziu, graţie medicaţiei lui Morgenthaler, care în plus i-a sugerat lui
Rorschach să schimbe titlul original, „Metoda şi rezultatele unui experiment diagnostic bazat pe
perceperea şi interpretarea formelor cauzale” cu „Psihodiagnostic”. La început, cartea a fost
acceptată de puţină lume. Criticile au fost puţine şi în general nefavorabile, ceea ce i-a produs o
decepţie considerabilă. Rorschach a murit fără să cunoască popularitatea pe care avea să o aibă
tehnica pe care o crease (Serrate, 1980, apud. Buela-Casaly; Sierra, 1997).

Câţiva ani mai târziu, Murray publică în 1935 Testul de apercepţie tematică (TAT) ca
alternativă la tehnica lui Rorschach. În paralel cu această dezvoltare de tehnici proiective continuă
să se facă progrese în domeniul psihometric, manifestate printr-o rafinare a tehnicilor factoriale.
Astfel, Thrustone publică în 1935 Vectors of the Mind, iar în 1938 Primary mental abilities, unde
inteligenţa capătă o natură multivariabilă (Rogers, 1995).
În 1939 se publică lucrarea Wechsler-Bellevue intelligence scale, prima scală a lui Wechsler
pentru adulţi, cu anumite diferenţe faţă de aceea a lui Stanford-Binet: fiecare subtest includea itemi
pentru fiecare grupă de vârstă, punea mai puţin accentul pe rapiditatea răspunsului şi conţinea destul
de multe componente nonverbale (Rogers, 1995). Alte publicaţii relevante din această perioadă sunt
Inventarul intereselor vocaţionale al lui Strong (1927) şi Testul gestaltic al lui Bender (1938),
(Buela-Casaly; Sierra, 1997).
După cum se întâmplase şi în cazul primului război mondial, al doilea război mondial are, de
asemenea, drept consecinţă o dezvoltare semnificativă în construirea şi aplicarea testelor. Pentru
selecţionarea personalului militar, în Statele Unite s-a dezvoltat Army general classification test
(care cuprindea subprobe de lectură, vocabular, raţionament artimetic, calcul artimetic şi relaţii
spaţiale), o probă de aplicare colectivă – din motive evidente – şi care a fost aplicată la peste nouă
milioane de persoane, în timpul războiului. Între timp, armata britanică optase pentru utilizarea unor
probe de inteligenţă generală (care evaluau factorul g) cu conţinuturi neverbale. Două dintre probele
care s-au utilizat sunt în vigoare şi în prezent: Matricile progresive ale lui Raven şi Testul jocului de
domino al lui Anstey. În definitv, s-ar putea spune că al doilea război mondial a presupus aplicarea
de teste cea mai numeroasă care s-a făcut până în prezent. Se estimează că în 1944, în ţările aliate,
s-au aplicat în jur de şaizeci de milioane de teste la aproximativ douăzeci de milioane de persoane
(Pelechano, 1988, apud. Buela-Casaly; Sierra, 1997).
La începutul anilor patruzeci, Hathaway şi Mckinley au prezentat Minnesota multiphasic
personality inventory (MMPI), construit conform modelului psihometric şi care constituie una
dintre cele mai mari contribuţii din domeniul evaluării personalităţii şi al evaluării clinice
(Goldstein şi Hersen, 1990b, apud. Buela-Casaly; Sierra, 1997). Apogeul pe care l-a atins această
probă a fost enorm, continuând şi în prezent să fie unul dintre instrumentele cele mai utilizate în
practica clinică.

I.4.6. Perioada de criză a evaluării psihologice


La terminarea celui de-al doilea război mondial, în Europa începe o perioadă de reconstrucţie
la toate nivelurile, însă cu o preferinţă în sectorul economic şi în cel al muncii. În acest context,
psihologia rămâne într-un plan secund în aşteptarea unei mai bune situaţii economice, producându-
se astfel o creştere a emigrării în Statele Unite – care începuse de dinainte de război – a unor
importanţi psihologi europeni. Fără îndoială, aceasta a constituit o cauză în plus care a contribuit la
o dezvoltare majoră a psihologiei în Statele Unite începând cu perioada postbelică. La sfârşitul
războiului, Statele Unite se confruntă cu o problemă de integrare a soldaţilor în viaţa civilă.
„Dezvoltata” evaluare psihologică specializată pe selecţionarea unor mase mari nu mai era la fel de
utilă. Acum era necesară o psihologie orientată spre evaluarea individuală şi spre reabilitare (Buela-
Casaly; Sierra, 1997).
Psihologia sovietică din timpul acestor ani nu numai că se consolidase, dar îşi şi desăvârşise
criticile privitoare la teste. Unele dintre aceste critici se rezumă la următoarele puncte (Rubinstein,
1981):
a. Dacă două persoane rezolvă sau nu acelaşi test, semnificaţia psihologică a acestui fapt nu
este unică, având în vedere că acelaşi rezultat poate fi motivat de procese psihice diferite. Astfel,
faptul că un test a fost rezolvat sau nu, nu determină natura internă a actului psihic corespondent.
b. Conform metodei testelor, evaluarea personalităţii derivă numai din evaluarea statistică a
datelor externe obţinute de individ ca răspuns la nişte întrebări determinate. Astfel, această metodă
se bazează doar pe o abordare mecanică, ce porneşte de la comportament şi se orientează spre
personalitate. Se încearcă să se stabilească evaluarea personalităţii care se dezvoltă numai cu o
probă, fără a se ţine cont de dezvoltarea individului şi de influenţa educaţiei.

c. Eroarea se accentuează dacă se doreşte stabilirea unui pronostic, pentru aceasta pornindu-se
de la presupunerea că nivelul care s-a calculat prin intermediul acestui test într-un anumit grad de
dzvoltare va caracteriza şi în viitor persoana evaluată. Potrivit acestei idei, se admite o
predeterminare transcendentă a oricărei evoluţii ulterioare a unei fiinţe umane în funcţie de
condiţiile oferite şi în mod conştient sau inconştient se neagă posibilitatea de transformare a omului:
a adultului prin interacţiunea socială şi a copilului prin intermediul educaţiei.
d. Atunci când se aplică acelaşi test standard la două persoane cu o dezvoltare diferită şi în
condiţii diferite, iar în funcţie de rezultatele acestuia, se doreşte să se obţină concluzii referitoare la
inteligenţa lor, se comite în mod evident o greşeală, deoarece nu se ţine seama de faptul că
rezultatele depind de condiţiile de evoluţie sau dezvoltare. Doi studenţi sau doi muncitori pot să
rezolve testele în moduri diferite, deoarece unul dintre studenţi este mai slab pregătit, iar unul dintre
muncitori mai puţin versat decât ceilalţi. Însă prin intermediul învăţării, ambii pot să-i întreacă pe
ceilalţi.
e. Faptul că anumite teste pot fi rezolvate de un procent de 75% dintre copii aparţinând unui
anumit interval de vârstă şi unui anumit mediu şcolar nu este un motiv pentru a-l considera drept
criteriu prin intermediul căruia se poate stabili inteligenţa sau dezvoltarea intelectuală a unor copii
care au fost educaţi în condiţii foarte diferite. O astfel de concluzie ar echivala cu a nu considera că
rezultatele testului depind de condiţiile de evoluţie a fiinţei umane concrete.
f. Un alt inconvenient este faptul că se utilizează scale standard şi că se încearcă clasificarea
indivizilor prin intermediul unor probe în care nu se ţine cont de diferenţele individuale.
g. Trebuie scos în evidenţă şi conţinutul cazuist şi adesea provocator al acestor probe, care, în
general, nu iau considerare pregătirea specifică a subiectului în evaluare. Prin formularea unor
probleme care nu au legătură cu învăţarea se consideră, în mod greşit, că se pot obţine concluzii
referitoare la capacitatea de învăţare a subiectului.
Toţi aceşti factori au contribuit la o criză pe care Maloney şi Ward (1976, apud. Buela-Casaly;
Sierra, 1997) au descris-o drept o perioadă de pragmatism empiric exacerbat şi cu tendinţe spre
formulele şi prescripţiile de evaluare sub formă de „cărţi de bucate”. Aceşti autori vorbesc, de
asemenea, despre abuzul şi utilizarea fără distincţie care s-a făcut în cazul testelor, precum şi despre
interpretarea lor greşită şi/sau despre lipsa de cunoaştere a semnificaţiei acestora.
Cu toate acestea, orice criză îşi are aspectele sale inovatoare şi pozitive; astfel, în acest context
apar numeroase publicaţii, considerate clasice în prezent, care fac referire la aspectele psihometrice.
În 1950, Gulliksen publică The theory of mental test cu scopul de a sistematiza procedurile de
validare a testelor; în 1955 apare lucrarea lui Cronbach şi Meehl Construct validity in psychological
tests; iar în 1958 se publică prima ediţie a lucrării Psychological testing, de Anastasi (Buela-Casaly;
Sierra, 1997).
Într-un efort de a îmbunătăţi calitatea instrumentelor evaluării psihologice, APA creează un
comitet condus de Cronbach responsabil să elaboreze raportul Technical recommendations for
psychological and diagnostic aids din 1954 în care se menţionează necesitatea ca testele să fie
însoţite de un manual cu informaţii despre interpretarea rezultatelor, validitate, fiabilitate,
administrare etc. (Rogers, 1955)
Criza externă a evaluării psihologice îşi atinge punctul culminant în mişcarea antiteste care a
avut loc în Statele Unite în anii cincizeci şi, mai ales, în anii şaizeci. Realitatea era că, în ciuda
faptului că primii psihometrişti au utilizat testele cu intenţia ca toţi oamenii să aibă şanse egale
exclusiv în funcţie de capacitatea lor, aceste proceduri de evaluare au favorizat până la urmă clasele
dominante şi privilegiate. În curând, această discuţie a trecut din cercurile ştiinţifice în viaţa
citadină. Astfel, se produc fapte remarcabile precum arderea protocoalelor într-o şcoală din Texas,
în 1959, interzicerea utilizării probelor psihologice în statul California şi în şcolile din New York
(Buela-Casaly; Sierra, 1997). Conform părerii lui Blanco (1986 b, apud. Buela-Casaly; Sierra,
1997), această revoltă antiteste a fost rezultatul a patru factori diferiţi: limitările reale atât tehnice
(conceptuale, metodologice şi instrumentale) cât şi umane (lipsa de cunoştinţe, greşeli sau erori),
abuzurile comise într-o administraţie nediscriminată şi neadecvată de probe, reacţiile defensive ale
societăţii în faţa unor instrumente care i-ar putea viola intimitatea şi, în ultimul rând, criticile
derivate dintr-o prezentare nepotrivită a rezultatelor procesului de diagnosticare; adică, nu tehnica
însăşi, ci utilizarea sa inadecvată poate duce la riscuri.

Capitolul II
CÂTEVA CLARIFICĂRI CONCEPTUALE

II.1. Evaluarea şi măsurarea în psihologie

Evaluarea psihologică este un proces care vizează descoperirea manifestărilor realităţii,


având drept scop aprecierea individului în legătură cu una sau mai multe probleme specifice:
funcţiile intelectuale, aptitudinile speciale, comportamentul, diferite variabile emoţionale şi sociale.
După Albu (2000), evaluarea reprezintă “operaţiile de culegere de date despre una sau mai
multe caracteristici ale unui obiect şi de prelucrare a acestora, având ca rezultat o descriere a
obiectului în termeni cantitativi şi/sau calitativi”.
Evaluarea se desfăşoară în doi paşi: mai întâi se culeg date despre obiectul care trebuie
evaluat, folosind un fundament sau o metodă, apoi, pe baza acestor date se formulează aprecierile
comparând valorile variabilelor pentru fiecare obiect cu cele ale altor obiecte sau cu standardele
fixate.
“A măsura” (DEX, 1984) înseamna “a determina cu instrumente sau cu aparate de măsură,
cataloage, etc. valoarea unei mărimi”.
În psihologie, a măsura înseamnă a atribui numere unor fenomene, potrivit unor reguli
determinate, astfel încât atributele persoanelor să fie corect reflectate prin proprietăţile numerelor.
Măsurarea în psihologie reprezintă aşadar primul pas în evaluarea psihologică, deci este
inclusă în aceasta.
Măsurarea în psihologie se realizează prin metode psihometrice care vor fi prezentate în
capitolul III (Metode de bază în evaluarea psihologică).

II.2. Noţiunea de psihodiagnoză

Evaluarea în psihologie se numeste psihodiagnoză.


Albu (2000) defineşte psihodiagnoza ca întreaga acţiune de evaluare a unei persoane în
privinţa unor caracteristici psihice, a conduitelor şi/sau a performanţelor sale, fie pentru a le
identifica pe cele care îi sunt specifice (sunt mai pronunţate sau din contră, mai puţin pronunţate
decât restul, ori au alte valori decât cele obişnuite în populaţia din care face parte persoana), fie
pentru a descoperi cauzele care au făcut ca prin unele aspecte individul respectiv să se deosebească
de celelalte persoane.
Concluziile formulate la sfârsitul psihodiagnozei constituie psihodiagnosticul.
Scopul psihodiagnozei este stabilirea ştiintifică a caracteristicilor psihologice ale persoanei.
Această cunoaştere are un caracter deductiv deoarece pentru a desprinde caracteristicile psihologice
ale persoanei (care sunt interne) se porneşte de la conduitele şi acţiunile acesteia (care sunt externe).
Izvoarele cunoaşterii psihologice sunt datele brute, adică: reacţiile fiziologice şi vegetative,
reacţiile verbale, numărul de răspunsuri corecte, timpul de reacţie, etc.
Această cunoaştere se realizează prin metode nepsihometrice şi metode psihometrice.
Evaluarea psihologică are o valoare relativă dacă se iau în considerare doar aspectele
cantitative ale performanţelor obţinute prin teste sau chestionare.
Deseori se pledează în favoarea testelor ca metode obiective de cunoaştere dar acestea pot fi
eficiente doar dacă se îmbină cu măiestria şi competenţa specialistului.
Pentru a ajunge la un psihodiagnostic corect, specialistul apelează la mai multe surse de
informare pe care le interpretează corelativ. După Albu (2000), acestea ar fi: comportamentul
subiectului (cel mai adesea în timpul examenului psihologic), limbajul corpului, scorurile la testele
şi chestionarele psihologice, anamneza (cunoaşterea evenimentelor mai importante din viaţa unei
persoane), interpretările persoanei despre diferite situaţii trăite.

II.3. Test şi testare psihologică

Testele sunt instrumente de măsură în evaluarea psihologică şi fac parte din metodele
psihometrice alături de chestionare.
Testul este probă, procedură, procedeu sau instrument standardizat; itemii săi servesc drept
stimul pentru producerea şi măsurarea unui eşantion de comportament.
Scorul testului va fi apreciat prin raportarea şi compararea cu o populaţie de referinţă, testată
în condiţii identice, în raport cu care s-a construit sistemul de apreciere (barem, etalon, norme,
categorii tipologice);
Funcţia testului este în acelaşi timp diagnostică (apreciază starea de fapt), dar şi prognostică
(anticipează categorii de comportamente mai importante decât cele măsurate efectiv);
Pentru a fi cu adevărat util, testul psihologic trebuie să aibă calităţi psihometrice specificate
(fidelitate, validitate, sensibilitate sau forţă de discriminare).
Testarea psihologică este procesul de administrare, cotare şi interpretare a rezultatelor unui
test psihologic. Ea reprezintă doar o etapă în evaluarea psihologică.

Capitolul III
METODE DE BAZĂ ÎN EVALUAREA PSIHOLOGICĂ

III.1. Noţiunea de metodă în psihologie

Avându-şi originea în cuvântul grecesc “methodos” (cale, drum de urmat), metoda în


psihologie poate fi considerată drept calea pe care cercetătorul o urmează în demersurile sale
ştiinţifice în vederea obţinerii de date şi a prelucrării lor.
Zlate (2000) defineşte metoda ca fiind “... calea, itinerariul, structura de ordine sau
programul după care se reglează acţiunile practice şi intelectuale în vederea atingerii unui scop”.
Deoarece o evaluare psihologică complexă îmbină mai multe metode pentru culegerea
informaţiilor despre persoana evaluată, vor fi prezentate în continuare atât metodele psihometrice
care folosesc ca instrumente chestionarul sau testul cât si metode nepsihometrice cum sunt
observaţia sau interviul.

III.2. Metode nepsihometrice

III.2.1. Observaţia
Cuvântul observaţie provine din latinescul “observare” care înseamna “a privi”, “a fi atent
la”.
Zlate (2000) defineşte observaţia ca “urmărirea intenţionată şi înregistrarea exactă,
sistematică, a diferitelor manifestări comportamentale ale subiectului ca şi a contextului situaţional
al comportamentului.
Observaţia, deşi are un caracter de non-invenţie, nu se reduce la simpla “lectură” a faptului
brut, ci se prelungeşte într-un act de clasificare, de încadrare a informaţiei în anumite concepte şi de
anticipare a unor relaţii (Radu,I.şi colab., 1993).
Din perspectiva evaluării psihologice, interesează observaţia focalizată pe aspecte specifice,
în acest caz înregistrarea rezultatelor observaţiei realizându-se cu ajutorul unor grile de observaţie
care îi asigură un caracter sistematic.
Este util (atunci când este posibil) ca testarea psihologică să fie însoţită de observarea atentă
a comportamentului subiectului în timpul testării, iar interpretarea rezultatelor să se facă corelativ
cu cea a comportamentelor observate, prin găsirea de semnificaţii. Un rol important îl are aici
experienţa proprie a observatorului.

III.2.2. Convorbirea
Comparativ cu metoda observaţiei, convorbirea permite sondarea mai profundă a vieţii
interioare a subiectului. Informaţiile pe care cercetătorul urmăreşte să le obţina sunt referitoare la
motive, aspiraţii, trăiri afective, interese (Cosmovici, 1996). Cel care utilizează metoda convorbirii
în evaluarea psihologică trebuie să câştige încrederea subiecţilor şi să asigure un climat destins, de
încredere reciprocă. Specific acestei metode este schimbarea locului şi rolurilor partenerilor (cel
care a întrebat poate să şi răspundă, cel care a răspuns poate să şi întrebe)
(Neveanu,P.;Zlate,M.;Creţu,T., 1993).
III.2.3. Ancheta pe bază de interviu
Ancheta pe bază de interviu este foarte asemănătoare cu metoda convorbirii, presupunând
raporturi verbale între participanţi, în scopul obţinerii unor informaţii. De obicei interviul este
dinainte structurat, întrebarile fiind deţinute dinainte şi în acest fel capătă o amprentă oarecum
oficială. Spre deosebire de metoda convorbirii, în ancheta pe bază de interviu fiecare participant îşi
păstrează rolul de emiţător sau de receptor.

III.2.4. Anamneza (Metodă biografică)


Anamneza vizează cunoaşterea “istoriei personale” a fiecărui individ, necesară în stabilirea
profilului personalităţii sale şi în explicarea comportamentului actual al persoanei.
Metoda se concentrează asupra succesiunilor diferitelor evenimente din viaţa individului, a
relaţiilor dintre evenimentele-cauză şi evenimentele-efect, dintre evenimentele-scop şi
evenimentele- mijloc.
Pentru a pătrunde în esenţa vieţii unui individ şi a o explica, investigaţia trebuie adâncită
treptat, trecând de la evenimentele externe, formale, superficiale, la cele interne, psihologice, de
conţinut.

III.3. Metode psihometrice

III.3.1. Concepte fundamentale în măsurarea psihologică

III.3.1.1. Variabile statistice


Analiza statistică a unei populaţii se face pornind de la însuşirile ei. O însusire care poate fi
urmărita la toate unităţile statistice din populaţia investigată se numeşte caracteristică statistică.
Valorile pe care le ia o caracteristică statistică se numesc modalităţi. Modalităţile statistice
sunt stabilite de cercetător în funcţie de scopul investigaţiei. De exemplu caracteristica statistică
“vârstă” poate fi exprimată prin ani împliniţi, intervale de vârsta, etc.
O caracteristică pentru care în populatie există o singură modalitate se numeşte constantă.
O caracteristică pentru care în populaţia statistică există cel puţin două modalităţi se numeşte
variabilă statistică.
Pentru ca o variabilă să poată fi utilizată (de exemplu atunci când se doreşte construirea unui
test pentru măsurarea variabilei respective), ea trebuie definită operaţional, adică trebuiesc precizate
toate activităţile concrete pe care cercetătorul le face pentru măsurarea ei.
În psihologie nu se măsoara persoanele, ci anumite caracteristici ale persoanei, care pot fi
constante (inteligenta) sau variabile (motivaţia).
Atribuirea de numere (măsurarea) este posibilă doar printr-o cale indirectă, utilizând o scală
de măsurare a comportamentelor.

III.3.1.2. Scale de măsură


Din punct de vedere matematic, măsurarea este funcţia care atribuie fiecărui element din
mulţimea de persoane/obiecte (numite mulţime de definiţie) un număr şi numai unul (din mulţimea
în care funcţia ia valori) numit măsura elementului, conform unei anumite reguli.
Fiecare sistem de reguli defineşte câte un tip de măsurare sau câte un tip de scală. În practica
psihologică sunt utilizate patru tipuri de scale: nominale, ordinale, de interval şi de raport.

Scalele nominale
Măsurarea pe o scală nominală poate fi realizată ori de câte ori caracteristica studiată
permite împărţirea în clase de elemente echivalente. Specific ei este relaţia de echivalenţă. Oricare
două submulţimi ale unei clase nu trebuie să se intersecteze.
Un exemplu ar fi variabilele referitoare la sexul persoanelor. O clasă are 31 de elevi din care
14 băieti şi 17 fete.
Măsura unui element este doar o etichetă şi serveşte pentru denumirea acestuia. Nu este
posibilă realizarea unei analize statistice în afara modului şi a frecvenţelor.

Scalele ordinale
Măsurarea pe o scală ordinală realizează ierarhizarea claselor. Aceste scale presupun o
relaţie de echivalenţă şi o relaţie de ordine între elemente, dar deşi clasele sunt ordonate, distanţa
dintre ele nu poate fi estimată.
De exemplu muncitorii unei secţii sunt ierarhizaţi în funcţie de randamentul lor, de la cel
mai eficient la cel mai puţin eficient, fară a se cunoaste distanţa exactă dintre ei. Statistic, pot fi
calculate centilele şi mediana sau coeficientul de corelaţie al lui Spearman, iar grafic putem realiza
histograme.

Scalele de interval
Măsurarea pe o scală de interval presupune o unitate de măsura comună şi constantă.
Caracteristic scalelor de interval sunt: relaţia de echivalenţă, relaţia de ordine şi cunoaşterea
distanţei dintre clase (deoarece se stabileşte un punct 0 arbitrar).
De exemplu, măsurarea inteligenţei se realizează pe o scală de interval.
Măsurarea pe o scală de interval permite utilizarea celor mai numeroşi indici statistici
(medie, abatere standard, coeficienţi de corelaţie) precum şi reprezentarea grafică prin histograme şi
poligoane de frecvenţă.

Scalele de raport (sau de proporţii)


Posedă proprietăţile scalelor de interval dar au un punct 0 nonarbitrar (adică se poate aprecia
în mod obiectiv când un element este lipsit de caracteristica studiată). În psihologie măsurarea nu se
realizează pe scale de proporţii deoarece nu exista puncte 0 nonarbitrare (absenţa absolută a
inteligenţei, a capacităţii perceptive, a motivaţiei, etc.).

III.3.1.3. Indici statistici de start


În situaţia tipică a testării psihologice, ne interesează poziţia unui individ în cadrul unui grup
mai larg. Interpretarea măsurii unei cote depinde de cunoaşterea poziţiei relative a ei într-un grup de
referinţă. Acest lucru presupune strângerea prealabilă de date asupra acestei colectivităţi şi
întocmirea unui tabel de norme, adică a unui etalon (Radu,I.şi colab., 1993).
Ordonarea şi gruparea datelor
Datele brute obţinute în urma unei testări în vederea construirii unui etalon sau a calculării
indicilor de fidelitate sau de validitate, sunt transcrise informatic şi devin fişier de date (bază de
date). Aceste date brute pot fi numărul de răspunsuri corecte la un test sau răspunsurile tuturor
subiecţilor testaţi, la fiecare item.
Ca prim pas se urmăreşte modul de organizare al datelor, distribuţia lor. Graficul de bază
este histograma care ia cel mai frecvent trei forme: distribuţie simetrică, distribuţie asimetrică şi
distribuţie în formă de i sau j. Forma disribuţiei ne ghidează spre prelucrările statistice pe care le
vom face în continuare. Pentru distribuţie normală se calculează media, dispersia şi abaterea
standard, pentru distribuţie asimetrică se determină mediana, iar pentru distribuţiile în formă de i
sau j se determină modul, respectiv frecvenţa.

Semnificaţia mediei şi a abaterii standard


Cu ajutorul programelor de prelucrare statistică se calculează tendinţa centrală a datelor
(media, mediana, modul). Dispersia (variaţia) şi abaterea standard indică organizarea interioară a
distribuţiei, adică împrăştierea datelor în jurul mediei, oferindu-ne informaţii despre variabilitatea
grupului studiat.
În psihologie nu putem lucra pe întreaga populaţie ci doar pe un eşantion reprezentativ
extras din acea populaţie. Dar, extrapolând indicii eşantionului la populaţie comitem o anumită
eroare a cărei valoare trebuie să fie cât mai mică.
“m” reprezintă media în populaţie iar media în eşantion. S-a stabilit ca ± 1.96 Γ în raport
cu media acoperă 95% din rezultate iar 5% cad în afara acestui interval (câte 2.5% de o parte şi de
alta spre extremităţile grupului), iar 99% din rezultate sunt cuprinse în intervalul m ± 2.58 Γ în timp
ce 1% sunt exterioare acestui intreval.
Pentru a evalua eroarea ce o comitem când luăm drept bază media eşantionului m în locul
mediei adevărate a populatiei m (pe care nu o putem practic determina), se calculeaza eroarea
standard a mediei E cu formula E= .
Riscul de a greşi atunci când facem o afirmaţie se numeşte prag de semnificaţie. Intervalul
( – 1.96E; + 1.96E) se numeşte interval de încredere la pragul de semnificaţie de 0.05 ceea ce
înseamnă că riscul ca adevărata medie în populaţie să cadă în afara intervalului este de 5%, iar
intervalul ( – 2.58E; + 2.58E) este interval de încredere la p=0.01.

Cotele (scorurile) standard


Un scor standard este un scor care a fost transformat dintr-o scală în alta, ultima fiind una pe
baza căreia se pot face comparaţii. Cele mai cunoscute sunt scorurile z şi T.
Scorul z are o distribuţie etalon în care m=0 si Γ=1. Transformarea variabilei brute x se face
pe baza formulei: z= .
În tabelul legii normale reduse, trebuiesc reţinute două repere: pentru |z|=1.96 citim 0.05 iar
pentru |z|=2.58 citim 0.01.
Scorurile T au o distribuţie a cărei medie este 50 iar abaterea standard este 10.
Scorul care se gaseste la 5Γ sub medie este un scor T=0 iar 5Γ peste medie va fi 100.
Avantajul la scorurile T este că nu au valori negative.

III.3.2. Chestionarul psihologic

Holban şi colab.(1978) definesc chestionarul ca o “investigaţie în fondul intim al individului


pentru dezvăluirea motivelor, opiniilor, atitudinilor, intereselor acestuia, incursiune care se bazează
pe o succesiune logică şi psihologică de itemi adresaţi persoanei şi ale căror răspunsuri sunt
consemnate în scris”.
Se prezintă astfel şi o clasificare a chestionarelor în chestionare de opinii şi atitudini,
chestionare de interese, chestionare motivaţionale şi la care pot fi adăugate chestionarele de
personalitate (de exemplu Inventarele Minnesota).
Un chestionar este un ansamblu de întrebări scrise sau de imagini alese şi aranjate astfel
încât să servească obţinerii de informaţii despre o temă fixată, care au rolul de a determina din
partea celui care răspunde un comportament verbal sau non-verbal ce se înregistrează în scris.
(Albu, 2000)
Construirea unui chestionar presupune o muncă laborioasă prin parcurgerea mai multor
etape:
- stabilirea temei (obiectului) chestionarului
- documentarea cu privire la obiectul respectiv
- stabilirea ipotezelor
- selectarea eşantionului
- aplicarea pilot a chestionarului pentru a vedea dacă a fost bine elaborat
- definitivarea chestionarului
- administrarea chestionarului
- recoltarea şi analiza datelor obţinute
- stabilirea concluziilor având în vedere ipotezele formulate
După Albu (2000), elementele componente ale unui chestionar sunt consemnele (adică
instrucţiunile şi informaţiile date persoanelor care răspund la chestionar şi care sunt prezentate într-
o manieră identică tuturor subiecţilor) şi întrebările sau imaginile.
După tipurile întrebărilor cuprinse în chestionar putem distinge: chestionare cu întrebari
închise (răspunsurile sunt furnizate dinainte, subiectul trebuind să aleagă), chestionare cu întrebări
deschise (subiectul are deplina libertate de a răspunde dar răspunsurile sunt dificil de analizat din
punct de vedere calitativ) şi chestionare cu întrebări mixte.

III.3.3. Testul psihologic

III.3.3.1. Definiţie
În DEX (1984) prin test se înţelege proba prin care se examinează în psihologia
experimentală unele aptitudini fizice şi psihice ale unei persoane; materialul (fişe, tablouri, scheme)
cu care se face aceasta probă.
Anastasi (1976) definea testul ca o măsura obiectivă şi standardizată a unui eşantion de
comportament.
Cronbach (1970) spunea despre test că este un procedeu sisematic pentru observarea
comportamentului unei persoane şi a cărui descriere se face pe baza unei scale numerice sau a unui
sistem categorial.
O definiţie complexă a testului este dată de Aurel Stan (2002): “procedeu standardizat de
investigaţie psihodiagnostică punând în evidenţă, prin diferite modalităţi de stimulare a subiecţilor,
comportamentele relevant psihodiagnostice, exploatabile informaţional, pe baza comparării
rezultatelor obţinute cu cele aparţinând unor eşantioane reprezentative de persoane aflate într-o
situaţie de examinare identică şi care foloseşte, în descrierea si explicarea concluziilor, termeni
ştiinţifici specifici teoriei pe care se bazează construcţia sa“

III.3.3.2. Caracteristicile testului psihologic


1. Este un instrument de evaluare a comportamentului, alături de alte instrumente ale
metodei experimentale. El serveşte la măsurarea unor atribute psihice sau/ şi predicţia unor
comportamente.
2. Este un instrument standardizat. Standardizarea se referă la modalitatea de
administrare, cotare şi raportare la etalon. Standardizarea testului implică astfel un proces de
obiectivizare şi uniformizare cu privire la aceste etape ale testării psihologice.
3. Este alcătuit dintr-o colecţie de itemi sau stimuli specifici care generează o reacţie
specifică din partea subiecţilor testaţi. (Stan, 2002)
4. Vizează un eşantion de comportament. Dacă un psiholog doreşte să evalueze
vocabularul unui copil sau aptitudinile sale aritmetice, va trebui să îşi aleagă din totalitatea
comportamentelor disponibile câteva reprezentative pentru a le include într-o probă psihologică.
5. Are ca scop evidenţierea unor comportamente “relevant diagnostice” prin
compararea rezultatelor obţinute cu cele reprezentând eşantioane reprezentative de persoane.
Testele psihologice sunt utilizate în general pentru a stabili un diagnostic psihologic, pentru
a face aprecieri şi predicţii referitoare la subiecţi şi pentru a lua decizii asupra persoanelor în cadrul
unei evaluări psihologice.
III.3.3.3. Clasificarea testelor psihologice
Albu (2000) prezintă o clasificare a testelor psihologice astfel:
· după modul de executare a sarcinii de către subiect:
o teste orale
o teste scrise (creion – hârtie)
o teste de performanţă (cu manipulare de obiecte şi piese sau teste administrate de
calculator)
· după gradul de utilizare a limbajului în rezolvarea sarcinii:
o teste verbale (teste de vocabular sau de rafinament verbal)
o teste non-verbale (de exemplu completarea unor figuri lacunare)
· după numărul de persoane care pot fi examinate simultan:
o teste individuale
o teste colective
· după timpul de execuţie a sarcinii:
o teste cu limită de timp
o teste cu timp de lucru nelimitat
· în funcţie de comportamentele evaluate de itemii lor:
o teste cognitive:
§ teste de aptitudini
§ teste de succes educaţional
o teste afective:
§ chestionare de personalitate
§ tehnici proiective
§ teste obiective de personalitate
· după modul de stabilire a cotei la test:
o teste obiective (cotarea răspunsurilor se face după o regulă prestabilită)
o teste subiective (folosite în psihologia clinică şi care permit ca mai mulţi evaluatori
să coteze foarte diferit răspunsurile aceleiaşi persoane, testele proiective făcând parte
din această categorie)
· după modul în care se interpretează scorurile testelor:
o teste normative (scorul individual se interpretează prin raportare la un etalon)
o teste centrate pe criteriu (în care de la început a fost stabilit nivelul acceptat de
performanţă, iar rezultatul este exprimat prin “a reuşit” sau “nu a reuşit”)
o teste idiografice (presupun completarea aceleiaşi forme a chestionrului în ocazii
diferite pentru a vedea evoluţia în timp a scorului)
o teste ipsative (presupun interpretarea scorurilor pentru un subiect prin compararea
între ele sau prin compunerea scorurilor altor persoane. Un exemplu este testul de
interese profesionale în care subiectul trebuie să aleagă afirmaţia care i se portiveşte
cel mai mult şi/ sau informaţia care i se potriveşte cel mai puţin)

III.3.3.4. Funcţiile testelor psihologice

Orice test are o funcţie diagnostică şi una prognostică, valoarea lor depinzând de scopul pentru care
a fost creat instrumentul respectiv. Dar, aşa cum apreciază Anne Anastasi, de multe ori predicţia se
bazează pe diagnosticul unui potenţial sau al unei capacităţi: ”nici un test psihologic nu poate face
mai mult decât să măsoare un comportament. Dacă un asemenea comportament poate servi ca un
indicator efectiv al altui comportament, acesta poate fi determinat numai prin cercetare empirică” a
itemilor.
III.3.3.5. Domenii de utilizare a testelor psihologice
Dintre domeniile de aplicabilitate ale testelor psihologice pot fi amintite: psihologia clinică,
psihologia şcolară, consilierea psihologică, psihologia muncii sau neuropsihologia.
În psihologia clinică, cel mai adesea este vizată evaluarea psihopatologiei mai ales prin
probe proiective şi chestionare de personalitate. Printre probele cele mai aplicate în psihologia clinică
se numără testele Roschach, Szondi, Lusher, TAT (Thematic Aperception Test), chestionarul Eysenck,
Schmiescheck, inventarul MMPI (Minnesota Multifazic Personality Inventory). Evaluarea inteligenţei
este un alt aspect vizat în psihologia clinică. Psihologul clinician intervine diagnostic şi terapeutic în:
· Aprecierea normalităţii/ anormalităţii dezvoltării neuropsihice a copilului şi adolescentului (clinica
pediatrică).
· În investigarea dezordinilor de personalitate, a stărilor reactiv-anxioase, a tentativelor de suicid sau
a stărilor de criză.
· În comportamentul deviant, asocial, antisocial sau delictual.
· În pervertirea instinctelor alimentare (anorexie, obezitate, bulimie).
· În aprecierea dezordinilor neurologice sau psihiatrice, calculul indicelui de deteriorare, ca şi în
recuperarea unor funcţii mintale pierdute total sau parţial.
· În diagnoza şi recuperarea problemelor aduse de involuţie, sau de patologia asociată îmbătrânirii.
· În expertizarea capacităţii de muncă sau a deficienţelor de intelect pentru acordarea certificatelor de
persoană handicapată.

În psihologia şcolară, prin aplicarea testelor psihologice, este vizată evaluarea


maturităţii şcolare, evaluarea progresului în procesul informativ – educativ, evaluarea potenţialului de
învăţare, evaluarea copiilor cu cerinţe speciale. Prima arie în care s-a produs dezvoltarea şi utilizarea
testelor mentale (pentru a respecta termenul propus de Cattell) a fost câmpul educaţional, şcoala, prin
bateria creată şi publicată de Binet şi Simon în 1905. La aproape un secol de la lansarea primei Scale
metrice a inteligenţei, şcoala rămâne în continuare marele beneficiar al psihodiagnozei. Utilizarea
acesteia pe terenul educaţiei are funcţii complexe:
· Depistarea copiilor cu o subdotare intelectuală (debilitate mintală, intelect de limită), sau cu alte
caracteristici neuropsihiatrice, pentru a li se crea condiţii favorabile de tratament psihopedagogic
diferenţiat, prin şcoli speciale sau prin integrare în învăţământul de masă.
· Depistarea supradotaţilor, pentru instituirea unei pedagogii a excelenţei (curriculum diferenţiat).
· Diagnosticarea problemelor de învăţare şi a celor comportamentale (de conduită), pentru a stabili
programe educaţionale adecvate (“educaţia pe măsură”).
· Selecţia educaţională prin teste standardizate la colegii sau universităţi (nu ca o procedură unică, ci
în asociere cu altele, cum ar fi scrisorile de recomandare, mediile din timpul anilor de studiu la
anumite discipline şcolare, interesele elevului în afara şcolii etc.).
· Testele educaţionale (docimologice sau de cunoştinţe), pentru a verifica fie gradul de atingere al
obiectivelor operaţionale, fie pentru a face un diagnostic –local, regional sau naţional – al
învăţământului însuşi ca sistem, fie pentru a detecta cunoaşterea minimă prin posesia căreia se
poate face o certificare a educaţiei primite într-un ciclu sau tip de şcoală.
Prin intermediul psihodiagnosticului şcolar se poate asigura personalizarea învăţământului şi
tratarea diferenţiată a elevilor, determinarea nevoilor de educaţie, orientarea şcolară şi profesională,
selecţia elevilor pentru programe speciale, determinarea potenţialului de învăţare şi promovarea
metodelor de diagnostic formativ, controlul şi autocontrolul procesului educativ, surprinderea
elementelor motivaţional-afective legate de învăţare, radiografierea grupului şi a dinamicii sale etc.
Credem că zona celei mai vaste şi mai fructuoase întâlniri dintre ştiinţa testelor (psihometria) şi ştiinţa
examinării (docimologia, doxolgia sau docimastica) este cel al evaluării. Chiar randamentuil şcolar, ca
raport dintre aptitudinile, interesele elevului şi gradul de acoperire al obiectivelor operaţionale,
exprimate prin calificative, note sau medii şcolare, este locul unde testarea psihologică şi cea
educaţională se întâlnesc în modul cel mai fericit.

În consilierea psihologică se urmăreşte evaluarea aptitudinii, evaluarea comportamentului


social sau evidenţierea intereselor în scopul orientării şcolare şi profesionale.
Cum ar putea fi acest copil mai puţin conflictual în grup? Ce carieră ar fi cea mai potrivită
pentru persoana X? Ce activităţi i s-ar putea recomanda după pensionare lui Y, pentru a se potrivi
cu structura sa cognitivă şi cu interesele sale? Cum ar putea depăşi solicitările prea stresante o
personalitate de tip A, pentru a preveni un infarct? Sunt doar câteva din întrebările la care poate
răspunde psihodiagnoza în domeniul consilierii.

În psihologia muncii, cu ajutorul testelor, psihologul urmăreşte:


· să evalueze forţa de muncă, pentru a face o selecţie în domeniul profesiunilor;
· să prevină fluctuaţia forţei de muncă şi accidentele de muncă;
· să avizeze periodic activităţile cu risc (lucrul la înălţime, portul de armă etc.);
· să ofere criterii valide de promovare şi să ajute la construirea carierei;
· să identifice structura aptitudinală, cea a factorilor de personalitate şi a intereselor pentru a ajuta
la reprofesionalizare şi la reconversie profesională;
· să asiste tehnic reciclarea şi reprofilarea într-o lume în care schimbarea devine condiţia sa
permanentă;
· să contribuie la ameliorarea climatului de muncă prin cunoaşterea dinamicii grupurilor.

În neuropsihologie, testele se folosesc pentru evaluarea leziunilor cerebrale.

III.3.3.6. Surse de eroare în testarea psihologică


Orice scor la un test psihologic este rezultatul unui scor real şi al unei erori pe măsură.
Măsura în care scorurile la un test exprimă de fapt valorile reale ale contextului măsurat presupune
calcularea fidelităţii testului respectiv, dar acest lucru va fi analizat la momentul potrivit.
Situaţia ideală, dar niciodată întâlnită în practică, este absenţa erorii. Cele mai frecvente
surse de erori în testarea psihologica ar putea fi sintetizate astfel:
· caracteristici stabile ale persoanei (altele decât cele măsurate):
o abilitatea generală a înţelegerii instrucţiunilor (dată de nivelul intelectual);
o deprinderi de rezolvare ale testelor;
o cunoaşterea de către subiect a răspunsurilor la unii itemi;
o deprinderi specifice care pot influenţa modul de rezolvare a testului în cauză (de
exemplu deprinderea în jocurile sega sau pe calculator influenţează performanţa în
testele de atenţie);
· caracteristicile situaţiei în care are loc testarea:
o caracteristicile temporare ale persoanei: starea de sănătate, oboseala, motivaţia,
tensiunea emoţională;
o condiţiile fizice ale administrării testului (de căldură, luminozitate, etc.);
o interacţiunea dintre personalitatea examinatorului şi cea a subiecţilor;
o factori de distragere a atenţiei (un zgomot neaşteptat, etc.) ;
· caracteristici ale testului folosit:
o probabilitatea ghicirii răspunsurilor la itemii cu alegere multiplă;
o modul de administrare al testului (pe calculator sau creion – hârtie);
o greşeli în formularea unor itemi (itemul este ambiguu, nu este înţeles de subiecţi
deoarece conţine neologisme, nu este potrivit populaţiei căreia îi este destinat, etc.).
Capitolul IV
PRINCIPII PSIHOMETRICE ALE UTILIZĂRII TESTULUI PSIHOLOGIC

IV.1. Standardizarea şi obiectivitatea


Standardizarea este o condiţie fundamentală a testului psihologic, unde orice variaţie a condiţiilor
produce o variaţie a rezultatelor.
Standardizarea se referă la două aspecte:
1. interpretarea rezultatelor unui subiect prin raportare la un standard sau etalon, adică la media
performanţelor obţinute la acelaşi test şi în aceleaşi condiţii de administrare de un eşantion
reprezentativ de subiecţi;
2. uniformizarea condiţiilor în care are loc examenul psihologic, adică standardizarea tehnicii
de administrare, cotare şi interpretare a rezultatelor;
Obiectivitatea se referă la măsurarea fără ambiguitate a capacităţilor persoanelor, deci
evaluatori diferiţi trebuie să obţină aceleaşi rezultate la evaluarea unui subiect.
Obiectivitatea mai este numită şi concordanţă interpersonală (Stan, 2002) şi este un aspect
ce ţine de standardizarea testelor psihologice.

IV.2. Fidelitatea

IV.2.1. Definiţie şi noţiuni de bază


Acest principiu psihometric se referă la precizia cu care un test măsoară o caracteristică. Se
spune că un test este fidel dacă atunci când se aplică de mai multe ori în aceleaşi condiţii, rezultatele
sunt identice de fiecare dată. Conceptul de fidelitate aplicat la un test este similar cu cel utilizat
atunci când facem referire la o armă, care este considerată fiabilă dacă atunci când un bun trăgător
trage cu ea de mai multe ori, reuşeşte să nimerească în acelaşi loc, caz în care se spune că există
precizie în tragere.
Fidelitatea absolută înseamnă absenţa totală a erorii de măsură, deci scorul obţinut este egal
cu scorul real. Dar acest lucru nu se întâmplă niciodată în practică şi atunci vorbim doar despre
fidelitatea relativă a unui test.
Deci, orice scor la un test psihologic este rezultatul dintre scorul real şi eroarea de măsură.
X=V+E
unde
X = scorul măsurat (observat)
V = scorul real
E = eroarea de măsură

Coeficientul de fidelitate reflectă doar mărimea raportului dintre dispersia scorurilor observate şi
dispersia erorilor de măsură. În acelaşi fel variaţia dintre scorurile măsurate va fi egală cu variaţia
dintre scorurile reale şi variaţia scorurilor eronate.

S2X = S2V + S2E

Coeficientul de fidelitate are expresia:


rxx= , şi ia valori în intervalul [0,1]
Dacă scorul măsurat este egal cu scorul real (deci eroarea este 0), coeficientul de fidelitate
va avea valoarea 1.
Dar cum în practică acest lucru nu este posibil, pentru ca un test să fie considerat fidel
trebuie să aibă un coeficient de fidelitate mai mare decât 0.70.
Fidelitatea şi eroarea de măsurare
Deoarece fidelitatea nu exprimă valoarea preciziei măsurătorii în aceleaşi unităţi ca şi scorul
total la test (exprimat în note standard), uneori ea este mai greu de interpretat. Acesta este motivul
pentru care precizia măsurătorii poate fi indicată şi sub forma unei erori de interpretare a scorului la
test, care va fi cu atât mai mică cu cât eroarea de măsurare va fi şi ea mai mică.

Eroarea standard de măsurare (SEM), serveşte la determinarea intervalelor de încredere


pentru scorurile reale ale subiecţilor.
Este dată de formula:
Se = Sx
unde:
Se = eroarea standard de măsură
Sx = abaterea standard a scorurilor la test
rxx = coeficientul de fidelitate

Când facem o apreciere ştiinţifică ne interesează care este intervalul în care se găseşte scorul
real. Acest interval se numeşte interval de încredere şi este definit de probabilitatea ca scorul real al
persoanei la un test să se găsească între anumite limite.
IC = X ± Z * Se
Scorul Z va fi ales în funcţie de precizia cu care dorim să lucrăm. Dacă alegem să lucrăm cu
o probabilitate de a răspunde de 95%, Z = 1.96; pentru o precizie de 99%, Z = 2.58.
Este de reţinut că:
· intervalul de încredere depinde de coeficientul de fidelitate al testului; dacă avem coeficienţi
de fidelitate mici, intervalul se măreşte, deci eroarea este mai mare;
· intervalul de încredere depinde de abaterea standard a scorurilor la test.

Ca exemplu:

S-a aplicat un test la un număr de subiecţi. Conform rezultatelor obţinute, media scorurilor
la test (x) a avut valoarea egală cu 18, abaterea standard egală cu 5 iar coeficientul de fidelitate egal
cu 0.90. Ne interesează să aflăm în ce limite s-ar afla adevăratul parametru al populaţiei, tinând cont
de faptul că se decide la un nivel de încredere de 95%.
Deci:
Z = 1.96
X = 18
Sx = 5
rxx = 0.90
Aplicând formula
Se = 5
Se = 1.58
IC = ± E
IC = 18 ± 3.10 deci [21.10; 14.90]
Deci putem afirma cu un risc de a greşi egal cu 5% că media scorurilor la testul aplicat în
populaţie se va găsi în intervalul [21.10; 14.90].
IV.2.2. Metode de calcul a coeficientului de fidelitate
Fidelitatea unui test psihologic se referă la două aspecte: consistenţa internă şi stabilitatea în
timp a rezultatelor testării.

Consistenţa internă
O bună consistenţă internă a unui test presupune o corelaţie ridicată între itemii testului
respectiv şi exprimă faptul că toate întrebările testului evaluează aceeaşi trăsătură. Metoda care
evaluează acest aspect poartă denumirea de metodă consistenţei interne.

Stabilitatea în timp a rezultatelor testării


Ne indică în ce măsură, la aplicări diferite în timp, un subiect obţine rezultate similare la un
test psihologic. Metoda care evaluează acest aspect al fidelităţii unui test se numeşte metoda
formelor paralele.
În afara acestor metode care sunt obligatorii pentru evaluarea fidelităţii unui test, se mai pot
utiliza încă două metode: metoda formelor (testelor) paralele şi metoda fidelităţii interevaluări.

Metoda analizei consistenţei interne


Pot fi calculaţi următorii coeficienţi:
· α Cronbach: pentru textele cu orice tip de itemi şi calculează media tuturor combinaţiilor
posibile între itemi.
· Kuder – Richardson α0: este echivalent cu cel al lui Cronbach, însă se utilizează atunci când
întrebările testului au fost punctate în mod binar, adică cu 1 dacă s-a răspuns corect şi cu 0
dacă s-a răspuns greşit.
· Kuder – Richardson 21: se utilizează în loc de formula anterioară atunci când proporţia de
răspunsuri corecte nu variaza mult de la un item la altul şi atunci este bine să se utilizeze
proporţia medie.
· Guttman sau Spearman – Brown: se folosesc după aflarea corelaţiei între două jumătăţi ale
testului cu ajutorul formulei lui Pearson, deoarece rezultatele se referă la un test cu o
lungime de două ori mai mică decât cea a testului original. Dar având în vedere că numărul
de jumătăţi posibile ale unuia este foarte mare şi este foarte greu ca două jumătăţi să fie
exact egale, este indicat să se calculeze unul din indicii de consistenţă internă prezentaţi
anterior.

Kaplan şi Saccuzzo (1993) sesizează foarte întemeiat că toate măsurile care evaluează consistenţa
internă determină de fapt gradul în care fiecare item diferit măsoară aceeaşi trăsătură sau abilitate.
Acest lucru presupune implicit că testul este omogen, în caz contrar acesta neavând consistenţă
internă. Pentru testele neomogene, procedeul cel mai indicat este analiza factorială, prin care se vor
putea subîmpărţi itemii pe grupe omogene, subtestele ce rezultă având fiecare o consistenţă internă
ridicată, dar fiind relativ independente unul în raport cu celelalte, ca în cazul subscalelor testului de
prsonalitate 16PF Cattell.

Aiken (1997) sesizează de asemenea că cele trei procedee de determinare a fidelităţii amintite
anterior supraestimează valoarea acesteia pentru testele în care este implicată viteza. În acest caz,
procedurile de apreciere a fidelităţii trebuie modificate, recomandarea făcută fiind aceea de a
administra cele două jumătăţi ale testului în momente diferite, dar cu limită de timp egală, după care
se calculează fidelitatea făcându-i-se corecţia cu formula Spearman – Brown.
Metoda test – retest
Coeficienţii de stabilitate obţinuţi prin aceeaşi metodă se calculează când testul
măsoară o caracteristică durabilă şi exprimă gradul în care scorurile aceluiaşi subiect la acelaşi test
sunt constante de la o aplicare la alta.
Metoda presupune două aplicări identice ale aceluiaşi test cu un interval de timp recomandat
a fi cuprins între 3 şi 6 luni.
Factori care influenţează calculul fidelităţii test-retest
· Intervalul de timp între test şi retest. Dacă timpul este prea scurt există o mare probabilitate
ca subiecţii să îşi reamintească răspunsurile date anterior, respectiv un timp prea lung între
test şi retest poate determina maturizarea eşantionului de subiecţi. Astfel dacă aplicăm un
test de percepţie la 4 ani şi îl reaplicăm la un interval de 6 luni există o mare probabilitate să
obţinem rezultate diferite la cele două administrări ale testului deoarece în intervalul de 6
luni subiectii s-au maturizat. În acest caz, retestul va include în evaluare nivelul de
maturizare al subiecţilor. Datorită acestor argumente este de multe ori dificil de stabilit cu
exactitate un timp optim între test şi retest.

Întotdeauna când se calculează acest coeficient trebuie precizat intervalul scurs între test şi retest,
vârstă subiecţilor precum şi condiţiile în care s-au administrat testele pentru a putea identifica
eventualele surse de eroare de măsură.

· Gradul de dificultate al itemilor. Dacă itemii sunt fie prea uşori, fie prea dificili, se vor
obţine coeficienţi de stabilitate ridicaţi deoarece itemii testului fie vor fi rezolvaţi de
majoritatea subiecţilor (în primul caz) fie nu vor fi rezolvaţi nici la test, nici la retest (al
doilea caz).
· Schimbări ale subiectului determinate de prima aplicare. Pot exista o serie de situaţii în care
se obţin performanţe diferite la retest deoarece subiectul fie a învăţat să răspundă la itemi
după prima administrare, fie această primă administrare a determinat schimbări de atitudini
faţă de o anumită problemă.

Metoda formelor paralele


Există o serie de situaţii practice care necesită aplicări repetate ale unui test psihologic la un
interval foarte scurt de timp. În acest caz, aplicarea aceluiaşi test este improprie deoarece s-a văzut
anterior că la un interval scurt de timp subiecţii pot să îşi reamintească răspunsurile date anterior. În
acest caz trebuie să se construiască forme echivalente sau paralele ale unui test. Două teste sunt
paralele dacă pentru un subiect erorile de măsură la cele două administrări sunt variabile aleatoare
independente. În acest caz itemii celor două teste trebuie sa fie logic izomorfi, adică să aibă acelaşi
nivel de dificultate.
Avantajul acestei metode este acela că nu mai permite reamintirea răspunsurilor şi nici
posibilitatea căutării răspunsurilor la întrebările la care nu s-a ştiut răspunde.

Dezavantajele acestei metode sunt următoarele:


- necesită consum de timp prin două administrări;
- subiecţii se pot plictisi dacă testările sunt prea lungi;
- este greu de realizat fiind dificilă şi costisitoare.

Fidelitatea interevaluatori
Este necesar a fi ca1culată în cazul testelor care nu au o cotare obiectivă aşa cum sunt testele
proiective de personalitate la care scorul este influenţat şi de interpretarea pe care o dă persoana
care face cotarea. Pentru a verifica în ce măsură scorul la test este influenţat de modalitatea în care
se face cotarea de către diferite persoane se va cere la diferiţi evaluatori să ca1culeze scorurile la
test, iar apoi se va realiza un coeficient de corelaţie interevaluatori. Acest coeficient va exprima
măsura în care testul este independent de erori datorate modalităţii de cotare a răspunsurilor
subiectului.
Coeficienţii de fidelitate transformaţi în coeficienţi de determinare (pătratul coeficientului de
fidelitate) relevă proporţia în care varianţa totală a rezultatelor psihometrice se datorează varianţei
"reale" - diferenţelor individuale reale - sau din contră, varianţei "eroare", definită diferit, în funcţie
de metoda particulară urmată în stabilirea tipului de fidelitate (Kulcsar, 1980). În consecinţă, deşi
semnificaţia diferiţilor coeficienţi de fidelitate nu este aceeaşi, totuşi orice coeficient de fidelitate,
ridicat la pătrat, poate fi interpretat în termeni de procentaj al varianţei randamentului la test. Astfel
de exemplu, un coeficient de fidelitate de .80 înseamnă că .802=64% din varianţa totală a
rezultatelor psihometrice considerate se datorează varianţei reale a domeniului explorat, iar 36%
varianţei eroare, generată de unele din sursele multiple ale deosebirilor în rezultatele psihometrice.

Interpretarea unui coeficient de fidelitate


Interpretarea fidelităţii
Răspunsul la întrebarea “cât de mare trebuie să fie fidelitatea unui test?” depinde de utilitatea care
se dă acestuia.
O fidelitate de 0,70 – 0,80 este suficient de bună când testul este folosit în scopuri de cercetare.
Se acceptă niveluri scăzute ale fidelităţii atunci când testele se utilizează pentru a lua decizii
preliminare (şi ridicate pentru decizii finale), sau când ele sunt folosite pentru împărţirea grupului în
subcategorii, pe baza unor diferenţe interindividuale mari.

Dacă testul serveşte la compararea grupurilor de persoane între ele, coeficienţii de fidelitate de 0,60
– 0,70 sunt suficienţi, dar când testul devine o bază de comparaţie între persoane individuale,
fidelitatea lui trebuie să fie de la 0,85 în sus.
Când se iau decizii importante pe bază de teste care împart persoanele în categorii, în virtutea unor
diferenţe mici (ca în selecţia profesională), fidelitatea acestora trebuie să fie de peste 0,90.
Când decizia priveşte destinul unei persoane individuale, fidelitatea testului trebuie să fie de cel
puţin 0,95.
Testele cognitive, şi în special cele de inteligenţă, au o fidelitate foarte mare (peste 0,90), în timp ce
chestionarele de personalitate rareori depăşesc 0,80. Aplicate colectiv, chiar şi testele cognitive
furnizează coeficienţi de fidelitate mai scăzuţi (circa 0,80). Testele cotate subiectiv, ce măsoară
aptitudini şi testele de cunoştinţe (educaţionale) rareori depăşesc valori ale fidelităţii de 0,80 (Traub,
1944). Testele cu alegere multiplă, utilizate colectiv, sunt considerate a avea o fidelitate bună când
aceasta atinge 0,75.
Murphy & Davidshopher (1998) prezinta următoarele repere în interpretarea coeficienţilor
de fidelitate (tabelul 1):

Valori ale coeficienţilor


Tipul testului Interpretare
de fidelitate
0.95
0.90 Teste de inteligenţă de grup
Fidelitate mare
0.85 Teste de performanţă
0.80
0.75 Teste cu răspunsuri multiple Fidelitate moderată
0.70 Scalele comportamentale
0.65
0.60 Unele măsurători proiective Fidelitate scăzută
0.55
0.50 Scorul real şi eroarea au efect
egal asupra scorurilor la test

Factorii care intervin în determinarea fidelităţii


Pentru ca estimarea fidelităţii să fie cât mai precisă, trebuie îndeplinite câteva condiţii
(Traub, 1944, apud Albu, 1998):

· Eşantionul să fie cât mai mare, pentru a reduce eroarea standard a repartiţiei, care este invers
proporţională cu rădăcina pătrată din numărul subiecţilor ce compun eşantionul.
· Eşantionul să fie reprezentativ pentru populaţia căreia îi este destinat testul, având acelaşi grad
de eterogenitate (omogenitatea diminuează valoarea coeficientului de fidelitate).
· Măsurătorile să fie independente între ele, astfel încât măsurătoarea unui examinator să nu o
influenţeze pe a altuia, iar dacă examenul este colectiv, să nu se poată trişa prin copiere.
Independenţa cere ca persoanelor supuse la test – retest să nu li se dea informaţii despre
rezultatele examinării precedente, iar itemii să nu se condiţioneze reciproc.
· Toate aspectele de procedură în test şi retest sau la formele paralele trebuie să fie identice.

Creşterea nivelului de fidelitate a unui test până la limita dorită sau cerută de situaţia de utilizare
concretă este posibilă prin creşterea numărului de itemi (care trebuie să fie de acelaşi format şi să
măsoare aceeaşi trăsătură sau acelaşi construct)1. Decizia aceasta angajează un proces lung şi
costisitor, pentru că testul nou generat trebuie reevaluat de la început şi uneori se dovedeşte a fi sub
nivelul de fidelitate aşteptat. De asemenea, crescându-i lungimea, testul devine mai greu de aplicat
şi de scorat. Manipulând formula de profeţie a lui Spearman – Brown se calculează un indice de
multiplicare a numărului de itemi pentru a atinge fidelitatea dorită: un test de 20 de itemi trebuie să
ajungă la 56 de itemi pentru a-i creşte fidelitatea de la 0,87 la 0,95 (Kaplan şi Saccuzzo, op. cit., p.
127).
Ca o concluzie a acestor consideraţii despre fidelitatea testelor, se relevă faptul că ea
este mai bună pentru teste unidimensionale şi cu număr mai mare de itemi, cât şi pentru testele
cognitive şi că ea angajează un studiu analitic al itemilor (analiza de itemi) pentru a le determina
forţa de discriminare. În multe situaţii analiza factorială este metoda cea mai eficientă prin care se
pot construi subteste omogene şi unidimensionale.“Fidelitatea este una din fundamentările de bază
ale cercetărilor asupra comportamentului. Dacă un test nu este fidel, nu va fi posibil să demonstrăm
că el are vreun înţeles”, spun Kaplan şi Saccuzzo (op. cit., p.131). Deci, deşi validitatea pare a fi
mai importantă, din punct de vedere tehnic studiul ei nu poate începe cu teste care nu îşi dovedesc o
fidelitate minimă, acceptabilă, care depinde de scopul în care acestea vor fi utilizate.

IV.3. Validitatea
IV.3.1. Definiţie

Validitatea este unul din conceptele cele mai importante în măsurarea psihologică. O bună
validitate reflectă faptul că aptitudinile sau caracteristicile psihologice măsurate de text corespund
domeniului de evaluare, cu alte cuvinte testul măsoară ceea ce şi-a propus.
Anastasi (1976) preciza că “validitatea unui test se referă la cât sunt de potrivite
interpretările descriptive, explicative sau predictive care dedau scorurilor sale.
Conform APA, “validitatea se referă la corectitudinea inferenţelor realizate pe baza unui test
sau a unei forme de evaluare.
La analiza definiţiilor, se observă că accentul cade pe încrederea pe care o putem avea în
deducţiile făcute pornind de la scoruri şi luând în considerare întreg procesul prin care s-au obţinut
aceste scoruri.
Validarea este procesul prin care se obţin informaţii legate de validitatea unui test.
Validitatea este un concept general cu privire la puterea şi corectitudinea inferenţelor care
pot fi făcute pornind de la scorurile unui test şi de aceea nu se poate afirma despre nici un test că
are, la modul abstract, o validitate “ridicată” sau “scăzută”. Validitatea acestuia trebuie stabilită în
raport cu utilizarea particulară a ceea ce s-a cerut în test.
Clasificarea scolastică în validitatea de construct, validitatea de conţinut şi validitatea de
criteriu creeaza unele confuzii şi este mai bine să se folosească sintagma de “tip analiză a
validităţii” propusă de Lawshe (Landy, 1986)
În normele APA se vorbeşte despre validitatea de aspect. Ea nu constituie un criteriu
important pentru inferenţele făcute pe baza unui test. Este definită ca “ceea ce un test pare a măsura,
mai degrabă decât ceea ce măsoară” şi este importantă doar măsura în care influenţează răspunsurile
la test în funcţie de modul în care sunt percepuţi itemii.

IV.3.2. Tipuri de analiză a validităţii unui test psihologic

Validitatea de construct

Constructul este o idee “construită” de experţi dintr-un domeniu particular al ştiinţei.


Exemple de constructe sunt: “inteligenţa”, “locus of control (poziţia controlului)”, “sociabilitate”,
“maturitate şcolara”, etc.
Silva (1993) definea constructul ca “o eticheta pentru o grupare de comportamente care
covariaza”.
Fiecare construct psihologic are la bază o teorie (fiecare test psihologic porneşte de la o
teorie) care permite descrierea şi predicţia comportamentelor în situaţii specifice.
Un construct psihologic se caracterizează prin faptul că este o abstractizare a unor
regularităţi din natură care nu sunt observabile direct dar pot fi conectate cu evenimente concrete şi
observabile. Multe dintre testele de personalitate măsoară dimensiuni ale acesteia (anxietate, depresie,
nevrotism, motivaţie, introversie-extraversie), mai slab definite iniţial şi din ce în ce mai bine
circumscrise pe măsură ce teoriile în domeniu au avansat. Conceptualizările progresive ale acestora
(dar şi ale inteligenţei, memoriei, creativităţii etc.) au dus la apariţia de constructe tot mai evoluate.
Unele teste sunt construite plecând de la date empirice (ca M.M.P.I. sau Inventarul de
Personalitate California al lui Gough), altele se originează în teorii anterior elaborate oricărei
cercetări empirice (Chestionarele de personalitate Cattell sau Indicatorul Tipologic Myers-Briggs).
Validitatea relativă la construct verifică, pe de o parte, dacă testul se referă realmente la constructul
pe care vrea să-l măsoare, şi apoi dacă scorurile subiecţilor testaţi reflectă corect mărimea acestui
construct la persoanele în cauză. Strategia determinării acestui tip de validitate impune un algoritm
(vezi Albu, 1998, pp. 165-166). De aceea, în teoria care stă la baza testului psihologic orice
construct trebuie operaţionalizat, adică descris prin comportamente concrete şi observabile şi
selecţionat cu alte variabile fiziologice şi psihologice cu care variază.

De exemplu, într-un test care evaluează aptitudinea verbală, conceptul de aptitudine verbală
este operaţionalizabil prin următoarele comportamente sau acţiuni care se găsesc în itemii testului.
Referitor la relaţiile constructului “aptitudine verbală” cu alte variabile, se pot avea în
vedere următoarele aspecte:
- scorurile cresc odata cu vârsta
- scorurile coreleaza pozitiv cu calificativele obţinute la limba şi literatura română
- scorurile sunt predictive ale succesului şcolar
Variabilele la care se face referire sunt: “vârstă”, “calificativ obţinut”, “maturitate
şcolară”.
Deoarece variabilele sunt construite pornind de la un şir de raţionamente bazate pe ipoteze şi
deducţii, acest tip de validitate se mai numeşte şi “validitate ipotetică deductivă”.
Validitatea relativă la construct este verificată şi prin raportarea testului respectiv la alte
teste despre care se ştie că evaluează acelaşi construct sau constructe diferite. Verificarea practică a
acestui lucru necesită aplicarea metodelor statistice, dintre care metodele corelaţionale sunt cele mai
importante. Poate fi precizată astfel validitatea convergentă şi validitatea discriminativă.
Validitatea convergentă este corelaţia pozitivă a testului validat cu alte teste care măsoară
aceleaşi concepte ca şi testul în cauză.
Validitatea discriminativă este corelaţia nulă cu alte teste despre care se ştie că măsoară alte
constructe decât testul care se validează.
Validitatea convergentă şi discriminativă poate fi examinată în mod simultan prin metoda
bazată pe matricea “multitrăsături – multimetode” (Multitrait-Multimethod Matrix) care conţine
valorile coeficienţilor de corelaţie liniară între diverse măsurări ale aceloraşi constructe obţinute
prin intermediul a două sau trei instrumente diferite. Procedeul descris aici a fost inventat încă din
1959 de Campbell şi Fiske şi este o metodologie importantă pentru înţelegerea procesului de
validare. Se numeşte multidimensională pentru că ia în evaluare două sau mai multe trasături prin
două sau mai multe metode.
Metoda Trăsăturile Metoda 1 Metoda 2 Metoda 3
A1 B1 C1 A2 B2 C2 A3 B3 .C3

Metoda 1 A1 (.89)
B1 .51 (.89)
C1 .38 .37 (.76)

Metoda 2 A2 .57 .22 .09 (.93)


B2 .22 .57 .10 .68 (.94)
C2 .11 .11 .46 .59 .58 (.84)

Metoda 3 A3 .56 .22 .11 .67 .42 .33 (.94)


B3 .23 .58 .12 .43 .66 .34 .67 (.92)
C3 .11 .11 .45 .34 .32 .58 .58 .60 (.85)

În exemplul dat de Gregory în figura de mai sus, 3 trăsături A, B şi C (Interesele,


Creativitatea şi Dominanţa) sunt măsurate cu metodele 1, 2 şi 3 (inventar autoaplicat, evaluarea
covârstnicilor şi un test proiectiv). Deoarece fiecare dintre cele 3 trăsături sunt măsurate prin toate
cele 3 metode, rezultă de fapt 9 teste, exprimate prin coeficienţii de corelaţie din triunghiurile cu
linie continuă de pe diagonala mare. Când fiecare dintre aceste teste este administrat a doua oară
aceluiaşi grup de subiecţi şi scorurile fiecărei perechi de teste rezultate prin test-retest sunt corelate
rezultă matricea multitrăsătură multimetodă care devine o sursă extrem de bogată de informaţii, atât
pentru fidelitate cât şi pentru validitatea convergentă şi divergentă. Această metodologie este o
contribuţie importantă la înţelegerea procesului de validare, dar reclamă un efort de cercetare uriaş.
De aceea cei mai mulţi creatori de teste preferă să culeagă informaţii separate, „pe bucăţi” despre
fidelitate şi validitate, pe care să le reunească ulterior într-un tabel compozit, decât o matrice care să
le integreze din capul locului pe toate deodată simultan. (Clinciu, A.I., 2005).
Un alt procedeu utilizat pentru evaluarea validităţii de construct este analiza factorială.
Această metodă, numită validare factorială, se aplică în cazul testelor care măsoară constructe
multidimensionale.
Prin analiza factorială se urmăreşte dacă structura scorului la test reflectă structura
domeniului constructului măsurat. Pentru aceasta se formează grupuri de itemi care corelează între
ei, se calculează scorurile acestor grupuri de itemi (scoruri factoriale) şi se presupune că fiecare
asemenea scor reprezintă măsura unei variabile.

Când ne propunem să realizăm o analiză factorială, trebuie mai întâi să distingem atributele
de suprafaţă şi eroarea de măsură.
Atributele interne sunt constructe ipotetice utilizate pentru a explica o serie de fenomene (de
exemplu conceptul de ,,magnetism” în fizică). Existenţa lor este inferată pe baza fenomeneler
observabile. Analiza factorială postulează că există factori interni neobservabili care explică variaţia
şi covariaţia dintre o serie de atribute de suprafaţă. Atributele de suprafaţă sunt observabile şi se pot
măsura direct.
Factorii interni pot fi specifici (când influenţează doar o singură variabilă de suprafaţă) şi
comuni (când influenţează mai multe variabile de suprafaţă).
Factorul eroare de măsură asociat atributelor de suprafaţă constituie alt tip de influenţă
asupra acestora. Sursele specifice de eroare în măsurarea psihologică au fost prezentate în capitolul
legat de fidelitatea măsurării.
Variaţia observată la nivelul atributelor de suprafaţă rezultă în parte influenţei factorilor
comuni şi specifici care adesea se combină cu variaţia erorii de măsură.
Prin analiza factorială se măsoară şi variaţia variabilelor de suprafaţă. Această corelaţie se
datorează influenţei factorilor comuni.
Creatorul analizei factoriale, Charles Spearman (1907) a creat o metodă capabilă să pună în
evidenţă existenţa unui factor general al inteligenţei, prezent în orice tip de sarcină mintală (şi de
aceea numit şi factor g), în combinaţii diferite cu un factor specific numit s. Procedeul dezvoltat de
el, numită metoda componentelor principale, i-a permis să producă dovezi în favoarea ipotezei
sale, numită modelul bifactorial al inteligenţei.
În 1928, un creator american în domeniul analizei factoriale, Thurstone, a utilizat aceeaşi
metodă ortogonală (două axe aflate în unghi drept, adică independente între ele) dar cu un mic
amendament: în loc ca o axă să explice varianţa factorului major şi cealaltă varianţa reziduală
(varianţa rămasă neexplicată de factorul major) el a propus rotirea celor două axe ortogonale până la
obţinerea structurii celei mai simple, ameliorând astfel gradul de adaptare al datelor la structura
factorială. Metoda se mai numeşte şi Varimax deoarece ea caută ca pe fiecare dintre cele două axe
ortogonale varianţa explicată să fie una maximală. Aceasta face ca fiecare factor să explice un grup
de rezultate şi doar atât, căci cu această metodă nu mai poate fi identificat factorul general, ceea ce
pune în discuţie modelul propus de Spearman.
Din punct de vedere matematic ambele metode sunt valide, dar fiecare are propriile sale
limite: una ajută la identificarea factorului general pe care cealaltă îl neagă, dar cealaltă ajută la mai
buna identificare, înţelegere şi numire a factorilor rezultaţi. De aceea utilizarea lor este corelativă.
Analiza factorială permite doar verificarea faptului dacă datele sunt consistente cu structura
factorială postulată. Când datele sunt compatibile cu mai multe structuri latente, analiza factorială
nu ne ajută să alegem una singură, această alegere fundamentându-se pe baza unei teorii. Într-un
demers de validare, analiza factorială ne va aduce deci informaţiile necesare, dar nu şi suficiente
luării unei decizii.

Analiza factorială se sprijină pe două postulate de bază:

· postulatul cauzalităţii factoriale: variabilele observate sunt combinaţii lineare de variabile


cauzale subiacente;
· postulatul parcimoniei: dintre două soluţii factoriale trebuie să o alegem pe cea mai simplă. Deşi
larg acceptată de majoritatea cercetătorilor, nu este posibil de demonstrat că acest postulat este
bine fundamentat şi nici nu este valabil faptul că întotdeauna structura cea mai simplă să fie mai
plauzibilă decât cea mai complexă.
Oricum, în funcţie de tipul de analiză ales ajungem la soluţii factoriale diferite, iar soluţia finală pe
care o alegem nu este una de natură matematică, ci de natură teoretică.

Raportul dintre teorie şi măsurare este cel mai bine surprins prin conceptul de validitate de
construct sau conceptuală, care este chiar inima operaţionalizării variabilelor. A operaţionaliza
înseamnă de fapt a aduce un construct teoretic în situaţia de putea fi surprins şi evidenţiat prin
măsurare. În cazul în care operaţionalizarea unei teorii bune a fost făcută corect, printr-un
instrument corect, capabil să o surprindă, atunci putem formula predicţii sub forma ipotezelor ce
rezultă din teoria respectivă. Dacă ipotezele se verifică, atunci şi teoria şi operaţionalizarea ei sub
forma instrumentului de măsură respectiv sunt în regulă. Dacă însă ipotezele nu se verifică, sunt
posibile două explicaţii alternative:
- instrumentul este bun, dar deoarece teoria nu se verifică, aceasta trebuie schimbată;
- teoria este una valabilă, dar instrumentul nu o operaţionalizează corespunzător şi atunci nu
putem dovedi ce ne-am propus şi deci trebuie schimbat chiar instrumentul de măsură.

Validitatea de conţinut

Pornind de la definiţia dată de Anastasi (1968) testului psihologic ca fiind o măsură


obiectivă şi standardizată a unui „eşantion de comportament”, trebuie făcută din start precizarea că
acest „eşantion de comportament” trebuie să fie reprezentativ. Pentru a verifica acest lucru, este
necesară o analiză logică a conţinutului testului psihologic pentru a determina dacă acoperă un
eşantion reprezentativ de comportamente pe care testul în cauză trebuie să îl măsoare. (Anastasi,
1976). Aşa cum reprezentativitatea eşantionului de populaţie ales permite generalizări asupra
populaţiei–ţintă pe care o reprezintă, itemii testului, prin maniera lor de construcţie şi de selecţie,
pot acoperi într-o mai mare sau mai mică măsură domeniul sau universul trăsăturii sau al aptitudinii
măsurate. În felul acesta răspunsurile la un eşantion de itemi dintr-un test cu validitate de conţinut
sunt reprezentative pentru răspunsurile pe care subiectul le-ar fi dat dacă întreg universul trăsăturii
ar fi fost măsurat.

Analiza validităţii de conţinut vizează două aspecte:


- un prim aspect care nu solicită metode statistice ci se bazează doar pe raţionamente, motiv
pentru care validitatea de conţinut se mai numeşte şi validitate logică sau raţională; acest tip de
validitate este decisiv în testele educaţionale şi de achiziţii, ridicând probleme specifice
evaluatorului. Se va genera deci o bancă de itemi care să acopere bine întregul domeniu investigat
(cunoştinţele la un obiect şcolar, gradul de elaborare al unor deprinderi, nivelul de cristalizare al
unor atitudini), din care vor fi selecţionaţi şi agregaţi într-un test doar un număr limitat de itemi,
reprezentativi pentru întregul domeniu.
- al doilea aspect se referă la analiza de itemi (calculul indicelui de dificultate şi a indicelui de
discriminare) şi implică câteva formule matematice.

După Gregory (1992), analiza validităţii de conţinut a unui test trebuie să cuprindă:
1. Definirea şi descrierea domeniului de conţinut al testului. Se face în mod asemănător
definirii constructului, singura diferenţă constă doar în gradul de abstractizare şi de aceea cele două
se confundă. Definirea domeniului de conţinut al unui test se face după definirea constructului, care
are un grad mai mare de abstractizare, şi presupune enumerarea tuturor comportamentelor concrete
care pot fi utilizate pentru a măsura caracteristica la care se referă testul.
2. Analiza itemilor testului pentru a se elimina itemii care nu se referă la domeniul de
conţinut al testului. Se formează un grup de experţi care trebuie să acorde o notă între 1 şi 4 pentru
fiecare item după ce au citit descrierea domeniului de conţinut al testului. Semnificaţia notelor este:
1 = irelevant, 2 = puţin relevant, 3 = destul de relevant, 4 = foarte relevant. Vor fi reţinuţi doar
itemii pe care majoritatea experţilor i-a notat cu nota 3 sau 4.
3. Compararea structurii testului cu domeniul de conţinut pentru a decide dacă itemii
acoperă toate aspectele domeniului şi dacă sunt proporţionali ca număr cu mărimea şi importanţa
fiecărui aspect.
Deoarece analizează doar itemii din punctul de vedere al reprezentativităţii şi relevanţei
conţinutului lor, validitatea relativă la conţinut nu reprezintă o validare în sensul definiţiei date de
,,corectitudinea inferenţelor pe care le putem face pornind de la scorurile testului”. Testul poate doar
să pară valid dar de fapt să măsoare altceva decât îşi propune.
Pentru a da validitate de conţinut unui test, constructorul se angajează într-un proces de durată,
ce presupune o foarte bună cunoaştere a domeniului, raţionament logic, intuiţie şi perseverenţă, căci
itemii trebuie continuu revizuiţi. De aceea putem spune că dintre formele fundamentale de validitate,
cea de conţinut este singura care are o susţinere mai degrabă logică decât statistică.
Totuşi, al doilea aspect al validităţii relative la conţinut, analiza indicelui de dificultate şi a
celui de discriminare a itemilor ne demonstrează matematic dacă un item este bun sau slab, dacă
cunoştinţele subiectului au rămas la un nivel general sau dacă au coborât până la detalii unde
subiectul poate să aprecieze diferenţele de nuanţă.

Validitatea de criteriu

Prin ,,criteriu” se înţelege o variabilă pe care încercăm să o prevedem în general cu ajutorul


testelor. (Grand dictionnaire de la psychologie, 1994) (apud.Albu, 2000)
Validitatea relativă la criteriu indică măsura în care scorurile obţinute la un test sunt un bun
predictor pentru un eşantion de comportamente viitoare (performanţa şcolară, de exemplu).
Coeficientul de validitate relativă la criteriu este egal cu coeficientul de corelaţie liniara între
scorurile testului şi rezultatele unei măsurători independente considerată variabilă criteriu.
În afară de coeficientul de corelaţie al lui Pearson, se poate folosi şi corelaţia rangurilor prin
metoda lui Spearman, în cazul unei evaluări prin ierarhizare.
De asemenea, validitatea unui test mai poate fi analizată şi prin metoda grupelor
contrastante. Grupele contrastante sunt două grupe formate din subiecţii cu performanţele cele mai
bune şi subiecţii cu performanţele cele mai slabe, având la bază un criteriu (calificativul la limba
română, de exemplu). Se compară statistic mediile scorurilor obţinute la test (în cazul nostru, să
presupunem un test pentru evaluarea aptitudinilor verbale) pentru subiecţii din cele două grupe
contrastante stabilite înainte.
Dacă diferenţa dintre medii este statistic semnificativă, testul are valoare predictivă. Această
metodă se aplică mai ales când criteriul este o variabilă calitativă (nu se poate măsura) sau atunci
când criteriul este alcătuit din mai multe variabile care pot fi atât cantitative cât şi calitative (de
exemplu, clasificarea facută într-o selecţie profesională în urma interviului, a rezultatelor la mai
multe teste de aptitudini şi a referinţelor de la ultimul loc de muncă).
Au fost diferenţiate două tipuri de validitate relativă la criteriu: validitatea predictivă şi
validitatea concurentă.
Validitatea predictivă se referă la precizia cu care putem estima (prezice) că o anumită
caracteristică sau aptitudine a unei persoane reflectată în scorurile unui test se va manifesta în viitor.
De exemplu, pe baza performanţei la un test de aptitudini pentru admitere la şcoala de şoferi, să
facem o predicţie asupra comportamentului ca viitor şofer.
Validitatea predictivă presupune trecerea unui interval de timp între aplicarea testului şi
măsurarea criteriului.
Validarea concurentă presupune obţinerea scorurilor la criteriu în acelaşi timp cu scorurile la
test. Diferenţa logică dintre ele este dată de scopul testului. Dacă în cazul validităţii predictive
întrebarea care se pune în legătura cu testarea este: ,,Este posibil ca subiectul să devină ... ?”, în
cazul validităţii concurente întrebarea care evidenţiază scopul testului este: ,,Este în acest moment
... ?”.

Câteva idei importante cu privire la validitate:


- prin tipuri de validitate nu se întelege “categorii disjuncte”;
- validitatea unui test nu se măsoara ci se deduce; ea nu poate fi estimată printr-un singur
coeficient şi se va face o analiză globală a dovezilor conceptuale şi statistice;
- procedura de validare trebuie reluată periodic pe eşantioane diferite de subiecţi. Utilizatorul
de teste psihologice trebuie să revalideze testul cumpărat în funcţie de scopul pentru care îl
utilizează (de exemplu avizarea unor persoane pentru un anumit loc de muncă).

Factori care influenţează valoarea coeficienţilor de validitate:

- Natura grupului care este testat


Testul este validat pe un eşantion adică pe un grup semnificativ din populaţia căreia îi
este destinat testul. Nivelul de educaţie, vârsta, ocupaţia, pot acţiona ca şi variabile ascunse,
modificând relaţia dintre criteriu şi scorurile la test şi se poate întâmpla ca un test să aibă validitate
mai mare într-o populaţie şi mai mică în alta.
- “Contaminarea” criteriului
Dacă valorile variabilei criteriu sunt influenţate de scorurile testului, se spune că a
avut loc o “contaminare” a criteriului. Acest lucru are ca efect creşterea artificială a validităţii
relative la criteriu.
De asemenea, dacă criteriul este reprezentat de rezultatele la un alt test psihologic dar testul
psihologic respectiv a fost validat pentru un alt scop în utilizare, el mai reprezintă un criteriu
potrivit.
Interpretarea coeficienţilor de validitate
Pentru că strategiile de validare ale unui test sunt atât de diverse, nu există o interpretare uniformă a
acestora. Un coeficient de validitate este semnificativ statistic când şansele de a-l obţine din
întâmplare sunt sub 5 procente.

Precauţii legate de evaluarea coeficienţilor de validitate predictivă


Standards for Educational and Psychological Testing din SUA atrag atenţia asupra câtorva
probleme importante şi precauţii legate de interpretarea coeficienţilor de validitate:

1. Este necesară cercetarea schimbărilor apărute în sensul cauzalităţii test-criteriu: de regulă


presupunem implicit că relaţia dintre test şi criteriu este funcţională atunci când aplicăm testul, dar
criteriul nostru poate fi diferit.
2.Coeficientul de validitate contra criteriu obţinut poate să nu însemne nimic dacă criteriul nu este
el însuşi valid şi fidel. A corela un test cu un altul despre care nu ştim prea multe lucruri sub
aspectul validităţii nu ne ajută prea mult în determinarea validităţii convergente a primului test.
3. Se ia întotdeauna în consideraţie populaţia pe care s-a obţinut o anume validitate: o validitate
ridicată pe o populaţie de albi se păstrează ea oare şi pe o populaţie de negri?

4. Validitatea se generalizează cu prudenţă o validitate găsită: cu alte cuvinte, trebuie demonstrat că


validitatea descoperită într-un studiu nu este dependentă de situaţie.

De reţinut:

Validitatea nu se măsoară, ci se deduce. Deşi autorul testului trebuie să dea mai mulţi coeficienţi de
validitate, indicând procedura urmată, utilizarea lui pe alte grupuri sau în alte scopuri necesită şi alte
studii de validare. Aceasta deoarece validitatea testului depinde simultan de scopul testării şi de
populaţia căreia i se administrează. Toate aceste determinări ale validităţii care vin din studii
ulterioare, desfăşurate în scopuri specifice şi pe alte eşantioane de populaţie, vor fi considerate doar
dovezi ale unui anumit tip de validitate.
Studierea validităţii testelor angajează metode elaborate de analiză (analiza de itemi, calculul
corelaţiei, analiza factorială, regresia simplă şi multiplă) care combinate, dau strategii de validare
mai bine definite. Utilizarea lor se face în funcţie de scopul şi de exigenţele beneficiarului.
Strategiile de validare se aplică odată cu construirea testului şi se repetă de câte ori este nevoie
pentru a obţine un test bun ca lungime, mod de aplicare, forţă discriminativă, uşurinţă în
administrare, cotare şi interpretare, care alături de fidelitate şi validitate, dau o imagine mai
adecvată despre valoarea sa.

Utilizarea testului impune procesul repetării periodice a cercetării validităţii, întrucât validarea unui
test nu se încheie niciodată, datele nou acumulate din diverse domenii conducând la ameliorarea şi
rafinarea ei, dar nu şi la o soluţie definitivă. Cu atât mai mult se pune problema reluării studiului
validităţii unui test când i se schimbă formatul (prin aplicarea pe calculator, de exemplu),
conţinutul, instructajul sau modul de cotare.

Eroarea standard a estimării (SEE)


Un test sau un chestionar este construit pentru a estima nivelul unor cunoştinţe, aptitudini sau
trăsături de personalitate ale unui individ. Variabila de care depinde performanţa la test nu este
direct măsurabilă. Printr-un test se obţine doar o estimare a valorii variabilei.

Când estimăm valoarea variabilei (pe baza scorului la test), comitem o anumită eroare numită
eroarea standard a estimării (SEE) a cărei modalitate de calcul este:
SEE = σ
σ = abaterea standard a scorurilor la criteriu
r2 = coeficientul de validitate de crietriu al testului

IV.4. Dificultatea şi sensibilitatea unui test psihologic

Dificultatea unui test


Aplicarea unui test psihologic sau educaţional ridică o problemă tehnică foarte importantă şi
anume dacă el este adecvat, ca şi grad de dificultate, populaţiei sau grupului respectiv. Dacă este prea
uşor, majoritatea scorurilor la test vor fi mari şi curba rezultată, în formă de “j”, va fi asimetrică spre
dreapta; dacă va fi prea greu, curba în formă de “i” va fi asimetrică la exterma stângă. Se apreciază că
testul este adecvat unei populaţii doar în cazul în care repartiţia scorurilor sale este simetrică, generând
o curbă de tip gaussian.
Problema dificultăţii unui test se pune în funcţie şi de tipul acestuia. Dacă el este un test de
aptitudini, capacităţi, deprinderi sau cunoştinţe, problema dificultăţii este mult mai relevantă
decât pentru testele de personalitate sau chestionarele de opinii, atitudini, interese, valori, caz în
care termenul de dificultate ar putea fi înlocuit cu cel de accesibilitate.
Dificultatea testului depinde simultan de conţinutul său şi de particularităţile subiecţilor
investigaţi, ceea ce face ca în construirea unui test să existe o fază iniţială (definirea testului,
crearea băncii de itemi şi construirea unei variante preliminare a acestuia), o fază intermediară
(administrarea testului, analiza rezultatelor obţinute şi, prin analiza de itemi, depistarea erorilor,
corectarea, selectarea şi ordonarea itemilor) şi o fază finală (elaborarea normelor, etaloanelor şi
elaborarea manualului testului, vezi Albu, 1998, p.199).
Dacă testele de aptitudini şi de cunoştinţe aplicate adulţilor iau în considerare un proces
încheiat, variabilitatea fiind dată mai ales de studii, profesie sau sex, cele mai multe teste de
inteligenţă, memorie, aptitudini speciale şi cunoştinţe, aplicate copiilor sau adolescenţilor, au în
factorul vârstă cea mai importantă sursă de variabilitate. În acest sens, elementele de dificultate ale
testului trebuie să evolueze paralel cu vârsta (să aibă indice genetic, după expresia lui Claparède), în
cadrul fiecărei vârste el trebuind să aibă o cât mai bună acoperire a spectrului domeniului investigat.
Aceasta trimite la puterea de discriminare a testului, adică la sensibilitatea lui.
Un test este uşor sau greu în situaţia când unităţile lui, fiind foarte puternic corelate între ele
(test omogen), creează posibilitatea ca majoritatea itemilor să fie rezolvaţi ori corect, ori greşit, ceea
ce va da curbe asimetrice spre dreapta sau spre stânga. Există şi posibilitatea ca populaţia să
cuprindă două grupuri distincte, care vor da scoruri polarizate după o curbă bimodală (cu două
„cocoaşe”), ca în cazul testelor dihotomice: masculinitate-feminitate, extraversiune-introversiune,
stabilitate - instabilitate, admis - respins. Multe teste de selecţie profesională nu urmăresc
ierarhizarea de fineţe a persoanelor, ci „ruperea grupului” în categorii extreme: apt-inapt, admis-
respins, capabil-incapabil. Aici testele folosite vor fi mai mult centrate pe dificultate (mică, medie,
mare) şi mai puţin pe sensibilitate, forţă de discriminare. Aplicate la începutul sau la sfârşitul unui
proces de formare, acelaşi test poate avea o curbă iniţială în formă de „i” (când deprinderea încă nu
există), o formă de „j” (când în final ea s-a format pentru marea majoritate a subiecţilor), între care
se interpune o repartiţie normală, simetrică, pentru perioada intermediară (vezi Albu, op. cit.,
p.185).
Sensibilitatea unui test
Asemenea lentilelor, a căror calitate depinde în principal de puterea lor de separaţie (numărul
de linii independente discriminate pe o suprafaţă de un centimetru pătrat), sau a balanţelor de fineţe, ca
cele analitice, capabile să dea subdiviziuni din ce în ce mai fine şi continue până la a cincea zecimală,
caz în care se spune că sunt foarte sensibile, testele psihologice au această caracteristică în funcţie de
numărul claselor pe care le pot delimita în interiorul unui grup. Cu cât numărul valorilor de scor este
mai mare, cu atât ele discriminează (diferenţiază) mai bine între indivizi. În afara acestei accepţiuni,
Kline (1993) leagă sensibilitatea unui test de capacitatea sa de a produce scoruri diferite pentru
subiecţii care diferă între ei în ce priveşte caracteristica măsurată. Deoarece sensibilitatea conjugă
caracteristicile testului cu cele ale populaţiei măsurate, vom remarca faptul că testele mai lungi, cu
itemi gradaţi ca dificultate (deci neomogeni) sunt mai sensibile, pentru că ele produc mai multe clase,
valori ale scorurilor. Prin contrast, testele scurte sau cu itemi foarte omogeni generează mai degrabă
categorii dihotomice, foarte contrastante, deci sunt puţin discriminative.
Depinzând de forma repartiţiei pe care o dă scorurilor sale, testul cu curbe atipice (i, j sau
bimodală) sunt puţin sensibile în zonele de mare aglomerare a scorurilor şi sensibile în rest; curba lui
Gauss este tot mai discriminativă spre extreme, şi mai puţin sensibilă pe porţiunea centrală, unde
aglomerarea rezultatelor dă un număr mai mic de scoruri.
Există o legătură foarte puternică între dificultatea unui test şi sensibilitatea sa. La fel cum în
fotografie filmele foarte sensibile (care se impresionează la cantităţi mici de lumină) plătesc un preţ în
ceea ce priveşte calitatea imaginilor (mai puţin nete, deoarece imaginea este tradusă pe peliculă prin
grupuri mai mari de puncte), sau la fel ca în metrologie, unde balanţa analitică îşi dovedeşte utilitatea
pentru greutăţile mici, iar nu pentru kilograme sau tone, testele psihologice trebuie să stabilească un
raport corespunzător între dificultate şi sensibilitate.
Sensibilitatea presupune, pe de o parte, o cât mai bună acoperire a domeniului de conţinut al
variabilei, pentru care trebuie să aibă grade diferite ale dificultăţii, pe de altă parte discriminarea de
fineţe la nivelul fiecărui palier de dificultate ales. Pentru a exemplifica, testele de inteligenţă WISC
sunt operaţionale de la 5-6 ani la 14-16 ani, pentru fiecare an dându-se etaloane din 4 în 4 luni. Dar în
timp ce anumite subteste ale bateriei (Informaţii, Comprehensiune) dau un larg evantai de scoruri, încât
etaloanele nu au goluri, altele (Cifrele, Labirinturile), din cauza numărului mic de itemi care le
compun, discriminează foarte grosier pe anumite porţiuni ale scalei, la anumite vârste. Subtestul
Cuburilor, o foarte validă măsurătoare a inteligenţei concret-spaţiale, compus din 10 pattern-uri ce pot
da (în forma iniţială) 55 de puncte de scor, are un prag înalt de intrare în probă la vârstele mici (5-6
ani), unde nu distinge fin coeficienţii sub 80, şi un prag jos la vârste mari (peste 13 ani), unde nu mai
distinge supradotaţii (QI > 125-130). Combinarea optimă a celor două caracteristici (dificultatea cu
sensibilitatea) se face, pentru bateria WISC, pentru vârstele de 10-12 ani, unde ea are cea mai mare
forţă discriminativă şi deci cele mai bune calităţi psihometrice (Zimmerman şi Woo-Sam, 1973). În
mod similar, testul PM 38 (Matricile Progresive Standard ale lui Raven) are un prag înalt la 5-7 ani şi
jos după 14 ani, deci nu distinge bine insuficienţa şi supradotarea mintală la vârstele mici, respectiv
mari.
Sensibilitatea testelor depinde de mulţi factori (care pot fi identificaţi şi prin analiza de itemi),
dintre care amintim:
· Numărul itemilor care, aşa cum am arătat, creează posibilitatea stabilirii numărului de clase de scor,
progresiv cu creşterea lui. Numărul maxim de clase este chiar numărul de itemi, atunci când ei nu
sunt echivalenţi sau intercorelaţi. Dacă luăm exemplul testelor de inteligenţă, acestea ar trebui să
măsoare QI-uri de la 40 la 160, având o lungime a liniei de bază (cea care trebuie să acopere întreg
spectrul de variaţie) de 120 de unităţi. Dacă subtestul are 40 de itemi, înseamnă că cea mai fină
rezoluţie ar fi de 3 unităţi de QI pentru un item; dacă am avea, ca la subtestul Cifre, 8 itemi în
prezentarea directă şi 7 în prezentarea inversă, înseamnă că 120 /(8+7) = 8, adică fiecare item
acoperă 8 unităţi de QI, ceea ce înseamnă o discriminare mult mai grosieră, în care orice eroare de
aplicare ar putea avea consecinţe însemnate asupra scorului la subtest. Pe de altă parte, a genera un
test cu maximă sensibilitate (un punct de QI să fie dat de câte un item separat), este aproape
imposibil, nu numai din cauza lungimii liniei de bază de 120 de unităţi, dar şi din cauza numărului
de vârste distincte pe care testul le acoperă (de la 5 la 16 ani sunt 12 vârste). Aceasta ar da subteste
neobişnuit de lungi şi de greu aplicabile (nemaniabile). De aceea, teste de inteligenţă cu o rezoluţie
de până la 5 sunt încă acceptabile, deşi cele mai bune valori ar fi între 2 şi 3.
· Maniera de scorare a probelor este iarăşi o modalitate importantă de creştere a sensibilităţii testelor.
La testele Domino (D 48 şi D 70), pentru fiecare problemă (alcătuită din desenele unor piese de
domino ce solicită stabilirea a două valori) se acordă doar un punct, performanţa maximă fiind de
44 de puncte. Imaginând un alt sistem de scorare, prin care să nu se “piardă” puncte şi acordând un
punct dacă un element din căsuţa dublă este corect, încă unul pentru al doilea, plus un bonus de un
punct pentru simultaneitatea lor şi orientarea corectă pe verticală (neinversare), se obţin 44x3 = 132
de puncte de scor, cu care se baleiază mult mai bine linia de bază şi vârstele succesive. Similar, la
subtestul Cuburilor din bateria WISC, se dau 4 puncte pentru pattern-ul rezolvat corect şi încă
maximum 3 drept bonificaţie de timp, rezultând maximum 7 puncte pe item şi 55 de puncte în total.
Deoarece rezolvările parţial corecte nu se iau în considerare, rezultă că o bună parte din
variabilitatea scorurilor se pierde inutil. Îmbunătăţirea sistemului de scorare, prin acordarea unui
punct pentru fiecare cub cu o culoare omogenă (roşu sau alb), pus în locul potrivit, şi încă un punct
pentru feţele bicolore (roşu şi alb) care respectă nu numai locul, ci şi poziţia relativă (înclinarea), ar
putea duce la dublarea ambitusului scorurilor posibile, deci la o forţă discriminativă dublă.
Adăugarea a încă doi itemi (unul foarte uşor, pentru intrarea în probă şi unul foarte greu, pentru a
ridica pragul de ieşire din probă), reconsiderarea timpului de aplicare şi al manierei de acordare a
bonificaţiilor de timp ar fi încă două surse de mărire a sensibilităţii testului, cu menţiunea că toate
aceste modificări reiau de la zero problemele de validitate şi de fidelitate ale probei, pentru că, de
fapt, ele înseamnă crearea unui test nou, ce trebuie studiat ca atare.
· Tipul de norme utilizate în etalonare este a treia caracteristică ce poate contribui la ameliorarea
semnificativă a sensibilităţii unui test. Acestea depind de precizia dorită în utilizare. Dacă la
normele exprimate în centile se poate determina fiecare punct percentil (caz foarte rar, pentru că
testul ar trebui să fie foarte lung şi eşantionul foarte extins), sau măcar punctele decile, la care se
mai adaugă percentilele 3, 5, 25, 75, 95 şi 97, dezavantajul constă în inegalitatea unităţilor de
măsură (mai mici pe porţiunea centrală a benzii şi mai lungi spre extreme). În consecinţă,
rezultatele unei baterii de teste etalonate în centile nu pot fi adunate şi integrate, prin medie, într-un
scor unic. Cvartilele dau o împărţire şi mai grosieră (4 clase), foarte largă, nepermiţând
discriminările de fineţe. Testele moderne sunt etalonate în note z (standardizate), T, Hull, stanine,
stens etc. Foarte utile sunt şi notele T (cu media 50 şi abaterea standard de 10) şi scalele de QI (cu
media 100 şi abaterea standard de 15). Ca o regulă vom menţiona că, cu cât o scală are mai puţine
intervale (3, 5, 7, 9, 10, 11 etc.), cu atât mai mult se produce o pierdere de varianţă, deci de
sensibilitate a scorurilor la test. Dacă un test de memoria cuvintelor este etalonat în stanine şi clasa
5, la 10 ani are, să zicem, scorurile 48-52, înseamnă că diferenţa de performanţă de 5 puncte dintre
subiecţi este practic anulată: fie că scorul este 48 sau este 52, se obţine aceeaşi stanină 5, deci
sensibilitatea discriminării are de suferit. Aceasta nu înseamnă însă că scalele cu mai puţine
intervale nu sunt foarte utile (şi utilizate) în practică: multe baterii au subteste foarte diferite ca
putere de discriminare şi atunci se alege o scală cu 9-11 trepte standardizate (stanine şi stens), care
integrează bine toate subtestele în baterie. Unii psihologi s-au acomodat mai bine cu proprietăţile
matematice ale unei scale şi o preferă în virtutea obişnuinţei. Esenţialmente acordajul dintre
scorurile la test şi gradul de extensie al scalei utilizate trebuie să ne conducă la alegerea de scale
foarte discriminative când testul are mai mulţi itemi (peste 40-50) eterogeni, nu din punctul de
vedere al conţinutului sau al performanţei măsurate, ci al gradului de dificultate. Testele ce acoperă
multe vârste, diferenţiate între ele prin performanţe ce au ambitusul liniei de bază mare (între 40 şi
160 la testele de inteligenţă, sau chiar mai mari) au nevoie de scale discriminative, celelalte putând
opera, pentru scopuri practice şi de cercetare cu scale mai puţin extinse, chiar dacă aceasta
înseamnă scăderea puterii discriminative a testului. Pentru testele sale, Wechsler a optat pentru
scale standardizate de 19 trepte.
Cum dificultatea şi sensibilitatea unui test depind de mărimea şi caracteristicile lotului particular
de subiecţi la care aplicăm testul, înseamnă că obligatoriu trebuie să determinăm valorile tendinţei
centrale pentru a vedea gradul de suprapunere al acestuia cu lotul de eşantionare indicat de manualul
testului. Când media grupului nostru este semnificativ diferită de cea a populaţiei de etalonare din
manual, înseamnă că testul este prea uşor sau prea greu în raport cu aceasta şi concluziile trase,
aplicând etalonul standard, pot fi greşite. Dacă abaterea standard indică o valoare mult diferită (mai
mică sau mai mare), decât cea a lotului de etalonare, înseamnă că lotul nostru este fie prea omogen, fie
prea eterogen în raport cu acesta. În prima situaţie forţa de discriminare a testului descreşte, în a doua
ea creşte, dar în ambele trebuie avut în vedere un alt etalon, mai adecvat.
,,Trebuie observat că nici un test nu poate fi atât de sensibil încât totdeauna, două persoane
deosebite în privinţa variabilei măsurate de test să obţină scoruri diferite”, afirmă Monica Albu (1998,
p. 189). Aceasta pentru că, în timp ce trăsăturile psihice sunt variabile continue, scorurile la test sunt
variabile discontinue (discrete) şi de aceea o corespondenţă biunivocă între variabilă şi scorul la test
este un fapt imposibil de realizat practic. Scorul fiind afectat de diverse erori (generate de testul însuşi,
de subiect sau de situaţia de examinare), este posibil ca aceeaşi variabilă, măsurată la acelaşi individ, să
aibă mai multe valori de scor. Întrucât performanţa la un test se raportează la un număr de intervale mai
mic decât numărul valorilor de scor pe care el le poate înregistra, înseamnă că indivizii plasaţi pe
acelaşi interval de scor nu sunt discriminaţi. Deci un test va fi cu atât mai discriminativ cu cât va separa
mai bine indivizii “care au valori ale variabilei măsurate de test plasate în acea zonă a axei sale în care
există un număr suficient de intervale de lungimi mici”(Albu, op. cit., p.190).

Capitolul V

METODOLOGIA CONSTRUIRII TESTELOR PSIHOLOGICE

Algoritmul general în construirea unui test sau chestionar psihologic este (Albu, 1998):
I. Definirea testului

II. Crearea băncii de itemi

III. Construirea unei prime variante a testului

IV. Administrarea testului unui eşantion

V. Analiza de itemi

Testul este corespunzator ?


Nu Da

VI. Corectarea / Reformularea itemilor

VI. Verificarea suplimentară şi


analiza caracteristicilor psihometrice
Testul este corespunzator?

Nu Da

VII. Depistarea erorilor /


Reformularea itemilor

VII. Elaborarea normelor şi


redactarea manualelor

I. Definirea testului

Există o multitudine de teorii plauzibile, iar atunci când se optează pentru o teorie
care stă la baza unui test, analiza acestor teorii aflate în competiţie, este întotdeauna foarte dificilă.
Este de preferat însă să se aleagă o teorie care a fost validată experimental. Aceasta deoarece
procesul de validare al unui test începe de la nivelul constructelor teoretice derivate din aceasta
teorie.
Atunci când conceptualizam un test, trebuie să ştim de la bun început ce dorim să măsoare
testul, în ce scop va fi utilizat testul, de ce este nevoie de construcţia acestui test, cine va utiliza
testul şi care este populaţia care va fi evaluată cu testul respectiv, ce tipuri de scale vom folosi, cum
vor fi ordonaţi itemii (după gradul de dificultate sau aleator), ce lungime va avea testul şi cum va fi
aplicat testul (cu sau fară limită de timp).
Referitor la tipurile de scale, cele mai utilizate în psihologie sunt scalele ordinale şi de
interval. Între acestea se diferenţiaza scalele de tip Likert sau Guttman.
II. Crearea băncii de itemi

Se recomandă ca numărul itemilor propuşi iniţial să fie cu cel putin 20% mai mare
decât lungimea testului (Aiken, 1994, apud.Albu, 1998) dar pentru că itemii buni nu pot fi generaţi
cu atâta uşurinţă, este bine să se pornească de la un număr mult mai mare de itemi (încă o dată
lungimea testului).
În majoritatea cazurilor itemii sunt propuşi de psihologi pornind de la constructele definite.
De asemenea ei mai pot fi preluaţi din testele existente sau pot fi formulaţi de specialişti din
domeniul în care va fi aplicat testul (de exemplu în cazul testelor de cunoştinte sau pentru domenii
profesionale unde sunt necesare aptitudini speciale).
După ce itemii sunt aranjaţi într-o anumită ordine, se redactează instrucţiunile de
administrare care trebuie să fie clare şi concise.
Autorul testului va utiliza grafica cea mai potrivită astfel încât rezolvarea testului sau a
chestionarului să nu ridice probleme din acest punct de vedere.

III. Administrarea testului

Se va face în aceleaşi condiţii care se vor respecta şi după punerea testului în circulaţie.

IV. Analiza de itemi

Pentru fiecare item în parte se calculează:


- indicele de dificultate
- indicele de discriminare
- analiza răspunsurilor incorecte

Analiza dificultăţii unui item


Indicele de dificultate a unui item indică procentul subiecţilor care au răspuns corect la itemul
în chestiune. Această definiţie, care la început pare uşor de înţeles, în practică se complică în mod
considerabil, dat fiind faptul că luarea unei decizii cu privire la grupul de subiecţi de care se ţine
cont în momentul aflării procentului se poate dovedi dificilă. La numărător se pot lua în considerare
numai subiecţii care au răspuns corect la item, adică cei care au ales opţiunea numită „cheie” sau,
dimpotrivă, se poate ţine cont şi de cei care au comis greşeli, adică cei care au ales unul dintre
elementele derutante. Numitorul comun poate face referire la toţi subiecţii care au răspuns la test,
fără a ţine seama de ce au răspuns la itemul în cauză sau se pot exclude din acest total de subiecţi
aceia care au „omis” itemul şi/sau care „nu au ajuns” la item. Un item este considerat omis atunci
când un subiect l-a lăsat gol, însă a răspuns la altele care sunt situate mai jos de el, în cadrul testului.
Pe de altă parte, se consideră că nu s-a ajuns la un item atunci când un subiect l-a lăsat gol şi nu a
răspuns la nici un alt item aflat mai jos de acesta; ca urmare, se poate spune că subiecţii evaluaţi
care nu au răspuns la itemurile la care nu au ajuns, nici măcar nu au încercat să o facă.
Combinând toate posibilităţile comentate, diferitele formule care se utilizează pentru a afla
„indicele de dificultate” ar fi următoarele:

a. Procentul de răspunsuri corecte din totalul de subiecţi care participă la test:

n
P= ´ 100,
N
unde n este numărul de răspunsuri corecte, iar N este numărul de subiecţi.
b. Procentul de răspunsuri corecte excluzând subiecţii care au „omis” itemul, adică pe cei care nu au
răspuns la el, însă au răspuns la altele situate mai jos de acesta:
n
P= ´ 100,
N -O
unde O se referă la grupul de subiecţi care au omis testul.
c. Procentul de răspunsuri corecte excluzând subiecţii care nu au ajuns la item, adică pe cei
care nu au răspuns la el şi nu au răspuns nici la altele situate mai jos de acesta:

n
P= ´ 100,
N - NA
unde NA este numărul de subiecţi care nu au ajuns la item.

d. Procentul de răspunsuri corecte, excluzând subiecţii care au omis itemul şi pe cei care nu au
ajuns la el:

n
P= ´ 100
N - O - NA
e. Procentul de răspunsuri corecte penalizând greşelile:

E
A-
P= K - 1 ´ 100,
N
unde A indică numărul de răspunsuri corecte, E numărul de greşeli, K numărul de opţiuni ale
itemului şi N numărul de subiecţi.
f. Procentul de răspunsuri corecte penalizând greşelile şi excluzând subiecţii care au „omis”
itemul:

E
A-
P= K - 1 ´ 100
N -O
g. Procentul de răspunsuri corecte penalizând greşelile şi excluzând subiecţii care „nu au
ajuns” la item:

E
A-
P= K - 1 ´ 100
N - NA
h. Procentul de răspunsuri corecte penalizând greşelile şi excluzând subiecţii care au „omis
itemul” şi pe cei care „nu au ajuns la el”:

E
A-
P= K - 1 ´ 100
N - O - NA
Referitor la valorile pe care trebuie să le aibă indicii de dificultate ai itemilor care se utilizează
trebuie să spunem că, în principiu, din punct de vedere psihometric se recomandă ca acestea să fie
în jur de 0.50, deoarece astfel variaţia va fi mai mare. Atunci când punctajele sunt binare (1,0),
variaţia este egală cu produsul dintre p şi q (S2 = pq), p fiind procentul de cazuri favorabile,
răspunsuri corecte, iar q fiind egal cu 1 minus p (1-p); în ceea ce priveşte procentele: Q = 100-P.
Cea mai mare valoare pq se obţine atunci când p este egal cu q (p=q), ceea ce se întâmplă numai
atunci când valoarea lui p şi q este egală cu 0,50 (exprimat în proporţii) sau 50 (exprimat în
procente). Dacă variaţia este mai mare, coeficientul de fidelitate a testului va fi mai mare, deoarece
acest coeficient de fidelitate este corelaţia testului cu el însuşi. În principiu, dacă variaţia este mai
mare, şi corelaţia va fi mai mare. Pe de altă parte, o variaţie mică indică faptul că punctajele tuturor
subiecţilor se situează într-un mod foarte grupat faţă de trăsătura evaluată. Toţi obţin rezultate
similare şi, în consecinţă, va fi foarte dificil ca puterea de discriminare a itemului sau a testului în
chestiune să fie ridicată. O variaţie mare nu garantează o putere de discriminare ridicată, însă este
foarte greu ca un item să aibă capacitatea de a discrimina între subiecţi care au o posesie redusă sau
ridicată a trăsăturii evaluate dacă variabilitatea punctajelor tuturor subiecţilor este mică. Pe scurt, o
variaţie mare garantează un coeficient de fidelitate ridicat şi un indice de discriminare ridicat, într-o
măsură mai mare decât o variaţie redusă.

Totuşi, din motive de tip funcţional poate fi interesant ca toţi indicii de dificultate să fie
superiori sau inferiori valorii de 0.50. De exemplu, în anumite circumstanţe va fi mai bine să se
înceapă testul cu itemi uşori pentru ca subiectul să câştige încredere şi să poată avea un anumit
randament la proba respectivă în funcţie de nivelul personal al trăsăturii evaluate. Astfel, la un
moment dat ar fi interesant să se facă discriminări între subiecţi cu un nivel scăzut sau cu un nivel
ridicat al unei anumite trăsături, caz în care ar trebui să se utilizeze itemi uşori sau itemi dificili, cu
o mare putere de discriminare la aceste niveluri. Ca urmare, se poate afirma că, deşi din punct de
vedere statistic este de dorit ca toti itemii să aibă un indice de dificultate apropiat de 50%, din punct
de vedere funcţional poate fi recomandabil să existe un anumit număr de itemi uşori şi/sau un
anumit număr de itemi dificili. Majoritatea manualelor recomandă următoarea distribuire în
momentul aplicării unei probe de randament sau de aptitudini la un număr reprezentativ de persoane
„normale”: 25% itemi uşori, 25% itemi dificili şi 50% itemi de dificultate medie. Prin item uşor se
înţelege acel item la care răspunde corect peste 75% din populaţie. Un item dificil ar fi acela la care
răspunde corect cel puţin 25% din populaţie.
Cu cât indicele de dificultate al itemului este mai mare, cu atât itemul este mai uşor. Valorile
recomandate pentru indicele de dificultate sunt cuprinse în intervalul [0.25;0.75]. (Alvaro, 1993)
Atunci când se calculează indicele de dificultate al unui item, se ia în calcul şi posibilitatea
ca subiectul să ghiceasca răspunsul. Mai întâi se calculează indicele optim de dificultate şi se
compară cu indicele de dificultate obţinut la itemul în cauză. Se calculează mai întâi rata de răspuns
la întâmplare împărţind valoarea 1 la numărul de variante de răspuns pe care le are itemul în cauză.
În cazul unui item cu 2 variante de răspuns, rata de răspuns la întâmplare este de 0.50 (1/2)
iar în cazul unui item cu cinci variante de răspuns, rata de răspuns la întâmplare este de 0.20 (1/5).
Indicele optim de dificultate se află la mijlocul distanţei dintre 1 şi rata de răspuns la
întâmplare, deci în cazul itemului cu două variante de răspuns este egal cu 0.75 ( ) iar în cazul
itemului cu cinci variante de răspuns este 0.60 ( ).
Răspunsul la întrebarea „cât de dificili trebuie să fie itemii unui test?” depinde, pe de o parte, de
utilizarea testului, pe de altă parte de tipurile de răspunsuri sau de lungimea scalei. Aşa cum am mai
arătat şi anterior, un test în care itemii se scorează adevărat - fals sau 0 - 1, dă o probabilitate de 50% ca
răspunsul să se dea prin şansă (aleator), iar când variantele de răspuns sunt 4, această probabilitate este
de 25%. Deci probabilitatea pi , care descrie dificultatea unui item, se plasează între 0 şi 1 (nici un
subiect, respectiv toţi subiecţii îl rezolvă).
Alegerea dificultăţii optime a unui test trebuie să rezolve această problemă complicată: cu cât
itemii au mai puţine variante de răspuns, cu atât mai mare este probabilitatea de a nimeri prin şansă
răspunsul corect, ceea ce obligă la creşterea dificultăţii optime la un nivel foarte ridicat, de 0,75.
Aceasta coboară progresiv cu mărirea numărului de variante de răspuns spre 0,50, dar cu cât acestea
sunt mai multe, timpul de analiză pentru fiecare item creşte (sunt mai multe variante de luat în
considerare) ceea ce obligă la reducerea din numărul de itemi. Această reducere afectează simultan
fidelitatea şi validitatea testului în ansamblul său, ajungând astfel la alternativa variante mai multe de
răspuns sau itemi mai mulţi. Dilema se rezolvă alegând între 4 şi 8 variante de răspuns, aceasta fiind o
zonă de echilibru între cele două extreme.

În rezumat, precizăm încă o dată că pentru majoritatea testelor nu este deloc indicat să avem
itemi de dificultate egală (eventual cu dificultatea optimă), pentru că urmărim să avem itemi pentru o
varietate a nivelurilor de dificultate, astfel încât testul să aibă o bună putere discriminativă în ansamblul
său. Pentru cele mai multe dintre teste itemii au o dificultate ce acoperă spectrul de la 0,20 la 0,80,
pentru a maximiza astfel diferenţele dintre subiecţi. În funcţie de scopul testării, pot fi concentraţi itemi
preponderent dificili (sub 0,20), ca în cazul selecţiei unor candidaţi pentru o facultate, post sau meserie
foarte pretenţioasă sau itemi foarte uşori (selecţie indulgentă). Pe de altă parte, cunoaşterea dificultăţii
itemilor este fundamentală în aranjarea lor în test într-o ordine ierarhică. Itemii foarte uşori de la
începutul testului ajută persoana să înţeleagă ce se cere de la ea şi, chiar dacă ei nu au valoare
psihometrică probată, ajută la ridicarea moralului, inspirând încrederea în resursele proprii. Itemii
foarte dificili sunt destinaţi extremei drepte a scalei, deci supradotaţilor sau celor de vârste mari, având
utilitate pentru un număr mai mic de cazuri, ce apar doar pe eşantioane extinse ca volum.

Analiza capacităţii de discriminare a unui item


Indicele de discriminare al unui item se referă la capacitatea sa de a distinge între subiecţii
care posedă trăsătura evaluată de test în proporţie ridicată şi cei care o posedă în proporţie redusă.
Astfel, într-un item cu o mare putere de discriminare, subiecţii care posedă în mare măsură trăsătura
evaluată vor avea în mod sistematic punctaje mai mari decât cei care posedă această trăsătură într-o
măsură mai mică.
Procedura tradiţională pentru stabilirea puterii de discriminare a unui item s-a bazat pe
diferenţele dintre procentele de răspunsuri corecte din grupul mai bun şi procentul de răspunsuri
corecte din grupul mai slab, din întreg testul. După Kelley (apud.Stan A., 2002), grupul „puternic”
este alcătuit din subiecţii care au un scor total care-i plasează valoric în primii 27% dintre subiecţi,
iar grupul „slab” din subiecţii care au cele mai slabe 27% scoruri din ansamblul rezultatelor la test.
Ca exemplu, să presupunem că un test de cunoştinţe a fost aplicat unui număr de 170 de
elevi. Mai întâi se ordonează scorurile totale la test de la cel mai mare la cel mai mic.
Se calculează apoi cât reprezintă primele 27% cele mai mari scoruri şi ultimele 27% cele
mai mici scoruri. Cele două valori trebuie să fie aproximativ apropiate. Ele sunt egale dacă în
practică două persoane nu obţin acelaşi scor.
Să presupunem că în cazul nostru n = 46( ).
Să luăm în calcul un item la care din primii 46 de subiecţi cu cele mai bune scoruri la test,
36 au răspuns corect la item, iar din cei 46 de subiecţi cu cele mai mici scoruri la test. 12 au răspuns
corect.
S = numărul de răspunsuri corecte în grupa “bună”
i = numărul de răspunsuri corecte în grupa “slabă”
n = numărul de scoruri în grupa bună egal cu numărul de scoruri în grupa slabă

d1 = = 0.52
Ebel (Stan, 2002) a propus o scală pentru interpretarea indicelui de discriminare d:
>0.40 – discriminare foarte bună
[0.30 ; 0.39] – discriminare bună
[0.20 ; 0.29] – discriminare slabă
[0.10 ; 0.19] – discriminare de limită
<0.10 – fără utilitate

În prezent, indicii de discriminare cei mai utilizaţi sunt coeficienţii de corelaţie biserial şi
punct-biserial, depinzând dacă itemii se dihotomizează a posteriori sau au fost evaluaţi direct în
mod dihotomic. Corelaţia biserială se utilizează cu itemi „dihotomizaţi” după ce au fost evaluaţi cu
scale de interval sau ordinale. De exemplu, aceasta se întâmplă atunci când un profesor a corectat o
întrebare cu punctaje de la 0 la 10 şi o dată ce a notat răspunsurile tuturor elevilor la această
întrebare decide să-i puncteze pe cei care se află sub 5 cu 0, iar pe cei care se află mai sus de 5, cu 1.
Corelaţia biserială este considerată de asemenea un indice de omogenitate, deoarece evaluează
corelaţia dintre item şi grupul de itemi care alcătuiesc testul, presupunând că punctajele fiecărui
item oscilează într-un continuu care merge de la 0 la 1. Formula corelaţiei biseriale este următoarea:

X pi - X qi pi q i
rb = ´ , care echivalează cu:
St y

X pi - X t pi
rb = ´ , unde
St y

X pi este în cadrul testului media subiecţilor care răspund corect la itemul i, X qi este în cadrul
testului media subiecţilor care nu răspund corect la itemul i, S t este variaţia punctajelor obţinute în
test, pi este proporţia de subiecţi care răspund corect la itemul i, qi este proporţia de subiecţi care nu
răspund corect la itemul i (qi=1-pi), iar valoarea ordonatei care separă într-o distribuire normală
proporţia subiecţilor care răspund corect la itemul i (pi) de proporţia celor care nu răspund corect
(qi) şi X t este media testului, luând în considerare toţi subiecţii participanţi la test.

Atunci când itemii au fost evaluaţi direct în mod dihotomic, adică sunt dihotomici în loc să fie
dihotomizaţi, se utilizează coeficientul de corelaţie punct-biserial.

X pi - X qi
rbp = ´ pi qi , sau:
St

X pi- X t pi
rbp = ´
St qi

În legătură cu valoarea de discriminare a unui item care este preferabil să se atingă, ar trebui
să ne gândim, în principiu, că idealul este să fie cât mai mare; cu cât se apropie mai mult de 1, care
este valoarea maximă a unei corelaţii, cu atât mai bine, deoarece aceasta ar indica faptul că itemul
are o mare capacitate de discriminare între subiecţii buni şi cei slabi, în ceea ce priveşte trăsătura
evaluată. Cu toate acestea, ţinând cont de faptul că şi coeficienţii de corelaţie biseriali şi biseriali
punctuali pot fi consideraţi un indice de omogenitate şi de faptul că dacă toţi itemii au o corelaţie
foarte ridicată cu testul (format din totalitatea tuturor itemilor) se indică faptul că toţi itemii
evaluează acelaşi lucru, ceea ce ar fi în detrimentul validităţii de conţinut. Este recomandabil ca
indicii de discriminare obţinuţi cu aceste corelaţii să aibă valori apropiate de 0,50; un item cu un
indice mai mic de 0,25 trebuie eliminat.

Curbele caracteristice itemilor sau teoria răspunsului la itemi


O reprezentare grafică a dificultăţii itemilor şi a gradului în care discriminează poate fi făcută printr-
o curbă caracteristică itemului (CCI). Aşa cum se observă în figură, o astfel de curbă este un grafic
în care aptitudinea măsurată este reprezentată pe axa orizontală, în timp ce probabilitatea
răspunsului corect e reprezentată pe axa verticală. De remarcat este faptul că măsura în care un item
discriminează între subiecţii cu scoruri mari şi cei cu scoruri mici este dată de înclinaţia curbei. Cu
cât mai abruptă înclinaţia, cu atât mai mult discriminează itemul respectiv. De asemenea, dacă
înclinaţia este pozitivă, atunci mai mulţi subiecţi cu scoruri mari răspund corect decât subiecţi cu
scoruri mici, iar reciproca este şi ea valabilă. Itemul (a) nu poate fi considerat un item bun;
probabilitatea unui subiect de a răspunde corect - răspuns corect înseamnă ceea ce e stabilit de cel
ce a construit testul - este mare pentru subiecţi cu aptitudini scăzute şi mică pentru subiecţii cu
aptitudini crescute. Itemul (b) nu este nici el un item bun deoarece curba ne spune că subiecţii cu
aptitudini moderate vor avea cea mai mare probabilitate de a răspunde corect; subiecţii cu aptitudini
crescute, respectiv scăzute vor avea probabilitate mai mică de a răspunde corect. Itemul (c) este un
item bun; observăm că probabilitatea de a răspunde corect creşte odată cu aptitudinea subiectului.
Ce putem zice despre itemul (d)? Curba caracteristică itemului discriminează pentru un singur punct
al continuumului aptitudinii, probabilitatea de a răspunde corect este foarte mare pentru toţi
subiecţii care se situează deasupra acestui punct de pe axa aptitudinii. Un item ca (d) este foarte bun
pentru un test, de exemplu, pentru a selecta candidaţii în funcţie de un scor critic. Totuşi acest item
nu e foarte bun pentru a ne oferi informaţii despre aptitudinile subiectului, la toate nivelurile acestei
aptitudini - cum ar putea fi cazul unui diagnostic sau test de aptitudini matematice.

Mare
itatea de a
de corect
Modelul trăsăturilor latente
Un test sau chestionar este construit pentru a estima nivelul unor cunoştinţe sau aptitudini ori a unor
trăsături de personalitate ale unui individ. Variabila de care depinde performanţa la test, fie ea de
cunoştinţe, aptitudini, trăsături de personalitate sau altceva, nu este direct măsurabilă. Printr-un test
se obţine doar o estimare a valorii variabilei. Conform modelului trăsăturilor latente, această
variabilă neobservabilă, care stă la baza oricărei măsurări psihometrice este considerată latentă. Ea
este una unidimensională. Se presupune că toţi itemii testului măsoară o anumită trăsătură de
personalitate, gradul în care fiecare item îndeplineşte acest obiectiv este dat de curba caracteristică a
itemului. În contrast cu teoria clasică a “scorului adevărat” în care nu se fac presupuneri despre
distribuţia de frecvenţă a scorurilor la test, teoria trăsăturilor latente avansează idei referitoare la
probabilitatea de apariţie a scorurilor observate obţinute de subiecţi şi scorurile adevărate. Teoriile
trăsăturilor latente propun modele care descriu cum această trăsătură latentă influenţează
performanţa aferentă fiecărui item al testului. Spre deosebire de scorurile la test sau scorurile
adevărate, scorurile latente pot să ia valori de la +¥ la -¥.

Aplicabilitatea modelului trăsăturilor latente la testele psihologice a fost pusă la îndoială de câţiva
teoreticieni. S-a susţinut, de exemplu, că unidimensionalitatea testelor ar fi violată dacă avem în
vedere testele psihologice. S-a susţinut şi că acelaşi item al unui test psihologic poate să măsoare
abilităţi sau aptitudini diferite ale subiecţilor, în funcţie de experienţele de viaţă ale acestora. Deşi
are unele limite fireşti, modelul trăsăturilor latente pare să joace un rol din ce în ce mai important în
crearea şi dezvoltarea noilor teste şi programe de testare.

Analiza răspunsurilor incorecte se face în cazul itemilor cu alegeri multiple pentru a


verifica dacă distractorii (răspunsurile greşite) îşi îndeplinesc rolul.
După Murphy şi Davidshofer (1987), pentru fiecare distractor se calculează frecvenţa
observată (f0) şi frecvenţa teoretică (ft) (toate răspunsurile greşite ale unui item au aceiaşi frecventă
teoretică).
foi = si ft =
N = numărul de subiecţi care au răspuns la item (corect sau greşit)
Nc = numărul de subiecţi care au răspuns corect
Ni = numărul de subiecţi care au ales distractorii
Întrebarea este bine construită dacă pentru fiecare răspuns greşit, frecvenţa observată este
aproximativ egală cu frecvenţa teoretică.
Variantele greşite pe care le aleg foarte puţine persoane trebuiesc înlocuite deoarece sunt
prea uşor identificate ca fiind greşite iar cele greşite care sunt alese de prea multe persoane impun
verificarea formulării itemului şi a variantelor de răspuns deoarece pot conţine o formulare
incorectă.
După analiza de itemi se elimină itemii necorespunzători, se reformulează unii itemi, se
introduc itemi noi din banca de itemi (dacă este cazul) şi eventual se reia algoritmul de la aplicarea
primei variante.

V. Verificarea suplimentară a testului şi analiza caracteristicilor psihometrice


Dacă testul are itemi corespunzători de la prima încercare (ceea ce rareori este
posibil), se trece la verificarea suplimentară a testului, cu alte cuvinte se aplică testul într-un
eşantion nou de subiecţi.
Se verifică parametrii psihometrici ai unui item prin mai multe metode:
- se calculează coeficienţii de corelaţie ai fiecărui item cu scorul total al testului şi se elimină
itemii cu corelaţie scazută;
- se calculează indicele de discriminare pe baza metodei grupelor contrastante formate în
funcţie de scorurile grupului la test;
- se grupează itemii pe baza analizei de clusteri şi se reţin itemii unei clase omogene, care se
referă la constructul măsurat de test;
- se corelează itemii cu diversele variabile care au legătură (sau nu) cu constructul, pe baza
teoriei de la care s-a pornit în elaborarea testului.

Se verifică apoi calităţile psihometrice calculându-se coeficienţii de validitate şi de


fidelitate. Dacă aceştia nu sunt acceptabili, se caută erorile şi se reface testul.

VI. Elaborarea normelor şi redactarea manualelor


În domeniul psihometriei, termenul de ,,normă” se foloseşte în strânsă legătură cu cel
de etalon.
Etalonarea, sinonimă cu normarea, înseamnă ,,stabilirea, într-o probă psihologică, a unei
scale care permite a situa rezultatul obţinut de un subiect prin raportare la rezultatele care au fost
obţinute anterior într-o populaţie de referinţă, suficient de numeroasă şi omogenă de subiecţi
comparabili aceluia care a fost examinat”. (Grand dictionnaire de la psychologie, 1992; apud Stan,
A., 2002)

Capitolul VI
ETALONAREA UNEI PROBE PSIHOLOGICE

VI.1. Definirea termenilor

Conform DEX (1984), etalonul este o mărime acceptată oficial în ştiinţă, [...] şi care serveşte
ca unitate de bază într-un sistem de măsurare. Este un model perfect al unei măsuri tip,
confecţionat cu mare precizie şi acceptat oficial a servi ca bază de comparaţie.
În psihologie, în urma aplicării unui test se obţin scoruri brute care nu spun nimic luate
separat. De exemplu, la un test de atenţie distributivă, o cotă brută egală cu 40 nu spune nimic
despre performanţa subiectului.
Etalonul (tabelul de norme) reprezintă o convenienţă între utilizatorii de măsuri şi este deci
un cadru de referinţă. Etalonul este nivelul mediu al rezultatelor obţinute de un grup de referinţă
(eşantion reprezentativ).
Raportarea la etalon constă în determinarea locului ocupat de rezultatele unui subiect faţă de
rezultatele unei populaţii de referinţă, suficient de numeroasă, comparabilă cu persoana
examinată.
Etalonarea este procesul prin care se ajunge la stabilirea cadrului de referinţă, a tabelului de
norme.
VI.2. Eşantionarea
Eşantionarea reprezintă selectarea unui grup reprezentativ de subiecţi din populaţia căreia îi
este adresat testul pentru care urmează să se construiască etalonul.
Eşantionul trebuie să îndeplinească două condiţii:
1. Să fie suficient de mare
2. Să fie reprezentativ, adică să facă posibilă tragerea aceloraşi concluzii din analiza
grupului ca şi din analiza populaţiei, admiţând un risc tolerabil de eroare.
În psihologie, aceste două condiţii se îndeplinesc uneori cu greutate datorită
posibilităţilor de selectare pe care psihologul le are la îndemână ( de cele mai multe ori prin
intermediul unor instituţii - şcoală, spital, laborator psihologic, etc.), iar această situaţie
introduce de la început distorsiuni.
Se practică tot mai mult testările plătite pentru că în acest fel psihologul cercetător
are o deschidere mai mare din partea subiecţilor care participă pe bază de voluntariat şi care
sunt mai motivaţi să răspundă cu interes la itemii testului.
Un aspect direct legat de volumul eşantionului permite ca normele unui test să fie
considerate norme locale sau norme naţionale.
Normele locale sunt foarte specifice. Ele sunt obţinute doar la nivelul unui oraş de
exemplu, în general din raţiuni de ordin economic.
Normele naţionale sunt obţinute pe un număr foarte mare de subiecţi care acoperă
regional toată suprafaţa unei ţări. Firmele specializate în construirea şi comercializarea
testelor psihologice elaborează norme naţionale.
Sunt prezentate mai frecvent patru tehnici de eşantionare şi anume: prin selecţie
aleatoare simplă, prin selecţie stratificată, eşantionare multistadială si eşantionare
multifazică.
Eşantionarea prin selecţie aleatoare simplă se mai numeşte şi „metoda loteriei” sau a
„tragerii la sorţi”.
Fiecare individ din populaţie primeşte un număr iar apoi numerele sunt trase la sorţi
(de exemplu printr-un program de statistică) până se obţine un eşantion de o mărime stabilită
în prealabil.
În eşantionarea stratificată, populaţia este împărţită în clase, după unul sau mai multe
criterii. Variabilele după care se face împărţirea trebuie să coreleze semnificativ cu scorurile
testului. Cel mai frecvent utilizate variabile sunt sexul, vârsta, nivelul educaţional, clasa
socială, mediul de provenienţă, rasa, etc.
După ce se face clasificarea populaţiei în funcţie de variabila aleasă, fiecare clasă din
populaţie trebuie să fie reprezentată în eşantion, proporţional cu frecvenţa ei relativă.
De exemplu, se consideră că la un chestionar de atitudini faţă de şcoală rezultatele
sunt influenţate de nivelul educaţional şi de mediul de provenienţă.
Variabila „nivel educaţional” are trei modalităţi:ciclul primar, ciclul gimnazial si ciclul
liceal, iar variabila „mediu de provenienţă” are două modalităţi:urban şi rural.
Chestionarul se adresează elevilor şcolilor din judeţul Bihor (deci eşantionarea se
face pentru elaborarea unor norme locale). Să considerăm fictiv că populaţia căreia i se
adresează testul este formată din 200.000 de persoane, repartizată în funcţie de nivelul
educaţional şi de mediul de provenienţă conform tabelului:

Clasa Nivel de Mediu de Frecvenţa Frecvenţa


şcolarizare provenienţă relativă

C1 Ciclu primar Urban 45.000 0.15

C2 Ciclu primar Rural 21.000 0.07

C3 Gimnaziu Urban 73.000 0.24

C4 Gimnaziu Rural 29.000 0.10

C5 Liceu Urban 94.000 0.31

C6 Liceu Rural 38.000 0.13


Kline (1993) (apud Albu, 1998) precizează că volumul eşantionului se stabileşte
astfel încât în fiecare clasă să se extragă cel puţin 300 de persoane. Se deduce de aici că
numărul de variabile ales în eşantionarea stratificată nu trebuie să fie foarte mare pentru că
altfel va fi necesară selectarea unui eşantion foarte numeros.

În exemplul dat, să considerăm că ar fi suficient un eşantion cu un volum minim


recomandat (1800 de persoane). Frecvenţa relativă din populaţie se respectă şi în eşantion,
iar numărul de subiecţi cuprinşi în fiecare clasă din eşantion se regăseşte în tabelul următor:

Clasa Frecvenţa relativă Frecvenţa

C1 0.15 270

C2 0.07 126

C3 0.24 432

C4 0.10 180

C5 0.31 558

C6 0.13 234

1.00 1800
Eşantionarea multistadială se realizează prin selecţia indirectă a indivizilor care
formează eşantionul prin intermediul selecţiei grupurilor la care aceştia aparţin, iar în
eşantionarea multifazică se alege iniţial un eşantion de dimensiuni mari pe care se realizează
unele faze ale cercetării extensive, apoi , din acesta se selectează un eşantion pentru
realizarea altor faze cu caracter mai intensiv.
Deoarece pe baza scorurilor eşantionului estimăm parametrii populaţiei şi având în
vedere că erorile de eşantionare sunt inevitabile, trebuie calculată eroarea de estimare a
parametrilor.
Ceea ce interesează de fapt este să calculăm un interval de încredere în jurul mediei
eşantionului pentru a putea estima cu o anumită exactitate valoarea mediei populaţiei.

Eroarea standard a mediei SM este dată de formula:

SM = √ S2/n *(N-n)/N

unde: S2 = variaţia scorurilor esantionului


N = mărimea populaţiei
N = mărimea eşantionului
Se decide apoi nivelul de precizie cu care vrem să lucrăm, de 1.96 σ sau de 2.58 σ.

VI.3. Metode de obţinere a normelor unui test psihologic

Normele testului descriu performanţa realizată de indivizii din eşantion şi sunt de fapt valori
ale unei caracteristici în repartiţia scorurilor, adică valori ale frecvenţei mediei, medianei sau
rangului scorurilor.
Prin etalonare se fac de fapt transformări ale scorurilor brute, transformări care permit
compararea a două persoane diferite, testate cu acelaşi test sau a aceleiaşi persoane, testată cu teste
diferite.
Cele mai utilizate transformări (care definesc şi metodele de obţinere a normelor unui test )
sunt:

· Transformări în clase echivalente


· Transformări în vârste echivalente
· Transformări în norme de vârstă mintală
· Transformări în cote standard şi cote standardizate
· Transformări în ranguri centile, decile şi cuartile
· Transformări în clasele scalei normalizate

●Transformări în clase echivalente

Clasele echivalente se referă la clasele din diverse niveluri şcolare. Tabelele de clase
echivalente conţin pentru fiecare clasă şi lună de şcoală mediana cotelor brute la test.
În continuare, este redat un astfel de tabel pentru un test de aritmetică (după Albu, 1998),
destinat elevilor din clasa a II-a, a III-a şi a IV-a, cotele brute având valori între 0 şi 100, iar pentru
cele două luni de vacanţă se consideră cotele nemodificate:

Clasa Cota brută Clasa Cota brută Clasa Cota brută

2.0 15 3.0 25 4.0 55

2.1 15 3.1 27 4.1 58

2.2 16 3.2 28 4.2 62

2.3 17 3.3 30 4.3 64


2.4 17 3.4 32 4.4 66

2.5 18 3.5 36 4.5 67

2.6 19 3.6 39 4.6 68

2.7 20 3.7 44 4.7 69

2.8 22 3.8 47 4.8 69

2.9 23 3.9 51 4.9 70

Partea întreagă reprezintă clasa, iar partea zecimală reprezintă luna de şcoală. Interpretarea
este foarte simplă. Dacă un copil, în prima lună din clasa a IV-a a obţinut la testul de aritmetică o
cotă brută egală cu 27, are clasa echivalentă 3.1, deci este rămas în urmă la aritmetică cu aproape un
an.

●Transformări în vârste echivalente

Transformările în vârste echivalente urmează acelaşi principiu ca şi transformările în clase


echivalente. La baza lor stă principiul că până la o vârstă (şcolară sau cronologică), dezvoltarea este
o variabilă continuă. Aceste tipuri de transformări sunt potrivite doar pentru testele care se
adresează copiilor de nivel şcolar elementar.
Cotele transformate în niveluri de vârstă indică pentru fiecare vârstă cronologică exprimată
în ani şi luni, mediana sau media cotelor brute la test.
Un exemplu de test în care se folosesc pentru construirea etaloanelor transformările în vârste
echivalente, este proba Frostig pentru evaluarea dezvoltării funcţiei perceptiv-motrice la copiii de 4-
11 ani.
Un dezavantaj al transformărilor în clase echivalente sau vârste echivalente este dat de faptul
la aceleaşi „distanţe” între clase corespund distanţe diferite între cotele brute ale testului, deci
aprecierile calitative cu privire la performanţele subiecţilor nu au aceeaşi semnificaţie pentru doi
subiecţi care au obţinut acelaşi scor, dar la vârste diferite.

●Transformări în norme de vârstă mintală


Conceptul de „vârstă mintală” introdus prin intermediul scalelor Binet-Simon, reprezintă
nivelul de vârstă pentru care toate răspunsurile specifice sunt corecte. Vârsta mintală este vârsta
corespunzătoare performanţelor realizate de către copiii normali la anumite solicitări de natură
intelectuală. Este determinată prin nivelul probelor reuşite de un copil (Stan, 2002).
Un copil de 7 ani care a reuşit să rezolve toţi itemii pentru vârsta de 7 ani şi încă 5 pentru un
nivel superior, va avea o vârstă mintală avansată în funcţie de reuşita suplimentară. Dar, la fel ca şi
în cazul transformărilor în clase echivalente sau în vârste echivalente, rezultatele subiecţilor (fie că
sunt în avans, fie că sunt în întârziere), nu au aceeaşi semnificaţie la vârste diferite ( un an de
întârziere la vârsta cronologică de 4 ani nu are aceeaşi semnificaţie ca şi un an de întârziere la vârsta
cronologică de 11 ani). Explicaţia se datorează faptului că dezvoltarea intelectuală este foarte rapidă
la vârstele mici dar îşi încetineşte ritmul o dată cu înaintarea în vârstă. Un an de întârziere în vârsta
mintală la vârsta cronologică de 3-4 ani înseamnă tot atât de mult ca o diferenţă de 3 ani de
întârziere la vârsta cronologică de 9-12 ani (Anastasi, 1954).

●Transformări în cote standard şi în cote standardizate


Cota standard z este o valoare care ne arată cât se distanţează în unităţi σ o cotă brută de
media distribuţiei respective.
Cota z este o variabilă standardizată, cu ajutorul căreia variabile diferite sunt aduse la un
numitor comun ( adică sunt exprimate în aceleaşi unităţi), pentru a putea fi comparate.
Trecerea de la variabila brută x la variabila standardizată z se face prin formula:

x-m
z=
s
Unde:
m – media în eşantion
σ - abaterea standard în eşantion

Reamintim că abaterea standard (σ) ne arată distanţa la care se află o cotă în raport cu media
grupului de date. Formal, întinderea variaţiei datelor este de 6 unităţi σ ( deci σ este unitatea de
măsură pentru variaţie).
Pentru utilizarea cotelor standard, condiţia este ca datele brute să se distribuie aproximativ
după o distribuţie normală. Transformarea în cote standard şi cote standardizate este o transformare
liniară, care schimbă doar media şi abaterea standard a rezultatelor, păstrând nemodificată repartiţia
cotelor, deci ordinea indivizilor în eşantion.
Cotele standard şi cotele standardizate indică poziţia relativă a subiectului într-o populaţie şi
permit compararea performanţelor unui individ la două sau mai multe teste dacă mediile şi
dispersiile scorurilor acestora au fost calculate pe baza aceluiaşi eşantion de persoane ( Albu, 1998).

Astfel, dacă la un test de matematică, un subiect obţine scorul brut egal cu 31 ( media pe eşantion
fiind egală cu 30, iar abaterea standard cu 2), iar la un test de citire obţine un scor brut egal cu 35
(media în acelaşi eşantion fiind 32, iar abaterea standard 3), se poate aprecia că elevul este mai bun
la citire unde cota z = 1 decât la matematică unde z = 0.5.
Conform proprietăţilor distribuţiei normale, 68.26 % din populaţie se află în intervalul ± 1 σ;
95 % din populaţie în intervalul ±1.96 σ, iar 99% din populaţie în intervalul ± 2.58 σ. Cunoscând că
o persoană se găseşte în intervalul ± 1 σ, se poate spune că aproximativ două treimi din populaţie
are acelaşi scor. Dacă un subiect are o cotă standard z = 0.72, se poate afirma că a obţinut un
rezultat „obişnuit”, în timp ce o persoană cu o cotă z = 3.6 are un scor „neobişnuit de mare” ( mai
puţin de 0.13% din subiecţii participanţi la etalonare au realizat un asemenea scor) (Albu, 1998).
Uneori, utilizarea cotelor z prezintă inconvenientul că acestea se exprimă prin numere cu
semn şi zecimale, fiind cuprinse în intervalul [ -3; +3].
Efectuarea unei transformări liniare asupra cotelor z duce la obţinerea cotelor standardizate.
Cotele standardizate au aceleaşi proprietăţi ca şi cotele standard z, singura diferenţă fiind
valoarea mediei şi a abaterii standard.
Cota standard z se transformă în cotă standardizată z’ cu ajutorul formulei:
z’ = M+σz
unde
z’ = cota transformată a cotei standard z
M, σ = media şi abaterea standard a cotelor standardizate

Cele mai cunoscute scale standardizate sunt:


1.scalele T (introduse de Mc Call în 1922), care au M = 50 şi σ = 10,
2.scalele H (Hull) unde M= 50 şi σ = 14 sau
3.scalele Z unde M=100 şi σ = 10

SCALA

N C WP L T Z QI H

Media 3 5 10 10 50 100 100 50

Ab. sta. 1 2 3 5 10 10 15 14

Dacă am dori să standardizăm o cotă standard z = – 1.25 pe baza scalei T, am apela la


formula:

z’ = 50 + 10. (-1.25)
z’ = 50 – 12.5
z’ = 37.5
●Transformări în ranguri centile, decile şi cuartile

Transformarea în ranguri centile, decile şi cuartile este o transformare neliniară sau


transformare de arie, care schimbă repartiţia cotelor brute, făcând-o să semene cu repartiţia
uniformă.

Rangul centil se obţine prin împărţirea ansamblului de date ordonate în 100 de clase, fiecare
cuprinzând 1% din efectivul total. Dar în practică este suficientă de cele mai multe ori împărţirea în
decile sau cuartile.

Decilarea este operaţia prin care împărţim ansamblul de date în 10 clase, fiecare cuprinzând
10% din efectivul total. Cuartilele se obţin prin împărţirea în 4 a ansamblului de date. Se numeşte
cuartil superior acea cotă sau valoare care are înaintea sa 25% din ansamblul de cote brute şi cuartil
inferior reperul care are înaintea sa 75% din totalul cotelor brute. Cele patru cuartile se numesc:
superior, median superior, median inferior şi inferior.
Vom prezenta în continuare un exemplu fictiv de transformare în decile a scorurilor brute, în
urma aplicării unui test de atenţie concentrată unui eşantion de 180 de subiecţi, în vederea alcătuirii
etaloanelor pentru testul respectiv.
Cotele brute la test, simplu ordonate de la cea mai mare valoare la cea mai mică obţinută,
sunt prezentate în tabelul Tabelul 1 (vom prezenta direct şi frecvenţele absolute fa precum şi pe cele
cumulate fc pentru economie de timp):
Tabelul 1: Frecvenţe absolute şi relative

x 287 286 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270
fa 2 1 0 1 2 6 5 10 3 11 7 19 13 8 13 13 7 3
fc 2 3 3 4 6 12 17 27 30 41 48 67 80 88 101 114 121 124

269 268 267 266 265 264 263 262 261 260 259 258 257 256 255 254 253 252 251
10 8 7 2 6 4 4 3 3 0 0 1 1 0 0 0 1 0 1
134 142 149 151 157 161 165 168 171 171 171 172 173 173 173 173 174 174 175

250 249 248

1 2 2

176 178 180

Primul decil este dat de cota acelui obiect care are înaintea lui 10% dintre subiecţii
examinaţi, deci 180 : 10 = 18. Se caută cota celui de-al 18-lea subiect. Întrucât nu se regăseşte în
tabel, alegem cota cea mai apropiată, deci cota celui de-al 17-lea subiect, egală cu 281.
Prima clasă cuprinde toţi subiecţii având o cotă mai mare sau egală cu 281. Se observă că
proporţia de 10% nu este perfect respectată.
Pentru a stabili cea de-a doua clasă, vom căuta frecvenţa cumulată cea mai apropiată de 2 x
18, deci frecvenţa 36. Aceasta este de 41 iar cota brută corespunzătoare este 278. Cea de-a doua
clasă cuprinde cotele 280, 279, 278.
Locul celui de-al doilea reper este 3 x 18, deci 54 ( frecvenţa cumulată cea mai apropiată 54,
cota corespunzătoare este 277).
A patra clasă: 4 x 18 = 72 ( frecvenţa cumulată cea mai apropiată este 67, scorul
corespunzător este de 276)

A cincea clasă: 5 x 18 = 90 (frecvenţa cumulată cea mai apropiată este 88, scorul
corespunzător este 275, 274)
A şasea clasă : 6 x 18 = 108, cotele corespunzătoare 273, 272
A şaptea clasă: 7 x 18 = 126, cotele corespunzătoare 271, 270

A opta clasă: 8 x 18 = 144, cotele corespunzătoare 269, 268


A noua clasă: 9 x 18 = 162, cotele corespunzătoare 267, 266, 265, 264
A zecea clasă va cuprinde toate cotele ≤263.

Rezultatele pot fi reprezentate astfel:

COTE DECILE
≥ 281 I
280 II
279
278
277 III
276 IV
275 V
274
273 VI
272
271 VII
270
269 VIII
268
267, 266, 265, 264 IX
≤ 263 X

Transformarea în decile determină o distorsionare a datelor brute când acestea se încadrează


într-o distribuţie normală; decilele sunt mai apropiate între ele în jurul mediei şi mai spaţiate la
periferie, deci constituie o eroare însumarea rangurilor sau a decilelor şi determinarea unei medii
asupra lor ( Radu, 1993).
Aurel Stan (2002) propune o metodă statistică prin testul χ2 de ajustare, prin care putem
verifica dacă distanţa dintre efectivele observate (pe care le-am obţinut prin aproximare) şi cele
teoretice ( care sunt ideale), este semnificativă.
Formula de calcul este:

( fo - ft )2
c2 = å
ft

f0 desemnează efectivele observate, adică numărul de scoruri brute pentru fiecare decil

ft sunt efectivele teoretice care sunt aceleaşi pentru fiecare decil şi care se obţin împărţind N la 10 (
pentru că avem 10 trepte).
Pentru exemplul dat anterior, desfăşurarea procedurii χ2 de ajustare pentru obţinerea distanţei dintre
efectivele teoretice necesare calculării decilelor şi cele observate practic, este redată în tabelul
următor:

Tabelul 2: desfăşurarea procedurii χ2 de ajustare

f0 ft f0- ft (f0- ft)2 (f0- ft)2/ ft

17 18 -1 1 0.05

24 18 6 36 2.00

7 18 -11 12 6.72

19 18 1 1 0.05

21 18 3 9 0.50

26 18 8 64 3.55

10 18 -8 64 3.55

18 18 0 0 0.00

19 18 1 1 0.05

19 18 1 1 0.05

Total: 16.52

Unde:
T = 180 iar ft = 180 : 10
Pentru valoarea lui χ2 = 16.52, p ≥ 0.10, ceea ce ne determină la suspendarea ipotezei. Diferenţa
dintre cele două efective dată de valoarea lui χ2 fiind nesemnificativă, ne arată că efectivele
observate pot fi utilizate pentru etalonare.

●Transformări în clasele scalei normalizate

Împărţirea în clase normalizate presupune împărţirea scorurilor brute nu în tranşe succesiv


egale ci în clase având efectivele conform frecvenţei distribuţiei normale.
Este tot o transformare neliniară care urmăreşte obţinerea unei scale cu 5, 7 sau 9 trepte.
Valorile exprimate procentual pentru fiecare scală sunt:
- pentru 5 clase: 6,7%; 24,2%; 38,2%; 24,2%; 6,7%
- pentru 7 clase: 4,8%; 11,1%; 21,2%; 25,8%; 21,2%; 11,1%; 4,8%
- pentru 9 clase: 4%; 6,6%; 12,1%; 17,5%; 19,6%; 17,5%; 12,1%; 6,6%; 4%

Dacă considerăm scara normalizată cu 5 clase, prima clasă va conţine primele 6.7% din scorurile
cele mai mici, a doua clasă următoarele 24.2%, etc.
Prima clasă va avea limita inferioară egală cu cel mai mic scor posibil, ultima clasă va avea limita
superioară egală cu cel mai mare scor posibil.
Paşii urmaţi pentru a realiza transformarea scorurilor în clase ale unei scale normalizate ( cu
5, 7 sau 9 trepte) sunt:

1. se aranjează scorurile de la cel mai mare la cel mai mic


2. se stabileşte frecvenţa pentru fiecare scor
3. se stabileşte frecvenţa cumulată
4. se calculează procentul fiecărei clase
5. se face corespondenţa scor – procent din distribuţia de frecvenţă cumulată
Să presupunem că un test a fost aplicat la 265 de persoane. Scorul maxim al testului este 40, iar
scorul minim este 9. Tabelul următor prezintă frecvenţa fiecărui scor şi frecvenţa cumulată.
Dorim să obţinem etalonul testului prin transformarea în clasa normalizată cu 5 trepte.

Tabelul 3: frecvenţele scorurilor şi frecvenţa cumulată

Scor brut Frecvenţa fiecărui scor Frecvenţa cumulată


40 1 1
39 2 3
38 2 5
37 4 9
36 6 15
35 4 19
34 9 28
33 12 40
32 15 55
31 11 66
30 18 84
29 19 103
28 16 119
27 19 138
26 20 158
25 15 173
24 12 185
23 14 199
22 11 210
21 11 221
20 6 227
19 8 235
18 6 241
17 5 246
16 5 251
15 4 255
14 3 258
13 2 260
12 2 262
11 1 263
10 1 264
9 1 265

Pentru prima clasă se calculează limita inferioară:


265 corespunde la 100%
x corespunde la 6,7%

Cu regula de 3 simplă avem:

x= 6,7 * 265/ 100 = 17,75

Căutăm în rândul frecvenţelor cumulate (fc) frecvenţa cea mai apropiată de 17,75. Aceasta este
19 şi vom reţine ca reper al scării cota 35.
Pentru a localiza al doilea reper al scalei se calculează:

6,7 + 24,2 = 30,9 % şi se aplică din nou regula de trei simplă:

x = 30,9 * 265/ 100 = 81,88


Valoarea cea mai apropiată din frecvenţele cumulate este 84, cota brută corespunzătoare este
30. Cea de-a doua clasă cuprinde cotele brute în intervalul [34;30].

Se calculează mai departe al treilea reper:

30,9 + 38,2 = 69,1

x= 69,1 * 265/100 = 183,

deci cea de a treia clasă cuprinde cotele din intervalul [29 ; 24].
Cea de a patra clasă va cuprinde cotele din intervalul [23; 17], iar a cincea clasă va fi formată din
scorurile mai mici sau egale cu 17.
Rezultă următorul tabel de norme care oferă criteriile necesare pentru situarea unui individ
în raport cu grupul de etalonare:

Tabelul 4: Tabel de norme

Clasa Cote
I ≥ 35

II 34-30

III 29-24

IV 23-17

V ≤ 17

Când facem interpretarea calitativă a rezultatelor unui test, performanţa subiectului trebuie
descrisă în termeni concreţi. Putem „eticheta” clasele şi astfel clasa I să reprezinte „performanţă
foarte bună”, clasa a II-a „performanţă bună”, clasa a III-a „performanţă medie”, clasa a IV-a
„performanţă slabă”, iar clasa a V-a „performanţă foarte scăzută”.
Nu se poate spune că unele tipuri de transformări sunt mai bune ca altele, specificul testului,
a trăsăturii măsurate, impun alegerea celei mai bune metode de obţinere a etaloanelor.
Pentru a fi cu adevărat utile, normele testului trebuie să fie descrise detaliat în manualul
testului, indicând descrierea populaţiei pentru care au fost construite, modul de formare a
eşantionului, caracteristicile eşantionului (numărul de persoane, indicii tendinţei centrale şi ai
dispersiei, reprezentativitatea criteriilor şi dacă acestea influenţează rezultatele, erori posibile de
eşantionare, etc.), condiţiile în care a fost aplicat testul, data testării.
Tabelul de norme este relativ la populaţia avută în vedere, mai ales dacă etalonul are o
valoare locală. Cu atât mai mult, nu se pot utiliza etaloane întocmite în alte ţări.

La anumite intervale de timp, testele trebuiesc re-etalonate. Programele statistice actuale


permit actualizarea continuă a etaloanelor, o dată cu introducerea scorurilor subiecţilor testaţi în
baza de date.

Tabel de frecvenţe absolute şi relative


Tabel

x 287 286 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270

fa 2 1 0 1 2 6 5 10 3 11 7 19 13 8 13 13 7 3

fc 2 3 3 4 6 12 17 27 30 41 48 67 80 88 101 114 121 124

269 268 267 266 265 264 263 262 261 260 259 258 257 256 255 254 253 252 251

10 8 7 2 6 4 4 3 3 0 0 1 1 0 0 0 1 0 1
134 142 149 151 157 161 165 168 171 171 171 172 173 173 173 173 174 174 175

250 249 248

1 2 2

176 178 180

Capitolul VII
ASPECTE ETICE ALE EVALUĂRII PSIHOLOGICE

Examenul psihologic şi utilizarea testelor psihologice, dar şi orice acţiune pe plan psihologic, au
numeroase implicaţii sociale şi etice. Să ne imaginăm o situaţie de examen de selecţie profesională
când un funcţionar se prezintă cu un test psihologic cules dintr-o revistă de modă şi pretinde că doreşte
să testeze inteligenţa candidaţilor; după examinare afişează o listă care reproduce o ierarhizare în baza
unor scoruri realizate de subiecţi (imaginea este cât se poate de reală, o întâlnim frecvent în cele mai
variate locuri pe piaţa muncii). Ne confruntăm în acest caz cu o serie de erori grosolane şi abateri de la
cele mai elementare reguli etice. Este vorba în primul rând de lipsa de calificare a funcţionarului în
cauză care nu are nimic comun cu psihologia. Asistăm la o utilizare abuzivă a unui instrumentar
psihodiagnostic alături de omiterea unor norme elementare ale respectării drepturilor omului.

Psihologia este o ştiinţă tânără care trebuie protejată de neştiutori şi de impostori. Pentru aceasta
multe ţări şi-au elaborat un sistem juridic de protecţie, totodată fiind redactate norme etice şi
standarde de utilizare a testelor psihologice şi practicare a psihologiei. Astfel de standarde au fost
publicate şi la noi în ţară.

Atunci când discutam despre implicaţiile sociale şi etice ale utilizării testelor psihologice, referirea
se face cu precădere la respectarea câtorva principii: calificarea examinatorului; calitatea
instrumentelor şi procedurilor de măsură ; protecţia intimităţii subiectului ; confidenţialitatea
rezultatelor ; comunicarea rezultatelor testării; respectarea drepturilor minorităţilor. (Anastasi,1976;
Gregory, 1992; Murphy & Davidshofer, 1991).

Calificarea examinatorului
Una din cerinţele fundamentale ale psihodiagnozei este ca testele să fie mânuite numai de un
personal calificat. Aceasta este una din măsurile luate pentru a proteja subiecţii de unele abuzuri
care pot fi comise cu ocazia examinărilor psihologice.
Exemplu
O companie profilată pe proiectarea de produse informatice a organizat un examen pentru selecţia
candidaţilor. Examenul consta dintr-un test de cunoştinţe şi unul psihologic. În astfel de situaţii, cel
care se ocupă de problema personalului este directorul de resurse umane, care, în cazul nostru, era
un economist. Acesta a alcătuit un test de cunoştinţe compus din 5 întrebări, cu 3 răspunsuri la
alegere şi s-a hotărât să administreze un test de personalitate cunoscut în literatura psihologică sub
denumirea de Testul Lüscher. Testele de cunoştinţe sunt importante în selecţia personalului calificat
pentru a practica o profesie sau alta, dar construcţia lor necesită cunoştinţe vaste de didactică,
psihologie, statistică, cunoştinţe profesionale (ne referim la profesia pentru care se face selecţia) şi
de metodologia construcţiei testelor de cunoştinţe (Albu, 1999; Albu & Pitariu, 1992). Aplicarea şi
interpretarea unui test de personalitate este un lucru dificil. În toată lumea este un fapt cunoscut şi
respectat acela că terminarea unei specializari în psihologie nu-ţi dă dreptul utilizării
instrumentarului psihodiagnostic. Pentru aceasta sunt necesare cursuri speciale. Apoi, alegerea unui
test pentru a fi utilizat într-o acţiune de selecţie profesională presupune cunoaşterea noţiunilor de
validitate, fidelitate, standardizare şi a normelor de interpretare. În dicţionarul de psihologie al lui
Sillamy (1980) se face o descriere succinta a probei Lüscher, dar se specifică faptul că este dificil de
interpretat şi că acest test proiectiv nu este încă suficient de bine studiat sub aspect statistic. A-l
utiliza în selecţie este deci o mare eroare, aceasta ţinând seama şi de conţinutul sau/şi fidelitatea sa
scăzută (alegerea culorilor este în funcţie de dispoziţie şi nu de o calitate stabilă de personalitate).
Organizatorul examenului de selecţie ilustrat poate fi acuzat de impostură, de abuz în practicarea
unei profesii pentru care nu are pregătirea necesară şi de lezare a personalităţii candidaţilor. Astfel
de exemple sunt numeroase. Unele selecţii de personal se fac după metode extrem de ,,originale”: o
discuţie la un restaurant cu candidatul, maniera în care un candidat deschide uşa, felul în care
candidatul priveşte spre cel care face selecţia, utilizarea datelor din horoscop, analiza scrisului ori a
liniilor din palmă etc.

În orice examen psihologic nu trebuie uitat că se lucrează cu subiecţi care se aşteaptă la nişte
rezultate obiective. Utilizarea abuzivă de teste şi testarea psihologică condusă de nespecialişti este
extrem de dăunătoare atât pentru subiect cât si pentru companie, şi anume în sensul că se ajunge la
utilizarea unor informaţii false. Lipsa de cunoştinţe despre testele psihologice, vulgarizarea lor,
interpretările eronate şi iluzia că oricine posedă un test îl poate şi administra şi interpreta a dus la
multe neînţelegeri cu privire la natura testelor şi utilitatea lor. Totodată, aceste false concepţii
despre teste şi examenul psihologic au generat numeroase critici şi revolte antitest.

Psihologii trebuie să-şi apere şi respecte profesia. Normele interne de protejare sunt bine puse la
punct, dar sunt cunoscute numai într-un cadru prea restrâns. Se impune o comunicare mai vie cu
publicul larg, o educare a sa în ceea ce priveşte investigarea ştiinţifică a personalităţii şi investigarea
pe care o fac persoanele neavenite care au alte specializări decât aceea de psiholog. Insuficienta
comunicare ştiinţifică cu publicul a lăsat câmp liber de acţiune ziariştilor, impostorilor şi diletanţilor
să popularizeze un domeniu al ştiinţei pentru care nu au nici o pregătire.

Soluţia care adesea a fost propusă şi din ce în ce mai mult acceptată de numeroase state este ca
dreptul de profesare al psihologiei să fie acordat pe baza unor standarde de competenta, a unor
licenţe acordate de forurile legale de control a activităţii psihologilor. Astfel, o companie sau un
subiect supus unui examen prin teste psihologice trebuie să poată controla competenţa
examinatorului. Orice violare a normelor etice de utilizare a testelor trebuie să conducă la sancţiuni
ca orice fals, mergând până la retragerea dreptului de practicare a profesiei sau la pedeapsa conform
codului penal. Dovezi ale competenţei pot fi titlul de doctor, cel de absolvent al unui curs de ştiinţe
aprofundate sau a unor cursuri pe o anumită problemă atestate printr-o diplomă. Simpla absolvire a
unei facultăţi de psihologie este insuficientă.

Calitatea instrumentelor şi procedurilor de măsură


În general, distribuţia testelor psihologice este restrânsă la persoanele care au cel puţin un master în
psihologie sau cursuri echivalente ori focalizate pe o anumită problemă de psihodiagnoză.
Cataloagele care prezintă teste psihologice specifică şi nivelul de competenta necesar cumpărării şi
utilizării unui test psihologic. Pentru studenţii care utilizează teste psihologice, în multe ţări se
pretinde de către distribuitorii de teste semnătura persoanei responsabile de activitatea studentului
respectiv.

Un aspect important legat de utilizarea testelor şi procedurilor de testare psihologică se referă la


calitatea intrinsecă a acestora. În această idee, un test nu este lansat pe piaţă fără ca anterior acesta
să nu fi fost verificat. Se pretinde ca orice test să fie deci însoţit de un manual de utilizare. Acest
manual trebuie să conţină:
Baza conceptuală a testului;
Datele psihometrice aferente construcţiei testului;
Norme şi standarde de interpretare;
Valoarea şi limitele testului în cauză;

Studii de caz, anexe cu studii de validare, studii critice etc.

Referitor la procedurile de testare psihologică se au în vedere câteva aspecte pe care le putem


dihotomiza în: cerinţe vizavi de prezentarea testului şi cerinţe care au în vedere examenul propriu-
zis de testare.

Orice examen psihologic trebuie pregătit. Această pregătire începe cu verificarea testului care va fi
utilizat, nu sub aspectul datelor psihometrice, ci al felului în care acesta este prezentat subiecţilor
(este vorba mai mult de o extensie a validităţii de aspect). Un test redactat neîngrijit, cu greşeli de
ortografie, pătat, cu figuri desenate eronat etc. va face o impresie proastă subiecţilor care nu se vor
implica în sarcină aşa cum se cere. Fireşte, performanţele vor fi afectate, va creşte nivelul anxietăţii
vizavi de examenul psihologic.
Derularea şi organizarea examenului psihologic sunt variabile care pot afecta performanţele
subiecţilor. Examenele psihologice improvizate în săli lipsite de mese, cu o luminozitate improprie,
gălăgioase etc. vor conduce la distorsionarea rezultatelor. Uneori subiecţii sunt examinaţi la ieşirea
din schimb, atunci când sunt deci obosiţi sau după o altă activitate obositoare. Din acest motiv este
indicat ca examenul psihologic să fie anunţat din timp, cu specificarea unor condiţii minime de
confort pretinse subiectului (să nu se prezinte la examen obosit, să nu fi consumat alcool etc. Unele
instituţii pretind chiar semnarea unei declaraţii de către subiect în acest sens.).

În ultimul timp s-a sugerat posibilitatea efectuării examenului psihologic prin poştă. Aceasta este o
greşeală care contravine oricăror principii ale examinării psihologice. Testul psihologic este
administrat de psiholog care, pe parcursul testării, are obligaţia să urmărească reacţiile subiectului.
Da, există posibilitatea unei ,,testări oarbe”. Ea este posibilă în contextul în care se însuşesc unele
tehnici de evaluare psihologică, deci în scop didactic. Un examen psihologic pretinde prezenţa
psihologului.

Protecţia intimităţii subiectului


Cu ocazia unui examen psihologic se doreşte cunoaşterea personalităţii subiectului, se
,,investighează” viaţa sa privată. Testele de personalitate fac foarte bine acest lucru, acesta fiind şi
obiectivul utilizării lor. Utilizarea unor teste cum sunt cele de personalitate impun psihologului
asumarea unei mari responsabilităţi şi o mare discreţie.

Psihologul are obligaţia să explice subiectului motivul examenului psihologic şi să obţină acordul
acestuia de a se supune la test. Acelaşi lucru priveşte şi divulgarea rezultatelor testării psihologice.
Iată demersul secvenţial al unei examinări psihologice în scop de selecţie profesională:
Se explică subiecţilor obiectivul general al examenului psihologic.
Se procedează la examinarea psihologică propriu-zisă. (Psihologul trebuie să se asigure că toţi
candidaţii au înţeles instrucţiunile de lucru şi sştiu ce au de făcut.)
Se interpretează datele testării psihologice.
Se discută cu fiecare candidat rezultatul obţinut şi se cere acordul de a introduce sau nu rezultatul în
baza de date a companiei. Dacă răspunsul este ,,NU”, atunci protocoalele se distrug, iar dacă
răspunsul este ,,DA”, datele examinării se stochează şi acestea pot fi utilizate în scopuri
experimentale sau cu ocazia iniţierii altor decizii de personal.
În mod obişnuit, trebuie evitată afişarea rezultatelor examenului psihologic. Formula recomandată
este de a afişa numai numele persoanelor selectate, fără alte date care ar putea constitui o violare a
intimităţii. Cei nereuşiţi la un examen de selecţie nici nu trebuie amintiţi. Acest lucru se impune mai
ales când sunt utilizate teste de inteligenţă sau de personalitate, etichetele nefiind indicate în aceste
cazuri deoarece i-ar putea leza pe unii subiecţi.
Discreţia şi păstrarea anonimatului pacienţilor/ clienţilor sunt elemente care trebuie să caracterizeze
activitatea psihologului.

Confidenţialitatea rezultatelor
Confidenţialitatea este o problemă delicată. Întrebarea fundamentală care se pune în acest caz este
cine are acces la datele examenului psihologic şi ce date poate să ofere psihologul?

Am subliniat mai înainte că rezultatele examenului psihologic (ne referim la cele legate de
problematica organizaţională şi nu la aceea specifică diagnozei clinice sau educaţionale) se
comunică în primul rând subiectului. El are dreptul să-şi cunoască rezultatele performanţelor la
testele de aptitudini şi de cunoştinţe. Cu el se pot iniţia şi unele discuţii pe marginea concluziilor la
testele de personalitate. Tot el decide dacă rezultatele testării se vor comunica mai departe sau nu.

De fapt, rezultatele examenului psihologic sunt sintetizate într-un raport. Acesta este întocmit în
conformitate cu solicitarea beneficiarului. Raportul trebuie redactat în termeni inteligibili, clar, fără
ambiguităţi sau într-un jargon tehnic mai dificil de înţeles de nespecialişti. Datele comunicate
trebuie să reflecte obiectiv situaţia, observaţiile subiective şi părerile personale fiind evitate.
Problema care se pune nu este atât de comunicare a rezultatelor examenului psihologic, ci a
manierei în care trebuie să se facă această comunicare.

Utilizarea băncilor de date computerizate facilitează păstrarea confidenţialităţii examinărilor


psihologice. Companiile apelează tot mai frecvent la astfel de soluţii, psihologul fiind unicul
răspunzător de păstrarea securităţii datelor. Băncile de date au multiple avantaje, în sensul că ele
permit stocarea unui volum mare de informaţii pe un spaţiu relativ restrâns, apoi permit regăsirea
uşoară a informaţiei căutate şi, de asemenea, derularea unor programe de cercetare utile.

Comunicarea rezultatelor testării psihologice


Niciodată rezultatele unui examen psihologic nu pot fi transmise sub forma lor brută, ci prelucrate şi
interpretate. Formula obişnuită de prezentare a acestora este sub formă de raport, aşa cum a fost
menţionat anterior. Datele conţinute în raport trebuie înţelese de către cel căruia îi este acesta
adresat. Psihologul trebuie să fie foarte prevăzător şi atent la ceea ce comunică deoarece modul său
de exprimare poate da naştere la confuzii. Astfel, mulţi consideră că valoarea unui IQ indică o
caracteristică fixă a individului care poate predetermina nivelul realizării sale intelectuale. Să nu
uităm că performanţele la un test pot influenţa viaţa unui individ. Cunoaşterea rezultatelor la un test
de cunoştinţe poate descuraja un student sau îl poate mobiliza; totul depinde de cum îi este pusă
problema.

Respectarea drepturilor minorităţilor


Chiar dacă această problemă nu se pune cu deosebită acuitate la contextul nostru socio-cultural,
problema discriminarii de sex, naţionalitate, vârstă etc. va deveni în curând un aspect cu care se vor
confrunta şi psihologii. În ceea ce ne priveşte, termenul de minoritate este luat într-un sens foarte
larg, el definind un anumit grup, nu exclusiv etnic.

Condiţiile culturale specifice unei ţări se extind şi la domeniul psihologiei. Ele au preocupat mult
psihologii. Problematica discriminării a fost una din punctele de atac vizavi de aplicaţiile
psihologilor americani în armată în timpul primului război mondial. Fiecare psiholog ştie că testele
măsoară diferite eşantioane comportamentale, ori aceste comportamente sunt determinate cultural.
Aceasta este explicaţia multor diferenţe în ceea ce priveşte performanţele la testele de atitudini,
valori, motivaţionale, de inteligenţă etc. O grijă deosebită a psihologilor se îndreaptă spre
transpunerea testelor dintr-o cultura în alta. Dacă unui european i se dau probleme legat de
măsurarea temperaturii în scala Fahrenheit şi nu în Celsius, el va întâmpina mari dificultăţi în
rezolvare. Procedurile de adaptare privesc utilizarea unor tehnici ca analiza de conţinut, utilizarea
grupurilor de experţi sau retroversiunea. Alături de aceste tehnici de lucru calitative au fost
dezvoltate şi o serie de proceduri statistice mai mult sau mai puţin sofisticate. Dar problema cea mai
acută se referă la interpretarea scorurilor de test. De pildă, dacă psihologul observă că la un test de
comprehensiune verbală un grup minoritar obţine un scor mai mic decât altul, este firesc să-şi pună
întrebarea de ce s-a produs această diferenţă de performanţă? Cauza ar putea fi o insuficientă
cunoaştere a limbii, carenţe educaţionale, o motivaţie scăzută sau alte cauze. În aceste cazuri,
psihologul trebuie să opereze cu norme diferenţiate pe grupuri minoritare.

Orice testare psihologică are şi o anumită doză de subiectivitate. Putem fi chiar aşa de siguri că
rezultatul unei selecţii profesionale confirmă reuşita profesională 100%? Răspunsul este categoric
,,NU”. Dar ceea ce se poate afirma este faptul că o selecţie profesională realizată cu ajutorul testelor
psihologice poate aduce un câştig unei companii mai mare decât dacă nu se apelează la acest mijloc.
Vom vedea în capitolul despre validitate care este contribuţia acesteia la predicţia succesului
profesional sau la sporirea obiectivităţii selecţiei profesionale.

Consecinţele sociale şi etice ale utilizării testelor şi testării psihologice în organizaţii, aşa cum s-a
putut vedea, sunt mari. Psihologul are responsabilităţi majore faţă de materialul uman cu care
lucrează. Acesta este motivul pentru care psihologia aplicată se impune să fie protejată de legi care
să nu permită impostorilor să se desfăşoare. Amatorismul, diletantismul şi impostura trebuie stopate
în psihologie de norme clare şi o legislaţie severă.

You might also like